首發快訊

MiniMax宣布開源面向Coding Agent的新評測集

每日經濟新聞 2026-01-14 12:10:55

每經AI快訊，1月14日，MiniMax官微宣布開源面向Coding Agent的新評測集OctoCodingBench。MiniMax表示，基于該評測集，其針對現有的開源閉源模型進行了廣泛的評估，并發現一些很有啟發性的實驗結果：所有模型的Check-level 準確率（CSR）可以達到80%+，但Instance-level成功率（ISR）只有10%-30%；絕大多數模型的指令遵循能力會隨著輪次的變多逐漸下降；現階段模型表現普遍未能達到生產級要求，過程合規仍是盲區；開源模型正在快速追趕閉源模型。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

上一篇文章

現貨白銀向上觸及91美元/盎司，日內上漲4.71%

返回每經網首頁

下一篇文章

金飾克價漲至1438元