頭條

首次評測出爐：AI改代碼，大多數可能“越改越糟”！程序員不用擔心自己飯碗了？

每日經濟新聞 2026-03-17 23:19:30

每經記者｜蘭素英每經編輯｜何小桃

近年來，AI大模型的編程能力突飛猛進，各大AI廠商在編程基準測試上你追我趕，不斷刷新紀錄。這讓不少程序員開始擔憂：AI是不是很快就要搶走我們的飯碗了？

然而，中山大學與阿里巴巴聯合發布的一項最新研究給程序員們吃下了一顆“定心丸”。

3月4日，兩家機構聯合發布了一項評測結果。這項測試名為“SWE-CI：通過持續集成評估智能體維護代碼庫的能力”（SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration），首次對包括Anthropic、OpenAI、Kimi和DeepSeek等8家主流廠商的18款AI大模型的長期代碼維護能力進行了嚴苛的系統性評估測試。

測試包含100項任務，總Token消耗超100億。結果顯示，Claude Opus系列綜合表現領跑。

在控制性能退化方面，千問、DeepSeek、MiniMax、Kimi和豆包等大多數AI大模型的表現明顯不佳。也就是說，AI在長期代碼維護過程中，可能將代碼“越改越糟”。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

中國團隊推出全球首個評估AI大模型

長期代碼維護能力的評測系統

長期以來，AI編程能力的主流評測基準的共同特點是快照式評測，以“單次接收需求、一次性輸出解決方案”為核心。

然而，這種評估方式僅檢驗大模型是否能寫出功能正確的代碼，無法反映真實軟件開發中持續迭代、長期維護的核心需求。

在現實中，成熟的軟件很少是一蹴而就的，而是長期維護的結果。雷曼定律表明，軟件質量會隨著維護的進行而自然下降。而維護工作占軟件生命周期總成本的60%到80%。

為評估AI在長期代碼維護中的表現，中山大學與阿里巴巴團隊聯合推出了SWE?CI評測基準。這是全球首個專門評估AI智能體在長期代碼維護表現的評測系統，它不再滿足于考察AI編程的“一次性正確”，而是評估AI是否像真正的軟件工程師一樣，在數月甚至數年的開發過程中持續保持代碼質量。

SWE?CI基準測試的構建經過四層嚴格篩選，最終形成高質量評測集。

研究團隊先從GitHub全網的Pytho代碼庫中篩選出維護三年以上、星標超500、包含依賴文件和完整單元測試套件，以及采用MIT/Apache?2.0等寬松協議的4923個代碼庫；再提取依賴穩定、代碼修改量超1000行的提交對，得到8311個候選樣本；通過自動構建Docker環境與自修復依賴機制，保留1458組可運行候選對；最后經測試啟動校驗、通過率差異篩選、時間跨度與提交量排序，確定100項最終任務。

研究團隊精心構建的100項任務中，每項任務都對應著真實世界中一個軟件項目的完整進化歷程。這些項目平均跨越233天的開發時間，包含71次連續的代碼提交記錄。團隊還設計了一個精巧的“架構師-程序員”雙智能體協作機制。設計的靈感來自真實軟件團隊中常見的分工模式：架構師負責分析需求和制定技術方案，程序員負責具體的代碼開發。

為適配長期迭代評測，SWE?CI提出了“歸一化變化”與“EvoScore（進化得分）”兩大核心指標。

“歸一化變化”以測試用例通過數為基礎，將代碼狀態映射到[-1，1]區間，正向表示功能提升，負向表示出現功能退化。

EvoScore更側重衡量AI大模型在未來修改任務中的表現。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

實測結果：Claude Opus斷層領跑

多數大模型在75%任務中會破壞原有代碼

研究團隊對8家公司——月之暗面、Anthropic、智譜、千問、MiniMax、DeepSeek、OpenAI和豆包——的18個主流AI大模型進行了系統性測試，累計消耗了超過100億Token的測試數據。這一實驗規模在AI編程評估領域堪稱史無前例。

研究結果顯示，從時間維度來看，AI大模型在代碼維護能力上的進化呈現出明顯的加速曲線。

從下圖可以發現，同一廠商的大模型新版本普遍穩定高于前一代，且2026年后的躍升幅度顯著擴大，EvoScore更高。這表明，當前大模型的代碼能力正從靜態缺陷修復，快速向持續、長期的代碼維護演進。

GXaOuDJovOroeuibQyV3m9GtiajgREexnScQjB9JJ9rLRebzLe32jichGUicD0NI1lvEo97vmhuS2taib5ibHMxiaesnlT3Un5KSh3Ps7fjCPLzB9E.png

8家廠商的主流大模型在SWE?CI測試中的EvoScore變化情況。圖片來源：論文截圖

在所有參評大模型中，Claude Opus系列表現最為突出，從Claude-opus-4.5到Claude-opus-4.6，其EvoScore躍升至約0.9的高位，明顯拉開了與所有競爭對手的差距。

中國的AI大模型中，智譜GLM系列進步顯著，成為第二梯隊中最具競爭力的選手。緊隨其后的是Qwen和MiniMax，整體趨勢向好。而Kimi和豆包雖有提升，但缺乏突破。

研究還發現，不同廠商在大模型訓練策略上偏好存在明顯分化。

具體而言，MiniMax、DeepSeek以及OpenAI的GPT系列大模型更偏好長期效益，顯示出其在長期代碼維護任務中的優勢。這意味著，這類大模型在生成代碼時，更傾向于采用有利于長期演進與穩定性的策略，而非追求短期修復的最優解。

相比之下，Kimi與智譜GLM系列更偏向于短期見效的優化路徑。

而千問、豆包以及Claude系列大模型則呈現出另一種特征：其訓練策略在短期效果與長期維護之間取得了一定平衡。

GXaOuDJovOovCfCjRDZh2Pwpe9JDib7ndMzI7sNkslMicshQxjXn7OTgDicmx8JWt6n038icqCqfVKn2Dnca5ON1QxgD4TzJL0xqnXHwia2zO97o.png

隨著權重參數γ的變化，各個大模型的排名也隨之發生顯著調整。當γ>1時，大模型排名越高，其代碼庫維護能力越強。圖片來源：論文截圖

另外，研究還有一項關鍵發現：在長期代碼維護中，所有大模型在有效控制性能退化（Regression）方面都表現不佳。

性能退化是衡量軟件質量穩定性的核心指標。如果某個單元測試在代碼更新前已經通過，而更新后失敗了，則判定該變更觸發了性能退化。一旦出現性能退化，不僅會直接影響用戶體驗，在長期維護過程中，隨著修改次數累積，還可能導致系統質量系統性退化。

研究團隊測量了“零退化率”——即在整個維護過程中完全沒有破壞原有功能的任務比例。零退化率越高，維護的系統越穩定。

研究結果表明，在所有參與測試的18個大模型中，只有Anthropic的Claude Opus大模型保持了50%以上的零退化率，大多數大模型的零退化率都低于25%。

GXaOuDJovOqvFTPnRhbhx0ue1vtw9Gfffyr5RZN9IkEtCARwaDutERCjiakBwibRk2lfpdldkGIxx5QqWRYOib2vnfsTYotUO5upXq2VthaoPE.png

18個大模型的零退化率（從低到高排序）。圖片來源：論文截圖

具體而言，Claude-opus-4.6以76%的零退化率遙遙領先。這意味著在絕大多數測試場景中，其性能能夠保持穩定。Claude-opus-4.5以51%位列第二。相比之下，Kimi-K2.5（37%）與GLM-5（36%）表現接近，構成第二梯隊，雖具備一定穩定性，但與頭部大模型仍存在顯著差距。

包括GPT-5.2、Qwen3.5-plus、MiniMax-M2.5和DeepSeek-V3.2在內的其余14個AI大模型的零退化率都在25%以下，這意味著在長期代碼維護過程中，大模型在超過75%的任務中會破壞原本正常的代碼功能，引發性能退化問題。

但從版本迭代的角度看，頭部廠商的AI大模型正快速進步。例如，Claude-opus系列的“零退化率”從4.5版本的51%提升至4.6版本的76%，智譜GLM系列從GLM-4.6和GLM-4.7的14%躍升至GLM-5的36%。

但即便如此，絕大多數大模型仍難以在長期代碼維護中杜絕性能退化問題，距離可靠的自動化長期開發仍有明顯差距。

SWECI基準測試結果的發布，讓行業意識到，“寫代碼”和“維護代碼”是兩種截然不同的能力。對于大模型廠商而言，持續優化可維護性、性能退化控制、架構設計能力，或許將是贏得下半場競爭的關鍵。

（免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前核實。據此操作，風險自擔。）

記者|蘭素英?常宋資燊（實習生）

編輯|何小桃?王嘉琦?杜恒峰

校對|段煉

｜每日經濟新聞 ?nbdnews? 原創文章｜

未經許可禁止轉載、摘編、復制及鏡像等使用

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

上一篇文章

胖東來賣的黃天鵝雞蛋檢出角黃素，檢測機構1月剛因“不實報告”被通報，“打假人”王海團隊回應

返回每經網首頁

下一篇文章

3月18日金融新版早參

熱文精選

點擊排行

歡迎關注每日經濟新聞APP

国产精品国产三级农村av,亚洲精品久久久久久久久久,久久精品欧美一区二区三区不卡,精品久久www,精品久久久久久一区二区,国产精品一区在线免费观看,超碰色偷偷

首次評測出爐：AI改代碼，大多數可能“越改越糟”！程序員不用擔心自己飯碗了？

中國團隊推出全球首個評估AI大模型

長期代碼維護能力的評測系統

實測結果：Claude Opus斷層領跑

多數大模型在75%任務中會破壞原有代碼

首次評測出爐：AI改代碼，大多數可能“越改越糟”！程序員不用擔心自己飯碗了？