輪播

原生掌握“邊思考，邊用工具” ，Kimi “史上最強(qiáng)”開(kāi)源思考模型能否破局AI紅海？

2025-11-08 13:02:30

11月6日晚，月之暗面旗下Kimi大模型發(fā)布Kimi K2 Thinking，稱(chēng)其是“Kimi迄今能力最強(qiáng)的開(kāi)源思考模型”，在多項(xiàng)測(cè)試中達(dá)SOTA水平，且在通用基礎(chǔ)能力上同步升級(jí)，目前其API已上架。但Kimi面臨市場(chǎng)競(jìng)爭(zhēng)壓力，大廠憑借生態(tài)優(yōu)勢(shì)擠壓獨(dú)立應(yīng)用空間，且AI交互成本下降。Kimi嘗試垂類(lèi)合作探索商業(yè)化，能否將模型能力轉(zhuǎn)化為用戶價(jià)值、構(gòu)建可持續(xù)商業(yè)模式是其破局關(guān)鍵。

每經(jīng)記者｜李宇彤每經(jīng)編輯｜黃博文

月之暗面今年以來(lái)的技術(shù)迭代還在繼續(xù)。

11月6日晚間，月之暗面旗下Kimi大模型發(fā)布了Kimi K2 Thinking，并稱(chēng)其為“Kimi迄今能力最強(qiáng)的開(kāi)源思考模型”。

Kimi官方表示，Kimi K2 Thinking是基于“模型即Agent（智能體）”理念訓(xùn)練的新一代Thinking Agent，它原生掌握“邊思考，邊使用工具”的能力。

從實(shí)測(cè)成績(jī)來(lái)看，Kimi K2 Thinking在“人類(lèi)最后的考試”（Humanity's Last Exam）、自主網(wǎng)絡(luò)瀏覽能力（BrowseComp）、復(fù)雜信息收集推理（SEAL-0）等多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)達(dá)到SOTA（當(dāng)前技術(shù)水平的最前沿）水平。

自7月進(jìn)入“K2”版本之后，Kimi的升級(jí)正在提速。9月5日，Kimi發(fā)布Kimi K2模型的最新版本“0905”，進(jìn)一步提升其在真實(shí)編程任務(wù)中的表現(xiàn)。9月25日，月之暗面Kimi發(fā)布全新Agent模式“OK Computer”并開(kāi)啟灰度測(cè)試。

這也是整個(gè)AI市場(chǎng)的一個(gè)縮影。事實(shí)上，AI市場(chǎng)正進(jìn)入快速迭代階段。據(jù)QuestMobile發(fā)布的2025年三季度AI應(yīng)用行業(yè)報(bào)告，以頭部互聯(lián)網(wǎng)集團(tuán)為例，今年1月—9月共完成182次模型發(fā)布/更新/迭代，平均每5.7天就迎來(lái)一次模型升級(jí)。

模型迭代節(jié)奏持續(xù)加快，技術(shù)競(jìng)爭(zhēng)正轉(zhuǎn)向應(yīng)用能力與推理深度的實(shí)戰(zhàn)較量。

在“人類(lèi)最后的考試”中超越GPT-5（High）

據(jù)Kimi官方，Kimi K2 Thinking是“Kimi迄今能力最強(qiáng)的開(kāi)源思考模型”，這一定位源于其在技術(shù)架構(gòu)、任務(wù)執(zhí)行與評(píng)測(cè)表現(xiàn)上的系統(tǒng)性突破。

作為基于“模型即Agent”理念訓(xùn)練的新一代Thinking Agent，Kimi K2 Thinking實(shí)現(xiàn)了“邊思考，邊使用工具”的原生能力融合。該模型可在無(wú)人干預(yù)的情況下，自主完成多達(dá)300輪的工具調(diào)用與多輪思考，可提升處理復(fù)雜問(wèn)題的連續(xù)性與穩(wěn)定性。

在多項(xiàng)關(guān)鍵能力維度上，Kimi K2 Thinking均有明顯進(jìn)步，其Agentic（智能代理）搜索、Agentic編程、寫(xiě)作與綜合推理性能得到進(jìn)一步強(qiáng)化。

在推理能力方面，該模型在涵蓋100多個(gè)專(zhuān)業(yè)領(lǐng)域的“人類(lèi)最后的考試”（Humanity's Last Exam）中取得了卓越成績(jī)。該測(cè)試允許使用搜索、Python及網(wǎng)絡(luò)瀏覽等工具，Kimi K2 Thinking以44.9%的得分達(dá)到SOTA水平。作為對(duì)比，Kimi公布的同場(chǎng)測(cè)試中GPT-5（High）的成績(jī)?yōu)?1.7%。

面對(duì)信息過(guò)載的復(fù)雜搜索場(chǎng)景，Kimi K2 Thinking同樣表現(xiàn)出色。BrowseComp測(cè)試旨在評(píng)估AI在信息密集環(huán)境中的堅(jiān)持性與創(chuàng)造力。在該項(xiàng)測(cè)試中，人類(lèi)平均得分僅為29.2%，而Kimi K2 Thinking以60.2%的成績(jī)刷新了SOTA紀(jì)錄。

此外，該模型在編程相關(guān)任務(wù)中亦有穩(wěn)步提升。在多語(yǔ)言軟件工程基準(zhǔn)SWE-Multilingual、SWE-bench驗(yàn)證集以及Terminal終端使用等測(cè)試中，其表現(xiàn)有了進(jìn)一步提升。

除了專(zhuān)項(xiàng)能力的突破，Kimi表示Kimi K2 Thinking模型在通用基礎(chǔ)能力上也實(shí)現(xiàn)同步升級(jí)。無(wú)論是在創(chuàng)意寫(xiě)作、學(xué)術(shù)研究，還是在回應(yīng)個(gè)人與情感類(lèi)問(wèn)題時(shí)，模型都展現(xiàn)出更成熟的理解與表達(dá)能力。

為進(jìn)行對(duì)比驗(yàn)證，《每日經(jīng)濟(jì)新聞》記者使用與測(cè)試Kimi K2時(shí)相同的提示詞，要求Kimi K2 Thinking模型以2025年北京高考作文題“數(shù)字閃耀時(shí)”為例，模擬高中生身份完成一篇一類(lèi)記敘文。從結(jié)果看，文章結(jié)構(gòu)完整、扣題準(zhǔn)確，但在切題方式上，該模型與K2一樣，仍存在表達(dá)略顯生硬的情況。

使用了長(zhǎng)思考模式的Kimi撰寫(xiě)的作文圖片來(lái)源：Kimi網(wǎng)頁(yè)版截圖

目前，Kimi K2 Thinking模型的API（應(yīng)用程序編程接口）已在Kimi開(kāi)放平臺(tái)正式上架，支持256K上下文長(zhǎng)度，定價(jià)與Kimi K2-0905相同：每百萬(wàn)Token（大模型處理文本時(shí)的最小單位）輸入收費(fèi)4元，輸出16元，若命中緩存，輸入費(fèi)用僅為1元。同時(shí)，平臺(tái)也推出了生成速度高達(dá)100 Token/s的Turbo API，其每百萬(wàn)Token輸入為8元，輸出58元，命中緩存的輸入同樣為1元。

Kimi能否破局“紅海”競(jìng)爭(zhēng)

然而，技術(shù)優(yōu)勢(shì)能否成功轉(zhuǎn)化為市場(chǎng)認(rèn)可，是擺在Kimi K2面前的首要挑戰(zhàn)。

QuestMobile數(shù)據(jù)顯示，今年三季度，接近60%的原生App陷入負(fù)增長(zhǎng)，對(duì)于新入局者或中小應(yīng)用而言，獨(dú)立打造一款成功的原生App的窗口正在收窄。2025年，國(guó)內(nèi)大模型競(jìng)爭(zhēng)已從初期的“百花齊放”步入“巨頭主導(dǎo)”的新階段。

Kimi自身的增長(zhǎng)也面臨壓力。

根據(jù)量子位智庫(kù)10月數(shù)據(jù)，在AI助手APP新增下載榜上，Kimi與DeepSeek分別以超420萬(wàn)和360萬(wàn)的下載量位列第三、四位，但相較9月，兩者的下載量均下滑超過(guò)13%。與此同時(shí)，字節(jié)跳動(dòng)的“豆包”以近2800萬(wàn)新增下載穩(wěn)居第一，騰訊“元寶”則以超1300萬(wàn)下載、環(huán)比14%的漲幅位列第二。大廠憑借其生態(tài)優(yōu)勢(shì)，持續(xù)擠壓著獨(dú)立應(yīng)用的生存空間。

并且，更多跨界玩家正依托自身業(yè)務(wù)場(chǎng)景加速入局。11月3日，美團(tuán)LongCat（龍貓）團(tuán)隊(duì)宣布推出全新開(kāi)源大模型LongCat-Flash-Omni，這也是美團(tuán)在兩個(gè)月內(nèi)第四次發(fā)布新模型。

另一個(gè)行業(yè)信號(hào)是AI交互成本的下降。

QuestMobile在報(bào)告中表示，人均單次Token消耗的下降也標(biāo)志著AI行業(yè)進(jìn)入了一個(gè)以“效率提升、成本控制、價(jià)值驅(qū)動(dòng)”為特征的新階段。這是行業(yè)走向成熟和商業(yè)化的關(guān)鍵信號(hào)。

在此背景下，今年以來(lái)的Kimi正嘗試通過(guò)垂類(lèi)合作探索商業(yè)化路徑。今年“雙11”期間，《每日經(jīng)濟(jì)新聞》記者測(cè)試發(fā)現(xiàn)Kimi更新了“導(dǎo)購(gòu)”功能，可根據(jù)用戶需求推薦商品并附帶淘寶或京東鏈接，不過(guò)商品多來(lái)自代理店鋪，尚未與官方旗艦店打通。相較于字節(jié)“豆包+抖音”、阿里“通義+電商”的生態(tài)閉環(huán)，Kimi暫未形成同等強(qiáng)度的業(yè)務(wù)綁定。

數(shù)據(jù)表明，具備清晰場(chǎng)景的垂直類(lèi)AI應(yīng)用仍具有增長(zhǎng)潛力。據(jù)QuestMobile，字節(jié)跳動(dòng)旗下即夢(mèng)AI、豆包愛(ài)學(xué)及螞蟻集團(tuán)旗下AQ健康管家等垂類(lèi)應(yīng)用三季度月活躍用戶規(guī)模復(fù)合增長(zhǎng)率分別達(dá)12.1%、15.7%和83.4%。

對(duì)Kimi而言，差異化的核心在于將模型能力轉(zhuǎn)化為用戶可感知的價(jià)值。其能否在Agent搜索、編程助手、深度研究等場(chǎng)景建立起不可替代性，將決定技術(shù)升級(jí)的市場(chǎng)成效。

Kimi K2 Thinking展現(xiàn)出的技術(shù)縱深，為月之暗面在“思考型Agent”這一差異化路徑上贏得了重要籌碼。然而，在白熱化的大模型競(jìng)爭(zhēng)中，技術(shù)領(lǐng)先性只是入場(chǎng)券，能否將“長(zhǎng)思考”“強(qiáng)推理”的模型能力，轉(zhuǎn)化為用戶高頻依賴的應(yīng)用場(chǎng)景，并構(gòu)建起可持續(xù)的商業(yè)模式，才是真正的破局關(guān)鍵。

封面圖片來(lái)源：圖片來(lái)源：視覺(jué)中國(guó)-VCG211478193393

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

揭秘本周大宗交易：815筆大宗交易成交115.74億元，機(jī)構(gòu)席位掃貨這8只個(gè)股（附名單）

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

暈了暈了！機(jī)構(gòu)大動(dòng)作調(diào)倉(cāng)，55只行業(yè)主題ETF被瘋狂掃貨，而熱門(mén)的半導(dǎo)體竟被悄然拋售

相關(guān)文章