2025-11-08 13:02:30
11月6日晚,月之暗面旗下Kimi大模型發(fā)布Kimi K2 Thinking,稱(chēng)其是“Kimi迄今能力最強(qiáng)的開(kāi)源思考模型”,在多項(xiàng)測(cè)試中達(dá)SOTA水平,且在通用基礎(chǔ)能力上同步升級(jí),目前其API已上架。但Kimi面臨市場(chǎng)競(jìng)爭(zhēng)壓力,大廠憑借生態(tài)優(yōu)勢(shì)擠壓獨(dú)立應(yīng)用空間,且AI交互成本下降。Kimi嘗試垂類(lèi)合作探索商業(yè)化,能否將模型能力轉(zhuǎn)化為用戶(hù)價(jià)值、構(gòu)建可持續(xù)商業(yè)模式是其破局關(guān)鍵。
每經(jīng)記者|李宇彤 每經(jīng)編輯|黃博文
月之暗面今年以來(lái)的技術(shù)迭代還在繼續(xù)。
11月6日晚間,月之暗面旗下Kimi大模型發(fā)布了Kimi K2 Thinking,并稱(chēng)其為“Kimi迄今能力最強(qiáng)的開(kāi)源思考模型”。
Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能體)”理念訓(xùn)練的新一代Thinking Agent,它原生掌握“邊思考,邊使用工具”的能力。
從實(shí)測(cè)成績(jī)來(lái)看,Kimi K2 Thinking在“人類(lèi)最后的考試”(Humanity's Last Exam)、自主網(wǎng)絡(luò)瀏覽能力(BrowseComp)、復(fù)雜信息收集推理(SEAL-0)等多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)達(dá)到SOTA(當(dāng)前技術(shù)水平的最前沿)水平。
自7月進(jìn)入“K2”版本之后,Kimi的升級(jí)正在提速。9月5日,Kimi發(fā)布Kimi K2模型的最新版本“0905”,進(jìn)一步提升其在真實(shí)編程任務(wù)中的表現(xiàn)。9月25日,月之暗面Kimi發(fā)布全新Agent模式“OK Computer”并開(kāi)啟灰度測(cè)試。
這也是整個(gè)AI市場(chǎng)的一個(gè)縮影。事實(shí)上,AI市場(chǎng)正進(jìn)入快速迭代階段。據(jù)QuestMobile發(fā)布的2025年三季度AI應(yīng)用行業(yè)報(bào)告,以頭部互聯(lián)網(wǎng)集團(tuán)為例,今年1月—9月共完成182次模型發(fā)布/更新/迭代,平均每5.7天就迎來(lái)一次模型升級(jí)。
模型迭代節(jié)奏持續(xù)加快,技術(shù)競(jìng)爭(zhēng)正轉(zhuǎn)向應(yīng)用能力與推理深度的實(shí)戰(zhàn)較量。
據(jù)Kimi官方,Kimi K2 Thinking是“Kimi迄今能力最強(qiáng)的開(kāi)源思考模型”,這一定位源于其在技術(shù)架構(gòu)、任務(wù)執(zhí)行與評(píng)測(cè)表現(xiàn)上的系統(tǒng)性突破。
作為基于“模型即Agent”理念訓(xùn)練的新一代Thinking Agent,Kimi K2 Thinking實(shí)現(xiàn)了“邊思考,邊使用工具”的原生能力融合。該模型可在無(wú)人干預(yù)的情況下,自主完成多達(dá)300輪的工具調(diào)用與多輪思考,可提升處理復(fù)雜問(wèn)題的連續(xù)性與穩(wěn)定性。
在多項(xiàng)關(guān)鍵能力維度上,Kimi K2 Thinking均有明顯進(jìn)步,其Agentic(智能代理)搜索、Agentic編程、寫(xiě)作與綜合推理性能得到進(jìn)一步強(qiáng)化。
在推理能力方面,該模型在涵蓋100多個(gè)專(zhuān)業(yè)領(lǐng)域的“人類(lèi)最后的考試”(Humanity's Last Exam)中取得了卓越成績(jī)。該測(cè)試允許使用搜索、Python及網(wǎng)絡(luò)瀏覽等工具,Kimi K2 Thinking以44.9%的得分達(dá)到SOTA水平。作為對(duì)比,Kimi公布的同場(chǎng)測(cè)試中GPT-5(High)的成績(jī)?yōu)?1.7%。
面對(duì)信息過(guò)載的復(fù)雜搜索場(chǎng)景,Kimi K2 Thinking同樣表現(xiàn)出色。BrowseComp測(cè)試旨在評(píng)估AI在信息密集環(huán)境中的堅(jiān)持性與創(chuàng)造力。在該項(xiàng)測(cè)試中,人類(lèi)平均得分僅為29.2%,而Kimi K2 Thinking以60.2%的成績(jī)刷新了SOTA紀(jì)錄。
此外,該模型在編程相關(guān)任務(wù)中亦有穩(wěn)步提升。在多語(yǔ)言軟件工程基準(zhǔn)SWE-Multilingual、SWE-bench驗(yàn)證集以及Terminal終端使用等測(cè)試中,其表現(xiàn)有了進(jìn)一步提升。
除了專(zhuān)項(xiàng)能力的突破,Kimi表示Kimi K2 Thinking模型在通用基礎(chǔ)能力上也實(shí)現(xiàn)同步升級(jí)。無(wú)論是在創(chuàng)意寫(xiě)作、學(xué)術(shù)研究,還是在回應(yīng)個(gè)人與情感類(lèi)問(wèn)題時(shí),模型都展現(xiàn)出更成熟的理解與表達(dá)能力。
為進(jìn)行對(duì)比驗(yàn)證,《每日經(jīng)濟(jì)新聞》記者使用與測(cè)試Kimi K2時(shí)相同的提示詞,要求Kimi K2 Thinking模型以2025年北京高考作文題“數(shù)字閃耀時(shí)”為例,模擬高中生身份完成一篇一類(lèi)記敘文。從結(jié)果看,文章結(jié)構(gòu)完整、扣題準(zhǔn)確,但在切題方式上,該模型與K2一樣,仍存在表達(dá)略顯生硬的情況。
試-1762574845054_transcode.jpg)
使用了長(zhǎng)思考模式的Kimi撰寫(xiě)的作文圖片來(lái)源:Kimi網(wǎng)頁(yè)版截圖
目前,Kimi K2 Thinking模型的API(應(yīng)用程序編程接口)已在Kimi開(kāi)放平臺(tái)正式上架,支持256K上下文長(zhǎng)度,定價(jià)與Kimi K2-0905相同:每百萬(wàn)Token(大模型處理文本時(shí)的最小單位)輸入收費(fèi)4元,輸出16元,若命中緩存,輸入費(fèi)用僅為1元。同時(shí),平臺(tái)也推出了生成速度高達(dá)100 Token/s的Turbo API,其每百萬(wàn)Token輸入為8元,輸出58元,命中緩存的輸入同樣為1元。
然而,技術(shù)優(yōu)勢(shì)能否成功轉(zhuǎn)化為市場(chǎng)認(rèn)可,是擺在Kimi K2面前的首要挑戰(zhàn)。
QuestMobile數(shù)據(jù)顯示,今年三季度,接近60%的原生App陷入負(fù)增長(zhǎng),對(duì)于新入局者或中小應(yīng)用而言,獨(dú)立打造一款成功的原生App的窗口正在收窄。2025年,國(guó)內(nèi)大模型競(jìng)爭(zhēng)已從初期的“百花齊放”步入“巨頭主導(dǎo)”的新階段。
Kimi自身的增長(zhǎng)也面臨壓力。
根據(jù)量子位智庫(kù)10月數(shù)據(jù),在AI助手APP新增下載榜上,Kimi與DeepSeek分別以超420萬(wàn)和360萬(wàn)的下載量位列第三、四位,但相較9月,兩者的下載量均下滑超過(guò)13%。與此同時(shí),字節(jié)跳動(dòng)的“豆包”以近2800萬(wàn)新增下載穩(wěn)居第一,騰訊“元寶”則以超1300萬(wàn)下載、環(huán)比14%的漲幅位列第二。大廠憑借其生態(tài)優(yōu)勢(shì),持續(xù)擠壓著獨(dú)立應(yīng)用的生存空間。
并且,更多跨界玩家正依托自身業(yè)務(wù)場(chǎng)景加速入局。11月3日,美團(tuán)LongCat(龍貓)團(tuán)隊(duì)宣布推出全新開(kāi)源大模型LongCat-Flash-Omni,這也是美團(tuán)在兩個(gè)月內(nèi)第四次發(fā)布新模型。
另一個(gè)行業(yè)信號(hào)是AI交互成本的下降。
QuestMobile在報(bào)告中表示,人均單次Token消耗的下降也標(biāo)志著AI行業(yè)進(jìn)入了一個(gè)以“效率提升、成本控制、價(jià)值驅(qū)動(dòng)”為特征的新階段。這是行業(yè)走向成熟和商業(yè)化的關(guān)鍵信號(hào)。
在此背景下,今年以來(lái)的Kimi正嘗試通過(guò)垂類(lèi)合作探索商業(yè)化路徑。今年“雙11”期間,《每日經(jīng)濟(jì)新聞》記者測(cè)試發(fā)現(xiàn)Kimi更新了“導(dǎo)購(gòu)”功能,可根據(jù)用戶(hù)需求推薦商品并附帶淘寶或京東鏈接,不過(guò)商品多來(lái)自代理店鋪,尚未與官方旗艦店打通。相較于字節(jié)“豆包+抖音”、阿里“通義+電商”的生態(tài)閉環(huán),Kimi暫未形成同等強(qiáng)度的業(yè)務(wù)綁定。
數(shù)據(jù)表明,具備清晰場(chǎng)景的垂直類(lèi)AI應(yīng)用仍具有增長(zhǎng)潛力。據(jù)QuestMobile,字節(jié)跳動(dòng)旗下即夢(mèng)AI、豆包愛(ài)學(xué)及螞蟻集團(tuán)旗下AQ健康管家等垂類(lèi)應(yīng)用三季度月活躍用戶(hù)規(guī)模復(fù)合增長(zhǎng)率分別達(dá)12.1%、15.7%和83.4%。
對(duì)Kimi而言,差異化的核心在于將模型能力轉(zhuǎn)化為用戶(hù)可感知的價(jià)值。其能否在Agent搜索、編程助手、深度研究等場(chǎng)景建立起不可替代性,將決定技術(shù)升級(jí)的市場(chǎng)成效。
Kimi K2 Thinking展現(xiàn)出的技術(shù)縱深,為月之暗面在“思考型Agent”這一差異化路徑上贏得了重要籌碼。然而,在白熱化的大模型競(jìng)爭(zhēng)中,技術(shù)領(lǐng)先性只是入場(chǎng)券,能否將“長(zhǎng)思考”“強(qiáng)推理”的模型能力,轉(zhuǎn)化為用戶(hù)高頻依賴(lài)的應(yīng)用場(chǎng)景,并構(gòu)建起可持續(xù)的商業(yè)模式,才是真正的破局關(guān)鍵。
封面圖片來(lái)源:圖片來(lái)源:視覺(jué)中國(guó)-VCG211478193393
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線(xiàn):4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
填補(bǔ)公共數(shù)據(jù)運(yùn)營(yíng)制度空白,四川為數(shù)據(jù)要素市場(chǎng)化“探路”
沖擊千億元營(yíng)收目標(biāo),成都集成電路產(chǎn)業(yè)如何乘勢(shì)而上?
文旅經(jīng)濟(jì)再創(chuàng)新高,四川文旅強(qiáng)縣如何讓產(chǎn)業(yè)“多點(diǎn)開(kāi)花”?
四川集中啟動(dòng)“人大與青春同行”系列活動(dòng),讓人大制度“可感、可觸、可參與”
“產(chǎn)投28計(jì)劃”今日啟航!成都千億基金集群首發(fā):5億投資鎖定15家未來(lái)企業(yè)
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP