智東西(公眾號(hào):zhidxcom)
作者 | 王涵
編輯 | 云鵬

智東西1月27日報(bào)道,今天,月之暗面Kimi開源了新模型——K2.5,楊植麟還特別發(fā)視頻親自介紹。

楊植麟分享稱,K2.5是Kimi迄今為止最強(qiáng)大的模型。面對復(fù)雜任務(wù)時(shí),Kimi K2.5可自主調(diào)度包含多達(dá)100個(gè)子智能體的集群,并行執(zhí)行最高1500次工具調(diào)用。

相較于單智能體模式,其任務(wù)執(zhí)行效率提升最高達(dá)4.5倍。整個(gè)Agent集群由K2.5模型全自動(dòng)創(chuàng)建與協(xié)調(diào),無需任何預(yù)定義子智能體或工作流。該模型以Kimi K2為基礎(chǔ)技術(shù)架構(gòu),在原有架構(gòu)之上進(jìn)行了持續(xù)的預(yù)訓(xùn)練優(yōu)化,且訓(xùn)練過程中學(xué)習(xí)、融合了約15萬億個(gè)“視覺+文本”混合形式的訓(xùn)練數(shù)據(jù)單元。剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲K2.5模型開源頁面(來源:Hugging Face)

基準(zhǔn)測試上,在Agents方面,HLE-Full(綜合推理)、BrowseComp(瀏覽交互)、DeepSearchQA(深度搜索問答)三個(gè)基準(zhǔn)測試中K2.5得分均位列第一;在編碼方面,K2.5在SWE-Bench Verified、SWE-Bench Multilingual兩項(xiàng)中均排名第一;在圖像多模態(tài)方面,K2.5在文檔理解測試mniDocBench 1.5中得分88.8,為第一名。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲K2.5模型基準(zhǔn)測試

在Agent基準(zhǔn)測試HLE、BrowseComp和SWE-Veried中,K2.5與GPT-5.2(xhigh)相比,在性能逼近的同時(shí)成本更低。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲K2.5模型性價(jià)比對比

外網(wǎng)網(wǎng)友對Kimi K2.5模型的評價(jià)可以說是好評如潮。FireworksAI聯(lián)合創(chuàng)始人兼首席技術(shù)官Dmytro Dzhulgakov評論稱“Kimi K2.5=開源SOTA推理+視覺+256K 上下文+智能體編碼”。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲外網(wǎng)網(wǎng)友評價(jià)(來源:X)

Thrive Protocol AI與數(shù)據(jù)工程師、Ethers Club播客主持人0xSero說(他用)Kimi創(chuàng)建了新的網(wǎng)站頁面。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲外網(wǎng)網(wǎng)友評價(jià)(來源:X)

KEA Research協(xié)作平臺(tái)創(chuàng)立者Stanislaw則評價(jià)Kimi看起來十分有潛力。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲外網(wǎng)網(wǎng)友評價(jià)(來源:X)

除了K2.5模型外,針對軟件工程場景,Kimi團(tuán)隊(duì)還推出了編程產(chǎn)品Kimi Code。Kimi Code可直接在終端運(yùn)行,并支持與VSCode、Cursor、Zed等主流IDE集成。該產(chǎn)品已開源,支持圖像與視頻輸入,還能自動(dòng)發(fā)現(xiàn)現(xiàn)有技能及MCP協(xié)議并遷移至Kimi Code工作環(huán)境。

價(jià)格上,K2.5模型API輸入(每百萬Token)4元,緩存輸入0.7元;輸出(每百萬Token)21元。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲K2.5模型API價(jià)格

K2.5模型提供了四種模式:

1、快速模式:提供最快的響應(yīng)體驗(yàn);

2、思考模式:可以用來解答復(fù)雜問題;

3、Agent模式:擅長深度研究、PPT、Excel、Word、PDF和網(wǎng)頁生成等任務(wù);

4、Agent集群模式:適合需要并行處理的復(fù)雜任務(wù)。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲K2.5模型主頁

開源地址:

Hugging Face:

https://huggingface.co/moonshotai/Kimi-K2.5

魔搭社區(qū):

https://modelscope.cn/models/moonshotai/Kimi-K2.5

一、幾句話生成能交互的動(dòng)態(tài)網(wǎng)頁界面,K2.5降低視覺表達(dá)門檻

在Kimi團(tuán)隊(duì)內(nèi)部編程基準(zhǔn)測試集Kimi Code Bench中,K2.5在多語言環(huán)境下從構(gòu)建、調(diào)試、重構(gòu)、測試到腳本編寫的端到端任務(wù)上均較K2有所增強(qiáng)。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲內(nèi)部編程基準(zhǔn)測試集Kimi Code Bench

楊植麟稱,Kimi團(tuán)隊(duì)不只是想讓K2.5學(xué)會(huì)寫代碼,更希望它具備設(shè)計(jì)審美。在前端開發(fā)領(lǐng)域,K2.5能將簡單對話轉(zhuǎn)化為完整的前端界面,可以做出像專業(yè)設(shè)計(jì)師出品一樣,有高級審美和動(dòng)效的網(wǎng)頁,就像這樣:

在視覺編程方面,通過對圖像與視頻的推理,K2.5的圖像/視頻轉(zhuǎn)代碼生成與視覺調(diào)試能力增強(qiáng),降低了用戶通過視覺表達(dá)創(chuàng)意的門檻,直接上傳一個(gè)錄屏,就可以重建網(wǎng)頁。

此能力源于K2.5的大規(guī)模視覺-文本聯(lián)合預(yù)訓(xùn)練。當(dāng)數(shù)據(jù)規(guī)模足夠龐大時(shí),視覺與文本能力實(shí)現(xiàn)同步提升。

K2.5還可以通過代碼推理謎題并標(biāo)記最短路徑:

二、自主調(diào)動(dòng)1500個(gè)協(xié)調(diào)步驟,K2.5端到端運(yùn)行時(shí)間縮短80%

半年前,Kimi發(fā)布了首個(gè)萬億參數(shù)開源Agent模型Kimi K2。隨后推出的Kimi K2 Thinking,通過增加思考時(shí)間,具備了獨(dú)立完成長達(dá)300步操作的長程任務(wù)能力,但這還不夠。

通過并行智能體強(qiáng)化學(xué)習(xí)(PARL)訓(xùn)練,K2.5模型學(xué)會(huì)了自主調(diào)度最多100個(gè)子智能體組成的集群,并行執(zhí)行最多1500個(gè)協(xié)調(diào)步驟的工作流,整個(gè)過程無需預(yù)定義角色或人工設(shè)計(jì)工作流。

可以說,K2.5是從“單個(gè)專家”升級為了一個(gè)“專業(yè)團(tuán)隊(duì)”。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲K2.5 Agent集群結(jié)構(gòu)

K2.5 Agent集群通過并行、專門化的執(zhí)行方式能夠提升復(fù)雜任務(wù)的性能。在Kimi團(tuán)隊(duì)內(nèi)部評估中,其能夠?qū)⒍说蕉诉\(yùn)行時(shí)間縮短80%,同時(shí)支持更復(fù)雜、更長期的工作負(fù)載。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲Kimi團(tuán)隊(duì)內(nèi)部評估

在廣泛搜索場景中,與單智能體執(zhí)行相比,Agent集群可以將達(dá)到目標(biāo)性能所需的最小關(guān)鍵步驟減少至原先的1/4到1/5.5。通過并行化,Agent集群實(shí)際運(yùn)行時(shí)間最多可減少至原先的1/5.5。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲運(yùn)行時(shí)間對比

在實(shí)際任務(wù)中,例如在大規(guī)模并行處理方面,面對在100個(gè)細(xì)分領(lǐng)域中找出排名前三的YouTube創(chuàng)作者的任務(wù),K2.5 Agent集群首先研究并定義每個(gè)領(lǐng)域,然后自主創(chuàng)建100個(gè)子智能體進(jìn)行并行搜索。

每個(gè)子智能體在其分配的細(xì)分領(lǐng)域內(nèi)識(shí)別出領(lǐng)先的創(chuàng)作者,并將結(jié)果匯總到一個(gè)結(jié)構(gòu)化的電子表格中。

在大規(guī)模使用工具方面,K2.5 Agent集群僅憑一張結(jié)婚照,就能啟動(dòng)20個(gè)并行子智能體,生成符合當(dāng)?shù)匚幕尘暗娜蚧槎Y旅行場景,并將它們整合到一個(gè)具有統(tǒng)一身份和服飾的互動(dòng)網(wǎng)頁中。

此外,在規(guī)?;a(chǎn)出方面,K2.5 Agent集群可以將一項(xiàng)涵蓋40篇社會(huì)心理學(xué)論文的文獻(xiàn)綜述任務(wù)分解為多個(gè)專注于寫作的子智能體。

每個(gè)子智能體負(fù)責(zé)綜述的特定部分,它們的輸出最終被綜合成一份100頁的雙欄學(xué)術(shù)文檔,其中包含格式完整的引文和參考文獻(xiàn)。

最后,在大規(guī)模下載方面,K2.5 Agent集群能夠調(diào)度多個(gè)具有專業(yè)分工的子智能體,共同協(xié)作處理保羅·格雷厄姆(Paul Graham)的文章。這些子智能體分別負(fù)責(zé)搜索、下載、分類、總結(jié)與匯編任務(wù)。

在協(xié)同工作下,系統(tǒng)將超過200篇原始文章按主題整理至6個(gè)分類文件夾,并生成了一份結(jié)構(gòu)清晰的綜合摘要報(bào)告。報(bào)告中所有引用均明確標(biāo)注了對應(yīng)的原始文章來源。

三、AI辦公質(zhì)量提升近60%,K2.5能處理大規(guī)模辦公任務(wù)

不僅如此,K2.5已經(jīng)開始熟練掌握Office套件的核心技能。

其能夠端到端處理高密度、大規(guī)模的辦公任務(wù),該模型能解析大規(guī)模高密度輸入,協(xié)調(diào)多步驟工具使用,并通過直接對話生成專業(yè)級輸出成果,包括Word、Excel、PPT和PDF。

KImi團(tuán)隊(duì)針對真實(shí)職場場景,設(shè)計(jì)了兩套內(nèi)部專家生產(chǎn)力基準(zhǔn)測試。AI辦公基準(zhǔn)測試評估端到端的辦公輸出質(zhì)量,而通用智能體基準(zhǔn)測試則以人類專家表現(xiàn)為標(biāo)準(zhǔn),衡量多步驟生產(chǎn)級工作流的表現(xiàn)。

在這兩項(xiàng)測試中,在兩項(xiàng)基準(zhǔn)測試中,K2.5的性能分別比K2 Thinking提升了59.3%24.3%。

剛剛,楊植麟親自發(fā)布Kimi K2.5開源新王:指揮“智能體大軍”,效率暴漲450%

▲kimi內(nèi)部專家生產(chǎn)力基準(zhǔn)測試

K2.5智能體支持高級辦公任務(wù),例如在Word中添加批注、使用數(shù)據(jù)透視表構(gòu)建財(cái)務(wù)模型、在PDF中編寫LaTeX公式,并能處理長達(dá)萬字的論文或百頁文檔等長篇輸出。

例如生成包含圖片的100個(gè)鏡頭的分鏡腳本表格:

給技術(shù)報(bào)告增添行內(nèi)注釋:

從數(shù)據(jù)中提取30個(gè)帶密碼的工資單PDF文件:

結(jié)語:月之暗面或?qū)⒅囟嗄B(tài)及智能體集群能力

一周前,市場還在為月之暗面在20天內(nèi)估值暴漲約34億人民幣的消息而驚嘆。一周后,這家北京AI獨(dú)角獸就開源了新模型。

此次開源的K2.5模型,最亮眼的就是其“智能體集群”能力,將AI從執(zhí)行單一指令的工具,升級為能自主調(diào)度、并行處理上千步驟的“團(tuán)隊(duì)”,而這正直指企業(yè)級應(yīng)用的核心痛點(diǎn):復(fù)雜、高成本、長周期的知識(shí)工作流程自動(dòng)化。

整體來看,這是一次聚焦于提升模型實(shí)際效能、擴(kuò)展多模態(tài)能力的技術(shù)迭代。此次發(fā)布展示了月之暗面近期的研發(fā)重心與成果,此前曝光的新融資或?yàn)檫@類深度研發(fā)提供更多支持。