智東西(公眾號:zhidxcom)
編譯 |? 陳駿達
編輯 |? 云鵬

智東西1月29日報道,今天凌晨,月之暗面核心團隊在社交媒體平臺Reddit上舉行了一場有問必答(AMA)活動。三位聯(lián)合創(chuàng)始人楊植麟(CEO)、周昕宇(算法團隊負責人)和吳育昕與全球網(wǎng)友從0點聊到3點,把許多關鍵問題都給聊透了,比如Kimi K2.5是否蒸餾自Claude、Kimi K3將帶來的提升與改變,以及如何在快速迭代與長期基礎研究之間取得平衡。

月之暗面三位聯(lián)創(chuàng)深夜回應一切!3小時答全球網(wǎng)友23問,楊植麟劇透Kimi K3提升巨大

▲AMA欄目截圖(圖源:Reddit)

一開始,便有網(wǎng)友拋出尖銳問題:Kimi K2.5有時會自稱為Claude,有人懷疑這是對Claude進行蒸餾的證據(jù)。楊植麟回應道,這一現(xiàn)象主要是由在預訓練階段對最新編程數(shù)據(jù)進行了上采樣,而這些數(shù)據(jù)似乎與“Claude”這個token的關聯(lián)性較強,事實上,K2.5在許多基準測試中似乎都優(yōu)于Claude。

談及Kimi K3,楊植麟沒透露太多細節(jié),但提到了K3會在Kimi Linear上加入更多架構優(yōu)化,他相信,就算Kimi K3沒比K2.5強10倍,也肯定會強很多。

整場問答中,月之暗面的三位聯(lián)合創(chuàng)始人共回答了40多個問題。智東西也向他們提出了3個問題,并獲得了直接回應。

當智東西問及月之暗面的算力儲備時,楊植麟稱,GPU數(shù)量的差距并未縮小,但實現(xiàn)AGI究竟需要多少算力,仍需拭目以待,而周昕宇補充了一句頗具哲理的話:創(chuàng)新往往誕生于約束之中。

月之暗面三位聯(lián)創(chuàng)深夜回應一切!3小時答全球網(wǎng)友23問,楊植麟劇透Kimi K3提升巨大

▲楊植麟、周昕宇回應智東西關于算力儲備的問題(圖源:Reddit)

周昕宇還提到,月之暗面有“把事情真正做成并落地”的共同價值觀,而不僅僅是為了表面光鮮。

此次AMA正值Kimi K2.5的發(fā)布。這是月之暗面目前最強大的模型,在視覺、編程、Agent以及各種通用任務上都有不錯的表現(xiàn),還通過一項名為智能體蜂群的技術實現(xiàn)一個模型對多達100個“子智能體”的調(diào)度,任務執(zhí)行效率最高提升450%。

發(fā)布后2天左右,Kimi K2.5獲得權威AI評測榜單Artificial Analysis開源模型第一的成績,僅次于來自OpenAI、Anthropic和谷歌的4款模型。

月之暗面三位聯(lián)創(chuàng)深夜回應一切!3小時答全球網(wǎng)友23問,楊植麟劇透Kimi K3提升巨大

我們將AMA中的精華內(nèi)容梳理歸納為23個關鍵問題,分為三章呈現(xiàn),第一章聚焦月之暗面公司本身及AI行業(yè)相關話題,第二章介紹 Kimi K2.5的技術細節(jié),第三章展望月之暗面的未來規(guī)劃。

完整問答鏈接:

https://www.reddit.com/r/LocalLLaMA/comments/1qpewj7/comment/o28hvpt/

一、GPU數(shù)量差距并未縮小,但創(chuàng)新往往誕生于約束之中

(1)智東西提問:在上次的AMA中,您提到月之暗面的GPU數(shù)量(相較其他企業(yè))處于劣勢。在2026年,這種差距會縮小嗎?

楊植麟:我認為差距并沒有縮小。但是,要實現(xiàn)通用人工智能(AGI)究竟需要多少算力?我們拭目以待。

周昕宇:可用算力受到太多因素的影響。但無論如何,創(chuàng)新往往誕生于約束之中(innovation loves constraints)

(2)網(wǎng)友提問:您對DeepSeek的Engram架構有何期待?您是否正在考慮采用這種架構?

周昕宇:對嵌入進行Scaling是一個值得探索的有趣方向。但在我們通過Scaling階梯對其進行測試之前,我們還沒有太多可靠的數(shù)據(jù)。

(3)智東西提問:這是一個關于你們研究文化的問題。大規(guī)模模型訓練會消耗大量的GPU時間,如何界定沉沒成本?比如說,某個方向經(jīng)過三個月的實驗后沒有明顯的性能提升,你們的團隊會根據(jù)哪些指標來決定是繼續(xù)、調(diào)整方向還是徹底放棄?

鑒于行業(yè)內(nèi)快速迭代的步伐,你們是否擔心追求短期成功的壓力,會影響那些需要多年才能見效的基礎研究?您如何使您的團隊免受這種壓力的影響?

周昕宇:非常好的問題。針對第一個問題,我們會將所有相關實驗的結果分享給所有技術人員,并進行深入討論,直到最終決定是繼續(xù)、轉型還是徹底放棄。

討論每天都會進行,我們鼓勵每個人對所有事情提出質(zhì)疑,從目標設定到最細微的技術細節(jié)。

針對第二個問題,長期以來,我們在押注技術基本面的走勢上有著相當不錯的記錄。MoBA幾乎從公司成立之初就開始了;Kimi Linear也經(jīng)歷了將近一年的探索與掙扎。

關鍵在于團隊要有“把事情真正做成并落地”的共同價值觀,而不僅僅是為了表面光鮮。我們的組織、文化和管理都是為了支撐這一價值觀而建立的。

(4)網(wǎng)友提問:你們最喜歡工作中的哪一部分?

楊植麟:我們喜歡訓練模型,因為這讓人感覺在不斷接近真相:關于什么是有效的、什么是無效的真相,關于智能是如何被創(chuàng)造出來的真相。

(5)網(wǎng)友提問:請問訓練視覺語言模型(VLM)的主要挑戰(zhàn)是什么?為什么Kimi如此致力于訓練視覺模型?

楊植麟:主要挑戰(zhàn)在于如何同時提升文本和視覺性能。我們發(fā)現(xiàn),當方法得當時,文本和視覺可以相互促進。

例如,我們觀察到,在視覺任務上進行強化學習訓練可以提升文本知識基準測試的成績。另一方面,像K2這樣強大的文本庫對于提升視覺性能也至關重要。

(6)網(wǎng)友提問:Kimi Code和Claude Code有什么區(qū)別?為什么Kimi要開發(fā)自己的編程工具?

楊植麟:我們認為我們需要一個與模型最匹配的框架。但使用Claude Code時,框架會不斷變化,兼容性有時會成為問題。

此外,Kimi Code還擁有一些獨有的功能,例如視頻輸入。我們認為video2code(視頻生代碼)非常重要,代表著前端開發(fā)的未來。

(7)網(wǎng)友提問:強化學習基礎設施已成為關注的焦點??紤]到訓練像智能體蜂群這樣的系統(tǒng)的復雜性,在像verl這樣的開源框架上實現(xiàn)起來會相當具有挑戰(zhàn)性。你們在強化學習基礎設施方面所做的具體改進是什么?

吳育昕:強化學習基礎設施的確是一項巨大的挑戰(zhàn),我們力求在保持良好靈活性的同時實現(xiàn)高效率。在效率方面,我們嘗試在開發(fā)訓練和推理系統(tǒng)時充分考慮強化學習的實際應用場景,以便復用所有繁重的計算工作,從而實現(xiàn)規(guī)?;瘮U展。

智能體蜂群的部署邏輯尤其復雜,但我們的系統(tǒng)具有極高的靈活性,允許我們將不同的框架和子智能體設置集成到訓練過程中。

(8)網(wǎng)友提問:我想問一下與你們的Scaling階梯有關的問題。你們開始實驗的最小規(guī)模(主動/被動)是多少?通常步長是多少?另外,你們是否會根據(jù)所做的更改類型(數(shù)據(jù)、優(yōu)化器、線性注意力機制等)采用不同的Scaling階梯?

周昕宇:我們從非常小的規(guī)模開始。我個人有時會從小到可以在單個CPU上訓練的模型開始。

核心目標是預測系統(tǒng)的可擴展性。有些架構無法擴展,有些優(yōu)化器無法擴展,甚至有些數(shù)據(jù)也無法擴展。在低FLOPs下評估可擴展性是一個有趣的研究課題,它需要對訓練過程中的數(shù)學動態(tài)有深刻的理解,同時也需要兼顧嚴謹性和創(chuàng)造性。

舉個例子:我們曾經(jīng)急于將Kimi Linear移植到Kimi K2中,但它在達到一定規(guī)模后Scaling失敗了。我們不得不暫停開發(fā),經(jīng)過漫長的調(diào)試過程,最終歷經(jīng)數(shù)月才使其達到如今Kimi Linear的水平。

從統(tǒng)計學角度來看,大多數(shù)小規(guī)模行之有效的方案都無法突破規(guī)?;款i。而那些能夠成功推廣的方案通常都簡單有效,并且有數(shù)學依據(jù)。研究的重點在于如何應對失敗,而不是慶祝成功。

二、模型自稱Claude并非因為蒸餾,智能的上限取決于新學習算法

(9)智東西提問:Kimi K2.5使用了平行智能體強化學習技術。你們會不會將主要算力預算從預訓練轉向強化學習?在K3路線圖中,強化學習的算力規(guī)模是否會超越預訓練?

楊植麟:強化學習的計算量將持續(xù)增長。更重要的是,增加強化學習計算量的方法有很多,而且有些方法比其他方法更有效。未來可能會出現(xiàn)更多新的目標函數(shù)來對模型進行強化訓練,尤其是在智能體領域。

(10)網(wǎng)友提問:Kimi K2.5已經(jīng)證明,通過強化學習擴展思考token是實現(xiàn)前沿推理的可行途徑??紤]到訓練CoT(思維鏈)策略的巨大工程開銷和生成思考token的推理延遲,你們是否正在探索架構遞歸作為一種在不將計算外部化到KV緩存的情況下實現(xiàn)P/poly復雜度的方法?

楊植麟:在當前的架構下,我們所關心的許多問題在計算意義上其實都是可解的。在很多情況下,模型能力的瓶頸并不在于其路線復雜度(circuit complexity),而在于任務本身是否是可驗證的。這意味著兩點:

一方面,我們當然可以通過設計更高效的架構來降低特定任務所需的路線復雜度,從而提升token使用效率;

不過,智能的上限更多地取決于能否發(fā)明新的學習算法。這些算法應當能夠超越預先定義的、可驗證的任務,而不僅僅是依賴更高效的模型架構。

(11)網(wǎng)友提問:Kimi K2.5非常棒,但我看到有人說模型會自稱為Claude,并把這當作你們大量蒸餾(distill)自Claude模型的證據(jù)。這是怎么回事?

楊植麟:我們的觀察是,在正確的系統(tǒng)提示詞下,它有很高的概率回答“Kimi”,尤其是在思考模式下。

但當系統(tǒng)提示為空時,它就進入了一個未定義區(qū)域,這更多地反映了預訓練數(shù)據(jù)的分布情況。其中一項改進是,我們在預訓練階段對來自互聯(lián)網(wǎng)的最新編程數(shù)據(jù)進行了上采樣,而這些數(shù)據(jù)似乎與詞元“Claude”的關聯(lián)性更強。

事實上,K2.5在許多基準測試中似乎都優(yōu)于Claude,例如HLE、BrowseComp、MMMU Pro和MathVision等等。

(12)網(wǎng)友提問:我想知道你們是如何降低K2的幻覺問題的?幻覺問題似乎是K2模型的主要弱點,也是我之前沒有使用Kimi的原因。但目前來看,2.5版本更加可靠。

吳育昕:對于所有大模型來說,管理幻覺仍然是一個巨大的挑戰(zhàn)。我們已經(jīng)通過提高數(shù)據(jù)質(zhì)量(更多經(jīng)過驗證的知識,更少低質(zhì)量的說法)和獎勵機制(例如,當模型出現(xiàn)幻覺時進行懲罰)來改善這種情況,但我們認為仍然有很多方法可以進一步改進。

(13)網(wǎng)友提問:Kimi K2.5使用了較高的參數(shù)比例(約470:1)。您認為我們目前是否因為使用15萬億個token進行過度訓練而“浪費”了計算資源?

吳育昕:我不確定1:1最優(yōu)性是否仍然成立,但從這個意義上講,我們確實會“浪費”一些訓練計算資源。否則模型會更大,并且與我們現(xiàn)在的模型相比,會“浪費”大量的推理計算資源。

周昕宇:如果你追求計算最優(yōu)(compute-optimal)的訓練方式,那么大多數(shù)有用的模型實際上都是被過度訓練的;更大的模型只是“過度訓練得沒那么嚴重”。

而計算最優(yōu)訓練通常要求模型規(guī)模足夠大,這會對現(xiàn)有基礎設施帶來巨大的挑戰(zhàn),同時也會顯著提高推理成本。我并不認為過度訓練是一種“浪費”,而更像是我們?yōu)榱双@得更優(yōu)整體權衡而主動支付的一種“成本”。

(14)網(wǎng)友提問:Kimi K2.5的“智能體蜂群”功能最多可協(xié)調(diào)100個子智能體。在這種規(guī)模下,“協(xié)調(diào)器”模型往往會成為瓶頸。Kimi K2.5如何處理管理100個并行推理流所帶來的延遲和上下文信息丟失問題?

吳育昕:“智能體蜂群”的一個很酷的點在于,各個子智囊團可以在不“腐蝕”或污染主調(diào)度器上下文的情況下獨立執(zhí)行子任務。它們本質(zhì)上擁有各自的工作記憶,只在必要時將結果返回給調(diào)度器。這使我們能夠在一個全新的維度上擴展整體的上下文長度。

(15)網(wǎng)友提問:在Kimi K2.5中,你們?nèi)绾螜嗪鈴娀幊棠芰εc保持甚至提升非編程能力(如創(chuàng)意寫作和情緒理解)之間的關系?

在K2發(fā)布時你們在官方介紹中強調(diào)了創(chuàng)意寫作和情商。團隊是如何在訓練和優(yōu)化過程中,確保這些對用戶體驗至關重要但更“軟性”的能力不發(fā)生退化的?

楊植麟:在模型參數(shù)規(guī)模足夠的情況下,我認為編程能力和創(chuàng)意寫作之間不存在根本性的沖突。但確實,隨著我們不斷改進獎勵模型,要在不同模型版本之間保持一致的“寫作品味”本身就是一項挑戰(zhàn)。

我們的一項做法是依賴內(nèi)部基準評測(幾乎可以看作一種“元評測”)來反映模型在創(chuàng)意寫作方面的進展,并據(jù)此對獎勵模型進行相應調(diào)整。

(16)網(wǎng)友提問:K2.5的個性和寫作風格明顯變得更加通用,更像其他模型的“貼心助手”風格了。我們非常喜歡K2的個性!K2.5到底發(fā)生了什么?你們是否已經(jīng)注意到這個問題并正在調(diào)查?

吳育昕:遺憾的是,每次新版本發(fā)布后,我們都會看到模型“個性”發(fā)生一定程度的變化。這是一個相當棘手的問題,因為個性是模型主觀且難以評估的特征。我們正在努力解決這個問題,并且希望能夠讓產(chǎn)品更好地滿足每位用戶的個性化需求。

三、K3將在Kimi Linear基礎上優(yōu)化,即便沒比K2.5強10倍也會強得多

(17)網(wǎng)友提問:Kimi K3的重點會是什么?原始性能?長期目標?還是上下文長度?

楊植麟:我們正在嘗試新的架構和新功能。

(18)網(wǎng)友提問:Kimi K3是否一定會采用線性架構或其他新架構?如果真是如此,您將如何確保K2.5 Thinking的性能得以保留,甚至進一步提升?尤其是在多模態(tài)性能方面。我擔心架構改變后可能會出現(xiàn)不穩(wěn)定的情況。

楊植麟:線性架構是一個非常不錯的選擇。我們做了很多研究,包括Kimi Linear。希望我們能在此基礎上加入更多架構優(yōu)化。

我相信Kimi K3就算沒有比K2.5強10倍,也肯定會強得多(I’m sure it will be much, if not 10x, better than K2.5.)。

(19)網(wǎng)友提問:你們未來對在線/持續(xù)學習方面有什么計劃,特別是針對Agentic模型?Kimi Linear與K2.5有什么關系?線性注意力仍然是主要研究方向之一,還是會發(fā)展成為一個獨立的研究分支?

周昕宇:我們相信,持續(xù)學習能夠提升模型的自主性,并使它們能夠更長時間地高效工作。我們正在積極探索這一方向。Kimi Linear是與K2.5并行開展的一項專門研究項目。我們正大力投資于線性注意力機制,將其作為未來模型的一個關鍵方向。

(20)網(wǎng)友提問:你們是如何考慮模型的角色塑造的?如果有的話,你們對“Kimi”這個角色有什么目標?

楊植麟:我認為模型的核心在于“品味”,因為智能本身是非同質(zhì)化的(non-fungible)。我個人很喜歡K2.5打造的前端設計,它有著獨特的審美取向。

模型的性格也是“品味”的一種體現(xiàn)。有報道稱,K2.5相比其他模型更少迎合用戶。這或許是一種好的性格特征,因為持續(xù)不斷地強化用戶原有的觀點,在某些情況下可能是危險的。

(21)網(wǎng)友提問:請問你們有計劃開源“智能體蜂群”或者將其作為一項功能添加到Kimi-cli中嗎?

楊植麟:目前它還處于測試階段。待其更加穩(wěn)定后,我們將向開發(fā)者提供框架。希望很快就能實現(xiàn)。

(22)網(wǎng)友提問:為什么不把視覺編碼器做得大于400M呢?

吳育昕:小型編碼器在很多方面都有利于Scaling,所以我們甚至會問自己:為什么不把它設為0呢?

(23)網(wǎng)友提問:你們有計劃推出帶有原生音頻輸入功能的模型嗎?

楊植麟:目前我們沒有足夠的資源來處理音頻輸入,所以可能會把重點放在訓練更好的智能體上。