智東西(公眾號(hào):zhidxcom)
作者?|? 陳駿達(dá)
編輯?|? 李水青

智東西11月5日?qǐng)?bào)道,近日,騰訊微信AI團(tuán)隊(duì)發(fā)布的一篇論文在海外AI圈引發(fā)廣泛關(guān)注。論文提出了一種名為“連續(xù)自回歸語(yǔ)言模型(CALM)”的新穎架構(gòu)。與傳統(tǒng)Transformer相比,CALM直接將訓(xùn)練大模型所用的計(jì)算量減少了44%,推理時(shí)的計(jì)算量也減少了34%。

CALM的核心邏輯是,將連續(xù)的K個(gè)token壓縮成一個(gè)語(yǔ)義向量,并在生成時(shí)直接預(yù)測(cè)“下一個(gè)向量”而非“下一個(gè)token”。假設(shè)K=4,那么原本需要逐步生成4次的內(nèi)容,現(xiàn)在只需1步即可完成,使其能在一次生成中輸出更多信息,大幅提升效率。

這項(xiàng)研究的相關(guān)討論在社交媒體平臺(tái)X的閱讀量累計(jì)已經(jīng)超過100萬(wàn)次,在評(píng)論區(qū)引起熱議。

提示詞分享網(wǎng)站godofprompt.ai的聯(lián)合創(chuàng)始人Robert Youssef認(rèn)為,CALM或許就是AI領(lǐng)域下一次大的范式轉(zhuǎn)變,徹底顛覆了所有大語(yǔ)言模型賴以構(gòu)建的“下一個(gè)token預(yù)測(cè)”范式,讓大模型不再逐字思考,而是以想法為單位進(jìn)行思考,簡(jiǎn)直不可思議。這一方法如果能成功擴(kuò)展,那么現(xiàn)有的LLM都將過時(shí)。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

還有多位網(wǎng)友認(rèn)為CALM提出的概念值得探討,但關(guān)鍵是需要在更大規(guī)模的Scaling過程中獲得驗(yàn)證。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

然而,也有人質(zhì)疑CALM的前景。這位網(wǎng)友稱,CALM只是楊立昆的一個(gè)老舊想法,訓(xùn)練不穩(wěn)定,基礎(chǔ)很薄弱,且無(wú)法擴(kuò)展,是一種“有缺陷的方案”。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

CALM論文的作者均在微信AI團(tuán)隊(duì)任職,第一作者邵晨澤曾在中科院計(jì)算所智能信息處理實(shí)驗(yàn)室完成博士學(xué)業(yè)。這篇論文的其他作者包括Darren Li、Fandong Meng和Jie Zhou,其中,Darren Li是清華大學(xué)求真學(xué)院的在讀學(xué)生。為方便后續(xù)研究,研究使用的預(yù)訓(xùn)練Autoencoder以及CALM的檢查點(diǎn)均可供下載。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

論文地址:

https://arxiv.org/abs/2510.27688

項(xiàng)目主頁(yè):

https://github.com/shaochenze/calm?tab=readme-ov-file

一、性能比肩同量級(jí)Transformer,訓(xùn)練計(jì)算量減少44%

那么,在與Transformer的對(duì)決中,CALM究竟表現(xiàn)出了何種優(yōu)勢(shì)?

在評(píng)估兩者的性能前,CALM團(tuán)隊(duì)首先需要打造適合的評(píng)估工具。過去業(yè)內(nèi)用來衡量語(yǔ)言模型預(yù)測(cè)質(zhì)量的一個(gè)指標(biāo)是困惑度(Perplexity),直觀地說,它表示模型在面對(duì)真實(shí)語(yǔ)言數(shù)據(jù)時(shí)“有多困惑”——困惑度越低,說明模型越自信、預(yù)測(cè)越準(zhǔn)確。

困惑度評(píng)估并不適用于CALM的架構(gòu)。作者因此提出新的評(píng)價(jià)體系——BrierLM指標(biāo)。這一指標(biāo)源于經(jīng)典的Brier Score,由氣象學(xué)家Glenn W. Brier在1950年提出,用來評(píng)估天氣預(yù)報(bào)的好壞。

BrierLM通過組合不同n-gram的Brier得分,提供了一個(gè)統(tǒng)一的、可比較的語(yǔ)言建模指標(biāo)。它利用模型采樣結(jié)果即可無(wú)偏估計(jì)預(yù)測(cè)質(zhì)量,既能衡量準(zhǔn)確性,又能懲罰過度確定性。

實(shí)驗(yàn)證明,BrierLM與交叉熵幾乎線性相關(guān),可作為困惑度的替代品,并適用于其他隱式生成模型。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

CALM團(tuán)隊(duì)使用The Pile語(yǔ)料訓(xùn)練了多款CALM架構(gòu)的模型,然后用WikiText-103數(shù)據(jù)集來測(cè)試模型的性能。

訓(xùn)練時(shí),CALM團(tuán)隊(duì)分別打造了不同參數(shù)量的模型,分別為0.371B參數(shù)量的CALM-M、0.735B參數(shù)量的CALM-L和1.82B參數(shù)量的CALM-XL。

當(dāng)K=4,也就是每個(gè)連續(xù)向量對(duì)應(yīng)4個(gè)原始token時(shí),CALM-M的性能略遜于0.281B參數(shù)量的Transformer-S模型,但CALM-M的訓(xùn)練計(jì)算量比Transformer-S少44%,推理計(jì)算量少34%,展現(xiàn)出更好的算力-性能平衡。隨著模型變大,性能也穩(wěn)定提升,就像普通Transformer一樣。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

CALM團(tuán)隊(duì)還研究了語(yǔ)義帶寬K的作用。隨著語(yǔ)義帶寬K增大,計(jì)算需求線性下降,而但性能下降并不明顯。

當(dāng)K從1變?yōu)?時(shí),模型所需的訓(xùn)練算力大幅減少50%左右;當(dāng)K=4時(shí),CALM實(shí)現(xiàn)了效率與性能的較好平衡;K=8時(shí),其性能出現(xiàn)一定下滑。

CALM團(tuán)隊(duì)認(rèn)為這是模型尺寸導(dǎo)致的。以后,隨著模型尺寸的提升,CALM架構(gòu)或許可以一次性預(yù)測(cè)更多token,從更大的語(yǔ)義帶寬中受益。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

CALM的作者們還比較了不同生成頭的性能。能量模型單步生成性能最高,而且不需要迭代采樣,一次就能生成結(jié)果。擴(kuò)散與流匹配模型雖可行,但要么性能不佳,要么代價(jià)高昂。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

二、從離散token到連續(xù)向量,語(yǔ)言模型如何駛?cè)胝Z(yǔ)義“高速公路”?

那么,CALM究竟為何要進(jìn)行從“預(yù)測(cè)token”到“預(yù)測(cè)向量”的巨大轉(zhuǎn)變呢?這一轉(zhuǎn)變,又是如何讓CALM以更低的算力需求,實(shí)現(xiàn)比肩Transformer的生成效果?

CALM的第一作者邵晨澤在其撰寫的博客中,解釋了打造CALM的原因?,F(xiàn)代大語(yǔ)言模型好比一個(gè)“法拉利級(jí)”的引擎——它擁有數(shù)千億參數(shù),能夠理解語(yǔ)義、執(zhí)行復(fù)雜推理、生成高質(zhì)量文本與代碼。

然而,這一引擎卻被限制在一條狹窄的鄉(xiāng)間小路上,永遠(yuǎn)只能卡在第一檔。這條小路就是自回歸生成機(jī)制:模型一次只能預(yù)測(cè)一個(gè)離散token,無(wú)論引擎多強(qiáng),吞吐量都會(huì)受到限制,這導(dǎo)致了模型推理速度慢、計(jì)算成本高等問題。

過去,人們?cè)噲D通過擴(kuò)大基本單位來“拓寬道路”。從字符級(jí)到子詞級(jí)(subword token)的變化,確實(shí)提升了效率。

但如今,這條路徑已觸及“離散token的物理極限”:在一個(gè)典型的32K詞表中,每個(gè)生成步驟的語(yǔ)義帶寬約為15位,要想將帶寬翻倍,詞表規(guī)模必須指數(shù)級(jí)增長(zhǎng)——這使得模型在計(jì)算上幾乎不可行。換句話說,離散token的Scaling已經(jīng)碰壁了。

如果離散token是瓶頸,那么我們就需要一種具有可擴(kuò)展語(yǔ)義帶寬的新型文本單元。CALM代表從離散到連續(xù)的變化,其核心思想就是讓模型不再預(yù)測(cè)下一個(gè)token,而是預(yù)測(cè)下一個(gè)向量——一個(gè)壓縮了連續(xù)K個(gè)token的語(yǔ)義信息。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

這一改變相當(dāng)于為大模型開辟了一條多車道的高速公路——每次生成能攜帶更多語(yǔ)義,顯著減少自回歸步數(shù),從而大幅提升效率。

CALM的第一步是建立一個(gè)高保真自編碼器(Autoencoder),在離散token與連續(xù)向量之間建立雙向映射。

編碼器的作用是將一段K個(gè)token壓縮為一個(gè)連續(xù)向量,而解碼器從該向量中重建出原始tokens。

通過交叉熵?fù)p失訓(xùn)練后,該模型能以99.9%的精度重構(gòu)文本片段。論文指出,這是可行的:一個(gè)浮點(diǎn)向量的比特容量遠(yuǎn)高于一個(gè)離散token,足以存儲(chǔ)多倍的信息。

然而,高精度重構(gòu)并不代表模型的穩(wěn)定性。若向量空間過于“脆弱”,輕微噪聲就可能使解碼器輸出完全不同的文本。為此,作者引入了三項(xiàng)關(guān)鍵改進(jìn):

變分正則化(VAE):令編碼器輸出高斯分布,使?jié)摽臻g更平滑;

KL裁剪(KL Clipping):防止?jié)撟兞克s到無(wú)效維度;

雙重Dropout:對(duì)輸入與潛向量加入噪聲,迫使模型學(xué)習(xí)冗余且穩(wěn)定的表征。

結(jié)果是一個(gè)既緊湊又穩(wěn)健的連續(xù)語(yǔ)義表示:當(dāng)K=4、潛向量維度為128時(shí),模型在加入約0.3方差高斯噪聲的情況下,仍能保持99.9%的重構(gòu)精度。

這一語(yǔ)義壓縮器為CALM奠定了堅(jiān)實(shí)基礎(chǔ)——讓語(yǔ)言可以在一個(gè)可連續(xù)建模、可容錯(cuò)的向量空間中流動(dòng)。

三、 怎么讓模型預(yù)測(cè)下一個(gè)向量?靠“無(wú)似然建?!?/strong>

有了向量化的語(yǔ)義序列,語(yǔ)言建模任務(wù)變成了預(yù)測(cè)下一個(gè)連續(xù)向量。然而,如何教會(huì)模型進(jìn)行下一個(gè)向量預(yù)測(cè),又成了新的挑戰(zhàn)。

如今,幾乎所有主流大模型都采用最大似然訓(xùn)練(Maximum Likelihood Estimation)——即通過softmax計(jì)算出“每個(gè)token出現(xiàn)的概率”,并最大化訓(xùn)練數(shù)據(jù)的似然值的做法。

這樣的訓(xùn)練方式要求模型能在一個(gè)離散的詞表中明確地為每個(gè)token給出概率分布,但在連續(xù)向量空間中,沒有有限詞表,softmax無(wú)法定義概率分布。

因此,CALM放棄了最大似然訓(xùn)練,轉(zhuǎn)而采用無(wú)似然建模(likelihood-free modeling)。這種方法不再要求模型顯式計(jì)算概率,改用間接目標(biāo)函數(shù),讓模型學(xué)會(huì)生成與數(shù)據(jù)分布相似的樣本。

簡(jiǎn)單來說,模型不再告訴你“這個(gè)詞的概率是多少”,而是直接生成一個(gè)向量,讓它盡可能接近真實(shí)的語(yǔ)義向量分布。

CALM的作者團(tuán)隊(duì)嘗試了多種無(wú)似然方法(如 Diffusion、Flow Matching),但最終提出并驗(yàn)證了最優(yōu)方案——基于能量評(píng)分(Energy Score)的生成頭(generative head)。

微信AI團(tuán)隊(duì),悄悄干了件大事,算力消耗暴降44%!

▲CALM的模型架構(gòu)

這一生成頭接收Transformer的隱藏狀態(tài)和一個(gè)隨機(jī)噪聲向量作為輸入,在連續(xù)空間中預(yù)測(cè)下一個(gè)語(yǔ)義向量。通過優(yōu)化能量得分,模型能夠在不計(jì)算顯式概率的情況下,學(xué)會(huì)生成既多樣又符合語(yǔ)義規(guī)律的向量序列。

能量得分是一種嚴(yán)格正確的評(píng)分規(guī)則,不依賴概率密度,而以樣本間距離衡量預(yù)測(cè)分布的好壞。它同時(shí)平衡兩種目標(biāo):

(1)多樣性項(xiàng)懲罰過度自信、鼓勵(lì)多樣化生成;

(2)保真項(xiàng)獎(jiǎng)勵(lì)預(yù)測(cè)與真實(shí)向量接近。

模型通過最大化能量得分,使其隱式分布逼近真實(shí)數(shù)據(jù)分布。為了實(shí)現(xiàn)高效訓(xùn)練,作者采用蒙特卡洛估計(jì),僅需少量樣本即可獲得無(wú)偏梯度。

這種方法帶來了兩大優(yōu)勢(shì)。首先,不同于擴(kuò)散模型需上百次采樣,Energy Head一步即可生成下一個(gè)向量;其次,這一方法的通用性強(qiáng),只需能采樣即可訓(xùn)練,無(wú)需顯式概率公式。

在推理時(shí),CALM將預(yù)測(cè)向量傳入預(yù)訓(xùn)練的解碼器,還原出離散token,再經(jīng)輕量MLP壓縮輸入到Transformer,實(shí)現(xiàn)完整的自回歸循環(huán)。

在傳統(tǒng)的LLM中,調(diào)整溫度(temperature)是控制生成“創(chuàng)造力”的關(guān)鍵手段。模型在生成時(shí)會(huì)輸出一組logits——也就是每個(gè)候選token的未歸一化得分。通過將這些logits除以溫度參數(shù)T,再經(jīng)過softmax,就能得到新的概率分布。

然而,CALM沒有l(wèi)ogits。因此,其背后團(tuán)隊(duì)提出了基于拒絕采樣與Bernoulli Factory理論的全新算法:

(1)當(dāng)溫度T=1/n時(shí),只需抽取n個(gè)樣本,若全相同則接受;

(2)對(duì)任意T,可分解為整數(shù)與小數(shù)部分并通過二階段采樣實(shí)現(xiàn)。

CALM團(tuán)隊(duì)還設(shè)計(jì)了批量近似算法,可顯著提升效率且在理論上無(wú)偏差。這使得CALM及其他隱式模型能夠像普通大語(yǔ)言模型一樣實(shí)現(xiàn)可控生成。

結(jié)語(yǔ):大模型探索Scaling新路徑

未來,CALM的作者團(tuán)隊(duì)計(jì)劃繼續(xù)在架構(gòu)和算法方面進(jìn)行更多優(yōu)化,包括設(shè)計(jì)更優(yōu)的自編碼器、開發(fā)更強(qiáng)大的架構(gòu)以及提出更輕量級(jí)的采樣技術(shù)。

他們還希望探索CALM的Scaling特性,驗(yàn)證一大關(guān)鍵假設(shè):更大模型是否具備支撐更高語(yǔ)義帶寬的必需容量。CALM的作者們認(rèn)為,“語(yǔ)義帶寬K”已成為繼參數(shù)規(guī)模與數(shù)據(jù)量之后,大模型性能的第三個(gè)可擴(kuò)展維度。