智東西(公眾號(hào):zhidxcom)
作者 | 王涵
編輯 | 漠影

強(qiáng)化學(xué)習(xí)是大語言模型解鎖關(guān)鍵能力的核心技術(shù),隨著技術(shù)迭代,強(qiáng)化學(xué)習(xí)訓(xùn)練的算力需求呈爆炸式增長,然而,強(qiáng)化學(xué)習(xí)訓(xùn)練規(guī)模化方面長期缺乏科學(xué)方法論。

智東西10月24日消息,10月17日,Meta發(fā)布了一篇名為《The Art of Scaling Reinforcement Learning Compute for LLMs》的論文。

論文就聚焦大語言模型(LLMs)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的規(guī)?;瘑栴},通過消耗了超40萬GPU小時(shí)算力的實(shí)驗(yàn),提出了可預(yù)測的強(qiáng)化學(xué)習(xí)規(guī)?;蚣芘c實(shí)用方案“ScaleRL”。

煉模不再“燒錢”?消耗40萬GPU·小時(shí)后,Meta開源強(qiáng)化學(xué)習(xí)重磅研究成果

研究發(fā)現(xiàn),ScaleRL能夠系統(tǒng)性地利用小規(guī)模消融實(shí)驗(yàn)來預(yù)測更大規(guī)模下的性能表現(xiàn),具有明顯的可預(yù)測能力。

ScaleRL在數(shù)學(xué)與代碼的聯(lián)合訓(xùn)練為兩個(gè)領(lǐng)域分別構(gòu)建了清晰且平行的冪律趨勢,且在延長訓(xùn)練后,實(shí)際性能曲線仍與外推曲線保持一致,具有較強(qiáng)的多場景適配能力

目前,該研究的核心實(shí)驗(yàn)數(shù)據(jù)與S型曲線擬合的代碼庫已經(jīng)全部開源。

開源地址:

GitHub:https://github.com/devvrit/ScaleRL-Curve-Fitting

論文地址:

arxiv.org/abs/2510.13786

一、背景:強(qiáng)化學(xué)習(xí)訓(xùn)練算力需求爆炸式增長,但缺少方法論

強(qiáng)化學(xué)習(xí)是解鎖大語言模型關(guān)鍵能力的核心技術(shù),從測試時(shí)推理到智能體交互,其性能直接決定模型的核心競爭力。

然而,隨著技術(shù)迭代,強(qiáng)化學(xué)習(xí)訓(xùn)練的算力需求呈爆炸式增長——Deepseek-R1-Zero的強(qiáng)化學(xué)習(xí)訓(xùn)練消耗10萬H800 GPU小時(shí),OpenAI從o1到o3的強(qiáng)化學(xué)習(xí)算力投入更是增長超10倍。

與算力激增形成鮮明對(duì)比的是,行業(yè)在強(qiáng)化學(xué)習(xí)訓(xùn)練規(guī)?;矫?span style="color: #0f59a4">長期缺乏科學(xué)方法論。目前多數(shù)企業(yè)和機(jī)構(gòu)的強(qiáng)化學(xué)習(xí)訓(xùn)練還停留在“憑經(jīng)驗(yàn)調(diào)參、靠堆算力試錯(cuò)”的階段,既沒有成熟的算力-性能評(píng)估體系,也缺乏明確的設(shè)計(jì)選擇指導(dǎo),導(dǎo)致大量算力被浪費(fèi)。這種“粗放式投入”不僅推高研發(fā)成本,更嚴(yán)重制約了學(xué)術(shù)社區(qū)的參與度和行業(yè)整體進(jìn)展。

正是這一核心痛點(diǎn),促使Meta團(tuán)隊(duì)啟動(dòng)了這項(xiàng)大規(guī)模研究。研究借鑒預(yù)訓(xùn)練領(lǐng)域成熟的“縮放定律”,目標(biāo)為強(qiáng)化學(xué)習(xí)訓(xùn)練建立可預(yù)測的算力-性能關(guān)系框架。

整個(gè)研究累計(jì)投入超40萬GPU小時(shí)的算力,覆蓋數(shù)學(xué)推理等典型任務(wù),最終提出一套完整的解決方案。

二、核心突破:基于S型曲線提出RL算力-性能預(yù)測模型

這個(gè)研究最引人注目的突破,就是提出了基于S型(Sigmoidal)曲線的RL算力-性能預(yù)測模型。

區(qū)別于預(yù)訓(xùn)練常用的冪律模型,該曲線能精準(zhǔn)捕捉強(qiáng)化學(xué)習(xí)訓(xùn)練“低算力緩慢增長-中算力快速提升-高算力飽和”的客觀規(guī)律,通過三個(gè)關(guān)鍵參數(shù)構(gòu)建起量化評(píng)估體系。該模型的核心公式為:

煉模不再“燒錢”?消耗40萬GPU·小時(shí)后,Meta開源強(qiáng)化學(xué)習(xí)重磅研究成果

其中,A代表漸近性能上限,即高算力下模型能達(dá)到的性能天花板;B為縮放指數(shù),直接反映算力效率,數(shù)值越大效率越高;C則是性能達(dá)到總增益50%時(shí)所需的算力,體現(xiàn)中期性能達(dá)成速度。

煉模不再“燒錢”?消耗40萬GPU·小時(shí)后,Meta開源強(qiáng)化學(xué)習(xí)重磅研究成果

Meta研究團(tuán)隊(duì)通過超40萬GPU小時(shí)實(shí)驗(yàn),對(duì)RL訓(xùn)練的設(shè)計(jì)選擇進(jìn)行消融,提煉出3條核心原則:

1、性能天花板(A)受損失函數(shù)、模型精度等關(guān)鍵設(shè)計(jì)影響;

2、多數(shù)常見設(shè)計(jì)僅影響算力效率,不改變性能上限;

3、穩(wěn)定方案的縮放軌跡可通過小算力實(shí)驗(yàn)外推。

基于以上原則,Meta研究團(tuán)隊(duì)整合實(shí)驗(yàn)中最優(yōu)設(shè)計(jì)構(gòu)建了一套最優(yōu)配置體系ScaleRL。

ScaleRL采用PipelineRL異步框架提升效率,選用CISPO損失函數(shù)增強(qiáng)魯棒性,采用FP32精度消除數(shù)值偏差,再配合零方差過濾與自適應(yīng)prompt過濾優(yōu)化數(shù)據(jù)質(zhì)量,最后通過強(qiáng)制中斷實(shí)現(xiàn)穩(wěn)定的長度控制。

三、ScaleRL實(shí)測:具有可預(yù)測性和多場景適配能力

ScaleRL這一模型的最大價(jià)值在于“可預(yù)測性”。以往要知道高算力下的訓(xùn)練效果,必須投入完整訓(xùn)練,現(xiàn)在通過小規(guī)模低算力實(shí)驗(yàn)擬合曲線,就能精準(zhǔn)外推高算力表現(xiàn)。

以某8B模型訓(xùn)練為例,僅用前8000 GPU小時(shí)的數(shù)據(jù)擬合曲線,ScaleRL就可以外推16000 GPU小時(shí)的性能,且誤差極小,可大幅降低研發(fā)試錯(cuò)成本。

為驗(yàn)證模型可靠性,團(tuán)隊(duì)還進(jìn)行了大量消融實(shí)驗(yàn)。結(jié)果顯示,對(duì)于ScaleRL等穩(wěn)定方案,小算力實(shí)驗(yàn)外推結(jié)果與實(shí)際訓(xùn)練高度吻合。

煉模不再“燒錢”?消耗40萬GPU·小時(shí)后,Meta開源強(qiáng)化學(xué)習(xí)重磅研究成果

更值得關(guān)注的是ScaleRL的多場景適配能力。在更大批次(2048)、更長序列(32768 tokens)、多任務(wù)(數(shù)學(xué)+代碼)及更大模型(MoE)等場景下,該方案均能保持可預(yù)測的縮放軌跡。

煉模不再“燒錢”?消耗40萬GPU·小時(shí)后,Meta開源強(qiáng)化學(xué)習(xí)重磅研究成果

從研究數(shù)據(jù)上看,研究團(tuán)隊(duì)在獨(dú)立同分布驗(yàn)證數(shù)據(jù)集上對(duì)S型曲線進(jìn)行擬合,對(duì)比了DeepSeek(GRPO)、Qwen-2.5(DAPO)、Magistral和Minimax-M1等常用訓(xùn)練方案,并與ScaleRL進(jìn)行對(duì)比。ScaleRL以0.61的漸進(jìn)獎(jiǎng)勵(lì)值超越其他訓(xùn)練方法。

煉模不再“燒錢”?消耗40萬GPU·小時(shí)后,Meta開源強(qiáng)化學(xué)習(xí)重磅研究成果

此外,研究還提煉出關(guān)鍵的穩(wěn)定性預(yù)警指標(biāo)——生成截?cái)嗦?/strong>。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)訓(xùn)練中的生成截?cái)嗦?span style="color: #0f59a4">超過10%時(shí),模型極易出現(xiàn)性能崩潰。

而ScaleRL通過強(qiáng)制中斷等長度控制設(shè)計(jì),能將截?cái)嗦书L期穩(wěn)定在5%以下,為大規(guī)模訓(xùn)練的穩(wěn)定性提供了可靠保障。

結(jié)語:Meta的研究為強(qiáng)化學(xué)習(xí)訓(xùn)練規(guī)模化提供新突破

Meta團(tuán)隊(duì)超40萬GPU小時(shí)的實(shí)驗(yàn)投入,最終凝結(jié)為一套可預(yù)測、高適配的規(guī)模化解決方案,無疑為大語言模型強(qiáng)化學(xué)習(xí)訓(xùn)練規(guī)?;峁┝送黄埔罁?jù)。

為推動(dòng)技術(shù)落地,Meta團(tuán)隊(duì)不僅公開了研究的核心實(shí)驗(yàn)數(shù)據(jù),還開源了S型曲線擬合的極簡代碼庫,為全球AI研發(fā)者提供直接的技術(shù)工具。

這些成果連同開源的擬合代碼庫,為行業(yè)降本增效提供了支撐,也降低了學(xué)術(shù)社區(qū)參與大規(guī)模強(qiáng)化學(xué)習(xí)研究的門檻。