智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 云鵬

美團龍貓大模型,現在會思考了!

智東西9月22日報道,最近,美團在AI開源賽道上在猛踩加速。今天,在開源其首款大語言模型僅僅24天后,美團又開源了其首款自研推理模型LongCat-Flash-Thinking。

與其基礎模型LongCat-Flash類似,效率也是LongCat-Flash-Thinking的最大特點。美團在技術報告中透露,LongCat-Flash-Thinking在自研的DORA強化學習基礎設施完成訓練,直接將訓練速度提升到原來的3倍還多,增幅超過200%。該模型重點優(yōu)化了形式推理和Agent推理任務,使用工具后推理效率很高,例如,可將AIME-25基準測試中的平均token消耗減少64.5%。

LongCat-Flash-Thinking在多領域基準測試中表現出不俗的實力:

通用問答、數學推理、通用推理的相關測試中,它和GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等基本打平;

LongCat-Flash-Thinking還在安全、形式化定理證明等領域的多項基準測試中,大幅度領先上述4款推理模型,并在權威Agent工具調用基準測試τ2-Bench中,超越除了GPT-5-Thinking外的所有參評模型。

美團王興,又開源一款大模型!

目前,LongCat-Flash-Thinking模型已經開源至GitHub、Hugging Face等平臺,相關技術報告也同期發(fā)布,用戶也可在體驗鏈接中直接使用。不過,在實際體驗中,模型推理和回答長度往往會超出體驗鏈接里的限制,導致答案不完整。

美團王興,又開源一款大模型!

開源地址:

https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

https://github.com/meituan-longcat/LongCat-Flash-Thinking

體驗鏈接:

https://longcat.chat/

一、靠課程學習逐步構建能力,Agent和形式化推理能力獲補強

在模型預訓練階段,LongCat團隊采用了課程學習的方式,讓模型先打基礎,再專項突破,最終構建出覆蓋廣度與深度的推理能力。

LongCat-Flash-Thinking是在LongCat-Flash的基礎上訓練而來的,經歷了推理增強的中期訓練(Mid-training)面向推理的有監(jiān)督微調(SFT)。

研究團隊特別構建了一個高難度的推理訓練集,涵蓋數學、物理、化學及編程問題,并通過數據比例控制,確保模型既能強化邏輯推理,又不丟失通用能力。

實驗表明,這一階段顯著拓寬了模型的“推理邊界”:在AIME、BeyondAIME和LiveCodeBench等基準上,單步準確率和高采樣準確率均有大幅提升。

美團王興,又開源一款大模型!

進入SFT微調階段,LongCat-Flash-Thinking的指令遵循和專業(yè)領域推理能力得到進一步提升。這一步驟特別強調三大方向:

1、一般推理:LongCat團隊整合跨學科高質量問題與答案,涵蓋STEM、編程、通用問答以及邏輯推理,利用拒絕采樣與模型評審保證訓練數據的準確性和挑戰(zhàn)性。

2、形式化推理:該團隊還設計了一套全新的基于專家迭代框架的數據合成方法,利用集成了Lean4服務器的專家迭代框架,生成經過嚴格驗證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。

3、Agentic推理:LongCat團隊提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠比較模型在“有工具”和“無工具”條件下的表現,篩選出僅依賴工具才能解決的高質量問題。

隨后,系統(tǒng)自動合成多樣化的解題軌跡,從簡單調用到復雜多步流程,并通過嚴格評審確保邏輯一致性和工具使用完整性。最終,軌跡被標準化并按復雜度分層,用于課程訓練,幫助模型在真實場景中更好地學習和發(fā)展穩(wěn)健的工具使用能力。

這種中期訓練、推理微調的兩段式體系,幫助LongCat-Flash-Thinking在推理任務中實現性能提升,也為后續(xù)的強化學習做好準備。

二、三管齊下優(yōu)化強化學習,自研DORA框架提效超200%

強化學習中,LongCat-Flash-Thinking采用了一套“三管齊下”的方案,從系統(tǒng)、算法和獎勵的角度,提升強化學習的效率和穩(wěn)定性。

在系統(tǒng)設計中,LongCat團隊構建了名為DORA的分布式RL框架,這是RL訓練的基石。DORA支持異步訓練與靈活的加速器調度,既保證穩(wěn)定性,又提升效率。

DORA通過流式架構讓已完成的響應立即進入訓練,而不會被最長輸出拖慢;通過多版本策略保證同一響應由同一模型版本完成,避免推理片段間的不一致;再結合彈性角色調度,讓不同算力設備可靈活切換角色,實現近乎零閑置。

這一機制在大規(guī)模算力集群上展現了較高的效率:在數萬張加速卡上,LongCat-Flash的RL訓練速度達到傳統(tǒng)同步方式的3倍以上,FLOPs(Floating Point Operations,浮點運算數)的投入約為預訓練階段的20%。

算法層面,團隊則對經典的PPO方法進行改良。異步訓練常因推理引擎與訓練引擎的數值差異,或因舊版本策略生成的數據過多而導致模型收斂不穩(wěn)。

為此,研究人員引入了截斷重要性采樣來緩解引擎差異帶來的誤差,并設計了裁剪機制,對正負樣本分別設置不同閾值。這些細節(jié)調整,大大提高了推理任務下的穩(wěn)定性。

獎勵機制是RL的方向盤。對于寫作、問答等無法直接驗證的任務,團隊訓練了判別式獎勵模型,基于人機聯合標注數據,學會判斷優(yōu)劣偏好。

而在數學與編程等可驗證場景,則引入了生成式獎勵模型(GenRM),它不僅能判斷對錯,還能給出推理鏈路,做到有理有據。在編程任務中,團隊還搭建了分布式沙箱系統(tǒng),支持數百萬次并發(fā)代碼執(zhí)行,覆蓋20多種編程語言。

最后,LongCat團隊提出了一個三階段的訓練配方:領域平行訓練、模型融合、通用RL微調。LongCat團隊先分別訓練數學、編程、智能體等專家模型,再通過參數融合技術合并為統(tǒng)一大模型,最后用多樣化數據進行通用微調,避免融合后的性能退化,確保安全性、泛化性和實用性。

美團王興,又開源一款大模型!

▲融合后的模型性能優(yōu)于專家模型

三、MATH-500得分接近滿分,用上工具后性價比更高

LongCat-Flash-Thinking在多領域的基準測試中表現出色。

在通用能力上,LongCat-Flash-Thinking在MMLU-Redux上拿下89.3%的成績,與業(yè)內多款頂級開源模型處在同一水準,但與OpenAI-o3相比仍有差距。

數學推理是該模型的亮點之一。其在MATH-500中取得99.2%的高分,幾乎達到滿分水平。在更具挑戰(zhàn)性的AIME與HMMT等競賽級任務中,同樣展現出接近甚至超越GPT-5與Qwen3的表現,凸顯其復雜多步推理的強大能力。

美團王興,又開源一款大模型!

在邏輯與一般推理方面,該模型在ARC-AGI上達到50.3%,超過了OpenAI-o3與Gemini 2.5-Pro。同時,它在解謎任務ZebraLogic上得分高達95.5%,并在數獨測試Sudoku-Bench上遠超大部分模型,顯示出較強的結構化推理能力。

編程能力方面,LongCat-Flash-Thinking在動態(tài)編程測試LiveCodeBench中取得79.4%的分數,緊追GPT-5,遠超開源同類模型。

值得注意的是,LongCat-Flash-Thinking模型在工具增強推理能力上表現出色。例如,它在模擬預定飛機票的τ2-Bench-Airline中,實現67.5%的最佳成績,并在SWE-Bench、BFCL等任務上保持較強的競爭力。

美團王興,又開源一款大模型!

啟用外部工具后,其在AIME-25基準測試中的準確率保持不變,但平均token消耗減少近65%,驗證了智能體系統(tǒng)在效率與性能間實現平衡。

美團王興,又開源一款大模型!

在定理證明領域,LongCat-Flash-Thinking在MiniF2F測試中得分達67.6%,比次優(yōu)模型高出18%,奠定了其在形式化數學推理上的領先地位。

最后,在安全性上,LongCat-Flash-Thinking在有害內容、犯罪、虛假信息及隱私四類風險測試中均拿下安全性最高分。

結語:切入真實場景,美團探索推理大模型落地路徑

LongCat團隊稱,憑借LongCat-Flash-Thinking的開源,他們希望進一步推動高效RL訓練、原生Agent推理等方面的研究。

從論文的技術細節(jié)中,我們也能看到,LongCat有針對性地提升了模型在工具使用、指令遵循和安全性等方面的表現。

結合美團最近在面向消費者的Agent產品、AI搜索產品等領域的動態(tài),不難預見,這些新模型或將針對性地服務于美團自身業(yè)務,帶來更智能的用戶體驗。