智東西(公眾號:zhidxcom)
作者 |? 程茜
編輯 |? 李水青

智東西11月3日消息,今天,美團(tuán)正式開源全模態(tài)模型LongCat-Flash-Omni,模型總參數(shù)量5600億,激活參數(shù)量270億。美團(tuán)官方博客稱,LongCat-Flash-Omni是業(yè)界首個(gè)實(shí)現(xiàn)全模態(tài)覆蓋、端到端架構(gòu)、大參數(shù)量高效推理于一體的開源大語言模型。

LongCat-Flash-Omni中的“Omni”譯為“全能”,其在全模態(tài)基準(zhǔn)測試中達(dá)到開源SOTA,同時(shí)在文本、圖像、視頻理解及語音感知與生成等關(guān)鍵單模態(tài)任務(wù)中均有明顯優(yōu)勢,實(shí)現(xiàn)“全模態(tài)不降智”。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

LongCat-Flash-Omni基于LongCat-Flash構(gòu)建,后者采用了高性能的Shortcut連接的混合專家(MoE)架構(gòu),并實(shí)現(xiàn)了零計(jì)算專家,LongCat-Flash-Omni集成了高效的多模態(tài)感知和語音重建模塊,支持128K tokens上下文窗口及超8分鐘音視頻交互。

在預(yù)訓(xùn)練階段,研究人員收集了包含超過2.5萬億個(gè)詞元的大規(guī)模、多樣化的多模態(tài)語料庫用于預(yù)訓(xùn)練,同時(shí)采用漸進(jìn)式訓(xùn)練策略,逐步從簡單的序列建模任務(wù)過渡到更復(fù)雜的序列建模任務(wù)。

這是9月1日以來,美團(tuán)正式發(fā)布LongCat-Flash系列后的第三款模型,此前其已開源LongCat-Flash-Chat和LongCat-Flash-Thinking兩大版本。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

值得一提的是,今天美團(tuán)LongCat官方App開啟公測,目前支持聯(lián)網(wǎng)搜索,還可以發(fā)起語音通話,視頻通話功能后續(xù)上線。LongCat-Flash-Omni目前可以在網(wǎng)頁版和App端體驗(yàn)音頻交互功能。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

▲LongCat官方App首頁(左)、LongCat官方App音頻通話(右)

據(jù)LongCat官方交流群中的官方透露,目前LongCat的文本端模型是longcat-flash,當(dāng)有多模態(tài)輸入,比如圖片和PDF內(nèi)容時(shí),會自動(dòng)調(diào)用omni模型。不過智東西體驗(yàn)時(shí)發(fā)現(xiàn),在LongCat中上傳.jpg格式圖片時(shí)一直顯示上傳錯(cuò)誤。今天中午,官方還修復(fù)了一波安卓端聯(lián)網(wǎng)搜索相關(guān)問題,需要安卓用戶卸載重裝。

Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

GitHub:https://github.com/meituan-longcat/LongCat-Flash-Omni

體驗(yàn)地址:https://longcat.chat/

一、視覺、音頻、文本理解生成,拿下多項(xiàng)開源SOTA

研究人員將LongCat-Flash-Omni與各種閉源和開源的多模態(tài)模型進(jìn)行比較,包括視覺理解、音頻理解、文本理解和生成、跨模態(tài)理解以及視聽交互。其將LongCat-Flash-Omni與Gemini-2.5-Pro、GPT4o、Seed-1.6和Qwen3-Omni和視覺語言模型Qwen3-VL、Qwen2.5-VL-72B等進(jìn)行了比較。

圖像轉(zhuǎn)文本方面,總體而言,LongCat-Flash-Omni的性能與Gemini-2.5-Flash相當(dāng),并且優(yōu)于開源的Qwen3-Omni,其優(yōu)勢在多圖像任務(wù)上尤為顯著。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

視頻轉(zhuǎn)文本方面,LongCat-Flash-Omni在視頻轉(zhuǎn)文本任務(wù)上取得了最先進(jìn)的性能。具體而言,它在短視頻理解方面顯著優(yōu)于所有對比模型,在長視頻任務(wù)上,LongCat-Flash-Omni的性能與Gemini-2.5-Pro和Qwen3-VL等模型不相上下。在VideoMME基準(zhǔn)測試中,它在全模態(tài)模型中取得了最佳性能。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

音頻能力中,研究人員主要評估了自動(dòng)語音識別(ASR)、文本轉(zhuǎn)語音(TTS)和語音延續(xù)。

基礎(chǔ)模型在預(yù)訓(xùn)練階段的ASR和TTS性能結(jié)果顯示,不同階段的基礎(chǔ)模型在上下文語音延續(xù)評估中表現(xiàn)良好,文本輸出和語音輸出之間的性能差異可以忽略不計(jì)。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

在語音識別和翻譯、音頻理解、語音轉(zhuǎn)文本能力中,在所有模型中,LongCat-Flash-Omni的語音識別與翻譯測試集S2TT中表現(xiàn)最好最強(qiáng);LongCat-Flash-Omni在沒有視覺輸入的情況下,能夠有效地作為原生音頻理解模型運(yùn)行;在語音轉(zhuǎn)文本測試集中,LongCat-Flash-Omni在所有基準(zhǔn)測試子集中均表現(xiàn)出色,并在多個(gè)案例中達(dá)到了最先進(jìn)的水平。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

此外,LongCat-Flash-Omni還引入了高級跨模態(tài)理解和類人語音交互功能,能夠處理跨模態(tài)輸入。

評估結(jié)果顯示,LongCat-Flash-Omni的性能優(yōu)于Gemini-2.5-Flash-non-thinking,并達(dá)到了與 Gemini-2.5-Pro-ThinkingBudget128相當(dāng)?shù)乃?/span>

在強(qiáng)調(diào)真實(shí)世界音視頻理解的WorldSense和DailyOmni測試中,LongCat-Flash-Omni超越了其他開源全模態(tài)模型。在評估跨模態(tài)感知和推理能力的UNO-Bench測試中,LongCat-Flash-Omni在開源全模態(tài)模型中也表現(xiàn)出色。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

實(shí)時(shí)音視頻交互的評估結(jié)果顯示,LongCat-Flash-Omni在端到端交互的自然度和流暢度方面得分排名第三。與音視頻交互產(chǎn)品相比,LongCat-Flash-Omni的排名低于豆包和GPT-4o,但優(yōu)于科大訊飛星火和StepFun。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

值得注意的是,LongCat-Flash-Omni在開源替代方案中得分比目前最先進(jìn)的開源模型Qwen3-omni高出0.56分。

目前,LongCat支持音頻通話10分鐘,且響應(yīng)很快,智東西讓其“講一個(gè)睡前小故事”,LongCat就實(shí)時(shí)生成并進(jìn)行了講述。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

二、劍指全模態(tài)大模型訓(xùn)練四大挑戰(zhàn),美團(tuán)提出四大創(chuàng)新技術(shù)思路

訓(xùn)練既具備強(qiáng)大的離線多模態(tài)理解能力又具備實(shí)時(shí)音視頻交互能力的全模態(tài)模型的挑戰(zhàn)性在于:

跨模態(tài)異構(gòu)性指的是,不同模態(tài)之間存在顯著差異,因此需要探索有效的統(tǒng)一表征和融合策略,以實(shí)現(xiàn)跨模態(tài)的協(xié)同作用,確保任何單一模態(tài)的性能都不會低于同等規(guī)模的單模態(tài)對應(yīng)模態(tài)。

統(tǒng)一的離線和流媒體能力,將離線多模態(tài)理解與流媒體音視頻交互相結(jié)合是一項(xiàng)重大挑戰(zhàn),流媒體交互場景需要一些離線處理通常不具備的獨(dú)特能力,例如感知相對時(shí)間、精確同步音視頻信息以及高效管理多輪交互上下文。

實(shí)現(xiàn)實(shí)時(shí)音視頻交互本身就存在諸多難點(diǎn),包括需要同時(shí)支持流媒體音頻和視頻輸入以及流媒體語音輸出,嚴(yán)格的低延遲要求進(jìn)一步對計(jì)算效率提出了嚴(yán)格的限制,從而對模型架構(gòu)設(shè)計(jì)和部署基礎(chǔ)設(shè)施都提出了很高的要求。

訓(xùn)練效率挑戰(zhàn),模型和數(shù)據(jù)的異構(gòu)性給分布式策略的設(shè)計(jì)帶來巨大挑戰(zhàn)。

為克服第一個(gè)挑戰(zhàn),研究人員設(shè)計(jì)了一個(gè)多階段大規(guī)模預(yù)訓(xùn)練流程。基于早期文本預(yù)訓(xùn)練基礎(chǔ)模型,他們逐步將音頻和視頻數(shù)據(jù)融入大規(guī)模預(yù)訓(xùn)練過程,采用均衡的多模態(tài)數(shù)據(jù)混合和有效的早期融合策略,使得該模型在保持強(qiáng)大單模態(tài)性能的同時(shí),實(shí)現(xiàn)跨模態(tài)的深度融合理解。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

▲LongCat-Flash-Omni模型架構(gòu)概覽

為了應(yīng)對平衡離線多模態(tài)理解與實(shí)時(shí)音視頻交互的第二個(gè)挑戰(zhàn),研究人員引入一種人機(jī)協(xié)同策略來構(gòu)建高質(zhì)量的交互數(shù)據(jù),并考慮到長期記憶和多輪對話的處理。此外,其從現(xiàn)有的視覺文本語料庫中提取視覺語音問答數(shù)據(jù),從而實(shí)現(xiàn)自然語音輸出,有助于將強(qiáng)大的離線多模態(tài)理解能力遷移到交互場景中。

對于第三個(gè)挑戰(zhàn),研究人員采用ScMoE架構(gòu),并以LongCat-Flash的零計(jì)算專家作為大模型骨干。為了處理流式輸入,其采用高效的音頻和視頻編碼器進(jìn)行特征提取,并引入同步分塊交錯(cuò)策略以實(shí)現(xiàn)實(shí)時(shí)處理。

對于第四個(gè)挑戰(zhàn),研究人員進(jìn)行了大規(guī)模全模態(tài)分布式訓(xùn)練,其提出一種模態(tài)解耦并行(MDP)策略。該方法能夠獨(dú)立優(yōu)化大模型、視覺編碼器和音頻編碼器的性能和內(nèi)存使用情況。

實(shí)驗(yàn)結(jié)果表明了該策略的有效性,其系統(tǒng)能夠保持純文本訓(xùn)練吞吐量的90%以上

三、采用五階段漸進(jìn)式訓(xùn)練策略,借鑒LongCat-Flash訓(xùn)練基礎(chǔ)設(shè)施

LongCat-Flash-Omni是一個(gè)端到端全模態(tài)模型,可以接收多種模態(tài)的輸入,包括文本、音頻、圖像、視頻及其任意組合,并能夠直接從大模型主干網(wǎng)生成語音token。

該模型采用視覺編碼器和音頻編碼器作為多模態(tài)感知器,大模型處理多模態(tài)輸入并生成文本和音頻token,音頻解碼器從大模型生成的語音token中重構(gòu)波形,從而實(shí)現(xiàn)自然的語音交互。其中,音頻編碼器、視覺編碼器和音頻解碼器均為輕量級組件,每個(gè)組件的參數(shù)量約為6億個(gè)。

預(yù)訓(xùn)練階段,數(shù)據(jù)整理方面,研究人員收集了包含超過2.5萬億個(gè)詞元的大規(guī)模、多樣化的多模態(tài)語料庫用于預(yù)訓(xùn)練。該預(yù)訓(xùn)練語料庫由音頻數(shù)據(jù)、通用圖像-文本數(shù)據(jù)、視頻數(shù)據(jù)、OCR、長上下文多模態(tài)數(shù)據(jù)等部分組成。

訓(xùn)練全模態(tài)模型最根本的挑戰(zhàn)之一在于不同模態(tài)間數(shù)據(jù)分布的顯著異質(zhì)性,面對這一挑戰(zhàn),研究人員采用了一種漸進(jìn)式訓(xùn)練策略,該策略逐步從簡單的序列建模任務(wù)過渡到更復(fù)雜的序列建模任務(wù)。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

▲訓(xùn)練策略

研究人員首先進(jìn)行大規(guī)模文本預(yù)訓(xùn)練(階段0),在此基礎(chǔ)上引入結(jié)構(gòu)上更接近文本的語音數(shù)據(jù),以將聲學(xué)表征與語言模型的特征空間對齊,并有效地整合副語言信息(階段1),語音-文本對齊完成后,其引入大規(guī)模圖像-描述對和視覺-語言交錯(cuò)語料庫(階段2),以實(shí)現(xiàn)視覺-語言對齊,從而豐富模型的視覺知識。

美團(tuán)王興狂卷大模型!開源561B“全能”龍貓模型,上線首款A(yù)I通用助手App

▲預(yù)訓(xùn)練階段1示意圖

然后,研究人員會引入最復(fù)雜的視頻數(shù)據(jù)以實(shí)現(xiàn)時(shí)空推理(階段3),同時(shí)整合更高質(zhì)量、更多樣化的圖像數(shù)據(jù)集,以增強(qiáng)視覺理解能力。為了進(jìn)一步支持長上下文推理和多輪交互,其將模型的上下文窗口從8K個(gè)詞元擴(kuò)展到128K個(gè)詞元(階段4)。

最后,為了減少離散語音詞元表示的音頻輸入的信息損失,他們引入了一個(gè)音頻編碼器對齊階段(階段5),使模型能夠直接處理連續(xù)的音頻特征,從而提高下游語音任務(wù)的保真度。

在訓(xùn)練后階段包含兩個(gè)組成部分:監(jiān)督式微調(diào)、強(qiáng)化學(xué)習(xí)。

監(jiān)督微調(diào)通過高質(zhì)量且多樣化的指令數(shù)據(jù)賦予模型多模態(tài)指令遵循、推理和語音交互能力;強(qiáng)化學(xué)習(xí)通過直接偏好優(yōu)化(DPO)進(jìn)一步增強(qiáng)模型的行為一致性、連貫性和一致性。

在基礎(chǔ)設(shè)施方面,LongCat-Flash-Omni的核心設(shè)計(jì)原則借鑒了LongCat-Flash開發(fā)過程中使用的訓(xùn)練基礎(chǔ)設(shè)施,為了保證數(shù)值一致性,研究人員強(qiáng)制執(zhí)行確定性、最小化誤差并保持誤差的可解釋性,從而確保每次訓(xùn)練運(yùn)行都具有確定性和可復(fù)現(xiàn)性。為了提高效率,他們將大模型、視覺編碼器和音頻編碼器的各個(gè)組件解耦,從而可以獨(dú)立優(yōu)化它們的性能和內(nèi)存使用情況。

實(shí)驗(yàn)結(jié)果表明,在多模態(tài)環(huán)境下,他們的系統(tǒng)能夠保持純文本訓(xùn)練90%以上的吞吐量。

推理與部署時(shí),研究人員提出解耦的多模態(tài)推理框架,該框架將特定模態(tài)的編碼器/解碼器與層級模型分離,以實(shí)現(xiàn)優(yōu)化部署。每個(gè)模塊都部署在與其計(jì)算特性相匹配的專用硬件和加速器上,從而緩解跨模態(tài)資源爭用。

其還采用異步流式模型服務(wù)管道,每個(gè)模塊都支持流式輸入的增量推理和自適應(yīng)批處理策略,從而實(shí)現(xiàn)并發(fā)調(diào)度以降低延遲。

結(jié)語:未來要探索更豐富的具身智能交互形式

大量評估表明,LongCat-Flash-Omni不僅在Omni-Bench和WorldSense等全模態(tài)基準(zhǔn)測試中取得了最先進(jìn)的性能,而且在圖像和視頻理解以及音頻理解等關(guān)鍵單模態(tài)任務(wù)中,其性能也與閉源系統(tǒng)持平甚至更優(yōu)。此外,主觀評估證實(shí)了該模型能夠提供自然、低延遲、高質(zhì)量的交互體驗(yàn),凸顯了其作為下一代人機(jī)交互界面基礎(chǔ)的巨大潛力。

研究人員提到,基于LongCat-Flash-Omni,他們未來的工作將著重于擴(kuò)展訓(xùn)練數(shù)據(jù)的多樣性和規(guī)模、整合自適應(yīng)思維模式、完善流式傳輸和生成能力,并探索更豐富的具身智能和交互智能形式。他們相信,LongCat-Flash-Omni的發(fā)布不僅將加速多模態(tài)理解和生成的研究,還將啟發(fā)構(gòu)建以人為本、面向通用人工智能系統(tǒng)的新應(yīng)用和新范式。