智東西(公眾號:zhidxcom)
編譯 | ?王欣逸
編輯 | ?程茜

智東西12月2日消息,昨天,商湯科技正式發(fā)布并開源了全新多模態(tài)模型架構(gòu)NEO,該架構(gòu)由商湯科技和新加坡南洋理工大學(xué)AI技術(shù)實(shí)驗(yàn)室S-Lab合作研發(fā),是行業(yè)首個(gè)可用的、實(shí)現(xiàn)深層次融合的原生多模態(tài)架構(gòu),基于NEO架構(gòu)的NEO模型僅用3.9億訓(xùn)練數(shù)據(jù),就達(dá)到了模塊化架構(gòu)下頂級VLM(視覺-語言模型)模型的性能,數(shù)據(jù)量僅需其他同等性能模型的1/10。

行業(yè)首個(gè)!商湯正式開源原生多模態(tài)架構(gòu)NEO,訓(xùn)練僅需1/10數(shù)據(jù)量

從基準(zhǔn)測試來看,NEO模型在多模態(tài)能力綜合評估、跨學(xué)科和復(fù)雜推理等多項(xiàng)指標(biāo)中碾壓上海AI Lab推出的Mono-InternVL-1.5、清華大學(xué)、上海AI Lab聯(lián)合商湯推出的HoVLE等原生VLM模型,還在多項(xiàng)視覺理解任務(wù)中追平通義千問的視覺語言模型Qwen2-VL、上海AI Lab聯(lián)合商湯推出的InternVL3等基于模塊化架構(gòu)的頂級VLM模型。

當(dāng)前,業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式,本質(zhì)上仍以語言為中心,圖像與語言的融合僅停留在數(shù)據(jù)層面,視覺編碼和語言解碼分離,模型學(xué)習(xí)效率低下,在復(fù)雜多模態(tài)場景下處理任務(wù)受限。

行業(yè)首個(gè)!商湯正式開源原生多模態(tài)架構(gòu)NEO,訓(xùn)練僅需1/10數(shù)據(jù)量

為此,商湯科技拋棄了傳統(tǒng)的模塊化結(jié)構(gòu),推出從零設(shè)計(jì)的NEO原生架構(gòu)。NEO架構(gòu)在注意力機(jī)制、位置編碼和語義映射進(jìn)行了底層創(chuàng)新,構(gòu)建一個(gè)統(tǒng)一的原生基元,讓模型具備統(tǒng)一處理視覺與語言的能力。

NEO架構(gòu)相關(guān)論文已發(fā)布在arXiv上,題為《從像素到文字——邁向大規(guī)模的原生視覺語言原始基元(From Pixels to Words — Towards Native Vision-Language Primitives at Scale)》,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及AI基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華博士,南洋理工大學(xué)S-Lab負(fù)責(zé)人、副教授劉子緯等均在該論文的作者行列。

行業(yè)首個(gè)!商湯正式開源原生多模態(tài)架構(gòu)NEO,訓(xùn)練僅需1/10數(shù)據(jù)量

開源地址:https://github.com/EvolvingLMMs-Lab/NEO

論文地址:https://arxiv.org/abs/2510.14979

一、同參數(shù)全面領(lǐng)先原生VLM,數(shù)據(jù)僅為同等性能模型的1/10,復(fù)雜文本理解存在局限

基于NEO架構(gòu),研究人員推出了兩個(gè)參數(shù)的VLM模型:NEO-2.2B和NEO-9B,這兩個(gè)模型利用Qwen3-1.7B和Qwen3-8B兩個(gè)基礎(chǔ)語言模型作為基礎(chǔ)語言模型,添加了原生視覺組件。

在基準(zhǔn)測試中,研究人員把NEO-2.2B、NEO-9B和同級別VLM模型進(jìn)行對比,包括模塊化架構(gòu)的VLM模型InternVL3、Qwen2.5-VL等,以及原生VLM模型Mono-InternVL-1.5、HoVLE等。為了進(jìn)行公平、可控的科學(xué)對比,研究人員專門構(gòu)建了一個(gè)模塊化VLM基線模型Encoder-Based作為對照。

從通用視覺語言的理解能力來看,與模塊化VLM相比,NEO在2B和8B參數(shù)規(guī)模下表現(xiàn)都不錯(cuò),NEO-2.2B和NEO-9B在多模態(tài)能力綜合評估、跨學(xué)科和復(fù)雜推理等多個(gè)關(guān)鍵指標(biāo)優(yōu)于模塊化VLM Encoder-Based;在同參數(shù)規(guī)模下,NEO幾乎全面領(lǐng)先其他原生VLM。

值得一提的是,NEO僅使用約3.9億訓(xùn)練數(shù)據(jù),而InternVL3等模塊化架構(gòu)的頂級VLM模型至少使用了60億訓(xùn)練數(shù)據(jù),是NEO所需數(shù)據(jù)的15倍。

行業(yè)首個(gè)!商湯正式開源原生多模態(tài)架構(gòu)NEO,訓(xùn)練僅需1/10數(shù)據(jù)量

視覺任務(wù)測試中,在圖表理解和文檔結(jié)構(gòu)理解任務(wù)上,NEO-2.2B和NEO-9B都表現(xiàn)出接近頂級模塊化模型水平。

不過,NEO的密集文本識別和理解能力仍存在不足,幾乎落后于所有模塊化模型,在原生模型的對比中也不占優(yōu)。NEO-9B在文檔問答和圖像中的文本問答能力的得分略低于NEO-2.2B。

研究人員指出,密集文本識別和理解能力不足是由于訓(xùn)練數(shù)據(jù)中此類高質(zhì)量、知識密集型樣本的不足,而NEO-9B的得分低于NEO-2.2B則是由于當(dāng)前訓(xùn)練數(shù)據(jù)集的覆蓋范圍和知識密度有限。

行業(yè)首個(gè)!商湯正式開源原生多模態(tài)架構(gòu)NEO,訓(xùn)練僅需1/10數(shù)據(jù)量

此外,NEO在邊緣部署方面具有優(yōu)勢,特別是在0.6B-8B的參數(shù)區(qū)間內(nèi),便于計(jì)算資源有限或?qū)崟r(shí)性要求嚴(yán)格的場景應(yīng)用。

二、原生圖塊嵌入,雙向注意力并存,具備復(fù)雜場景擴(kuò)展能力

行業(yè)首個(gè)!商湯正式開源原生多模態(tài)架構(gòu)NEO,訓(xùn)練僅需1/10數(shù)據(jù)量

NEO架構(gòu)通過在注意力機(jī)制、位置編碼和語義映射三個(gè)關(guān)鍵維度的底層創(chuàng)新,讓模型天生具備了統(tǒng)一處理視覺與語言的能力:

1、原生圖塊嵌入(Native Patch Embedding): 這一方法摒棄了離散的圖像tokenizer,通過獨(dú)創(chuàng)的圖塊嵌入層(Patch Embedding Layer ,PEL)自底向上構(gòu)建從像素到詞元的連續(xù)映射。

2、原生三維旋轉(zhuǎn)位置編碼(Native-RoPE):NEO架構(gòu)解耦了三維時(shí)空頻率分配,為三個(gè)維度設(shè)定了不同的旋轉(zhuǎn)基頻率。視覺維度采用高頻頻率,便于模型理解空間布局和細(xì)粒度對齊;文本維度采用低頻頻率,兼容了預(yù)訓(xùn)練語言模型的旋轉(zhuǎn)位置編碼(RoPE)設(shè)置。由此,訓(xùn)練后的模型具備向視頻處理、跨幀建模等復(fù)雜場景擴(kuò)展的潛力。

3、原生多頭注意力(Native Multi-Hea′d Attention):針對不同模態(tài)特點(diǎn),NEO在統(tǒng)一框架下實(shí)現(xiàn)了文本token的自回歸注意力和視覺token的雙向注意力并存。基于此,模型可以無視線性化順序,直接根據(jù)原生三維旋轉(zhuǎn)位置編碼(Native-RoPE)的二維坐標(biāo)來學(xué)習(xí)任意兩個(gè)空間區(qū)域的語義和幾何關(guān)系,以支撐復(fù)雜的圖文混合理解與推理。

三、三階段訓(xùn)練,平穩(wěn)過渡視覺能力與復(fù)雜文本指令

NEO模型的訓(xùn)練分為三個(gè)階段逐步推進(jìn):預(yù)訓(xùn)練、中期訓(xùn)練和監(jiān)督微調(diào)。

行業(yè)首個(gè)!商湯正式開源原生多模態(tài)架構(gòu)NEO,訓(xùn)練僅需1/10數(shù)據(jù)量

在預(yù)訓(xùn)練階段,訓(xùn)練的主要工作是學(xué)習(xí)基礎(chǔ)視覺概念和上下文關(guān)系,并在預(yù)訓(xùn)練語言模型的指導(dǎo)下,初步建立圖像與文本之間的對齊。NEO架構(gòu)采用了Pre-Buffer(NEO中新增的視覺層)和Post-LLM(NEO中的語言大腦)分離式預(yù)訓(xùn)練,這一階段Post-LLM被凍結(jié),Pre-Buffer需要從頭開始學(xué)習(xí)視覺感知能力,這保護(hù)了語言模型不被低質(zhì)量的圖像-文本對破壞,實(shí)現(xiàn)跨模態(tài)學(xué)習(xí)。這一階段使用了約3.45億的網(wǎng)絡(luò)和合成的圖像-文本對的數(shù)據(jù)。

中期訓(xùn)練階段的核心目標(biāo)是強(qiáng)化視覺與語言能力的對齊,提升模型對高分辨率圖像、復(fù)雜場景、小物體和OCR文本的感知能力。這一階段的訓(xùn)練數(shù)據(jù)來自InternVL-1.5的預(yù)訓(xùn)練語料庫,包含4000萬樣本數(shù)據(jù),整個(gè)架構(gòu)使用相同的損失函數(shù)進(jìn)行更新,以鞏固視覺-語言對齊。

在監(jiān)督微調(diào)階段,NEO能夠遵循復(fù)雜指令、進(jìn)行多輪對話和執(zhí)行多樣化任務(wù),更適用于實(shí)際應(yīng)用。研究人員使用約400萬高質(zhì)量、多來源的指令數(shù)據(jù),涵蓋視覺問答、多模態(tài)對話、數(shù)學(xué)推理、知識問答等多種任務(wù)。

階段式訓(xùn)練不僅防止了視覺訓(xùn)練破壞已有的語言能力,確保穩(wěn)定優(yōu)化,還能實(shí)現(xiàn)模型能力從基礎(chǔ)的視覺概念到復(fù)雜指令的平滑過渡。

結(jié)語:正探索NEO規(guī)模化和突破數(shù)據(jù)瓶頸,拓展多模態(tài)應(yīng)用邊界

NEO系列模型實(shí)現(xiàn)了模型數(shù)據(jù)訓(xùn)練的高效性,其性能在同等參數(shù)規(guī)模原生VLM模型中處于領(lǐng)先地位。在圖表和文檔結(jié)構(gòu)化理解上,NEO模型具有明顯優(yōu)勢和競爭力。受制于訓(xùn)練數(shù)據(jù)和計(jì)算資源,NEO模型仍表現(xiàn)出了媲美頂尖模塊化VLM的實(shí)力。

NEO模型還存在密集文本識別和理解能力的不足、依賴外部知識的短板。不過,研究人員指出這并非是架構(gòu)的缺陷,而是訓(xùn)練數(shù)據(jù)集的覆蓋范圍、知識密集型樣本、高質(zhì)量數(shù)據(jù)的不足。

研究人員稱,未來他們將會探索更大規(guī)模的NEO模型,解決知識和文本理解短板,開發(fā)稀疏架構(gòu),探索視頻、具身智能等新應(yīng)用場景。