智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西2月11日?qǐng)?bào)道,今日,螞蟻集團(tuán)開源全模態(tài)大模型Ming-flash-omni 2.0。在多項(xiàng)公開基準(zhǔn)測(cè)試中,該模型的視覺語(yǔ)言理解、語(yǔ)音可控生成、圖像生成與編輯等能力表現(xiàn)突出,趕超Qwen3-Omini-30B-A3B-Instruct等同類模型。

Ming-flash-omni 2.0是業(yè)界首個(gè)全場(chǎng)景音頻統(tǒng)一生成模型,可在同一條音軌中同時(shí)生成語(yǔ)音、環(huán)境音效與音樂。用戶只需用自然語(yǔ)言下指令,即可對(duì)音色、語(yǔ)速、語(yǔ)調(diào)、音量、情緒與方言等進(jìn)行精細(xì)控制。模型在推理階段實(shí)現(xiàn)了3.1Hz的極低推理幀率,實(shí)現(xiàn)了分鐘級(jí)長(zhǎng)音頻的實(shí)時(shí)高保真生成。

與螞蟻2025年5月推出的Ming-flash-omni Preview相比,Ming-flash-omni 2.0實(shí)現(xiàn)了跨代升級(jí),側(cè)重于優(yōu)化以下關(guān)鍵領(lǐng)域的功能:

1、專家級(jí)多模態(tài)認(rèn)知:它能精準(zhǔn)識(shí)別動(dòng)植物以及文化典故,并對(duì)文物進(jìn)行專家級(jí)分析。通過(guò)將高分辨率視覺捕捉與龐大的知識(shí)圖譜相結(jié)合,該模型實(shí)現(xiàn)了“視覺到知識(shí)”的合成,知識(shí)理解能力更強(qiáng)。

2、沉浸式可控統(tǒng)一聲學(xué)合成:它引入統(tǒng)一的端到端聲學(xué)生成流程,將語(yǔ)音、音頻和音樂集成于單一通道中。該模型利用連續(xù)自回歸算法結(jié)合擴(kuò)散變換器 (DiT) 頭部,實(shí)現(xiàn)了零樣本語(yǔ)音克隆和精細(xì)的屬性控制,例如情感、音色和環(huán)境氛圍,大幅提高聽覺體驗(yàn)。

3、高動(dòng)態(tài)可控圖像生成與處理:它采用原生多任務(wù)架構(gòu),整合了分割、生成和編輯功能,實(shí)現(xiàn)了精細(xì)的時(shí)空語(yǔ)義解耦。它在高動(dòng)態(tài)內(nèi)容創(chuàng)作方面表現(xiàn)卓越,包括大氣重建、無(wú)縫場(chǎng)景合成和上下文感知物體移除,且能在復(fù)雜的圖像處理任務(wù)中達(dá)到頂尖精度。

目前,Ming-flash-omni 2.0的模型權(quán)重、推理代碼已在Hugging Face等開源社區(qū)發(fā)布,用戶也將可通過(guò)螞蟻百靈官方平臺(tái)Ling Studio在線體驗(yàn)與調(diào)用。

Hugging Face地址:
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
GitHub地址:
https://github.com/inclusionAI/Ming
魔搭社區(qū)地址:
https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
體驗(yàn)入口:
https://ling.tbox.cn/chat

一、動(dòng)植物與知識(shí)識(shí)別變強(qiáng),音頻三合一生成是特色

首先來(lái)看看Ming-flash-omni 2.0的實(shí)際應(yīng)用效果。智東西在Ling Studio還未收到更新,我們可以先從幾組官方公布的案例中來(lái)看看Ming-flash-omni 2.0能做什么。

在多模態(tài)認(rèn)知方面,Ming-flash-omni 2.0能較精準(zhǔn)識(shí)別動(dòng)植物,如下圖所示,當(dāng)用戶上傳幾張馬的圖片和植物的圖片,Ming-flash-omni 2.0能夠比較準(zhǔn)確分辨出馬和植物的品種。

螞蟻全模態(tài)模型開源!首創(chuàng)人聲配樂音效一次生成,圖像編輯指哪改哪

再看看Ming-flash-omni 2.0側(cè)重提升的文化典故識(shí)別能力。當(dāng)用戶讓該模型分別介紹一張關(guān)于馬的文物照片和繪畫照片,其能夠比較準(zhǔn)確的識(shí)別出這是“馬踏飛燕”和徐悲鴻的《奔馬圖》,并且進(jìn)行了較專業(yè)的解讀,可以看到內(nèi)置知識(shí)變強(qiáng)及知識(shí)理解能力的提升。

螞蟻全模態(tài)模型開源!首創(chuàng)人聲配樂音效一次生成,圖像編輯指哪改哪

Ming-flash-omni 2.0支持自由多模態(tài)切換,用戶可以用語(yǔ)音對(duì)話,讓Ming-flash-omni 2.0識(shí)別和生成多種模態(tài)的內(nèi)容,這些動(dòng)作都是交替進(jìn)行的。

在流媒體對(duì)話方面,螞蟻上傳了一個(gè)用Ming-flash-omni 2.0識(shí)別舞龍獅表演的視頻,其不僅能夠準(zhǔn)確識(shí)別事物,還能夠講解背后文化知識(shí),延遲較低。不過(guò),其語(yǔ)音聽起來(lái)仍然沒有達(dá)到完全的真人感,能聽出來(lái)是AI聲音。

在可控統(tǒng)一聲學(xué)合成方面,兩個(gè)人聲在講解Ming-flash-omni 2.0可以為音頻添加背景音樂、音效,而這個(gè)音頻本身正是Ming-flash-omni 2.0生成的。人聲之下墊有節(jié)奏明快的背景音樂。據(jù)悉,其還支持零樣本語(yǔ)音克隆和精細(xì)的屬性控制,例如情感、音色和環(huán)境氛圍。

在圖像生成與處理方面,如下所示,當(dāng)用戶輸入一張照片,并輸入一段提示詞,比如“背景換成澳大利亞藍(lán)天,姿勢(shì)自然一點(diǎn)”、“背景換成西湖并改成拍手”等,就可以得到所需的照片,能達(dá)到較高的修改精度。這一高精度能力在谷歌Nano Banana等專用模型那里也仍有難度,Ming-flash-omni 2.0實(shí)際表現(xiàn)如何,能否達(dá)到官方案例效果,還有待用戶親自實(shí)操后來(lái)評(píng)判。

螞蟻全模態(tài)模型開源!首創(chuàng)人聲配樂音效一次生成,圖像編輯指哪改哪

二、全模態(tài)能力匹敵專業(yè)模型,多項(xiàng)能力超Gemini 2.5 Pro

看完實(shí)際應(yīng)用,再來(lái)看看模型測(cè)評(píng)成績(jī)。

在通用圖像理解方面,Ming-flash-omni 2.0在HallusionBench、MMvet測(cè)評(píng)上超越了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct等模型,具有較強(qiáng)的內(nèi)容理解和知識(shí)能力,較少的幻覺情況。

在文檔理解方面,Ming-flash-omni 2.0在ChartQA、OCRBench測(cè)評(píng)上超越了Gemini 2.5 Pro,在AI2D上得分略低于Gemini 2.5 Pro,但整體得分都在87分以上,在處理文檔、圖表識(shí)別等方面表現(xiàn)較好。

在STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))方面,Ming-flash-omni 2.0的測(cè)評(píng)表現(xiàn)全面超越Qwen3-Omini-30B-A3B-Instruct,得分接近Gemini 2.5 Pro。

螞蟻全模態(tài)模型開源!首創(chuàng)人聲配樂音效一次生成,圖像編輯指哪改哪
▲Ming-flash-omni 2.0的實(shí)測(cè)表現(xiàn)

在定位與內(nèi)部知識(shí)方面,其在圖像中定位和指定特定對(duì)象的能力較強(qiáng),接近90分,內(nèi)置知識(shí)庫(kù)的準(zhǔn)確性和豐富度得分也遠(yuǎn)高于Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct。

在多圖像理解方面,該模型在MVbench、CharadesSTA上的得分超過(guò)了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct,在MLVU上也表現(xiàn)較好,但略低于Gemini 2.5 Pro。

在語(yǔ)音方面,作為業(yè)界首個(gè)全場(chǎng)景音頻統(tǒng)一生成模型,其在語(yǔ)音識(shí)別(WER越低越好)和語(yǔ)音生成準(zhǔn)確率的表現(xiàn)都非常優(yōu)異,在多個(gè)基準(zhǔn)上領(lǐng)先。

在圖像生成、編輯和分割方面,其在DPGBench、Geneval、RefCOCO-val等測(cè)評(píng)中都取得了匹敵專用模型的成績(jī)。

三、統(tǒng)一架構(gòu),降低多模型串聯(lián)成本和復(fù)雜度

業(yè)內(nèi)普遍認(rèn)為,多模態(tài)大模型最終會(huì)走向更統(tǒng)一的架構(gòu)。但現(xiàn)實(shí)是“全模態(tài)”模型往往很難同時(shí)做到通用與專精,在特定單項(xiàng)能力上往往不及專用模型。

Ming-omni系列正是在這一背景下持續(xù)演進(jìn),早期版本構(gòu)建統(tǒng)一多模態(tài)能力底座,中期版本驗(yàn)證規(guī)模增長(zhǎng)帶來(lái)的能力提升,而最新2.0版本通過(guò)更大規(guī)模數(shù)據(jù)與系統(tǒng)性訓(xùn)練優(yōu)化,將全模態(tài)理解與生成能力推至開源領(lǐng)先水平,并在部分領(lǐng)域超越頂級(jí)專用模型。

2025年5月,螞蟻開源了MoE架構(gòu)的統(tǒng)一多模態(tài)大模型Ming-lite-omni,實(shí)現(xiàn)了以單一模型處理包括圖像、文本、音頻和視頻在內(nèi)的廣泛輸入類型;2025年7月,螞蟻集團(tuán)推出升級(jí)的Ming-lite-omni v1.5,在可控圖像生成、生成式圖像分割、深度及邊緣檢測(cè)三大維度能力上得到提升。

2025年10月,螞蟻集團(tuán)進(jìn)一步開源了Ming-flash-omni-Preview,成為當(dāng)時(shí)首個(gè)參數(shù)規(guī)模達(dá)到千億的開源全模態(tài)大模型。當(dāng)時(shí),Ming-flash-omni-Preview仍有不完善的地方,包括視覺文本理解能力與頂尖專用VL大模型仍存在一定差距,語(yǔ)音多輪對(duì)話效果以及高質(zhì)量的音色克隆仍需優(yōu)化,在復(fù)雜布局文字渲染與編輯、特定IP角色的生成方面還有待提升。

此次螞蟻集團(tuán)將Ming-flash-omni 2.0在這些方面實(shí)現(xiàn)提升,達(dá)到了整體跨代的效果。Ming-flash-omni 2.0基于Ling-2.0架構(gòu)(MoE,100B-A6B)訓(xùn)練,主要圍繞“看得更準(zhǔn)、聽得更細(xì)、生成更穩(wěn)”三大進(jìn)行了優(yōu)化。

螞蟻全模態(tài)模型開源!首創(chuàng)人聲配樂音效一次生成,圖像編輯指哪改哪

視覺方面,該模型融合億級(jí)細(xì)粒度數(shù)據(jù)與難例訓(xùn)練策略,顯著提升對(duì)近緣動(dòng)植物、工藝細(xì)節(jié)和稀有文物等復(fù)雜對(duì)象的識(shí)別能力。

音頻方面,其實(shí)現(xiàn)了語(yǔ)音、音效、音樂同軌生成,支持自然語(yǔ)言精細(xì)控制音色、語(yǔ)速、情緒等參數(shù),并具備零樣本音色克隆與定制能力。

圖像方面,其增強(qiáng)了復(fù)雜編輯的穩(wěn)定性,支持光影調(diào)整、場(chǎng)景替換、人物姿態(tài)優(yōu)化及一鍵修圖等功能,在動(dòng)態(tài)場(chǎng)景中仍保持畫面連貫與細(xì)節(jié)真實(shí)。

百靈模型負(fù)責(zé)人周俊談道,全模態(tài)技術(shù)的關(guān)鍵在于通過(guò)統(tǒng)一架構(gòu)實(shí)現(xiàn)多模態(tài)能力的深度融合與高效調(diào)用。開源后,開發(fā)者可基于同一套框架復(fù)用視覺、語(yǔ)音與生成能力,顯著降低多模型串聯(lián)的復(fù)雜度與成本。

Ming-flash-omni 2.0模型的開源,意味著其核心能力以“可復(fù)用底座”的形式對(duì)外釋放,為端到端多模態(tài)應(yīng)用開發(fā)提供統(tǒng)一能力入口。

結(jié)語(yǔ):統(tǒng)一架構(gòu)全模態(tài)模型加速發(fā)展

隨著自回歸路線統(tǒng)一了語(yǔ)言模型領(lǐng)域,多模態(tài)領(lǐng)域能否出現(xiàn)一個(gè)統(tǒng)一的架構(gòu)路線?國(guó)內(nèi)外多家企業(yè)或機(jī)構(gòu)展開了統(tǒng)一多模態(tài)學(xué)習(xí)的訓(xùn)練,打造性能出色的原生多模態(tài)大模型,螞蟻集團(tuán)在這一領(lǐng)域有頗多嘗試。

盡管相比最頂尖的專業(yè)模型仍有差距,但以Ming-flash-omni 2.0為代表的全模態(tài)模型已經(jīng)逼近專業(yè)模型性能。未來(lái),團(tuán)隊(duì)將持續(xù)優(yōu)化視頻時(shí)序理解、復(fù)雜圖像編輯與長(zhǎng)音頻生成實(shí)時(shí)性,完善工具鏈與評(píng)測(cè)體系,推動(dòng)全模態(tài)技術(shù)在實(shí)際業(yè)務(wù)中規(guī)模化落地。