智東西(公眾號:zhidxcom)
作者 |? 程茜
編輯 |? 漠影

臨近年關(guān),國產(chǎn)大模型的春節(jié)大禮包讓人應(yīng)接不暇!

就在這幾天,從全場景深度推理模型Baichuan-M1-preview醫(yī)療增強(qiáng)開源模型Baichuan-M1-14B,百川智能大模型頻繁上新。

而今天新鮮出爐的全模態(tài)模型Baichuan-Omni-1.5,更稱得上是“大模型通才”。

這一全模態(tài)模型不僅能同時(shí)支持文本、圖像、音視頻全模態(tài)理解,還支持文本、音頻雙模態(tài)生成。與此同時(shí),百川還開源了兩個(gè)評測集,助力國內(nèi)全模態(tài)模型研發(fā)生態(tài)蓬勃發(fā)展。

從綜合的測評結(jié)果來看,Baichuan-Omni-1.5的多模態(tài)能力整體超越了GPT-4o mini。在百川智能深耕的醫(yī)療領(lǐng)域,其醫(yī)療圖片評測成績更是大幅領(lǐng)先。

可以看出,百川智能作為國產(chǎn)大模型的明星玩家,在模型本身的技術(shù)探索以及深耕醫(yī)療行業(yè)落地上正一往無前。

模型權(quán)重地址:

Baichuan-Omini-1.5:

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5

Baichuan-Omini-1.5-Base:

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

GitHub地址:

https://github.com/baichuan-inc/Baichuan-Omni-1.5

技術(shù)報(bào)告:

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

一、文圖音視頻“通殺”,多項(xiàng)測評超越GPT-4o mini

Baichuan-Omni-1.5的亮眼表現(xiàn)可以集中概括為“全面且強(qiáng)大”。

首先,該模型最突出的特點(diǎn)就是擁有全面的理解和生成能力,既包括對文本、圖像、視頻、音頻全模態(tài)內(nèi)容的理解,還支持文本、音頻的雙模態(tài)生成。

圖片的理解層面,Baichuan-Omni-1.5在MMBench-dev、MM-Vet等通用圖片評測中,其中通用測試集MM-Vet定義了識別、OCR、知識、語言生成、空間感知和數(shù)學(xué)計(jì)算六大核心VL能力,對于模型性能的表現(xiàn)呈現(xiàn)較為全面。圖片的理解層面,Baichuan-Omni-1.5在MMBench-dev、TextVQA val等通用圖片評測中領(lǐng)先領(lǐng)先GPT-4o mini。

值得一提的是,除了通用文本、圖像、音視頻能力外,百川智能的全模態(tài)模型更是在醫(yī)療賽道上一騎絕塵。醫(yī)療圖片評測數(shù)據(jù)集GMAI-MMBench、Openmm-Medical的結(jié)果顯示,該模型已經(jīng)大幅超越GPT-4o mini。

大模型通才來了!百川智能全模態(tài)模型亮相,實(shí)力碾壓GPT-4o mini

音頻的理解與生成層面,Baichuan-Omni-1.5不僅支持多語言對話,還能基于其端到端音頻合成能力,擁有ASR(自動(dòng)語音識別)和TTS(文本轉(zhuǎn)語音)功能,并且在此基礎(chǔ)上支持音視頻實(shí)時(shí)交互。具體的測評指標(biāo)上,Baichuan-Omni-1.5在lamma question和AlpacaEval數(shù)據(jù)集上整體表現(xiàn)遠(yuǎn)超Qwen2-VL-2B-Instruct、VITA-1.5和MiniCPM-o?2.6。

大模型通才來了!百川智能全模態(tài)模型亮相,實(shí)力碾壓GPT-4o mini

視頻理解層面,百川智能對該模型在編碼器、訓(xùn)練數(shù)據(jù)和訓(xùn)練方法等多個(gè)關(guān)鍵環(huán)節(jié)進(jìn)行了深入優(yōu)化,其整體性能同樣大幅領(lǐng)先GPT-4o-mini。

大模型通才來了!百川智能全模態(tài)模型亮相,實(shí)力碾壓GPT-4o mini

綜上,Baichuan-Omni-1.5不僅在通用能力上整體超越GPT4o-mini,并且實(shí)現(xiàn)了全模態(tài)理解、生成的統(tǒng)一。

百川智能同時(shí)還開源了兩個(gè)評測集:OpenMM-Medical、OpenAudioBench。

OpenMM-Medical用于評估模型醫(yī)療多模態(tài)能力,包含了來自42個(gè)公開醫(yī)學(xué)圖像的數(shù)據(jù)集,如ACRIMA(眼底圖像)、BioMediTech(顯微鏡圖像)和CoronaHack(X 射線),共計(jì)88996張圖像。

OpenAudioBench則用于高效評估模型“智商”,包含5個(gè)音頻端到端理解子評測集的平臺(tái),其中4個(gè)來自公開評測集(Llama Question、WEB QA、TriviaQA、AlpacaEval),還有1個(gè)是百川自建的語音邏輯推理評測集,該自建評測集共有2701條數(shù)據(jù)。

一直以來,百川智能在繁榮國內(nèi)開源生態(tài)上都扮演著重要角色。這類開源模型評測數(shù)據(jù)集為研究人員和開發(fā)者提供了統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù),方便其對不同模型的性能進(jìn)行客觀、公正的評估,同樣有助于催生一系列新的語言理解算法和模型架構(gòu)。

二、全方位優(yōu)化數(shù)據(jù)、架構(gòu)、流程,破解大模型“降智”難題

從單一模態(tài)模型到多模態(tài)融合,再到全模態(tài)模型的進(jìn)階,這一技術(shù)發(fā)展歷程為實(shí)現(xiàn)模型在千行百業(yè)落地應(yīng)用提供了更多可能性。

然而,隨著AI技術(shù)的不斷發(fā)展,如何實(shí)現(xiàn)理解和生成的統(tǒng)一,已然成為當(dāng)下多模態(tài)領(lǐng)域研究的一大熱點(diǎn)與難點(diǎn)問題。

一方面,理解和生成的統(tǒng)一使得模型能模仿人類交互方式,讓計(jì)算機(jī)與人類的溝通更加自然、高效,這也是通用人工智能(AGI)實(shí)現(xiàn)的關(guān)鍵環(huán)節(jié);另一方面,不同模態(tài)的數(shù)據(jù)在特征表示、數(shù)據(jù)結(jié)構(gòu)和語義內(nèi)涵等方面差異巨大,很難做到既能有效地提取多模態(tài)特征,又能實(shí)現(xiàn)跨模態(tài)的信息交互和融合,這也被業(yè)界公認(rèn)為訓(xùn)練全模態(tài)模型的最大難題之一。此次Baichuan-Omni-1.5的發(fā)布,意味著百川智能應(yīng)該已經(jīng)找到了解決上述難題的有效路徑。

訓(xùn)練全模態(tài)模型的過程中,為解決全模態(tài)模型“降智”難題,其研究團(tuán)隊(duì)從模型結(jié)構(gòu)、訓(xùn)練策略以及訓(xùn)練數(shù)據(jù)等多方面進(jìn)行了全流程的深度優(yōu)化,真正實(shí)現(xiàn)了理解生成統(tǒng)一。

首先是模型結(jié)構(gòu)方面,模型輸入部分支持各種模態(tài)通過相應(yīng)的Encoder/Tokenizer輸入到大型語言模型中;輸出部分則采用了文本-音頻交錯(cuò)輸出的設(shè)計(jì),其中Text Tokenizer和Audio Decoder可以同時(shí)生成文本和音頻。

其中,Audio Tokenizer由OpenAI發(fā)布的開源語音識別翻譯模型Whisper增量訓(xùn)練而來,同時(shí)具備高級語義抽取和高保真重建音頻能力。

為了讓模型理解任意分辨率圖片,Baichuan-Omni-1.5還引入了能處理最高分辨率可達(dá)4K且支持多圖推理的NaViT,使得該模型能全面提取圖片信息,準(zhǔn)確理解圖片上的內(nèi)容。

大模型通才來了!百川智能全模態(tài)模型亮相,實(shí)力碾壓GPT-4o mini

其次是數(shù)據(jù)層面,百川智能構(gòu)建了包含3.4億條高質(zhì)量圖片/視頻-文本數(shù)據(jù)和近100萬小時(shí)音頻數(shù)據(jù)的龐大數(shù)據(jù)庫,并使用1700萬條全模態(tài)數(shù)據(jù)進(jìn)行了SFT(監(jiān)督微調(diào))。

與其余模型的數(shù)據(jù)不同,全模態(tài)模型不僅數(shù)據(jù)要豐富,還需要更多元化的交錯(cuò)數(shù)據(jù)。一般而言,現(xiàn)實(shí)生活中的信息通常以多種模態(tài)同時(shí)呈現(xiàn),且不同模態(tài)的數(shù)據(jù)包含互補(bǔ)的信息,這類多模態(tài)數(shù)據(jù)的融合有助于模型學(xué)習(xí)到更通用的模式和規(guī)律,增強(qiáng)其泛化能力,這也是構(gòu)建全模態(tài)模型的關(guān)鍵之一。

為了加強(qiáng)跨模態(tài)理解能力,百川智能還構(gòu)建了高質(zhì)量的視覺-音頻-文本交錯(cuò)數(shù)據(jù),使用1600萬圖文、30萬純文本、40萬音頻數(shù)據(jù)以及跨模態(tài)數(shù)據(jù)對模型進(jìn)行對齊。并且為了讓模型能夠同時(shí)實(shí)現(xiàn)ASR、TTS、音色切換和音頻端到端問答,在對齊數(shù)據(jù)中還專門構(gòu)建了相應(yīng)任務(wù)的數(shù)據(jù)。

第三大技術(shù)要點(diǎn)就是訓(xùn)練流程,這是讓高質(zhì)量數(shù)據(jù)真正提升模型能力的核心。

百川智能在預(yù)訓(xùn)練和SFT階段均設(shè)計(jì)了多階段訓(xùn)練方案,以整體提升模型效果。

其訓(xùn)練過程主要分為四個(gè)階段,第一階段以圖文訓(xùn)練為主,第二階段增加音頻預(yù)訓(xùn)練,第三階段加入視頻數(shù)據(jù),最后一個(gè)階段是對齊階段,最終實(shí)現(xiàn)模型對于全模態(tài)內(nèi)容的理解。

大模型通才來了!百川智能全模態(tài)模型亮相,實(shí)力碾壓GPT-4o mini

在此基礎(chǔ)上,Baichuan-Omni-1.5的能力相比于單一的大語言模型或者多模態(tài)模型,實(shí)現(xiàn)了質(zhì)的飛躍。

Baichuan-Omni-1.5的發(fā)布標(biāo)志著AI正在從模型能力向落地應(yīng)用方向發(fā)展,此前,模型能力多側(cè)重于語言理解、圖像識別等基礎(chǔ)能力的增強(qiáng),這一模型強(qiáng)大的多模態(tài)融合能力,將會(huì)讓技術(shù)與實(shí)際場景之間結(jié)合更為緊密。

百川智能一方面提升了模型在語言、視覺、音頻等多模態(tài)信息處理上的能力,使其能夠應(yīng)對更復(fù)雜、更多樣的任務(wù);另一方面全模態(tài)模型強(qiáng)大的理解、生成能力,在醫(yī)療行業(yè)可以用于輔助醫(yī)生診斷,提高診斷準(zhǔn)確性和效率等,對于將AI落地到醫(yī)療場景也是非常有益的探索。

或許在不久的將來,百川智能可以讓我們清晰看到AGI時(shí)代醫(yī)療應(yīng)用的雛形。