智東西(公眾號(hào):zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西1月24日?qǐng)?bào)道,在文心Moment大會(huì)上,文心大模型5.0正式版上線。

據(jù)稱(chēng),該模型參數(shù)量達(dá)2.4萬(wàn)億,采用原生全模態(tài)統(tǒng)一建模技術(shù),具備全模態(tài)理解與生成能力,支持文本、圖像、音頻、視頻等多種信息的輸入與輸出。

40余項(xiàng)權(quán)威基準(zhǔn)的綜合評(píng)測(cè)中,文心5.0正式版的語(yǔ)言與多模態(tài)理解能力穩(wěn)居國(guó)際第一梯隊(duì)。音頻和視覺(jué)生成能力與垂直領(lǐng)域?qū)>P拖喈?dāng),整體處于全球領(lǐng)先水平。

文心5.0正式版發(fā)布,霸榜LMArena的“最強(qiáng)文科生”到底強(qiáng)在哪?

文心5.0正式版發(fā)布,霸榜LMArena的“最強(qiáng)文科生”到底強(qiáng)在哪?

文心5.0正式版發(fā)布,霸榜LMArena的“最強(qiáng)文科生”到底強(qiáng)在哪?

文心5.0正式版發(fā)布,霸榜LMArena的“最強(qiáng)文科生”到底強(qiáng)在哪?

目前,個(gè)人用戶可在文心APP、文心一言官網(wǎng)體驗(yàn),企業(yè)與開(kāi)發(fā)者可通過(guò)百度千帆平臺(tái)進(jìn)行調(diào)用。

智東西第一時(shí)間體驗(yàn)了文心5.0。測(cè)評(píng)結(jié)果證明,該模型不僅能夠處理不同文化語(yǔ)境下復(fù)雜情感、弦外之音、畫(huà)面隱喻等任務(wù),輸出更符合語(yǔ)境、場(chǎng)景的回復(fù),還能通過(guò)出色的規(guī)劃反思和邏輯推理能力,生成兼具創(chuàng)意與邏輯的寫(xiě)作內(nèi)容??梢哉f(shuō)是大模型界的“最強(qiáng)文科生”。

雖然已經(jīng)有了預(yù)覽版的鋪墊,文心5.0正式版的上線還是讓人眼前一亮。國(guó)產(chǎn)多模態(tài)大模型,真的已經(jīng)進(jìn)入“原生全模態(tài)”時(shí)間了。

一、穩(wěn)居全球第一梯隊(duì),文心5.0開(kāi)啟原生全模態(tài)之路

百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心副主任吳甜介紹,與業(yè)界多數(shù)采用“后期融合”的多模態(tài)方案不同,文心5.0的技術(shù)路線采用統(tǒng)一的自回歸架構(gòu)進(jìn)行原生全模態(tài)建模,將文本、圖像、視頻、音頻等多源數(shù)據(jù)在同一模型框架中進(jìn)行聯(lián)合訓(xùn)練,使得多模態(tài)特征在統(tǒng)一架構(gòu)下充分融合并協(xié)同優(yōu)化,實(shí)現(xiàn)原生的全模態(tài)統(tǒng)一理解與生成。

文心5.0正式版發(fā)布,霸榜LMArena的“最強(qiáng)文科生”到底強(qiáng)在哪?

▲百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心副主任吳甜

文心5.0攻克了多模態(tài)理解與生成難以統(tǒng)一建模的難題,精細(xì)建模多模語(yǔ)義特征,實(shí)現(xiàn)了理解與生成相互增強(qiáng),全面提升了全模態(tài)理解與生成能力。

文心5.0采用超大規(guī)?;旌蠈?zhuān)家模型結(jié)構(gòu),依托飛槳深度學(xué)習(xí)框架進(jìn)行超大規(guī)模MoE模型訓(xùn)練,總參數(shù)規(guī)模超過(guò)2.4萬(wàn)億,這達(dá)到業(yè)界已公開(kāi)參數(shù)的模型之最。具備超稀疏激活參數(shù),激活參數(shù)比低于3%,在保持模型強(qiáng)大能力的同時(shí)降低了計(jì)算與推理成本。

同時(shí),基于大規(guī)模工具環(huán)境,合成長(zhǎng)程任務(wù)軌跡數(shù)據(jù),并采用基于思維鏈和行動(dòng)鏈的端到端多輪強(qiáng)化學(xué)習(xí)訓(xùn)練,顯著提升了模型的智能體和工具調(diào)用能力。

不管是從技術(shù)架構(gòu)路線還是從大模型基建,文心5.0幾乎是國(guó)內(nèi)大模型頂配,讓它在國(guó)際權(quán)威的大模型競(jìng)技場(chǎng)LMArena上實(shí)現(xiàn)了一次次問(wèn)鼎。

在近三個(gè)月內(nèi),文心5.0系列模型五次登榜LMArena,在文本(Text Arena)、視覺(jué)理解(VisionArena)榜單,多次位列國(guó)內(nèi)第一,是唯一進(jìn)入全球第一梯隊(duì)的中國(guó)大模型。

二、會(huì)寫(xiě)科幻小說(shuō)、能分析相親簡(jiǎn)歷,文心5.0成“最強(qiáng)文科生”

在文心5.0 Preview發(fā)布之時(shí),就有網(wǎng)友評(píng)價(jià)稱(chēng)其為“最強(qiáng)文科生”。今天,我們測(cè)測(cè)文心5.0正式版,看看這個(gè)稱(chēng)號(hào)是否名副其實(shí)。

第一題,我們看看文心5.0的知識(shí)儲(chǔ)備和文采如何:

我們先讓文心5.0寫(xiě)一篇?jiǎng)⒋刃蓝唐苹眯≌f(shuō)《流浪地球》的續(xù)篇,要求遵循原文寫(xiě)作風(fēng)格以及故事背景和人物設(shè)定,來(lái)考考它的知識(shí)儲(chǔ)備量。

大約3分鐘,該模型就完成了一篇超短篇的《流浪地球》續(xù)篇,取名為《流浪地球:靜音紀(jì)元》。

整篇文章一看就是“讀過(guò)”原小說(shuō)的,原文的“大叛亂”和“太陽(yáng)氦閃”等元素一個(gè)不落,還從“我”的第一視角講述了資源即將耗盡、人類(lèi)采取Plan B——火種計(jì)劃的故事。整體上來(lái)說(shuō),文章通篇讀下來(lái)很順暢,文風(fēng)也是劉慈欣的平實(shí)感,劇情銜接流暢。

除了小說(shuō),文心5.0的閱片量如何?我們拋給它這樣一個(gè)問(wèn)題:同為宮斗劇的《甄嬛傳》《如懿傳》《延禧攻略》在網(wǎng)絡(luò)上常常被人拿來(lái)比較,如果甄嬛、如懿和魏瓔珞身處在同一深宮內(nèi),誰(shuí)能笑到最后呢?

文心5.0首先選擇了一個(gè)這三個(gè)角色都共存的時(shí)代背景下,分析了三人各自的性格特點(diǎn)和經(jīng)歷,用兩兩對(duì)決的方法決出了最后的贏家為“魏瓔珞”。分析過(guò)程講的頭頭是道,一看就是資深劇迷。

接下來(lái),我們來(lái)考考文心5.0的情商:

首先,我們上傳了一張小紅書(shū)帖子的截圖,截圖內(nèi)容為求助該如何回復(fù)女友總是說(shuō)“你不愛(ài)我了”。

從文心5.0的思考過(guò)程中可以看出,它判斷了提問(wèn)中女友的行為動(dòng)機(jī),還考慮了男生的心理,先設(shè)身處地地安慰了用戶,再接著給出解決方案,這樣會(huì)減少說(shuō)教感。

從回答內(nèi)容上看,文心5.0給出了四套方法論,每一套都確實(shí)可行,還說(shuō)清了女友總說(shuō)“你不愛(ài)我了”的弦外之音其實(shí)是“想你了”。就是在具體的措辭上稍微有點(diǎn)“油”,不走可愛(ài)風(fēng)的直男朋友們盡量不要照搬。

接著,我們上傳了一段“這個(gè)男孩能嫁嗎?”的短視頻,看看文心5.0能不能從相親對(duì)象的簡(jiǎn)歷中看出不對(duì)勁的地方。

原視頻時(shí)長(zhǎng)1分鐘,視頻主播中英文混雜并且語(yǔ)速很快,我不看字幕都很難跟下來(lái)。但文心5.0在一分鐘內(nèi)就完成了對(duì)視頻內(nèi)容的理解和分析,并且扒出了相親對(duì)象簡(jiǎn)歷中不合理且有所隱瞞的事項(xiàng),措辭也是毫不留情。

三、原生全模態(tài):劍指多模態(tài)大模型的未來(lái)

這樣驚艷的體驗(yàn)效果是如何實(shí)現(xiàn)的?要回答這個(gè)問(wèn)題還要從多模態(tài)大模型的類(lèi)別說(shuō)起。

當(dāng)前市面上的多模態(tài)大模型主要分為拼接型和原生型兩類(lèi)。其中拼接型是行業(yè)主流形式,采用模塊化架構(gòu),通過(guò)獨(dú)立訓(xùn)練各模態(tài)模型再拼接實(shí)現(xiàn)融合,雖具備一定靈活性,卻存在明顯的信息損耗問(wèn)題。

最早從GPT-4o時(shí)即提出“原生多模態(tài)”,后面Gemini 3的發(fā)布,讓“原生多模態(tài)”真正被業(yè)界聚焦。而百度則在這一基礎(chǔ)上更上一層樓,提出了“原生全模態(tài)”架構(gòu)。

原生全模態(tài)架構(gòu)則從訓(xùn)練初期的底層邏輯出發(fā),就將文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)深度融合,構(gòu)建起統(tǒng)一語(yǔ)義空間,以此實(shí)現(xiàn)更高效的跨模態(tài)理解。

同時(shí),“原生全模態(tài)”方法還能有效避免災(zāi)難性遺忘,讓模態(tài)數(shù)據(jù)在基礎(chǔ)層面的融合更順暢,也讓跨模態(tài)任務(wù)的泛化能力大幅提升。

行業(yè)有觀點(diǎn)認(rèn)為,這本質(zhì)上是技術(shù)路線之爭(zhēng):「原生架構(gòu)」正在改寫(xiě)大模型廠商的游戲規(guī)則。若國(guó)內(nèi)廠商未能在2025–2026年突破原生架構(gòu),可能在未來(lái)AI競(jìng)爭(zhēng)中淪為功能跟隨者。顯然,百度文心5.0已帶領(lǐng)百度在這一賽道率先突圍,構(gòu)建起一定的技術(shù)護(hù)城河。

如何才能抵達(dá)AGI?越來(lái)越多行業(yè)專(zhuān)家認(rèn)為,AI能夠真正感知世界、與物理世界互動(dòng),從物理世界中學(xué)習(xí),這就是AGI。

讓AI在物理世界中學(xué)習(xí),就是要AI像人一樣,在語(yǔ)言、圖像、視頻、音頻等多模態(tài)數(shù)據(jù)中感知世界,將多模態(tài)數(shù)據(jù)相互對(duì)照,進(jìn)而形成對(duì)世界的感知。

這樣來(lái)看,原生全模態(tài)架構(gòu),或許將是AGI的地基和基石

結(jié)語(yǔ):國(guó)產(chǎn)大模型進(jìn)入“原生全模態(tài)”時(shí)間

文心5.0在知識(shí)問(wèn)答、復(fù)雜場(chǎng)景理解、創(chuàng)意寫(xiě)作等多類(lèi)任務(wù)中表現(xiàn)穩(wěn)定,在遵循指令、理解語(yǔ)境、進(jìn)行多輪思考方面的能力已較為成熟,展現(xiàn)出了超越工具的“靈性”與實(shí)用價(jià)值。

當(dāng)前,谷歌已明確將“原生多模態(tài)”作為核心方向。文心5.0基于此完善的“原生全模態(tài)”,意味著國(guó)內(nèi)在此技術(shù)路徑上有了具備大規(guī)模參數(shù)和實(shí)際應(yīng)用能力的對(duì)標(biāo)產(chǎn)品。

國(guó)產(chǎn)大模型,進(jìn)入“原生全模態(tài)”時(shí)間。