智東西(公眾號(hào):zhidxcom)
作者 | 程茜
編輯 | 云鵬

智東西6月30日消息,百度正式開源文心大模型4.5系列模型!

此次百度一口氣開源了10款模型,涵蓋47B、3B激活參數(shù)的混合專家(MoE)模型,0.3B參數(shù)的稠密型模型等,并實(shí)現(xiàn)預(yù)訓(xùn)練權(quán)重和推理代碼的完全開源。

李彥宏出手!百度大模型終于開源

▲Hugging Face上的文心大模型4.5系列模型開源列表

目前,文心大模型4.5開源系列已可在飛槳星河社區(qū)、Hugging Face等平臺(tái)下載部署使用,同時(shí)開源模型API服務(wù)也可在百度智能云千帆大模型平臺(tái)使用。

自此,百度成為國(guó)內(nèi)繼騰訊、阿里、字節(jié)之后的又一家開源大廠,這也是百度面向大模型進(jìn)入應(yīng)用爆發(fā)黃金時(shí)期的最新舉措。

早在今年2月,百度就已預(yù)告了文心大模型4.5系列的推出計(jì)劃,并明確將于6月30日起正式開源。不過(guò)百度這次的開源列表沒有其升級(jí)版文心大模型4.5 Turbo系列。

Hugging Face:https://huggingface.co/baidu/models

飛槳星河社區(qū):https://aistudio.baidu.com/modelsoverview

GitHub:https://github.com/PaddlePaddle/ERNIE

技術(shù)報(bào)告:https://yiyan.baidu.com/blog/posts/ernie4.5

一、開發(fā)者熱議,點(diǎn)名文心大模型4.5 Turbo開源

Reddit上的開發(fā)者認(rèn)為,百度此次開源的模型中小參數(shù)的版本對(duì)內(nèi)存受限的配置是不錯(cuò)的選擇,他還認(rèn)為300B可以和DeepSeek V3 671B戰(zhàn)斗,21B可以與阿里Qwen 30B戰(zhàn)斗。

李彥宏出手!百度大模型終于開源

也有開發(fā)者指出,百度此次開源的模型中,28B模型在基礎(chǔ)文本能力上增加了視覺功能很酷。

李彥宏出手!百度大模型終于開源

開發(fā)者也在期待百度文心大模型4.5 Turbo的開源

李彥宏出手!百度大模型終于開源

二、原生多模態(tài)基礎(chǔ)大模型,多項(xiàng)評(píng)測(cè)超Qwen3、DeepSeek-V3

文心大模型4.5于3月16日發(fā)布,是百度自研新一代原生多模態(tài)基礎(chǔ)大模型,在多個(gè)測(cè)試集上的測(cè)評(píng)表現(xiàn)已經(jīng)超過(guò)GPT-4o。

其圖片理解涵蓋照片、電影截圖、網(wǎng)絡(luò)梗圖、漫畫、圖標(biāo)等多種形態(tài),也能理解音視頻中的場(chǎng)景、畫面、人物等特征,并且在生成名人、物品等方面更具真實(shí)性。

李彥宏出手!百度大模型終于開源

▲文心4.5系列模型與Qwen3、DeepSeek-V3基準(zhǔn)測(cè)試比較

百度官方公眾號(hào)提到,文心4.5系列模型均使用飛槳深度學(xué)習(xí)框架進(jìn)行高效訓(xùn)練、推理和部署。在大語(yǔ)言模型的預(yù)訓(xùn)練中,模型FLOPs利用率(MFU)達(dá)到47%。實(shí)驗(yàn)結(jié)果顯示,該系列模型在多個(gè)文本和多模態(tài)基準(zhǔn)測(cè)試中達(dá)到SOTA水平,在指令遵循、世界知識(shí)記憶、視覺理解和多模態(tài)推理任務(wù)上效果突出。模型權(quán)重按照Apache 2.0協(xié)議開源,支持開展學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用。此外,基于飛槳提供開源的產(chǎn)業(yè)級(jí)開發(fā)套件,廣泛兼容多種芯片,降低后訓(xùn)練和部署門檻。

對(duì)于原生多模態(tài)大模型,3月初,百度創(chuàng)始人、CEO李彥宏在人民網(wǎng)發(fā)表的署名文章就提到:“原生多模態(tài)大模型,打破之前先訓(xùn)練單模態(tài)模型再拼接的方式,通過(guò)統(tǒng)一架構(gòu)實(shí)現(xiàn)文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)的?原生級(jí)融合,實(shí)現(xiàn)對(duì)復(fù)雜世界的統(tǒng)一理解,這是邁向通用人工智能(AGI)的重要一步?!?/p>

三、文心大模型4.5背后,三大關(guān)鍵創(chuàng)新

文心大模型4.5系列背后的關(guān)鍵技術(shù)創(chuàng)新包括:

1、多模態(tài)異構(gòu)MoE預(yù)訓(xùn)練:其模型基于文本和視覺模態(tài)進(jìn)行聯(lián)合訓(xùn)練,可捕捉多模態(tài)信息的細(xì)微差別,并提升文本理解與生成、圖像理解以及跨模態(tài)推理等任務(wù)的性能。

為了實(shí)現(xiàn)這一目標(biāo),避免一種模態(tài)阻礙另一種模態(tài)的學(xué)習(xí),百度研究人員設(shè)計(jì)了一種異構(gòu)MoE結(jié)構(gòu),并引入了模態(tài)隔離路由,采用了路由器正交損失和多模態(tài)標(biāo)記平衡損失。這些架構(gòu)選擇可以確保兩種模態(tài)都得到有效表示,從而在訓(xùn)練過(guò)程中實(shí)現(xiàn)相互強(qiáng)化。

李彥宏出手!百度大模型終于開源

2、可擴(kuò)展、高效的基礎(chǔ)設(shè)施:百度提出異構(gòu)混合并行和分層負(fù)載均衡策略,以實(shí)現(xiàn)ERNIE 4.5模型的高效訓(xùn)練。研究人員通過(guò)采用節(jié)點(diǎn)內(nèi)專家并行、內(nèi)存高效的流水線調(diào)度、FP8混合精度訓(xùn)練和細(xì)粒度重計(jì)算方法,實(shí)現(xiàn)了預(yù)訓(xùn)練吞吐量提升。

在推理方面,研究人員提出多專家并行協(xié)作方法和卷積碼量化算法,以實(shí)現(xiàn)4位/2位無(wú)損量化。此外還引入具有動(dòng)態(tài)角色切換的PD分解,提升ERNIE 4.5 MoE模型的推理性能?;赑addlePaddle構(gòu)建的ERNIE 4.5可在各種硬件平臺(tái)上提供高性能推理。

3、針對(duì)特定模態(tài)的后訓(xùn)練:為了滿足實(shí)際應(yīng)用的多樣化需求,百度針對(duì)特定模態(tài)對(duì)預(yù)訓(xùn)練模型的變體進(jìn)行了微調(diào)。其大模型針對(duì)通用語(yǔ)言理解和生成進(jìn)行了優(yōu)化。

VLM專注于視覺語(yǔ)言理解,并支持思考和非思考模式,每個(gè)模型都結(jié)合使用了監(jiān)督微調(diào)(SFT)、直接偏好優(yōu)化(DPO)或統(tǒng)一偏好優(yōu)化(UPO)的改進(jìn)強(qiáng)化學(xué)習(xí)方法進(jìn)行后訓(xùn)練。

在視覺-語(yǔ)言模型的微調(diào)階段,視覺與語(yǔ)言的深度融合對(duì)模型在理解、推理和生成等復(fù)雜任務(wù)中的表現(xiàn)起著決定性的作用。為了提升模型在多模態(tài)任務(wù)上的泛化能力和適應(yīng)性,研究人員圍繞圖像理解、任務(wù)定向微調(diào)和多模態(tài)思路推理三大核心能力,進(jìn)行了系統(tǒng)性的數(shù)據(jù)構(gòu)建和訓(xùn)練策略優(yōu)化。此外,其利用可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)進(jìn)一步提升模型對(duì)齊和性能。

結(jié)語(yǔ):全球大模型產(chǎn)業(yè)競(jìng)爭(zhēng)加劇,百度擁抱開源

針對(duì)百度此次開源,南加州大學(xué)計(jì)算機(jī)科學(xué)副教授、三星年度人工智能研究員Sean Ren在接受外媒采訪時(shí)提到:“每當(dāng)一個(gè)大型實(shí)驗(yàn)室開源一個(gè)強(qiáng)大的模型時(shí),它都會(huì)提高整個(gè)行業(yè)的標(biāo)準(zhǔn)。百度的舉動(dòng)給OpenAI和Anthropic等閉源模型的提供商帶來(lái)了壓力,迫使它們證明API和高價(jià)的合理性?!?/p>

作為國(guó)內(nèi)最先入局大模型研發(fā)的巨頭之一,百度已經(jīng)形成了文心大模型4.0 Turbo、性能強(qiáng)勁的輕量模型ERNIE Speed Pro和ERNIE Lite Pro到當(dāng)下的文心大模型4.5、文心大模型X1,以及升級(jí)版文心大模型4.5 Turbo等模型系列,其模型數(shù)量穩(wěn)步遞增,模型類型愈發(fā)多元。到2024年,文心大模型的日均調(diào)用量達(dá)到16.5億,而2023年同期這一數(shù)字僅為5000萬(wàn)次,增長(zhǎng)達(dá)到33倍。

Sean Ren認(rèn)為雖然大多數(shù)消費(fèi)者并不關(guān)心模型代碼是否開源,但他們確實(shí)在意更低的成本、更好的性能以及對(duì)其語(yǔ)言或地區(qū)的支持。這些好處通常來(lái)自于開源模型,它為開發(fā)人員和研究人員提供了更大的自由度,可以更快地進(jìn)行迭代、定制和部署?!?/p>