智東西(公眾號(hào):zhidxcom)
作者 | 江宇
編輯 | 漠影

智東西11月11日?qǐng)?bào)道,百度今日正式開(kāi)源多模態(tài)思考模型ERNIE-4.5-VL-28B-A3B-Thinking。

作為一款激活參數(shù)僅為3B的輕量級(jí)模型,該模型在視覺(jué)語(yǔ)言理解、跨模態(tài)推理和工具調(diào)用等多個(gè)方向?qū)崿F(xiàn)能力躍升。目前,該版本在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)逼近當(dāng)前業(yè)界旗艦?zāi)P?,?shí)現(xiàn)了接近SOTA的視覺(jué)表現(xiàn)。

3B!性能直逼旗艦,百度又一新模型開(kāi)源,圖文視頻全能解

該模型基于ERNIE-4.5-VL-28B-A3B架構(gòu)構(gòu)建,并在中期訓(xùn)練階段引入海量高質(zhì)量視覺(jué)語(yǔ)言數(shù)據(jù),有效提升了視覺(jué)與文本模態(tài)間的語(yǔ)義對(duì)齊能力。此外,該模型還通過(guò)大規(guī)模多模態(tài)強(qiáng)化學(xué)習(xí)優(yōu)化任務(wù)執(zhí)行效果,采用GSPO與IcePop策略穩(wěn)定MoE結(jié)構(gòu),配合動(dòng)態(tài)難度采樣機(jī)制提升學(xué)習(xí)效率。

在此基礎(chǔ)上,ERNIE-4.5-VL-28B-A3B-Thinking推出了“圖像思考”等交互能力,支持圖像放大、圖像搜索等外部工具調(diào)用,為開(kāi)發(fā)者構(gòu)建具備感知與執(zhí)行能力的多模態(tài)智能體提供了能力支撐。

一、“圖像思考”能力釋放交互潛力,定位與工具調(diào)用機(jī)制雙升級(jí)

為進(jìn)一步拓展模型在真實(shí)場(chǎng)景下的多模態(tài)交互能力,ERNIE-4.5-VL-28B-A3B-Thinking新增“圖像思考”機(jī)制,支持用戶在圖像上進(jìn)行自由放大縮小的焦點(diǎn)切換,并結(jié)合圖像搜索等工具快速獲取上下文信息。該能力尤其適用于處理長(zhǎng)尾視覺(jué)知識(shí)、圖像細(xì)節(jié)識(shí)別等任務(wù)。

同時(shí),為響應(yīng)開(kāi)發(fā)者社區(qū)對(duì)“空間定位”能力的反饋,該模型在指令遵循性與定位觸發(fā)機(jī)制上也進(jìn)行了增強(qiáng)。用戶可更靈活地控制模型觸發(fā)視覺(jué)定位功能,在圖像理解任務(wù)中實(shí)現(xiàn)語(yǔ)義到坐標(biāo)的直接轉(zhuǎn)換。

ERNIE-4.5-VL-28B-A3B-Thinking的工具調(diào)用能力也同步升級(jí),支持在不確定圖像環(huán)境下動(dòng)態(tài)決策是否調(diào)用外部輔助工具,實(shí)現(xiàn)更高效的信息獲取鏈條。此能力是構(gòu)建多模態(tài)智能體的關(guān)鍵組成部分。

二、圖像理解+定位+搜索+推理,完成多種復(fù)雜視覺(jué)難題

在官方展示的多個(gè)實(shí)際案例中,ERNIE-4.5-VL-28B-A3B-Thinking均展現(xiàn)出其圖像解析與思維能力。

案例一:在一個(gè)涉及圖表閱讀的場(chǎng)景中,該模型成功解析出復(fù)雜公共交通圖表中不同時(shí)間段的客流高峰,推理出避開(kāi)高峰的出行策略。

3B!性能直逼旗艦,百度又一新模型開(kāi)源,圖文視頻全能解

案例二:在STEM題目中,該模型可根據(jù)拍照上傳的電學(xué)題,識(shí)別電路結(jié)構(gòu)并準(zhǔn)確計(jì)算等效電阻結(jié)果

3B!性能直逼旗艦,百度又一新模型開(kāi)源,圖文視頻全能解

案例三:在視覺(jué)定位任務(wù)中,該模型能夠識(shí)別圖中穿西裝并佩戴禮帽的多位人物,并將其定位信息通過(guò)邊界框形式可視化輸出,實(shí)現(xiàn)從語(yǔ)義描述到圖像坐標(biāo)的轉(zhuǎn)化。

3B!性能直逼旗艦,百度又一新模型開(kāi)源,圖文視頻全能解

▲測(cè)試圖(上)和該模型執(zhí)行視覺(jué)定位任務(wù)后輸出的可視化展示圖(下)。

案例四:配合“圖像思考”能力,該模型在圖像細(xì)節(jié)部分實(shí)現(xiàn)縮放聚焦。

3B!性能直逼旗艦,百度又一新模型開(kāi)源,圖文視頻全能解

案例五:在圖片中識(shí)別出隱藏的IP角色或?qū)ο筇卣?,進(jìn)而調(diào)用圖像搜索工具獲取補(bǔ)充信息。

3B!性能直逼旗艦,百度又一新模型開(kāi)源,圖文視頻全能解

案例六:在視頻理解部分,該模型具備在廣告視頻中定位不同時(shí)段內(nèi)容變化的能力,可輔助關(guān)鍵片段抽取與內(nèi)容分析。

3B!性能直逼旗艦,百度又一新模型開(kāi)源,圖文視頻全能解

這些案例覆蓋了圖表解析、學(xué)科解題、人物定位、圖像檢索與視頻分析等不同類(lèi)型的任務(wù),呈現(xiàn)出該模型在圖文結(jié)合、視覺(jué)推理及工具配合等方面的基礎(chǔ)能力。

整體來(lái)看,ERNIE-4.5-VL-28B-A3B-Thinking在多個(gè)復(fù)雜視覺(jué)任務(wù)中完成度較高,為評(píng)估其在真實(shí)場(chǎng)景下的多模態(tài)適應(yīng)性提供了初步參考。

結(jié)語(yǔ):激活參數(shù)3B,落地復(fù)雜任務(wù)鏈

隨著ERNIE-4.5-VL-28B-A3B-Thinking的開(kāi)源,百度進(jìn)一步豐富了其多模態(tài)模型體系中的應(yīng)用層模塊,為開(kāi)發(fā)者提供了兼具計(jì)算效率與推理能力的開(kāi)源模型選項(xiàng)。

在不依賴(lài)大規(guī)模激活參數(shù)的前提下,該模型已能覆蓋圖表解析、拍題解答、人物定位、視頻分析等多個(gè)復(fù)雜場(chǎng)景,為多模態(tài)智能體的認(rèn)知與執(zhí)行提供了可落地的能力支撐。

未來(lái),隨著相關(guān)工具鏈與模型能力不斷完善,這類(lèi)具備“圖像思考”能力的輕量模型,或?qū)⒃谡鎸?shí)環(huán)境中承擔(dān)更多感知、判斷與交互任務(wù)。