亚洲人妻一区二区三区a,欧美男男激情video,av在线免费播放网

智東西（公眾號(hào)：zhidxcom）
作者 | 江宇
編輯 | 漠影

智東西11月11日?qǐng)?bào)道，百度今日正式開(kāi)源多模態(tài)思考模型ERNIE-4.5-VL-28B-A3B-Thinking。

作為一款激活參數(shù)僅為3B的輕量級(jí)模型，該模型在視覺(jué)語(yǔ)言理解、跨模態(tài)推理和工具調(diào)用等多個(gè)方向?qū)崿F(xiàn)能力躍升。目前，該版本在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)逼近當(dāng)前業(yè)界旗艦?zāi)Ｐ?，?shí)現(xiàn)了接近SOTA的視覺(jué)表現(xiàn)。

3B！性能直逼旗艦，百度又一新模型開(kāi)源，圖文視頻全能解

該模型基于ERNIE-4.5-VL-28B-A3B架構(gòu)構(gòu)建，并在中期訓(xùn)練階段引入海量高質(zhì)量視覺(jué)語(yǔ)言數(shù)據(jù)，有效提升了視覺(jué)與文本模態(tài)間的語(yǔ)義對(duì)齊能力。此外，該模型還通過(guò)大規(guī)模多模態(tài)強(qiáng)化學(xué)習(xí)優(yōu)化任務(wù)執(zhí)行效果，采用GSPO與IcePop策略穩(wěn)定MoE結(jié)構(gòu)，配合動(dòng)態(tài)難度采樣機(jī)制提升學(xué)習(xí)效率。

在此基礎(chǔ)上，ERNIE-4.5-VL-28B-A3B-Thinking推出了“圖像思考”等交互能力，支持圖像放大、圖像搜索等外部工具調(diào)用，為開(kāi)發(fā)者構(gòu)建具備感知與執(zhí)行能力的多模態(tài)智能體提供了能力支撐。

一、“圖像思考”能力釋放交互潛力，定位與工具調(diào)用機(jī)制雙升級(jí)

為進(jìn)一步拓展模型在真實(shí)場(chǎng)景下的多模態(tài)交互能力，ERNIE-4.5-VL-28B-A3B-Thinking新增“圖像思考”機(jī)制，支持用戶在圖像上進(jìn)行自由放大縮小的焦點(diǎn)切換，并結(jié)合圖像搜索等工具快速獲取上下文信息。該能力尤其適用于處理長(zhǎng)尾視覺(jué)知識(shí)、圖像細(xì)節(jié)識(shí)別等任務(wù)。

同時(shí)，為響應(yīng)開(kāi)發(fā)者社區(qū)對(duì)“空間定位”能力的反饋，該模型在指令遵循性與定位觸發(fā)機(jī)制上也進(jìn)行了增強(qiáng)。用戶可更靈活地控制模型觸發(fā)視覺(jué)定位功能，在圖像理解任務(wù)中實(shí)現(xiàn)語(yǔ)義到坐標(biāo)的直接轉(zhuǎn)換。

ERNIE-4.5-VL-28B-A3B-Thinking的工具調(diào)用能力也同步升級(jí)，支持在不確定圖像環(huán)境下動(dòng)態(tài)決策是否調(diào)用外部輔助工具，實(shí)現(xiàn)更高效的信息獲取鏈條。此能力是構(gòu)建多模態(tài)智能體的關(guān)鍵組成部分。

二、圖像理解+定位+搜索+推理，完成多種復(fù)雜視覺(jué)難題

在官方展示的多個(gè)實(shí)際案例中，ERNIE-4.5-VL-28B-A3B-Thinking均展現(xiàn)出其圖像解析與思維能力。

案例一：在一個(gè)涉及圖表閱讀的場(chǎng)景中，該模型成功解析出復(fù)雜公共交通圖表中不同時(shí)間段的客流高峰，推理出避開(kāi)高峰的出行策略。

3B！性能直逼旗艦，百度又一新模型開(kāi)源，圖文視頻全能解

案例二：在STEM題目中，該模型可根據(jù)拍照上傳的電學(xué)題，識(shí)別電路結(jié)構(gòu)并準(zhǔn)確計(jì)算等效電阻結(jié)果。

3B！性能直逼旗艦，百度又一新模型開(kāi)源，圖文視頻全能解

案例三：在視覺(jué)定位任務(wù)中，該模型能夠識(shí)別圖中穿西裝并佩戴禮帽的多位人物，并將其定位信息通過(guò)邊界框形式可視化輸出，實(shí)現(xiàn)從語(yǔ)義描述到圖像坐標(biāo)的轉(zhuǎn)化。

3B！性能直逼旗艦，百度又一新模型開(kāi)源，圖文視頻全能解

▲測(cè)試圖（上）和該模型執(zhí)行視覺(jué)定位任務(wù)后輸出的可視化展示圖（下）。

案例四：配合“圖像思考”能力，該模型在圖像細(xì)節(jié)部分實(shí)現(xiàn)縮放聚焦。

3B！性能直逼旗艦，百度又一新模型開(kāi)源，圖文視頻全能解

案例五：在圖片中識(shí)別出隱藏的IP角色或?qū)ο筇卣?，進(jìn)而調(diào)用圖像搜索工具獲取補(bǔ)充信息。

3B！性能直逼旗艦，百度又一新模型開(kāi)源，圖文視頻全能解

案例六：在視頻理解部分，該模型具備在廣告視頻中定位不同時(shí)段內(nèi)容變化的能力，可輔助關(guān)鍵片段抽取與內(nèi)容分析。

3B！性能直逼旗艦，百度又一新模型開(kāi)源，圖文視頻全能解

這些案例覆蓋了圖表解析、學(xué)科解題、人物定位、圖像檢索與視頻分析等不同類(lèi)型的任務(wù)，呈現(xiàn)出該模型在圖文結(jié)合、視覺(jué)推理及工具配合等方面的基礎(chǔ)能力。

整體來(lái)看，ERNIE-4.5-VL-28B-A3B-Thinking在多個(gè)復(fù)雜視覺(jué)任務(wù)中完成度較高，為評(píng)估其在真實(shí)場(chǎng)景下的多模態(tài)適應(yīng)性提供了初步參考。

結(jié)語(yǔ)：激活參數(shù)3B，落地復(fù)雜任務(wù)鏈

隨著ERNIE-4.5-VL-28B-A3B-Thinking的開(kāi)源，百度進(jìn)一步豐富了其多模態(tài)模型體系中的應(yīng)用層模塊，為開(kāi)發(fā)者提供了兼具計(jì)算效率與推理能力的開(kāi)源模型選項(xiàng)。

在不依賴(lài)大規(guī)模激活參數(shù)的前提下，該模型已能覆蓋圖表解析、拍題解答、人物定位、視頻分析等多個(gè)復(fù)雜場(chǎng)景，為多模態(tài)智能體的認(rèn)知與執(zhí)行提供了可落地的能力支撐。

未來(lái)，隨著相關(guān)工具鏈與模型能力不斷完善，這類(lèi)具備“圖像思考”能力的輕量模型，或?qū)⒃谡鎸?shí)環(huán)境中承擔(dān)更多感知、判斷與交互任務(wù)。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、“圖像思考”能力釋放交互潛力，定位與工具調(diào)用機(jī)制雙升級(jí)

二、圖像理解+定位+搜索+推理，完成多種復(fù)雜視覺(jué)難題

結(jié)語(yǔ)：激活參數(shù)3B，落地復(fù)雜任務(wù)鏈

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、“圖像思考”能力釋放交互潛力，定位與工具調(diào)用機(jī)制雙升級(jí)

二、圖像理解+定位+搜索+推理，完成多種復(fù)雜視覺(jué)難題

結(jié)語(yǔ)：激活參數(shù)3B，落地復(fù)雜任務(wù)鏈

相關(guān)推薦

一、“圖像思考”能力釋放交互潛力，定位與工具調(diào)用機(jī)制雙升級(jí)

二、圖像理解+定位+搜索+推理，完成多種復(fù)雜視覺(jué)難題

結(jié)語(yǔ)：激活參數(shù)3B，落地復(fù)雜任務(wù)鏈