智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西12月18日報道,今日,火山引擎在FORCE原動力大會上正式發(fā)布豆包大模型1.8及音視頻創(chuàng)作模型Seedance 1.5 pro。評測數(shù)據(jù)顯示,豆包大模型在多模態(tài)理解、生成能力及Agent能力上,已躋身全球第一梯隊。

火山引擎總裁譚待稱,截至今年12月,豆包大模型日均token使用量突破50萬億,較去年同期增長超過10倍。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

目前其已有超過100家企業(yè)客戶累計token使用量超過1萬億。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

Seedance 1.5 pro音視頻創(chuàng)作模型則實現(xiàn)了毫秒級的音畫同步輸出,支持多人多語言對話,口型對齊精準(zhǔn),而且生成的視頻可展現(xiàn)出影視級敘事張力。

會后,譚待在接受媒體采訪時進一步分享了Seedance 1.5 pro的優(yōu)勢,音畫同步要不僅是聲音和畫面同步,還要做到與語義的同步,這需要很好的視頻模型、大語言模型、語義模型作為基礎(chǔ),而豆包在這些領(lǐng)域均表現(xiàn)領(lǐng)先。

他透露,Seedance系列很快將上線“Draft樣片”功能,通讓預(yù)覽視頻更快,成本也更低。

一、豆包大模型1.8:更強Agent能力、升級多模態(tài)理解、更靈活上下文管理

作為豆包家族的最新旗艦?zāi)P停拱竽P?.8(Doubao-Seed-1.8)面向多模態(tài)Agent場景進行了定向優(yōu)化。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

其工具調(diào)用能力、復(fù)雜指令遵循能力及OS Agent能力均得到增強,提升了模型在處理復(fù)雜任務(wù)時的規(guī)劃與執(zhí)行水平。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

在視覺理解方面,豆包1.8的單次視頻理解幀數(shù)從640幀倍增至1280幀。模型支持以低幀率理解超長視頻,并能調(diào)用工具對關(guān)鍵片段進行高幀率理解。該能力可廣泛用于在線教育、產(chǎn)品質(zhì)檢等場景中。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

豆包1.8支持256K上下文,擁有更靈活的上下文管理,擅長復(fù)雜多步任務(wù)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

二、多模態(tài)理解、GUI Agent、數(shù)學(xué)與推理評測分?jǐn)?shù)領(lǐng)先

在多項公開評測中,豆包1.8展現(xiàn)出具有競爭力的全面表現(xiàn):在視覺推理、通用視覺問答、空間理解及視頻理解等任務(wù)中,均獲得最佳或接近最佳成績;在通用智能體測評集BrowserComp上表現(xiàn)全球領(lǐng)先;在數(shù)學(xué)與推理等基礎(chǔ)能力維度上,整體水平已接近全球頂尖的通用模型。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

具體來看,在數(shù)學(xué)、推理和知識理解等核心基礎(chǔ)能力維度上,豆包1.8的整體水平接近業(yè)界頂級通用模型。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

該模型在多項復(fù)雜指令基準(zhǔn)中保持了與業(yè)界領(lǐng)先模型接近的表現(xiàn)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

它還將能力驗證擴展至由真實專家定義、具有明確經(jīng)濟價值的應(yīng)用場景,包括教育輔導(dǎo)、客服問答、信息處理、意圖識別、信息抽取以及多步驟復(fù)雜工作流等任務(wù)類型,驗證了模型在真實使用環(huán)境中的適用性。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

評測結(jié)果顯示,豆包1.8具備業(yè)界領(lǐng)先的GUI Agent能力,在電腦、網(wǎng)頁、移動端三類環(huán)境中,均展現(xiàn)出在不同系統(tǒng)和界面中執(zhí)行多步任務(wù)的可靠性。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

其搜索任務(wù)中表現(xiàn)同樣突出,在多組公開Agent搜索評測基準(zhǔn)中保持業(yè)界第一梯隊水平,比如在BrowseComp-en基準(zhǔn)測試中得分高達67.6,超過Gemini-3-Pro等其他頂級模型。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

在Agentic Coding相關(guān)基準(zhǔn)測試中,豆包1.8展現(xiàn)出了面向真實軟件工程場景的穩(wěn)定能力,表明其具備在真實開發(fā)環(huán)境中持續(xù)推進任務(wù)的Agent編程能力。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

FinSearchComp和XpertBench的測評顯示,該模型在處理金融商業(yè)相關(guān)任務(wù)時相對穩(wěn)定和高效。該模型在WorldTravel多模態(tài)應(yīng)用任務(wù)中得分達47.2,表明它在處理旅行規(guī)劃、用戶需求分析等真實場景需求時具有可靠性。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

此外,豆包1.8在多模態(tài)推理任務(wù)中超越了前代模型Seed1.5-VL,在大部分任務(wù)中接近目前最先進的Gemini-3-Pro。

在被認(rèn)為難度極高的視覺推理測試ZeroBench中,豆包1.8獲得11.0的最高得分。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

在通用視覺問答任務(wù)中,該模型在VLMsAreBiased基準(zhǔn)測試中取得了62.0的分?jǐn)?shù),大幅領(lǐng)先其他模型。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

豆包1.8在2D及3D空間理解的多個基準(zhǔn)測試中表現(xiàn)優(yōu)秀,在處理3D空間理解和復(fù)雜任務(wù)時,特別是在動態(tài)和復(fù)雜數(shù)據(jù)集上,表現(xiàn)出較好的適應(yīng)性和推理能力。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

在視頻理解領(lǐng)域,該模型表現(xiàn)出色,尤其在視頻推理、運動與感知、長視頻理解等任務(wù)中展現(xiàn)出較強的適應(yīng)性。它在動態(tài)場景和實時感知任務(wù)中也分?jǐn)?shù)領(lǐng)先,展現(xiàn)了模型在復(fù)雜感知任務(wù)中的能力,尤其是在處理實時信息時的高效性。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

豆包1.8在長視頻理解任務(wù)中同樣表現(xiàn)突出。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

在視頻處理中,它還實現(xiàn)了Token Efficiency的顯著提升,既帶來了更強的理解能力,又將提供更低延遲的實時視頻處理體驗。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

豆包1.8通過引入多種Thinking Modes,嵌入了動態(tài)調(diào)節(jié)思考深度的能力。用戶可根據(jù)任務(wù)的不同需求,靈活調(diào)整模型的推理深度和計算負(fù)載。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

項目主頁:https://seed.bytedance.com/seed1_8

部分為該模型研發(fā)構(gòu)建的評測數(shù)據(jù)集已開源,或?qū)⒃谖磥黹_源。

三、Seedance 1.5 pro:音畫高精同步,支持多人多語言對話

針對日益增長的視頻創(chuàng)作需求,火山引擎推出了Seedance 1.5 pro音視頻創(chuàng)作模型。該模型不僅具備影視級的敘事張力,能夠精準(zhǔn)捕捉運動細(xì)節(jié)并細(xì)膩呈現(xiàn)人物情緒,更是展現(xiàn)出在音畫高精同步方面的技術(shù)實力。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

Seedance 1.5 pro采用創(chuàng)新的原生音視頻聯(lián)合生成架構(gòu),支持環(huán)境音、背景音樂、人聲等多種元素,實現(xiàn)了毫秒級的音畫同步輸出。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊在對白處理上,模型支持多人多語言對話,口型對齊精準(zhǔn),覆蓋中文方言、英文及小語種,提升了視頻內(nèi)容的真實感與全球化創(chuàng)作潛力。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

該模型可生成具有影視級敘事張力的視頻效果。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

為進一步降低創(chuàng)作門檻與成本,Seedance系列即將上線“Draft樣片”功能。創(chuàng)作者可先生成低分辨率樣片進行預(yù)覽,其關(guān)鍵要素與最終成片高度一致,真正做到“預(yù)覽即所得”。

數(shù)據(jù)顯示,該功能可幫助創(chuàng)作者提升65%的整體效率,并減少60%的無效創(chuàng)作成本。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

目前,個人用戶已可在豆包、即夢AI等平臺體驗該模型。企業(yè)用戶則可從12月23日起,通過火山引擎API接入Seedance 1.5 pro模型服務(wù)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

四、升級AI云原生架構(gòu),構(gòu)建Agent規(guī)?;涞鼗?/strong>

譚待認(rèn)為,傳統(tǒng)的IT架構(gòu)已無法滿足Agent時代的需求,以模型為中心的AI云原生架構(gòu)正在形成,并圍繞Agent的開發(fā)與運營進行重構(gòu)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

在Agent開發(fā)層面,火山引擎全面升級了企業(yè)級AI Agent平臺——AgentKit。該平臺覆蓋了Agent從開發(fā)、部署到管控的全生命周期,旨在解決企業(yè)在Agent落地中面臨的身份權(quán)限管理、模型確定性及系統(tǒng)集成等核心挑戰(zhàn)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

在Agent運營層面,火山引擎推出了HiAgent智能體工作站。該工作站通過構(gòu)建統(tǒng)一的企業(yè)AI任務(wù)調(diào)度中心、提供一系列開箱即用的通用智能體,以及支持個性化定制智能體應(yīng)用,幫助企業(yè)實現(xiàn)Agent的規(guī)?;芾砼c應(yīng)用。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

此外,為降低企業(yè)使用門檻,火山引擎推出了業(yè)內(nèi)首個“AI節(jié)省計劃”。該計劃覆蓋所有按量后付費的大模型產(chǎn)品,通過階梯式折扣,幫助企業(yè)最高節(jié)省47%的成本。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

結(jié)語:從模型到基礎(chǔ)設(shè)施升級,推動AI應(yīng)用向復(fù)雜Agent生態(tài)演進

面向AI,火山引擎的AI云原生基礎(chǔ)設(shè)施持續(xù)進化。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進入全球第一梯隊

譚待談道,通過從模型能力到基礎(chǔ)設(shè)施的全面革新,火山引擎正在推動AI應(yīng)用從單一的模型調(diào)用向復(fù)雜的Agent智能體生態(tài)演進,加速AI能力在各行各業(yè)的深度落地。