智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西10月15日?qǐng)?bào)道,今日,火山引擎在視頻云技術(shù)大會(huì)上發(fā)布大模型訓(xùn)練視頻預(yù)處理方案,助力解決視頻大模型訓(xùn)練的成本、質(zhì)量、性能等方面的技術(shù)挑戰(zhàn)。該技術(shù)方案現(xiàn)已應(yīng)用于豆包視頻生成模型。

火山引擎還發(fā)布并開(kāi)源了移動(dòng)端后處理解決方案BMF lite版本。BMF lite支持端側(cè)大模型接入和算子加速,更加輕量、通用。

攻破AI視頻大模型訓(xùn)練挑戰(zhàn)!火山引擎送上“神助攻”,方案已應(yīng)用于豆包,披露視頻云出海全景圖

同時(shí),火山引擎推出跨語(yǔ)言同聲復(fù)刻直播方案、多模態(tài)視頻理解與生成方案對(duì)話式AI實(shí)時(shí)交互方案AIG3D&大場(chǎng)景重建方案,從視頻的生產(chǎn)端、交互端到消費(fèi)端,全鏈路融入AI能力。

去年推出的字節(jié)自研視頻編解碼芯片,經(jīng)過(guò)抖音集團(tuán)內(nèi)部的實(shí)踐驗(yàn)證,在同等視頻壓縮效率下,成本節(jié)省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。該芯片將于近期正式對(duì)外開(kāi)放測(cè)試,招募首批種子用戶,共同探索商業(yè)價(jià)值的可復(fù)制性。

火山引擎也與出海先鋒攜手,從趨勢(shì)、技術(shù)、玩法等角度共同探索出海新增長(zhǎng)機(jī)遇?;鹕揭嬉曨l云國(guó)際業(yè)務(wù)負(fù)責(zé)人梁建在會(huì)上發(fā)布了出海全景圖。

攻破AI視頻大模型訓(xùn)練挑戰(zhàn)!火山引擎送上“神助攻”,方案已應(yīng)用于豆包,披露視頻云出海全景圖

火山引擎總裁譚待在致辭時(shí)談道,洶涌而來(lái)的技術(shù)浪潮帶來(lái)前所未有的挑戰(zhàn):1)生成式AI帶動(dòng)視頻數(shù)據(jù)指數(shù)級(jí)增長(zhǎng),對(duì)計(jì)算效能提出嚴(yán)峻考驗(yàn);2)多模態(tài)媒體處理需求日益凸顯,對(duì)音視頻處理的生產(chǎn)端、交互端、消費(fèi)端提出了全新要求;3)如何讓技術(shù)應(yīng)用真正落地并帶來(lái)世紀(jì)業(yè)務(wù)價(jià)值,是當(dāng)前必須面對(duì)的問(wèn)題。

應(yīng)對(duì)這些挑戰(zhàn),火山引擎視頻云基于抖音真實(shí)業(yè)務(wù)實(shí)踐和與行業(yè)客戶共創(chuàng),正積極探索大模型AI與視頻技術(shù)的深度融合;在技術(shù)底座層面,依托自研的算力編解碼技術(shù)和多媒體處理框架,致力于優(yōu)化成本并提升計(jì)算效率;在處理鏈路層面,結(jié)合大模型和AI技術(shù),全面優(yōu)化了生產(chǎn)交互和消費(fèi)鏈路,以打造更智能、更交互、更沉浸的用戶體驗(yàn);在業(yè)務(wù)增長(zhǎng)層面,與抖音平臺(tái)生態(tài)緊密聯(lián)動(dòng),構(gòu)建從內(nèi)容分發(fā)到變現(xiàn)的全鏈條業(yè)務(wù)增長(zhǎng)模式。

一、應(yīng)對(duì)AI視頻時(shí)代技術(shù)挑戰(zhàn):自研芯片對(duì)外開(kāi)測(cè),BML視頻處理框架上新

抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅分享了一組來(lái)自市場(chǎng)調(diào)研機(jī)構(gòu)的數(shù)據(jù):視頻是云業(yè)務(wù)中增長(zhǎng)最快的工作負(fù)載之一;到2026年,視頻在數(shù)據(jù)中心基礎(chǔ)設(shè)施中的占比將從10%增長(zhǎng)到20%~25%;到2024~2030年,市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)千億美元。

他談道,AI視頻時(shí)代面臨三重挑戰(zhàn):一是計(jì)算效能,生成式AI技術(shù)大幅降低視頻生成的門檻,導(dǎo)致視頻數(shù)據(jù)以驚人的20倍速增長(zhǎng);二是編解碼極限,編解碼技術(shù)的智能化升級(jí)正推動(dòng)與AI/大模型技術(shù)的深度融合,不僅提升了編解碼效率,而且為用戶帶來(lái)了更加優(yōu)質(zhì)的視頻體驗(yàn);三是框架瓶頸,需要構(gòu)建更強(qiáng)大、更靈活的多媒體處理框架,滿足日多模態(tài)/跨模態(tài)預(yù)訓(xùn)練處理需求。

王悅宣布,火山引擎去年推出的自研視頻編解碼芯片取得顯著進(jìn)展,在抖音集團(tuán)內(nèi)部實(shí)踐驗(yàn)證中實(shí)現(xiàn)了效率的顯著提升和成本的大幅降低,在同等視頻壓縮效率下,成本節(jié)省了95%以上。火山引擎也將首次正式對(duì)外開(kāi)放測(cè)試,招募首批種子用戶,共同探索商業(yè)價(jià)值的可復(fù)制性。該芯片的BVE1.2編碼器,在2024MSU世界編碼器大賽中首次亮相就以其優(yōu)異的編解碼性能和吞吐率的大幅領(lǐng)先,奪得最佳ASIC編碼器。

智能編解碼的算法層,火山引擎的圖像視頻壓縮技術(shù)也取得了突破性進(jìn)展,其自研編解碼技術(shù)BVC升級(jí)到更高效的第二代,并融合了深度學(xué)習(xí)技術(shù),推出了傳統(tǒng)-智能混合編解碼解決方案。

該方案在充分理解傳統(tǒng)編碼技術(shù)和深度學(xué)習(xí)壓縮技術(shù)各自原理的基礎(chǔ)上,將二者有機(jī)的融合成一體。傳統(tǒng)編碼框架加入了非對(duì)稱四叉樹(shù)劃分等創(chuàng)新技術(shù),智能編碼模塊則引入了基于深度學(xué)習(xí)的環(huán)路濾波、自適應(yīng)變采樣等技術(shù)。這種結(jié)合極大提升了編解碼的效率,該方案在第六屆深度學(xué)習(xí)圖像壓縮挑戰(zhàn)賽的高碼率和低馬力兩個(gè)壓縮賽道上均取得了主觀和客觀的雙料指標(biāo)冠軍。

框架層面,火山引擎自研視頻處理框架BMF自去年開(kāi)源以來(lái),在助力AI初創(chuàng)項(xiàng)目落地和移動(dòng)端開(kāi)源層面不斷演進(jìn),今日進(jìn)一步發(fā)布并開(kāi)源移動(dòng)端后處理解決方案BMF lite版本。

BMF lite具有更輕量、更通用、更高效、更前沿等特點(diǎn),比如它沒(méi)有第三方依賴,具有輕量化的結(jié)構(gòu)設(shè)計(jì)、多平臺(tái)統(tǒng)一的接口形式、Kernel融合方案等,支持端側(cè)大模型接入和算子加速、算法間復(fù)用資源。

目前BMF lite已廣泛應(yīng)用于抖音各業(yè)務(wù)上,每天服務(wù)超10億名用戶,處理視頻圖片萬(wàn)億次。

由于端側(cè)對(duì)功耗和內(nèi)存非常敏感,火山引擎重點(diǎn)建設(shè)基于跨平臺(tái)資源復(fù)用的算法包框架設(shè)計(jì),整體對(duì)外將采用跨平臺(tái)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì),適配安卓、iOS、Web、PC等平臺(tái),復(fù)用相同的算法實(shí)例,不同算法可復(fù)用算子及數(shù)據(jù)資源。這個(gè)方案針對(duì)點(diǎn)播和直播后處理的場(chǎng)景收益明顯。

在模塊算法層面,火山引擎此次開(kāi)源對(duì)外輸出了超分、降噪、大模型文生圖算法能力,選取的模型是開(kāi)源的,將在一些抖音實(shí)際落地的工程優(yōu)化方案應(yīng)用到模型加速中?;鹕揭嬉餐介_(kāi)源了基于GPU加速的7種常用基礎(chǔ)圖像算子能力,并充分?jǐn)U充了客戶端的一些異構(gòu)能力,包括DSP、NPU、端側(cè)GPU。

二、依托BMF框架,視頻生成大模型已上線火山引擎

對(duì)訓(xùn)練視頻進(jìn)行預(yù)處理是保障大模型訓(xùn)練效果的重要前提。預(yù)處理過(guò)程可統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息,從而使模型能更高效地學(xué)習(xí)視頻中的特征和知識(shí),提升訓(xùn)練效果和效率。

隨著視頻生成模型興起,訓(xùn)練大模型的處理框架面臨諸多挑戰(zhàn):首先是成本挑戰(zhàn),超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計(jì)算和處理成本激增;其次是質(zhì)量挑戰(zhàn),視頻樣本數(shù)據(jù)質(zhì)量參差不齊,處理鏈路環(huán)節(jié)多、工程復(fù)雜,數(shù)據(jù)樣本待分類、分段和清洗;三是性能挑戰(zhàn),涉及多種異構(gòu)算力資源的調(diào)度和部署。

借助英特爾CPU等資源,火山引擎大模型訓(xùn)練視頻預(yù)處理方案依托于自研多媒體處理框架BMF,能有效應(yīng)對(duì)模型訓(xùn)練的算力成本挑戰(zhàn)。該方案還在算法和工程方面進(jìn)行了調(diào)優(yōu),可以對(duì)海量視頻數(shù)據(jù)高質(zhì)量預(yù)處理,短時(shí)間內(nèi)實(shí)現(xiàn)處理鏈路的高效協(xié)同,提高模型訓(xùn)練效率。

BMF通過(guò)和豆包大模型團(tuán)隊(duì)合作,對(duì)海量視頻數(shù)據(jù)進(jìn)行了預(yù)處理。基于火山引擎視頻處理平臺(tái)和BMF框架,火山引擎短時(shí)間內(nèi)生產(chǎn)了足夠多高質(zhì)量的視頻素材用于模型訓(xùn)練,也有力支撐了視頻生成大模型的上線與調(diào)優(yōu)。

火山BMF大模型訓(xùn)練視頻預(yù)處理方案應(yīng)對(duì)成本挑戰(zhàn),使用了海量的潮汐資源和精細(xì)化混部調(diào)度;應(yīng)對(duì)質(zhì)量及性能挑戰(zhàn),使用30+種算子對(duì)視頻進(jìn)行了多維度分析和篩選,利用DMF框架靈活調(diào)度將復(fù)雜的算子處理流程靈活部署在多種資源上,實(shí)現(xiàn)了快速的性能調(diào)優(yōu);應(yīng)對(duì)協(xié)同挑戰(zhàn),利用BMF動(dòng)態(tài)模塊特性,實(shí)現(xiàn)插件化解耦、多語(yǔ)言開(kāi)發(fā),相比傳統(tǒng)框架將迭代效率提升了數(shù)倍。

英特爾大數(shù)據(jù)高級(jí)首席工程師程從超分享說(shuō),大模型和生成式AI時(shí)代面臨高算力、高質(zhì)量數(shù)據(jù)集、改善描述復(fù)雜性、構(gòu)建開(kāi)源生態(tài)等方面的挑戰(zhàn)。視頻轉(zhuǎn)碼性能對(duì)CPU的計(jì)算能力敏感,CPU的頻率、核數(shù)和cache的大小都很重要。通常視頻處理的節(jié)點(diǎn)都是數(shù)據(jù)中心里性能較為高端的服務(wù)器。

英特爾能夠?yàn)椴煌囊曨l處理選擇最合適的平臺(tái),比如一機(jī)多卡高密度GPU可滿足編解碼密度和成本需求,CPU和GPU方案的靈活配置能夠根據(jù)具體應(yīng)用來(lái)分配資源,至強(qiáng)CPU可實(shí)現(xiàn)視頻質(zhì)量最優(yōu)、編碼靈活、穩(wěn)定可靠。

攻破AI視頻大模型訓(xùn)練挑戰(zhàn)!火山引擎送上“神助攻”,方案已應(yīng)用于豆包,披露視頻云出海全景圖

三、多項(xiàng)“音視頻+AI”技術(shù)方案,助力企業(yè)全鏈路適配AIGC

火山引擎視頻云團(tuán)隊(duì)為字節(jié)跳動(dòng)提供音視頻技術(shù),并通過(guò)火山引擎服務(wù)外部客戶。

Bytedance Research負(fù)責(zé)人李航談道,豆包視頻生成模型PixelDance在訓(xùn)練過(guò)程中采用了火山引擎大模型訓(xùn)練視頻預(yù)處理方案,充分利用了大量潮汐資源,為模型訓(xùn)練提供了有力支撐。

火山引擎視頻云團(tuán)隊(duì)提供的點(diǎn)播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式服務(wù),讓模型的商業(yè)化應(yīng)用有了保障。

豆包視頻生成模型PixelDance于9月24日發(fā)布,該模型采用DiT架構(gòu),通過(guò)高效的DiT融合計(jì)算單元和全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法,突破了多主體運(yùn)動(dòng)的復(fù)雜交互、多鏡頭切換的內(nèi)容一致性難題。目前,豆包視頻生成模型已通過(guò)火山引擎面向企業(yè)開(kāi)啟邀測(cè)。

PixelDance1.4新版本有四大特點(diǎn):1、能生成人物的復(fù)雜連續(xù)動(dòng)作;2、能生成復(fù)雜的多主體交互;3、能一次性生成多鏡頭視頻;4、擁有超強(qiáng)的運(yùn)鏡控制能力。

其核心技術(shù)包括大規(guī)模擴(kuò)散生成模型、高壓縮比&高還原性視頻編碼解碼模型、精準(zhǔn)視頻描述模型、大規(guī)模公開(kāi)視頻數(shù)據(jù)處理管線等。

火山引擎視頻云負(fù)責(zé)人Yongyuan談道,在AI視頻時(shí)代,人和AI交互變得更加動(dòng)態(tài)和生動(dòng),這要求處理鏈路更加智能和交互

會(huì)上,火山引擎發(fā)布了跨語(yǔ)言同聲復(fù)刻直播方案、多模態(tài)視頻理解與生成方案、對(duì)話式AI實(shí)時(shí)交互方案AIG3D&大場(chǎng)景重建方案,從視頻的生產(chǎn)端、交互端到消費(fèi)端,全鏈路融入AI能力。

攻破AI視頻大模型訓(xùn)練挑戰(zhàn)!火山引擎送上“神助攻”,方案已應(yīng)用于豆包,披露視頻云出海全景圖

生產(chǎn)端,跨語(yǔ)言同聲復(fù)刻直播方案能夠優(yōu)化同傳直播,實(shí)現(xiàn)更加精準(zhǔn)的字幕識(shí)別、更快輸出并帶有自然斷句,還通過(guò)虛擬人技術(shù)調(diào)整口型,支持6國(guó)以上的語(yǔ)言輸出;多模態(tài)視頻理解與生成方案能夠應(yīng)用于短劇、賽事、教育等場(chǎng)景;多模態(tài)電商素材生成方案可生成圖文、解說(shuō)、AIGC視頻和3D模型。

交互端,依托豆包大模型和火山引擎視頻云自研的多項(xiàng)算法,對(duì)話式AI實(shí)時(shí)交互方案使得人與AI的交互更加自然,提供了智能對(duì)話和自然語(yǔ)言處理的強(qiáng)大能力、媲美真人的自然生動(dòng)音色,也支持聲音復(fù)刻,可實(shí)現(xiàn)毫秒級(jí)人聲檢測(cè)和打斷響應(yīng),能過(guò)濾90%噪聲,精準(zhǔn)識(shí)別打斷意圖,并通過(guò)流式處理將端到端響應(yīng)延時(shí)降低至1秒。

消費(fèi)端,AIG3D方案使3D構(gòu)建更便捷;大場(chǎng)景重建方案具有高效渲染速度,支持二次創(chuàng)作,可低成本生成直播布景,使場(chǎng)景重建更真實(shí);6DoF直播方案提供實(shí)時(shí)3D模型渲染、低延時(shí)6DoF并能降低采集成本,讓空間體驗(yàn)更沉浸。

例如,火山引擎通過(guò)AI生成3D內(nèi)容和大場(chǎng)景重建方案,為山西高平二郎廟金代戲臺(tái)和北京正乙祠兩座珍貴的歷史建筑生成了3D數(shù)字資產(chǎn),并以虛擬直播間的形式應(yīng)用于抖音戲曲直播場(chǎng)景。

攻破AI視頻大模型訓(xùn)練挑戰(zhàn)!火山引擎送上“神助攻”,方案已應(yīng)用于豆包,披露視頻云出海全景圖

抖音開(kāi)放平臺(tái)開(kāi)發(fā)者運(yùn)營(yíng)負(fù)責(zé)人李建男分享了AI新產(chǎn)能助力業(yè)務(wù)增長(zhǎng)的三個(gè)關(guān)鍵詞——創(chuàng)建新場(chǎng)景、制造新體驗(yàn)、塑造新產(chǎn)能。她分享了一些數(shù)據(jù):AI智能體將直播間變現(xiàn)效率提升了36%;生成式AI大大降低創(chuàng)作門檻,帶動(dòng)圖片、視頻、故事、IP、辦公、學(xué)習(xí)等優(yōu)質(zhì)內(nèi)容量級(jí)增長(zhǎng)200%;引入AI創(chuàng)作工具能帶動(dòng)視頻投稿量、平均W數(shù)、內(nèi)容豐富度的有效增長(zhǎng)。

李建男總結(jié)道,通過(guò)三方模型引入數(shù)據(jù)場(chǎng)景開(kāi)放,能夠?qū)崿F(xiàn)垂類深度支持,帶動(dòng)線索轉(zhuǎn)化率提升,從而提升營(yíng)銷效果,這對(duì)服務(wù)商是一個(gè)非常好的機(jī)遇,可帶動(dòng)服務(wù)商商業(yè)價(jià)值提升,進(jìn)而帶來(lái)更多精準(zhǔn)語(yǔ)料,進(jìn)一步驅(qū)動(dòng)技術(shù)進(jìn)步,實(shí)現(xiàn)更好的模型訓(xùn)練效果提升。

結(jié)語(yǔ):AI+視頻技術(shù)深度融合,推動(dòng)用戶體驗(yàn)多維度轉(zhuǎn)變

生成式AI為視頻化社會(huì)帶來(lái)了革命性變化,不僅能提升內(nèi)容創(chuàng)作效果,還豐富了交互體驗(yàn)。在AIGC、多模態(tài)等技術(shù)的共同推動(dòng)下,用戶體驗(yàn)在多個(gè)維度上經(jīng)歷著深刻轉(zhuǎn)變。

與此同時(shí),AI+視頻也給底層技術(shù)的效能化、編解碼的智能化、處理框架的廣泛化帶來(lái)新挑戰(zhàn)。作為AI視頻時(shí)代智能底座的構(gòu)建商,火山引擎希望讓多媒體處理框架的部署更加規(guī)模化、普惠化,進(jìn)一步控制算力成本和提高計(jì)算效率,推動(dòng)編解碼與智能技術(shù)更好融合,從而提升最終的體驗(yàn)效果。