智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會于4月18-19日在北京舉行,在大會第二天的主會場AIGC應(yīng)用專場上,極佳科技創(chuàng)始人&CEO黃冠博士以《技術(shù)與應(yīng)用閉環(huán),從視頻生成走向世界模型》為題發(fā)表演講。

黃冠認為,當下所有“通用智能”都在走向“端到端大模型”,一切問題都變成了“高質(zhì)量數(shù)據(jù)”問題。“世界模型”是未來具身智能最重要的“高質(zhì)量數(shù)據(jù)”來源,它結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)、遙操數(shù)據(jù)、真實采集數(shù)據(jù)等多種數(shù)據(jù),學(xué)習(xí)、訓(xùn)練、組合,從而得到交互式物理世界模擬器。

極佳科技正基于世界模型打造新一代數(shù)據(jù)平臺,面向端到端自動駕駛和通用機器人提供服務(wù)。極佳科技DriveDreamer自動駕駛世界模型、WorldDreamer通用世界模型目前已成功商業(yè)化落地。

以下為黃冠的演講實錄:

今天我主要跟大家匯報討論一下我們在視頻生成、世界模型方面相關(guān)的思考和進展,以及主要想分享一下我們對于打造通用具身智能新一代數(shù)據(jù)引擎的想法。

我們總結(jié)了通用智能目前大的發(fā)展趨勢,整個行業(yè)在從以GPT和Sora為代表的通用內(nèi)容智能,走向通用行動智能。無論是Agent、自動駕駛還是機器人,其核心是從產(chǎn)生內(nèi)容到產(chǎn)生行動。當大模型能可靠地產(chǎn)生行動,那么對整個經(jīng)濟和社會的影響肯定是更大范圍的,才是大家所謂的走向真正的“第四次工業(yè)革命”。

一、世界模型發(fā)展三大方向:視頻生成、自動駕駛、通用機器人

世界模型這個詞一開始是楊立昆提出的,他說GPT不能達到AGI,我們需要世界模型。其實這兩年國內(nèi)外,大家越來越認識到世界模型的重要性,核心是分三個方向在發(fā)展,包括視頻生成、自動駕駛和通用機器人,都非常關(guān)注世界模型的進展。

極佳科技黃冠:為通用具身智能打造數(shù)據(jù)引擎,商業(yè)化落地速度國內(nèi)最快丨GenAICon 2024

首先是視頻生成。今年年初Sora引爆整個AI圈子,值得注意的是OpenAI并沒有把Sora看成一個單純的文生視頻模型,而是把它叫做World Simulator(世界模擬器),這就有了世界模型的雛形。去年下半年Runway也公開宣布說他們要走向通用世界模型。

我們也有一個工作叫WorldDreamer,應(yīng)該是全球比較領(lǐng)先的用Transformer新一代架構(gòu),不是Diffusion架構(gòu),去走向通用視頻生成和世界模型。

極佳科技黃冠:為通用具身智能打造數(shù)據(jù)引擎,商業(yè)化落地速度國內(nèi)最快丨GenAICon 2024

其次我們看到自動駕駛這個行業(yè)。既然是世界模型,一定會影響物理世界,會對物理世界有極強的理解和預(yù)測能力。

所以我們看到特斯拉從去年年中開始說他們在做General World Model(通用世界模型),同時特斯拉不斷在視頻基礎(chǔ)模型這個方向加大投入。還有Wayve是一家英國的自動駕駛公司,這是比爾·蓋茨在投了OpenAI之后,立馬就去英國投的一家公司,因為比爾·蓋茨覺得Wayve讓他看到了物理世界AGI的希望。

極佳科技也是國內(nèi)最早開始做自動駕駛世界模型的公司,我們的模型叫DriveDreamer,目前已經(jīng)實現(xiàn)了大規(guī)模的商業(yè)落地應(yīng)用。

更大的趨勢,大家看到現(xiàn)在在通用機器人方向,伯克利、Covariant做了一系列跟世界模擬器、世界模型相關(guān)的工作,包括他們最近發(fā)的RFM機器人大模型相關(guān)工作。谷歌也在做可交互式的世界模型,人形機器人創(chuàng)企1X也通過世界模型預(yù)測未來、實現(xiàn)通用機器人。

全球世界模型跟視頻生成、自動駕駛、通用機器人行業(yè)結(jié)合起來,正在非??焖侔l(fā)展。

二、通用智能走向端到端大模型,世界模型是最重要的高質(zhì)量數(shù)據(jù)來源

目前的趨勢是,所有通用智能都在走向端到端大模型,無論是生成式智能,包括語言、視頻、圖像、3D等的理解和生成;還是具身智能,包括自動駕駛、通用機器人等。

特別是自動駕駛,大家看到最近馬斯克頻頻給特斯拉V12造勢,它是標準的Video-in Action-out(視頻輸入-動作輸出)系統(tǒng)。通用機器人也是最新的硅谷趨勢,大家都在走向端到端、Video-in Action-out這樣一個范式。

在這個趨勢下,一切問題就變成了高質(zhì)量數(shù)據(jù)的問題,因為這已經(jīng)不再是過去規(guī)則驅(qū)動的系統(tǒng)了,需要高質(zhì)量端到端的數(shù)據(jù)去迭代,去訓(xùn)練這樣生成式智能或具身智能的系統(tǒng)。

我們認為,世界模型是未來具身智能最重要的高質(zhì)量數(shù)據(jù)來源?,F(xiàn)在大家看到有很多種解決數(shù)據(jù)問題的方式,包括從互聯(lián)網(wǎng)的圖像、視頻數(shù)據(jù)去學(xué)習(xí),還有用仿真數(shù)據(jù)去學(xué)習(xí),或者像斯坦福通過ALOHA機器人等遙操設(shè)備去做端到端學(xué)習(xí),自動駕駛或機器人通過真實采集的數(shù)據(jù)去學(xué)習(xí)。

行業(yè)里大家首先通過各種仿真的方式去解決Sim2Real的問題,以及通過更大規(guī)模的部署,解決更多真實數(shù)據(jù)來源的問題。

所以我們認為未來的數(shù)據(jù)來源一定會走向世界模型,它會結(jié)合上面所有數(shù)據(jù)去學(xué)習(xí)訓(xùn)練組合,得到交互式的物理世界模擬器。

三、基于世界模型打造新一代數(shù)據(jù)平臺,商業(yè)化落地速度國內(nèi)最快

我們目前在做的事情,就是基于世界模型打造新一代的數(shù)據(jù)平臺,面向端到端自動駕駛和通用機器人。平臺底層是一個以視頻生成和世界模型為核心的基礎(chǔ)模型。大家知道Sora目前是不可用的,無論是成本還是速度,我們會追求速度和成本達到數(shù)量級的降低。

同時我們會有完備的平臺服務(wù),通過數(shù)據(jù)方式去服務(wù)端到端通用自動駕駛,以及通用機器人的通用操作、通用移動等相關(guān)場景,助力具身智能行業(yè)爆發(fā)。

極佳科技目前在自動駕駛世界模型上,相關(guān)技術(shù)是全球最領(lǐng)先的之一,同時我們商業(yè)化速度也是全球最快的。我們和國內(nèi)很多主流的頭部主機廠已經(jīng)開始實際的商業(yè)合作,通過世界模型,用于數(shù)據(jù)生成、閉環(huán)仿真等相關(guān)方向。

極佳科技黃冠:為通用具身智能打造數(shù)據(jù)引擎,商業(yè)化落地速度國內(nèi)最快丨GenAICon 2024

同時,更具想象力和價值的場景,是我們面向通用機器人的世界模型和物理世界模擬器,這個方向我們的技術(shù)目前在國內(nèi)也是比較領(lǐng)先的,同時我們商業(yè)化落地速度也是國內(nèi)最快的。

其核心跟駕駛一樣,首先它可以作為一個模擬器在通用機器人的數(shù)據(jù)生成、閉環(huán)仿真方面有重要的作用,同時后面也可以作為方案一部分,走向機器人的端到端方案。這個范式跟過去的自動駕駛和機器人分模塊范式很不一樣,會走向大一統(tǒng)的面向通用具身智能的端到端整體架構(gòu)。

極佳科技黃冠:為通用具身智能打造數(shù)據(jù)引擎,商業(yè)化落地速度國內(nèi)最快丨GenAICon 2024以上是黃冠演講內(nèi)容的完整整理。