智東西(公眾號:zhidxcom)
編譯 | 云鵬
編輯 | 漠影

智東西6月12日消息,剛剛,Meta發(fā)布了最新的開源世界模型V-JEPA 2,稱其在物理世界中實現(xiàn)了最先進的視覺理解和預(yù)測,從而提高了AI agents的物理推理能力。

楊立昆親自發(fā)布:Meta最強世界模型開源

Meta副總裁、首席AI科學(xué)家楊立昆(Yann LeCun)在官方視頻中提到,在世界模型的幫助下,AI不再需要數(shù)百萬次的訓(xùn)練才能掌握一項新的能力,世界模型直接告訴了AI世界是怎樣運行的,這可以極大提升效率。

比如AI會預(yù)測我們舀出一勺東西是要放入另一個容器中:

楊立昆親自發(fā)布:Meta最強世界模型開源

AI甚至可以理解運動員的復(fù)雜跳水動作,并進行動作拆解:

楊立昆親自發(fā)布:Meta最強世界模型開源

據(jù)Meta測試數(shù)據(jù),V-JEPA 2在測試任務(wù)中每一步的規(guī)劃用時縮短至英偉達Cosmos模型的三十分之一,同時成功率還更高。據(jù)稱V-JEPA 2使用了一百多萬小時的視頻來進行自監(jiān)督學(xué)習(xí)訓(xùn)練。

楊立昆親自發(fā)布:Meta最強世界模型開源

在Meta看來,物理推理能力對于構(gòu)建在現(xiàn)實世界中運作的AI agents、實現(xiàn)高級機器智能(AMI)非常重要,可以讓AI agents真正可以“三思而后行(Think Before Acts)”。

楊立昆親自發(fā)布:Meta最強世界模型開源

此外,Meta還發(fā)布了三個新的基準(zhǔn)測試,用于評估現(xiàn)有模型從視頻中推理物理世界的能力。

昨天Meta剛剛曝出要成立新AI實驗室、招攬28歲華裔天才少年,并豪擲148億美元(約合人民幣1061億元)收購Scale AI 49%股份的消息,今天Meta發(fā)布新世界模型,并讓楊立昆出來大講Meta AI重點研究方向和愿景做法,頗有些要為招兵買馬“打廣告”的意味。

論文地址:
https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

一、世界模型讓AI有“類人直覺”,強化AI agents理解、預(yù)測、規(guī)劃能力

理解世界物理規(guī)律聽起來并不復(fù)雜,但這是AI與人類差距非常大的一個方面。

比如你把球拋向空中時,知道重力會將其拉回地面;當(dāng)你穿過一個陌生的擁擠區(qū)域時,你會一邊朝目的地移動,一邊避免撞到沿途的行人或障礙物;打曲棍球時,你會滑向冰球即將到達的位置,而非它當(dāng)前的位置。

楊立昆親自發(fā)布:Meta最強世界模型開源

▲判斷籃球的運動軌跡

但AI很難掌握這種能力,很難構(gòu)建這種理解物理世界的“心理模型”。

楊立昆親自發(fā)布:Meta最強世界模型開源

Meta的世界模型,主要會強化AI agents的理解、預(yù)測、規(guī)劃三項核心能力。

二、關(guān)鍵架構(gòu)創(chuàng)新大幅提升學(xué)習(xí)效率,高性能同時兼顧準(zhǔn)確率

Meta使用視頻來訓(xùn)練 V-JEPA 2,幫助模型學(xué)習(xí)物理世界中的重要規(guī)律,包括人類如何與物體互動、物體在物理世界中的運動方式,以及物體之間的相互作用。

據(jù)稱V-JEPA 2通過自監(jiān)督學(xué)習(xí),訓(xùn)練了超過1百萬小時的視頻。

V-JEPA 2是一種聯(lián)合嵌入預(yù)測架構(gòu)(Joint Embedding Predictive Architecture)模型,這也是“JEPA”的名稱由來。

楊立昆親自發(fā)布:Meta最強世界模型開源

模型包括兩個主要組成部分:

一個編碼器,負責(zé)接收原始視頻,并輸出包含對于觀察世界狀態(tài)語義上有用的內(nèi)容的嵌入(embeddings)。

楊立昆親自發(fā)布:Meta最強世界模型開源

一個預(yù)測器,負責(zé)接收視頻嵌入和關(guān)于要預(yù)測的額外內(nèi)容,并輸出預(yù)測的嵌入。

楊立昆親自發(fā)布:Meta最強世界模型開源

V-JEPA 2跟傳統(tǒng)預(yù)測像素的生成式模型有很大性能差異,根據(jù)Meta測試數(shù)據(jù),V-JEPA 2執(zhí)行任務(wù)時每個步驟的規(guī)劃用時縮短至Cosmos模型的三十分之一,不僅用時短,V-JEPA 2的成功率還更高。

V-JEPA 2的能力對現(xiàn)實世界agents理解復(fù)雜運動和時間動態(tài)(temporal dynamics),以及根據(jù)上下文線索預(yù)測動作都非常關(guān)鍵。

基于這種預(yù)測能力,世界模型對于規(guī)劃給定目標(biāo)的動作順序非常有用,比如從一個杯子在桌子上的狀態(tài)到杯子在桌子邊上的狀態(tài),中間要經(jīng)歷怎樣的動作。

楊立昆親自發(fā)布:Meta最強世界模型開源

如今大部分AI都需要專業(yè)的訓(xùn)練去解決特定的任務(wù),而V-JEPA這種自監(jiān)督的方式,只需要為數(shù)不多的案例,就可以掌握新的能力,在不同的任務(wù)和領(lǐng)域中實現(xiàn)更高的性能表現(xiàn)。

楊立昆親自發(fā)布:Meta最強世界模型開源

模型可以部署在機械臂上,去執(zhí)行物體操作類的任務(wù),比如觸碰(Reach)、抓?。℅rasp)、選擇和擺放物體(Pick-and-place),而不需要大量的機器人數(shù)據(jù)或者針對性的任務(wù)訓(xùn)練。

楊立昆親自發(fā)布:Meta最強世界模型開源

根據(jù)測試數(shù)據(jù),V-JEPA 2在執(zhí)行這三類任務(wù)時的成功率分為別100%、45%和73%。

三、楊立昆展示世界模型應(yīng)用場景,首發(fā)三個專項基準(zhǔn)測試

世界模型可能會有哪些應(yīng)用場景,楊立昆也給大家做了一些展示。

世界模型加持下的AI agents,可以幫助視障人群更好的認知世界;

楊立昆親自發(fā)布:Meta最強世界模型開源

MR頭顯中的AI agents可以給更復(fù)雜的任務(wù)提供指導(dǎo),比如讓教育更加的個性化;

楊立昆親自發(fā)布:Meta最強世界模型開源

AI編程助手可以真正理解一行新的代碼會如何改變程序的狀態(tài)或變量;

楊立昆親自發(fā)布:Meta最強世界模型開源

世界模型對自動化系統(tǒng)同樣非常重要,比如自動駕駛汽車和機器人;

楊立昆親自發(fā)布:Meta最強世界模型開源

Meta認為世界模型會為機器人開啟一個新的時代,讓現(xiàn)實世界中的AI agents不需要學(xué)習(xí)天文數(shù)字的訓(xùn)練數(shù)據(jù)就可以做家務(wù)或體力勞動。

除了發(fā)布V-JEPA 2,Meta還分享了三個新基準(zhǔn)測試,用來幫助研究界評估現(xiàn)有模型通過視頻學(xué)習(xí)和推理世界的能力:

1、IntPhys 2:用于測試模型在復(fù)雜合成環(huán)境中的直觀物理理解能力(Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments)。

2、一種基于最小視頻對的、感知捷徑的物理理解視頻問答基準(zhǔn)測試(A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs)。

3、CausalVQA:面向視頻模型的物理基礎(chǔ)因果推理基準(zhǔn)測試(A Physically Grounded Causal Reasoning Benchmark for Video Models)。

基準(zhǔn)測試地址:

IntPhys 2:
https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/

CausalVQA :
https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/

Shortcut-aware Video-QA Benchmark:
https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/

結(jié)語:AI認知世界提速,AI從數(shù)字世界加速走向物理世界

Meta二代世界模型的發(fā)布進一步優(yōu)化了模型的性能和準(zhǔn)確率,讓物理世界的AI agents可以更高效地執(zhí)行任務(wù),而不需要海量的數(shù)據(jù)訓(xùn)練,這一方向可以說是目前AI圈關(guān)注的焦點賽道之一。

隨著數(shù)據(jù)瓶頸問題越來越凸顯,如何在底層技術(shù)層面實現(xiàn)突破顯得更為關(guān)鍵,Meta在模型架構(gòu)層面的創(chuàng)新是其世界模型的核心優(yōu)勢。

隨著如今越來越多的視頻模型發(fā)布,AI逐漸從文本、圖像走向動態(tài)的視頻,AI理解世界、認識世界的速度不斷加快,從英偉達、Meta、谷歌這樣巨頭到各路創(chuàng)企,都對打造世界模型饒有興致,世界模型之戰(zhàn),或許將成為后續(xù)AI產(chǎn)業(yè)技術(shù)競爭的關(guān)鍵看點。

來源:Meta官網(wǎng)