智東西(公眾號(hào):zhidxcom)
編譯 | 王涵
編輯 | 漠影

智東西5月27日消息,據(jù)外媒Business Insider報(bào)道,今年早些時(shí)候在巴黎舉行的AI Action Summit上,Meta首席人工智能(AI)科學(xué)家楊立昆(Yann LeCun)指出,當(dāng)前AI雖在多個(gè)領(lǐng)域展現(xiàn)驚人能力,其仍缺乏理解物理世界、持久記憶、邏輯推理與分層規(guī)劃四大人類智能核心特征。

據(jù)外媒VentureBeat此前報(bào)道,科技巨頭們的行動(dòng)印證了這一判斷,開始從“打補(bǔ)丁”式優(yōu)化轉(zhuǎn)向“世界模型”架構(gòu)革新,谷歌等企業(yè)已將其納入戰(zhàn)略布局。

這場(chǎng)圍繞AI本質(zhì)的探索,不僅關(guān)乎技術(shù)突破,更指向人機(jī)認(rèn)知邊界的未來(lái)走向。

一、AI模型缺乏4個(gè)人類特征:理解、記憶、推理與規(guī)劃

所有智能生命的共同點(diǎn)是什么?今年早些時(shí)候在巴黎舉行的AI Action Summit上,圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆與IBM AI負(fù)責(zé)人安東尼·安農(nóng)齊亞塔(Anthony Annunziata)分享了其對(duì)智能行為的基準(zhǔn)定義:

“所有動(dòng)物——至少是相對(duì)聰明的動(dòng)物——都具備四種基本智能特征,人類當(dāng)然也不例外,”楊立昆闡述道,“理解物理世界、擁有持久記憶、進(jìn)行邏輯推理,以及制定復(fù)雜行動(dòng)計(jì)劃的能力,特別是分層規(guī)劃能力?!?/p>

楊立昆認(rèn)為,當(dāng)前AI(尤其是大語(yǔ)言模型)尚未達(dá)到該閾值,要實(shí)現(xiàn)這些能力需變革訓(xùn)練范式。他解釋這正是科技巨頭們?cè)贏I競(jìng)賽中不斷為現(xiàn)有模型“打補(bǔ)丁”的原因:“為理解物理世界,就訓(xùn)練獨(dú)立的視覺(jué)系統(tǒng)然后硬塞進(jìn)LLM;為實(shí)現(xiàn)記憶功能,要么采用RAG(檢索增強(qiáng)生成),要么外掛關(guān)聯(lián)記憶模塊,或者簡(jiǎn)單粗暴地?cái)U(kuò)大模型規(guī)模?!?/p>

楊立昆重磅論斷:當(dāng)前AI缺失人類四大核心智能,世界模型成破局關(guān)鍵

▲Meta首席AI科學(xué)家楊立昆(Yann LeCun)

二、“世界模型”構(gòu)建抽象層級(jí)來(lái)理解物理世界

但楊立昆直言這些只是“權(quán)宜之計(jì)”。他多次倡導(dǎo)的“世界模型”(world model)替代方案,是通過(guò)現(xiàn)實(shí)場(chǎng)景訓(xùn)練、具備比模式識(shí)別AI更高認(rèn)知水平的架構(gòu)。在與安農(nóng)齊亞塔對(duì)話中,他給出新定義:“獲取時(shí)間T的世界狀態(tài)后,設(shè)想可能采取的行動(dòng),世界模型就能預(yù)測(cè)行動(dòng)后的新狀態(tài)?!?/p>

不過(guò)現(xiàn)實(shí)世界演化存在無(wú)限不可預(yù)測(cè)性,楊立昆認(rèn)為唯一訓(xùn)練途徑是抽象化。Meta今年2月開源的V-JEPA模型正進(jìn)行相關(guān)實(shí)驗(yàn),讓這個(gè)非生成式模型通過(guò)預(yù)測(cè)視頻缺失片段來(lái)學(xué)習(xí)?!瓣P(guān)鍵是不做像素級(jí)預(yù)測(cè),而是訓(xùn)練系統(tǒng)構(gòu)建視頻抽象表征,在此維度進(jìn)行預(yù)測(cè)時(shí)自動(dòng)過(guò)濾不可預(yù)測(cè)的細(xì)節(jié)?!彼忉尩?。

這種抽象層級(jí)思想類似化學(xué)物質(zhì)構(gòu)成體系:“我們建立粒子→原子→分子→材料的層級(jí),每上升一層就剔除下層與當(dāng)前任務(wù)無(wú)關(guān)的信息。”楊立昆說(shuō),這本質(zhì)上是通過(guò)構(gòu)建抽象層級(jí)來(lái)理解物理世界的另一種表述。

三、谷歌將“世界模型”與其短期策略緊密結(jié)合

無(wú)獨(dú)有偶,在上周硅谷舉行的Google I/O 2025開發(fā)者大會(huì)上,除卻奪人眼球的炫酷功能,谷歌也提到要打造AI時(shí)代的操作系統(tǒng),即能理解物理環(huán)境并代人類推理決策的“世界模型”。

自2024年末以來(lái),DeepMind首席執(zhí)行官德米斯·哈薩比斯就在持續(xù)完善“世界模型→通用AI助手”理論體系。此次I/O大會(huì)上,CEO桑達(dá)爾·皮查伊(Sundar Pichai)與Gemini負(fù)責(zé)人喬?!の榈挛值拢↗osh Woodward)同臺(tái)呼應(yīng)這一愿景。相較微軟、OpenAI和xAI對(duì)世界模型的抽象討論,谷歌獨(dú)樹一幟地將其與短期戰(zhàn)略緊密結(jié)合。

楊立昆重磅論斷:當(dāng)前AI缺失人類四大核心智能,世界模型成破局關(guān)鍵

▲Gemini負(fù)責(zé)人喬?!の榈挛值拢↗osh Woodward)(圖源:谷歌I/O)

若真能打造出理解物理環(huán)境的“通用AI助手”,谷歌或?qū)⒊蔀檫B接用戶、企業(yè)與技術(shù)的“隱形操作系統(tǒng)”。對(duì)追求尖端AI的企業(yè)而言,利用谷歌的“世界模型”研究、多模態(tài)能力(如I/O大會(huì)展示的Veo 3和Imagen 4)及其AGI發(fā)展路徑,將開啟重大創(chuàng)新通道。

結(jié)語(yǔ):世界模型是AI大模型的未來(lái)

楊立昆揭示的AI四大能力鴻溝不僅暴露了現(xiàn)有模型的局限,更指明了技術(shù)突破的方向??萍季揞^們的行動(dòng)印證了這一判斷:無(wú)論是Meta通過(guò)V-JEPA模型探索抽象表征訓(xùn)練,還是谷歌將“世界模型”納入操作系統(tǒng)級(jí)戰(zhàn)略,本質(zhì)上都在重構(gòu)AI與物理世界的交互方式。

這場(chǎng)角逐的深層意義,在于將AI從模式識(shí)別的工具升級(jí)為具備物理世界理解能力的認(rèn)知主體。當(dāng)行業(yè)從“打補(bǔ)丁”式優(yōu)化轉(zhuǎn)向架構(gòu)級(jí)創(chuàng)新,我們或許正站在通用人工智能(AGI)發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn)。

未來(lái)AI的真正突破,或許不在于參數(shù)量的指數(shù)級(jí)膨脹,而在于能否像人類一樣,構(gòu)建起對(duì)世界的深層理解。

來(lái)源:Business Insider,VentureBeat