智東西(公眾號(hào):zhidxcom)
編譯 | ?王欣逸
編輯 | ?程茜

智東西11月11日消息,昨晚,斯坦福大學(xué)教授、“AI教母”李飛飛發(fā)表了一篇長(zhǎng)文博客,并在文中詳細(xì)解讀了空間智能(Spatial intelligence)的概念,并稱AI的下一個(gè)十年的發(fā)展方向就是構(gòu)建真正具備空間智能的機(jī)器。

空間智能比文字語(yǔ)言的起源更早,它曾改變了人類文明,如今,它也將改變AI的發(fā)展。李飛飛稱,空間智能是人類認(rèn)知的支架,AI的下一個(gè)前沿是空間智能。

要實(shí)現(xiàn)空間智能,我們需要構(gòu)建一種超越大模型世界模型。

李飛飛稱世界模型必須具備這三種能力:生成性(Generative)、多模態(tài)性(Multimodal)以及互動(dòng)性(Interactive)。李飛飛認(rèn)為,構(gòu)建世界模型比構(gòu)建語(yǔ)言模型難得多,她列舉了其團(tuán)隊(duì)在構(gòu)建世界模型中遇到的巨大技術(shù)障礙——全新的訓(xùn)練任務(wù)、大規(guī)模的數(shù)據(jù)以及全新的模型架構(gòu)和學(xué)習(xí)算法。

空間智能在各個(gè)領(lǐng)域的應(yīng)用并非同步進(jìn)行,李飛飛認(rèn)為,其應(yīng)用將分階段發(fā)展。近期,空間智能應(yīng)用正朝著賦能創(chuàng)造力方向發(fā)展;到了中期,其應(yīng)用將聚焦于機(jī)器人技術(shù),幫助機(jī)器人具備空間感知能力,并能真正意義上成為人類的協(xié)助助手;在更長(zhǎng)期的目標(biāo)中,空間智能的應(yīng)用將落腳至科學(xué)、醫(yī)療和教育領(lǐng)域,幫助科學(xué)研發(fā)、醫(yī)療診斷及沉浸式教育等領(lǐng)域?qū)崿F(xiàn)突破性變革。

李飛飛重磅發(fā)聲:改變?nèi)祟愇拿骱?,這個(gè)技術(shù)將定義AI的下一個(gè)時(shí)代

▲李飛飛博客(來(lái)源:社交平臺(tái)X)

以下為李飛飛博客全文翻譯:

標(biāo)題:跨越語(yǔ)言,構(gòu)筑世界:空間智能——AI的下一個(gè)前沿(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier)

李飛飛重磅發(fā)聲:改變?nèi)祟愇拿骱?,這個(gè)技術(shù)將定義AI的下一個(gè)時(shí)代

1950年,當(dāng)計(jì)算機(jī)還不過(guò)是自動(dòng)化運(yùn)算和簡(jiǎn)單邏輯時(shí),艾倫·圖靈(Alan Turing)提出了一個(gè)至今仍回響的問(wèn)題:機(jī)器能思考嗎?他以他非凡的想象力提出了一個(gè)可能:智能有朝一日是可以被創(chuàng)造出來(lái)的,而非天生的。這一洞見后來(lái)引發(fā)了一場(chǎng)關(guān)于AI的不懈科學(xué)探索。在我投身AI領(lǐng)域25年后,我仍發(fā)現(xiàn)自己深受圖靈遠(yuǎn)見的啟發(fā)。但我們離那個(gè)目標(biāo)還有多遠(yuǎn)呢?答案并不簡(jiǎn)單。 如今,大模型等AI技術(shù)已開始改變我們獲取和運(yùn)用抽象知識(shí)的方式。然而,它們?nèi)匀皇呛诎抵械拇蚰ノ淖值慕橙?;能言善辯卻缺乏經(jīng)驗(yàn),知識(shí)淵博卻根基不穩(wěn)??臻g智能將改變我們創(chuàng)造和體驗(yàn)現(xiàn)實(shí)及虛擬世界的的方式——它將徹底革新敘事、創(chuàng)造力、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等領(lǐng)域。這是AI的下一個(gè)前沿領(lǐng)域。

自我進(jìn)入該領(lǐng)域以來(lái),對(duì)視覺和空間智能的追求一直是指引我的北極星。這也是我花了數(shù)年時(shí)間構(gòu)建ImageNet的原因,ImageNet是首個(gè)大規(guī)模視覺學(xué)習(xí)和測(cè)評(píng)數(shù)據(jù)集,與神經(jīng)網(wǎng)絡(luò)算法和圖形處理單元(GPU)一起成為促成現(xiàn)代AI誕生的三大關(guān)鍵要素之一。過(guò)去十年,我在斯坦福大學(xué)的實(shí)驗(yàn)室一直致力于將計(jì)算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。我和聯(lián)合創(chuàng)始人賈斯汀·約翰遜(Justin Johnson)、克里斯托夫·拉斯納(Christoph Lassner)、本·米爾登霍爾(Ben Mildenhall)在一年多前創(chuàng)立了World Labs,希望第一次真正實(shí)現(xiàn)這一愿景。 在這篇文章中,我將解釋空間智能是什么、它為何重要,以及我們?nèi)绾螛?gòu)建能夠解鎖空間智能的世界模型,這種能力將重塑創(chuàng)造力、具身智能和人類的進(jìn)步。

一、空間智能:人類認(rèn)知的支架

AI正處于前所未有的令人振奮的時(shí)刻。大模型已經(jīng)從實(shí)驗(yàn)室走進(jìn)日常生活,成為數(shù)十億人用于創(chuàng)意、提高生產(chǎn)力和交流的工具。它們展現(xiàn)出了曾被認(rèn)為不可能的能力,如輕松生成連貫的文本、大量的代碼、逼真的圖像,甚至是短視頻片段?,F(xiàn)在,我們無(wú)需再問(wèn)AI是否會(huì)改變世界,無(wú)論從哪個(gè)角度來(lái)看,它已經(jīng)改變了世界。

然而,仍有許多目標(biāo)還未實(shí)現(xiàn)。自主機(jī)器人的愿景雖讓人向往,但仍停留在猜想階段,離未來(lái)學(xué)家長(zhǎng)期以來(lái)所描繪的日常生活仍有距離。在疾病治療、新材料發(fā)現(xiàn)、粒子物理等領(lǐng)域,AI加速科研的夢(mèng)想在很大程度上仍未實(shí)現(xiàn)。而真正理解并賦能人類創(chuàng)造者的AI承諾——無(wú)論是學(xué)習(xí)分子化學(xué)復(fù)雜概念的學(xué)生、可視化空間的建筑師、構(gòu)建世界的電影制作人,還是任何尋求完全沉浸式虛擬體驗(yàn)的人——依然遙不可及。

要理解為何這些能力依然難以實(shí)現(xiàn),我們需要回顧空間智能是如何進(jìn)化的,以及它如何塑造了我們對(duì)世界的理解。

視覺長(zhǎng)期以來(lái)一直是AI的基石,但其力量源自更為根本的機(jī)制。早在動(dòng)物能夠筑巢、養(yǎng)育幼崽、用語(yǔ)言交流或建立文明之前,簡(jiǎn)單的感知行為就悄然引發(fā)了一場(chǎng)通向智能的進(jìn)化之路。

這種看似孤立的從外部世界獲取信息的能力,無(wú)論是微弱的光線還是觸感的感覺,在感知和生存之間架起了一座橋梁,而隨著世世代代的更替,這座橋梁變得越來(lái)越堅(jiān)固和復(fù)雜。從這座橋梁上,層層神經(jīng)元生長(zhǎng),形成了解讀世界、協(xié)調(diào)有機(jī)體與周圍環(huán)境互動(dòng)的神經(jīng)系統(tǒng)。因此,許多科學(xué)家推測(cè),感知和行動(dòng)成為了驅(qū)動(dòng)智能進(jìn)化的核心循環(huán),也是大自然創(chuàng)造我們的基礎(chǔ)——即感知、學(xué)習(xí)、思考和行動(dòng)的最終體現(xiàn)。

空間智能在定義我們?nèi)绾闻c物理世界互動(dòng)方面起著根本性作用。每天,我們都依靠它來(lái)完成最平常的動(dòng)作:通過(guò)想象車頭與路緣之間不斷縮小的間隙來(lái)停車,接住從房間另一頭拋來(lái)的鑰匙,在擁擠的人行道上避開碰撞,或者迷迷糊糊地不用看就能把咖啡倒進(jìn)杯子里。在更極端的情況下,消防員要在倒塌的建筑中穿行,在不斷變化的煙霧中瞬間判斷建筑結(jié)構(gòu)的穩(wěn)定性和逃生機(jī)會(huì),并通過(guò)手勢(shì)、肢體語(yǔ)言和難以言傳的共同的職業(yè)本能進(jìn)行交流。而孩子們則在學(xué)說(shuō)話前的幾個(gè)月甚至幾年里,通過(guò)與周圍環(huán)境的游戲互動(dòng)來(lái)認(rèn)識(shí)世界。所有這一切都發(fā)生得無(wú)意識(shí)、自然而然——這是機(jī)器尚未掌握的流暢性。

空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。講故事的人在腦海中創(chuàng)造出獨(dú)特豐富的世界,并利用多種視覺媒介將其呈現(xiàn)給他人,從古老的洞穴壁畫到現(xiàn)代電影,再到沉浸式電子游戲。無(wú)論是孩子們?cè)诤┥辖ㄔ焐潮?,還是在電腦上玩《我的世界》,這種基于空間的想象力構(gòu)成了現(xiàn)實(shí)或虛擬世界中交互的基礎(chǔ)。在許多行業(yè)應(yīng)用中,對(duì)物體、場(chǎng)景和動(dòng)態(tài)互動(dòng)環(huán)境的模擬推動(dòng)了從工業(yè)設(shè)計(jì)到數(shù)字孿生、再到機(jī)器人訓(xùn)練等無(wú)數(shù)關(guān)鍵業(yè)務(wù)的發(fā)展。

歷史充滿了定義文明的時(shí)刻,在這些時(shí)刻里,空間智能屢次扮演著核心角色。在古希臘,埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué),他在亞歷山大測(cè)量出一個(gè)7度的日影角度,對(duì)比同一時(shí)刻太陽(yáng)直射、沒有影子的賽恩,從而計(jì)算地球的周長(zhǎng)。哈格里夫斯的“珍妮紡紗機(jī)”通過(guò)空間洞察力徹底改變了紡織制造業(yè),他將多個(gè)紡錘并排放置在一個(gè)框架中,使一名工人能夠同時(shí)紡出多根線,生產(chǎn)效率提高了八倍。沃森和克里克通過(guò)物理構(gòu)建3D分子模型發(fā)現(xiàn)了DNA的雙螺旋結(jié)構(gòu),他們不斷調(diào)整金屬板和電線,直到堿基對(duì)的空間排列準(zhǔn)確無(wú)誤。在以上案例中,當(dāng)科學(xué)家和發(fā)明家需要操作物體、想象結(jié)構(gòu)并推理物理空間關(guān)系時(shí),正是空間智能推動(dòng)了人類文明的前進(jìn),而這些都無(wú)法僅憑文字所描述。

空間智能是構(gòu)建我們認(rèn)知的支架。無(wú)論是我們被動(dòng)地觀察,還是主動(dòng)地創(chuàng)造,它都在發(fā)揮作用。它推動(dòng)著我們的推理和規(guī)劃,哪怕是在處理最抽象的思考上也是如此。它對(duì)于我們與他人或與環(huán)境的互動(dòng)(無(wú)論是語(yǔ)言上的還是肢體上的)都至關(guān)重要。雖然我們大多數(shù)人每天并不會(huì)像埃拉托色尼那樣揭示新的宇宙真理,但我們幾乎都在以相同的方式思考,通過(guò)感官感知復(fù)雜的世界,再利用我們對(duì)物理和空間規(guī)律的直觀理解來(lái)形成我們對(duì)這個(gè)世界的認(rèn)知。

遺憾的是,當(dāng)下的AI還不具備這樣的思考方式。

過(guò)去幾年,AI的確取得了巨大進(jìn)步。多模態(tài)大模型在文本數(shù)據(jù)之外還引入了大量多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,使AI具備了一些空間感知的基礎(chǔ)知識(shí)。如今,AI可以分析圖片、回答圖片相關(guān)問(wèn)題,并生成高度逼真的圖像和短視頻。憑借傳感器和觸覺技術(shù)的突破,最先進(jìn)的機(jī)器人也可以開始在高度受限的環(huán)境中操作物體和工具。

然而,坦率地說(shuō),AI的空間能力仍遠(yuǎn)不及人類水平。而且AI的局限性很快就會(huì)顯現(xiàn)出來(lái)。最先進(jìn)的多模態(tài)大模型在估算距離、方向和大小等任務(wù)上,或者通過(guò)從新角度重新生成物體來(lái)進(jìn)行“心智旋轉(zhuǎn)”(mentally rotating)時(shí),表現(xiàn)通常不如隨機(jī)水平。它們無(wú)法在迷宮中導(dǎo)航、識(shí)別捷徑,也無(wú)法預(yù)測(cè)基本的物理現(xiàn)象。AI生成的視頻雖令人驚嘆,但往往在幾秒鐘后便失去連貫性。

當(dāng)下最先進(jìn)的AI在閱讀、寫作、研究和數(shù)據(jù)模式識(shí)別方面表現(xiàn)出色,但在對(duì)物理世界的表征和交互時(shí),這些模型仍然存在根本性的局限。人類對(duì)世界的認(rèn)知是整體性的,不僅包括我們看到了什么,還包括一切事物在空間上的聯(lián)系、其意義以及重要性。通過(guò)想象、推理、創(chuàng)造和互動(dòng)來(lái)理解世界,而非依賴語(yǔ)言描述,這就是空間智能的力量。沒有空間智能,AI將與它試圖理解的物理現(xiàn)實(shí)脫節(jié)。它無(wú)法有效地駕駛汽車,引導(dǎo)家里和醫(yī)院中的機(jī)器人,無(wú)法為學(xué)習(xí)和娛樂(lè)提供沉浸式互動(dòng)體驗(yàn),也無(wú)法加速材料科學(xué)和醫(yī)學(xué)的發(fā)現(xiàn)研究。

哲學(xué)家維特根斯坦曾說(shuō):“我的語(yǔ)言的界限意味著我的世界的界限。”我不是哲學(xué)家,但我深知,對(duì)于AI來(lái)說(shuō),世界遠(yuǎn)不止是文字??臻g智能代表著超越語(yǔ)言的前沿,它連接了想象力、感知力和行動(dòng)力,為機(jī)器真正賦能人類生活開辟了可能性,從醫(yī)療到創(chuàng)造力,從科學(xué)發(fā)現(xiàn)到日常助理。

二、AI的下一個(gè)十年:構(gòu)建真正具備空間智能的機(jī)器

那么,我們?nèi)绾螛?gòu)建具備空間智能的AI呢?這些AI不僅要像埃拉托斯特尼那樣進(jìn)行空間推理,像工業(yè)設(shè)計(jì)師一樣精準(zhǔn)地進(jìn)行工程設(shè)計(jì),像講故事的人一樣富有想象力地創(chuàng)作,且還能夠像應(yīng)急救援人員一樣自然地與環(huán)境互動(dòng)……要開發(fā)出這樣的模型,其路徑是什么?

要構(gòu)建具備空間智能的AI,我們需要遠(yuǎn)不止大模型那樣的體系,而是更具雄心的世界模型。世界模型是一種全新的生成式模型,它能夠理解、推理、生成,并與語(yǔ)義、物理、幾何和動(dòng)態(tài)復(fù)雜的虛擬或現(xiàn)實(shí)世界進(jìn)行互動(dòng),其能力遠(yuǎn)超目前的大模型。這一研究領(lǐng)域還處于起步階段,目前的探索方法涵蓋從抽象推理模型到視頻生成系統(tǒng)。World Labs正是在這一信念下于2024年初創(chuàng)立,我們認(rèn)為,這一領(lǐng)域的基礎(chǔ)方法仍在建立中,而這將是下一個(gè)十年AI發(fā)展的決定性挑戰(zhàn)。

在這個(gè)新興領(lǐng)域,最重要的建立一套可以指導(dǎo)發(fā)展的核心原則。對(duì)于空間智能而言,我將對(duì)世界模型定義為具備這三種基本能力的系統(tǒng):

1、生成性(Generative):世界模型可以生成具有感知、幾何和物理一致性的世界。

要實(shí)現(xiàn)空間理解和推理,世界模型就必須有生成自己模擬世界的能力。它們能夠根據(jù)語(yǔ)義或感知指令生成無(wú)窮無(wú)盡、各不相同的模擬世界,并保持幾何、物理和動(dòng)態(tài)上的一致性——無(wú)論這些世界是代表真實(shí)世界還是虛擬世界。研究界正積極探索這些世界應(yīng)當(dāng)在內(nèi)在幾何結(jié)構(gòu)方面應(yīng)該被隱式還是顯式地進(jìn)行表示。此外,除了具備強(qiáng)大的潛在表示能力外,我認(rèn)為一個(gè)通用的世界模型還必須能夠生成清晰、可觀察的世界狀態(tài),以適應(yīng)多種不同的應(yīng)用場(chǎng)景。尤其重要的是,它對(duì)當(dāng)前世界的理解必須與過(guò)去緊密關(guān)聯(lián),即與導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)保持一致。

2、多模態(tài)性(Multimodal):世界模型在設(shè)計(jì)上就是多模態(tài)的。

就像動(dòng)物和人類一樣,世界模型應(yīng)該能夠處理各種形式的輸入,在生成式AI領(lǐng)域,這些輸入通常稱為提示詞。面對(duì)部分不完整的信息,這些信息無(wú)論是圖像、視頻、深度圖、文本指令、手勢(shì)還是動(dòng)作,世界模型應(yīng)該盡可能地預(yù)測(cè)或生成完整的世界狀態(tài)。這要求模型能以真實(shí)視覺的精度處理視覺輸入,同時(shí)以同樣的能力理解語(yǔ)義指令。這使得Agent和人類都能夠通過(guò)多樣化的輸入與模型進(jìn)行交流,并獲得同樣多樣化的輸出反饋。

3、互動(dòng)性(Interactive):世界模型可以根據(jù)輸入的動(dòng)作輸出下一個(gè)狀態(tài)。

如果動(dòng)作或目標(biāo)是世界模型輸入提示的一部分,那么它的輸出必須包含下一步的世界狀態(tài),這種狀態(tài)可以是隱式的,也可以是顯式的。當(dāng)世界模型接收到一個(gè)動(dòng)作(無(wú)論是否有目標(biāo)狀態(tài))作為輸入時(shí),它應(yīng)輸出與世界先前狀態(tài)、預(yù)期目標(biāo)狀態(tài)(如果有的話)、其語(yǔ)義含義、物理定律和動(dòng)態(tài)行為相一致的結(jié)果。隨著空間智能世界模型在推理和生成能力上的變得更強(qiáng)大,可以想象,在給定的目標(biāo)情況下,世界模型不僅能夠預(yù)測(cè)世界的下一個(gè)狀態(tài),還能夠基于這一新狀態(tài)預(yù)測(cè)下一步動(dòng)作。

這項(xiàng)挑戰(zhàn)的規(guī)模,超過(guò)了AI以往面臨的任何挑戰(zhàn)。

語(yǔ)言是人類認(rèn)知中的純粹的生成現(xiàn)象,而世界遵循的規(guī)則卻要復(fù)雜得多。例如,在地球上,引力支配著運(yùn)動(dòng)規(guī)律,原子結(jié)構(gòu)決定了光如何產(chǎn)生色彩和亮度,無(wú)數(shù)物理定律制約著每一次交互。即使是最富幻想和創(chuàng)意的虛擬世界,也依然由服從這些物理定律和動(dòng)態(tài)行為的空間物體和Agent組成的。要讓語(yǔ)義、幾何、動(dòng)態(tài)和物理在同一個(gè)模型中保持一致,需要全新的方法。世界的表示維度遠(yuǎn)比語(yǔ)言這種“一維、序列信號(hào)”要復(fù)雜得多。要讓世界模型實(shí)現(xiàn)能夠提供我們作為人類所享受的那種通用能力,我們需要克服多個(gè)巨大的技術(shù)障礙。在World Labs,我們的研究團(tuán)隊(duì)正致力于為實(shí)現(xiàn)這一目標(biāo)取得基礎(chǔ)性的突破。

以下是我們當(dāng)前正在研究的一些課題示例:

1、一種用于訓(xùn)練的全新通用任務(wù)函數(shù):

為世界模型定義一個(gè)像大模型中的下一個(gè)token預(yù)測(cè)那樣簡(jiǎn)單而優(yōu)雅的通用任務(wù)函數(shù),一直是世界模型研究的核心目標(biāo)。然而,由于其輸入和輸出空間的復(fù)雜性,這一函數(shù)本質(zhì)上難度更高。盡管仍有許多有待探索的地方,但這種目標(biāo)函數(shù)及其相應(yīng)的表示方式,必須要反映幾何和物理定律,并尊重世界模型作為既是想象的表現(xiàn)又是現(xiàn)實(shí)的具象化的基本性質(zhì)。

2、大規(guī)模訓(xùn)練數(shù)據(jù):

訓(xùn)練世界模型需要比文本整理更復(fù)雜的數(shù)據(jù)。不過(guò)好消息是,大規(guī)模的數(shù)據(jù)源已經(jīng)存在?;ヂ?lián)網(wǎng)級(jí)別規(guī)模的圖像和視頻資源,為訓(xùn)練提供了豐富且可獲取的訓(xùn)練材料。真正的挑戰(zhàn)在于,如何能夠從這些二維圖像或視頻幀(即RGB信號(hào))的數(shù)據(jù)中提取更深層空間信息的算法。過(guò)去十年的研究顯示,語(yǔ)言模型性能的提升遵循數(shù)據(jù)量和模型規(guī)模之間的擴(kuò)展規(guī)律;對(duì)于世界模型來(lái)說(shuō),關(guān)鍵突破在于構(gòu)建能夠以相似規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外,我們認(rèn)為也不應(yīng)低估高質(zhì)量合成數(shù)據(jù)和其他模態(tài)數(shù)據(jù)(如深度信息和觸覺)的價(jià)值。它們?cè)谟?xùn)練過(guò)程的關(guān)鍵步驟能對(duì)互聯(lián)網(wǎng)級(jí)數(shù)據(jù)起到補(bǔ)充。但未來(lái)的道路取決于更好的傳感器系統(tǒng)、更強(qiáng)大的信號(hào)提取算法以及更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)仿真方法。

3、新的模型架構(gòu)和表征學(xué)習(xí):

世界模型研究必然會(huì)推動(dòng)模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,特別是在超越當(dāng)前的多模態(tài)大模型和視頻擴(kuò)散模型的范式方面。這兩者通常將數(shù)據(jù)標(biāo)記為一維或二維序列,讓一些簡(jiǎn)單的空間任務(wù)變得異常困難,比如在一個(gè)短視頻中數(shù)清不同的椅子,或者記住一個(gè)小時(shí)之前房間的布局。新的架構(gòu)可能會(huì)有所幫助,例如在分詞、上下文和記憶機(jī)制中引入三維或四維感知方法。例如,World Labs最近的實(shí)時(shí)生成框架模型(RTFM)就展示了這種轉(zhuǎn)變,該模型使用空間感知的幀作為一種空間記憶形式,在保持生成世界的持久性的同時(shí)實(shí)現(xiàn)了高效的實(shí)時(shí)生成。

顯然,在我們能夠通過(guò)世界建模完全解鎖空間智能之前,仍然面臨著艱巨的挑戰(zhàn)。這項(xiàng)研究不僅僅是一個(gè)理論探索,它還是新一代創(chuàng)造性和生產(chǎn)力工具的核心引擎。而在World Labs里,我們?nèi)〉玫囊恍┻M(jìn)展令人振奮。我們最近與少量用戶分享了Marble的初步體驗(yàn),Marble是首個(gè)可以通過(guò)多模態(tài)輸入提示,生成并保持一致的三維環(huán)境的世界模型,它讓用戶和創(chuàng)作者能夠在這個(gè)虛擬空間里探索、互動(dòng)并在他們的創(chuàng)作流程中進(jìn)一步構(gòu)建。我們正在努力工作,讓Marble盡快向公眾開放。

Marble只是我們創(chuàng)建真正具有空間智能的世界模型的第一步。隨著研究加速推進(jìn),研究人員、工程師、用戶和企業(yè)領(lǐng)導(dǎo)者都開始認(rèn)識(shí)到這項(xiàng)技術(shù)的非凡潛力。下一代世界模型將使機(jī)器在全新的層面上實(shí)現(xiàn)空間智能——這將解鎖當(dāng)今AI系統(tǒng)中仍普遍缺失的關(guān)鍵能力。

三、利用世界模型為人類建設(shè)更美好的世界

AI的發(fā)展動(dòng)機(jī)至關(guān)重要。作為推動(dòng)現(xiàn)代AI時(shí)代到來(lái)的科學(xué)家之一,我的動(dòng)機(jī)始終明確:AI必須增強(qiáng)人類能力,而非取代人類。多年來(lái),我一直致力于將AI的開發(fā)、部署和治理與人類需求相契合。如今,關(guān)于技術(shù)烏托邦和世界末日的極端敘事層出不窮,但我依然秉持更為務(wù)實(shí)的觀點(diǎn):AI由人開發(fā)、為人服務(wù)、受人治理。它必須始終尊重人的自主性和尊嚴(yán)。AI的神奇之處在于它能拓展我們的能力,讓我們更具創(chuàng)造力、更緊密相連、更高效且更有成就感??臻g智能體現(xiàn)了這一愿景,AI賦能人類創(chuàng)造者、照護(hù)者、科學(xué)家和夢(mèng)想家,幫助我們實(shí)現(xiàn)曾經(jīng)不可能的事情。正是這種信念驅(qū)使我致力于將空間智能視為AI的下一個(gè)偉大前沿領(lǐng)域。

空間智能的應(yīng)用將分階段推進(jìn)。目前,創(chuàng)意類工具正在涌現(xiàn),World Labs的Marble已經(jīng)將這些能力交到創(chuàng)作者和故事講述者手中。機(jī)器人技術(shù)是雄心勃勃的中期目標(biāo),我們正在完善機(jī)器人感知與行動(dòng)之間的循環(huán)。而最具變革性的科學(xué)應(yīng)用可能需要更長(zhǎng)時(shí)間,但它們有望對(duì)人類的福祉產(chǎn)生深遠(yuǎn)影響。

在這些不同的發(fā)展階段中,有幾個(gè)領(lǐng)域具備重塑人類能力的潛力,因而脫穎而出。要實(shí)現(xiàn)這一目標(biāo),這需要巨大的集體努力,遠(yuǎn)非一個(gè)團(tuán)隊(duì)或一家公司所能企及。它需要整個(gè)AI生態(tài)系統(tǒng)的參與,包括研究人員、創(chuàng)新者、企業(yè)家、公司,甚至政策制定者,都朝著共同的愿景努力。這個(gè)愿景值得我們追求,未來(lái)將從以下幾個(gè)方面展開:

1、創(chuàng)造力:為敘事和沉浸式體驗(yàn)賦能

“創(chuàng)造力是智慧在享受樂(lè)趣”,這是我心目中的英雄阿爾伯特·愛因斯坦的名言之一,也是我最喜歡的名言之一。早在文字出現(xiàn)之前,人類就開始講故事,人們把故事畫在洞穴的墻壁上,代代相傳,在共同的敘事基礎(chǔ)上構(gòu)建起完整的文化。故事是我們理解世界、跨越時(shí)空建立聯(lián)系、探索人性意義的方式,最重要的是,它幫助我們?cè)谧陨碇姓业缴蛺鄣囊饬x。如今,空間智能有潛力改變我們創(chuàng)作和體驗(yàn)敘事的方式,不僅保留敘事的根本重要性,并將其影響擴(kuò)展到娛樂(lè)、教育、設(shè)計(jì)、建筑等多個(gè)領(lǐng)域。

World Labs的Marble平臺(tái)將把前所未有的空間能力和編輯控制權(quán)交到電影制作人、游戲設(shè)計(jì)師、建筑師和各類故事講述者手中,讓他們能夠快速創(chuàng)建并反復(fù)迭代完全可探索的三維世界,而無(wú)需傳統(tǒng)三維設(shè)計(jì)軟件所需的復(fù)雜成本。創(chuàng)造本身依舊像以往一樣至關(guān)重要且充滿人性,而AI工具只是放大并加速了創(chuàng)作者的潛能。這包括:

多維度的敘事體驗(yàn):電影制作人和游戲設(shè)計(jì)師正在使用Marble來(lái)構(gòu)建完整的虛擬世界,不受預(yù)算或地域的限制,并探索在傳統(tǒng)制作流程中難以觸及的各種場(chǎng)景和視角。隨著不同媒介和娛樂(lè)形式之間的界限逐漸模糊,我們正在迎來(lái)一種全新的互動(dòng)體驗(yàn),它融合了藝術(shù)、模擬和游戲——個(gè)性化的世界,在這個(gè)世界里,不僅僅是大型工作室,任何人都可以創(chuàng)造并沉浸在自己的故事中。隨著將創(chuàng)意和分鏡轉(zhuǎn)化為完整體驗(yàn)的新方法和其他更快速的方式不斷涌現(xiàn),敘事將不再局限于單一媒介,創(chuàng)作者可以自由地在眾多界面和平臺(tái)上構(gòu)建擁有共同主線的世界。

通過(guò)設(shè)計(jì)實(shí)現(xiàn)空間敘事:從本質(zhì)上講,每一個(gè)人造物體或建筑空間在實(shí)體創(chuàng)建之前都必須先在虛擬三維環(huán)境中進(jìn)行設(shè)計(jì)。這個(gè)過(guò)程具有高度的迭代性,且通常需要花費(fèi)大量時(shí)間和金錢。有了空間智能模型,建筑師在進(jìn)行設(shè)計(jì)之前就能快速可視化建筑結(jié)構(gòu),甚至可以走進(jìn)尚未存在的空間中,講述我們可能的生活、工作和聚會(huì)方式。工業(yè)和時(shí)尚設(shè)計(jì)師可以立即將想象力轉(zhuǎn)化為實(shí)物形態(tài),探索物體如何與人體和空間相互作用。

全新的沉浸式和交互式體驗(yàn):體驗(yàn)本身,是我們?nèi)祟悇?chuàng)造意義的最深刻方式之一。在整個(gè)人類歷史中,我們只有一個(gè)單一的三維世界:我們共同生活的物理世界。直到近幾十年,通過(guò)游戲和早期的虛擬現(xiàn)實(shí)(VR),我們才開始窺見由人類自己創(chuàng)造的另一個(gè)世界。而現(xiàn)在,空間智能與新的設(shè)備(如VR和擴(kuò)展現(xiàn)實(shí)(XR)頭顯以及沉浸式顯示器)相結(jié)合,使這些體驗(yàn)達(dá)到了前所未有的高度。我們正在邁向一個(gè)未來(lái),在這個(gè)未來(lái)里,走進(jìn)一個(gè)完全實(shí)現(xiàn)的多維世界,將如同打開一本書般自然??臻g智能使世界構(gòu)建不僅對(duì)擁有專業(yè)制作團(tuán)隊(duì)的工作室開放,也對(duì)個(gè)人創(chuàng)作者、教育工作者以及任何有愿景想要分享的人開放。

2、機(jī)器人技術(shù):行動(dòng)中的具身智能

從昆蟲到人類,動(dòng)物都依賴空間智能來(lái)理解、探索和與周圍世界互動(dòng)。機(jī)器人也不例外。自該領(lǐng)域創(chuàng)立以來(lái),具備空間感知能力的機(jī)器一直是其夢(mèng)想,我在斯坦福研究實(shí)驗(yàn)室與學(xué)生和合作者開展的工作也正是圍繞這一目標(biāo)展開。這也是我對(duì)利用World Labs正在構(gòu)建的模型充滿期待的原因,它們有可能讓這一夢(mèng)想成真。

通過(guò)世界模型擴(kuò)展機(jī)器人學(xué)習(xí)能力:機(jī)器人學(xué)習(xí)的進(jìn)展取決于可行訓(xùn)練數(shù)據(jù)的可擴(kuò)展解決方案。鑒于機(jī)器人必須學(xué)習(xí)理解、推理、規(guī)劃和與之交互的巨大狀態(tài)空間可能性,許多人推測(cè),真正創(chuàng)建可泛化的機(jī)器人需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和對(duì)人類演示的現(xiàn)實(shí)世界捕捉。但與語(yǔ)言模型不同,當(dāng)今機(jī)器人研究的訓(xùn)練數(shù)據(jù)十分稀缺。世界模型將在這方面發(fā)揮決定性作用。隨著它們提高感知保真度和計(jì)算效率,世界模型的輸出可以迅速縮小模擬與現(xiàn)實(shí)之間的差距。這將有助于在無(wú)數(shù)種狀態(tài)、交互和環(huán)境的模擬中訓(xùn)練機(jī)器人。

成為伙伴與協(xié)作者:作為人類協(xié)作者的機(jī)器人,無(wú)論是在實(shí)驗(yàn)室協(xié)助科學(xué)家,還是幫助獨(dú)居老人,都能在勞動(dòng)力緊缺和生產(chǎn)效率亟需提升的背景下,承擔(dān)重要角色。但要做到這一點(diǎn),就需要具備空間智能,能夠感知、推理、規(guī)劃和行動(dòng),同時(shí)在情感上與人類的目標(biāo)和行為保持一致。例如,實(shí)驗(yàn)室機(jī)器人可以操作儀器,讓科學(xué)家專注于需要靈巧性或推理能力的任務(wù),而家庭助理機(jī)器人可以幫助老年人做飯,同時(shí)不減少他們的樂(lè)趣或自主性。真正具有空間智能的世界模型,能夠預(yù)測(cè)環(huán)境的下一個(gè)狀態(tài),甚至可能預(yù)測(cè)與人類預(yù)期相符的行動(dòng),對(duì)于實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。

拓展具身形態(tài)多樣性:人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中發(fā)揮著作用,但技術(shù)創(chuàng)新的全部潛力,將體現(xiàn)在更加豐富多樣的設(shè)計(jì)形式中:比如能輸送藥物的納米機(jī)器人、在狹小空間中穿梭的軟體機(jī)器人,以及為深?;蛲鈱涌臻g打造的機(jī)器。無(wú)論其形態(tài)如何,未來(lái)的空間智能模型都必須整合這些機(jī)器人所處的環(huán)境以及它們自身的具身感知和運(yùn)動(dòng)。但開發(fā)這些機(jī)器人的一個(gè)關(guān)鍵挑戰(zhàn)是,缺乏適用于各種具身形式的訓(xùn)練數(shù)據(jù),世界模型將在模擬數(shù)據(jù)、訓(xùn)練環(huán)境和基準(zhǔn)測(cè)試任務(wù)中發(fā)揮著關(guān)鍵作用。

3、長(zhǎng)遠(yuǎn)展望:科學(xué)、醫(yī)療和教育

除了創(chuàng)意和機(jī)器人應(yīng)用外,空間智能還將對(duì)其他領(lǐng)域產(chǎn)生深遠(yuǎn)影響,尤其是在AI能夠挽救生命、加速發(fā)現(xiàn)、增強(qiáng)人類能力的領(lǐng)域。我在下面重點(diǎn)介紹三個(gè)具有深刻變革性的應(yīng)用領(lǐng)域,不過(guò),空間智能的應(yīng)用不止于此。

科學(xué)研究中,空間智能系統(tǒng)可以模擬實(shí)驗(yàn)、并行測(cè)試假設(shè),并探索人類無(wú)法到達(dá)的環(huán)境——從深海到遙遠(yuǎn)的行星。這項(xiàng)技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計(jì)算建模。通過(guò)將多維模擬與現(xiàn)實(shí)世界的數(shù)據(jù)采集相結(jié)合,這些工具可以降低計(jì)算門檻,并拓展每個(gè)實(shí)驗(yàn)室的觀測(cè)和理解范圍。

醫(yī)療健康領(lǐng)域,空間智能將重塑從實(shí)驗(yàn)室到病床邊的各個(gè)環(huán)節(jié)。在斯坦福大學(xué),我的學(xué)生和合作者多年來(lái)一直與醫(yī)院、老年護(hù)理機(jī)構(gòu)和家庭中的病患合作。這段經(jīng)歷讓我深信空間智能在此領(lǐng)域的變革潛力。AI可以通過(guò)對(duì)分子相互作用進(jìn)行多維度建模來(lái)加速藥物研發(fā),通過(guò)幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)模式來(lái)提升診斷水平,還能實(shí)現(xiàn)環(huán)境監(jiān)測(cè)系統(tǒng),在不取代治療所需的人際聯(lián)系的前提下支持患者和護(hù)理人員,更不用說(shuō)機(jī)器人在許多不同場(chǎng)景中幫助我們的醫(yī)護(hù)人員和患者的潛力了。

教育領(lǐng)域,空間智能可以實(shí)現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜的概念變得具體可感,并創(chuàng)造迭代式體驗(yàn),而這種體驗(yàn)對(duì)于我們大腦和身體在學(xué)習(xí)中的運(yùn)作方式至關(guān)重要。在AI時(shí)代,更快、更有效的學(xué)習(xí)和再培訓(xùn)需求對(duì)于學(xué)齡兒童和成年人來(lái)說(shuō)尤為重要。學(xué)生可以探索細(xì)胞機(jī)制,或多維度地體驗(yàn)歷史事件。教師可以通過(guò)互動(dòng)環(huán)境獲得個(gè)性化教學(xué)的工具。專業(yè)人士——從外科醫(yī)生到工程師——可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。

在所有這些領(lǐng)域中,可能性是無(wú)限的,但目標(biāo)始終如一:AI增強(qiáng)人類專業(yè)知識(shí)、加速人類發(fā)現(xiàn)并放大人類關(guān)懷,而不是取代對(duì)人類至關(guān)重要的判斷力、創(chuàng)造力和同理心。

結(jié)論

過(guò)去十年,AI已成為一種全球現(xiàn)象,并成為技術(shù)、經(jīng)濟(jì)乃至地緣政治的一個(gè)轉(zhuǎn)折點(diǎn)。但作為一名研究者、教育者,以及現(xiàn)在的創(chuàng)業(yè)者,最激勵(lì)我的仍然是圖靈75年前那個(gè)問(wèn)題背后的精神。我仍然和他一樣充滿好奇。正是這種好奇,讓我每天都因空間智能的挑戰(zhàn)而充滿動(dòng)力。

在人類歷史上,我們第一次有機(jī)會(huì)打造出與現(xiàn)實(shí)世界高度契合的機(jī)器,讓我們能夠在面臨重大挑戰(zhàn)中將它們作為真正的可依靠的伙伴。無(wú)論是在實(shí)驗(yàn)室中加速對(duì)疾病的理解,徹底革新我們講述故事的方式,還是在我們因疾病、受傷或衰老而最脆弱的時(shí)刻給予支持。我們正站在一項(xiàng)技術(shù)的風(fēng)口浪尖,這項(xiàng)技術(shù)將提升我們最關(guān)心的生活層面。這是一幅更深刻、更豐富、更有力量的生活愿景。

近5億年前,大自然賦予遠(yuǎn)古動(dòng)物最初的空間智能萌芽,而今天,我們有幸成為即將賦予機(jī)器同樣能力的一員,并有幸能夠利用這些能力造福全世界的人們。如果沒有空間智能,我們對(duì)真正智能機(jī)器的夢(mèng)想就無(wú)法真正實(shí)現(xiàn)。

這項(xiàng)使命是我的北極星。加入我,我們一起去追尋它。