智東西(公眾號(hào):zhidxcom)
編譯 | 陳駿達(dá)
編輯 | Panken
智東西11月17日消息,昨日,斯坦福大學(xué)教授、World Labs聯(lián)合創(chuàng)始人兼CEO李飛飛在海外科技播客Lenny’s Podcast上,分享了她對(duì)AI未來的犀利觀點(diǎn)。她認(rèn)為,AI的發(fā)展不能永遠(yuǎn)依賴Scaling Law,更需要根本性的技術(shù)創(chuàng)新;而“通用人工智能”(AGI)更像是一句營(yíng)銷話術(shù),而非嚴(yán)謹(jǐn)?shù)目茖W(xué)術(shù)語(yǔ)。
李飛飛回顧了自己20多年的科研與創(chuàng)業(yè)經(jīng)歷,總結(jié)出現(xiàn)代AI的黃金配方:神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)與GPU的結(jié)合。時(shí)至今日,ChatGPT的成功依然使用了相同的配方。
然而,她同時(shí)警告,單靠擴(kuò)大數(shù)據(jù)規(guī)模和算力的“堆砌”,并不足以實(shí)現(xiàn)智能的突破。當(dāng)前的AI仍難以完成許多對(duì)人類來說輕而易舉的任務(wù),例如從視頻中精確數(shù)清物體數(shù)量,或者像牛頓那樣從觀測(cè)數(shù)據(jù)中推導(dǎo)物理定律。
李飛飛認(rèn)為,我們距離真正具備創(chuàng)造力、抽象能力和情感智能的AI系統(tǒng)還有很長(zhǎng)的路要走,“如今還有太多AI做不到的事情”。
對(duì)于業(yè)界熱議的AGI概念,李飛飛持保留態(tài)度。她認(rèn)為,AGI的定義模糊,作為科學(xué)家,她更關(guān)注如何解決AI面臨的根本性技術(shù)挑戰(zhàn),而不是陷入概念爭(zhēng)論的無底洞。

▲李飛飛接受采訪(圖源:Lenny’s Podcast)
作為創(chuàng)業(yè)者,她也坦言AI領(lǐng)域的競(jìng)爭(zhēng)空前激烈。過去“簡(jiǎn)單模型+海量數(shù)據(jù)”的成功經(jīng)驗(yàn),也就是所謂的“苦澀的教訓(xùn)”,在機(jī)器人等涉及物理世界的應(yīng)用中并不完全適用。自動(dòng)駕駛的發(fā)展近二十年仍未完全成熟,就是一個(gè)典型例子。
而數(shù)據(jù)獲取難、硬件受限,使得在三維空間中操控物體的機(jī)器人技術(shù),面臨比自動(dòng)駕駛技術(shù)還要大的挑戰(zhàn)。
盡管道路漫長(zhǎng),李飛飛始終堅(jiān)信,AI的進(jìn)步是幾代人積累的成果,光靠當(dāng)前的“語(yǔ)言智能”是不夠的。人類在許多關(guān)鍵場(chǎng)景中依賴的是空間智能,研究空間智能,不僅對(duì)機(jī)器人、具身智能的發(fā)展有極大作用,還能在具身層面增強(qiáng)人類,使我們?cè)诳臻g理解、物體操作和現(xiàn)實(shí)世界任務(wù)中獲得新的力量。
以下是對(duì)李飛飛本場(chǎng)訪談的精華整理,完整內(nèi)容可參考文末鏈接:
一、從寒冬走出后,現(xiàn)代AI迎來黃金配方
在訪談中,李飛飛回顧起了自己剛剛涉足AI領(lǐng)域時(shí)的經(jīng)歷。
2000年,李飛飛開始在加州理工大學(xué)攻讀博士學(xué)位。作為第一代機(jī)器學(xué)習(xí)研究員,她的研究重點(diǎn)之一是神經(jīng)網(wǎng)絡(luò)。當(dāng)時(shí),AI還處在少有人問津的“寒冬”。公眾并不關(guān)注這一領(lǐng)域,也沒有那么多資金。
李飛飛的學(xué)術(shù)興趣始終聚焦在視覺智能上。在她看來,如果人類的智能極度依賴視覺,那么機(jī)器的智能也必須從“看懂世界”開始。于是,她在自己的博士階段和教學(xué)生涯早期,選擇了最基礎(chǔ)、也最艱難的方向——物體識(shí)別。
當(dāng)時(shí),數(shù)據(jù)對(duì)AI的重要價(jià)值,尚未得到廣泛認(rèn)可。隨著研究的不斷深入,李飛飛和她的學(xué)生才逐漸意識(shí)到:大數(shù)據(jù),是讓AI活起來的關(guān)鍵要素。
于是,她做出了一個(gè)頗具野心的決定——收集互聯(lián)網(wǎng)中所有關(guān)于物體的圖像數(shù)據(jù)。就這樣,2006年左右,ImageNet項(xiàng)目開始了。最終,這一項(xiàng)目收集了1500萬張圖片、2.2萬個(gè)物體類別,并擁有每年舉辦的挑戰(zhàn)賽。
這個(gè)看似瘋狂的項(xiàng)目成了現(xiàn)代AI的火種。2012年,辛頓團(tuán)隊(duì)使用ImageNet數(shù)據(jù)與兩塊普通游戲GPU,訓(xùn)練出了突破性的神經(jīng)網(wǎng)絡(luò)模型。大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)和GPU這三者的結(jié)合,被李飛飛稱為“現(xiàn)代AI的黃金配方”。
快進(jìn)十年,當(dāng)ChatGPT橫空出世,讓全世界第一次真正意識(shí)到AI的力量時(shí),其背后的三大要素仍然是當(dāng)年那套組合:神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)、GPU。李飛飛認(rèn)為,兩者之間的區(qū)別只不過是規(guī)模。
雖然常有人稱她為“AI教母”,但李飛飛更愿意強(qiáng)調(diào):AI的進(jìn)步不是某個(gè)人的奇跡,而是幾代研究者共同的積累。
二、我不知道AI和AGI有什么區(qū)別,圖靈或許也不知道
AGI還有多遠(yuǎn)?這一問題幾乎已經(jīng)成為所有AI學(xué)者、大牛和企業(yè)高管在訪談中的必答題。在李飛飛看來,AGI這個(gè)概念十分耐人尋味,甚至很少有人能清晰定義。
李飛飛直言:“我進(jìn)入AI領(lǐng)域是因?yàn)槭艿揭粋€(gè)問題的啟發(fā)——機(jī)器能否像人一樣思考和行動(dòng)。從這個(gè)角度來看,我不知道AI和AGI有什么區(qū)別。”她還設(shè)想,如果艾倫·圖靈還健在,并被問及AI與AGI的區(qū)別時(shí),他也可能只會(huì)聳聳肩說:“我在上世紀(jì)40年代問的是同樣的問題?!?/p>
AI是引領(lǐng)李飛飛前進(jìn)的“北極星”,她稱自己不想陷入定義AI與AGI的兔子洞,AGI更像是一個(gè)營(yíng)銷話術(shù),而不是科學(xué)術(shù)語(yǔ)。作為科學(xué)家和技術(shù)專家,她并不在意他人如何稱呼這項(xiàng)技術(shù)。
李飛飛在對(duì)話中強(qiáng)調(diào),盡管更大的數(shù)據(jù)集、更多的GPU和擴(kuò)展現(xiàn)有模型架構(gòu)仍能帶來性能提升,AI的發(fā)展遠(yuǎn)不能只依賴Scaling Law。
當(dāng)前的AI依然無法完成許多連兒童都能輕松做到的任務(wù),例如在一段視頻中準(zhǔn)確數(shù)清椅子;更不用說像牛頓或愛因斯坦那樣,從觀測(cè)中推導(dǎo)出新的自然規(guī)律。即便給AI提供現(xiàn)代儀器收集的全部數(shù)據(jù),它仍無法重建17世紀(jì)的運(yùn)動(dòng)定律。
這些例子表明,我們距離真正具備創(chuàng)造力、抽象能力和情感智能的AI還有很長(zhǎng)的路,未來需要根本性的技術(shù)創(chuàng)新,而非簡(jiǎn)單的堆疊算力。
近日,李飛飛發(fā)布了一篇萬字長(zhǎng)文,詳解了空間智能的概念,并提出AI的下一個(gè)前沿是空間智能。在昨日發(fā)布的訪談中,她也分享了類似的觀點(diǎn)。李飛飛認(rèn)為,僅靠語(yǔ)言智能是不夠的,因?yàn)槿祟愒谠S多關(guān)鍵場(chǎng)景中依賴的是空間智能——例如火災(zāi)、交通事故或自然災(zāi)害現(xiàn)場(chǎng)的應(yīng)急決策。
這些活動(dòng)需要對(duì)物體、動(dòng)作、空間關(guān)系和情境的即時(shí)理解,而不是單靠語(yǔ)言就能完成。她在機(jī)器人研究中逐漸意識(shí)到,具身智能的關(guān)鍵在于理解三維世界。
在這樣的背景下,“世界模型”成為推動(dòng)下一階段AI發(fā)展的關(guān)鍵方向。與傳統(tǒng)的語(yǔ)言模型不同,世界模型不僅能根據(jù)文字或圖像生成一個(gè)完整的虛擬世界,還能讓智能體在其中進(jìn)行互動(dòng)、推理。如果用于機(jī)器人,世界模型將成為其規(guī)劃路徑、理解場(chǎng)景、執(zhí)行操作的基礎(chǔ)。
李飛飛強(qiáng)調(diào),世界模型與空間智能不僅是機(jī)器人發(fā)展的關(guān)鍵缺失環(huán)節(jié),也與人類自身息息相關(guān)。人類本身就是具身智能體,而AI已經(jīng)在語(yǔ)言層面增強(qiáng)了我們的能力,例如寫作或軟件工程;未來,世界模型同樣能夠在具身層面增強(qiáng)人類,使我們?cè)诳臻g理解、物體操作和現(xiàn)實(shí)世界任務(wù)中獲得新的力量。
世界模型與空間智能還將深刻影響設(shè)計(jì)、工程和科學(xué)發(fā)現(xiàn)。例如,DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)依賴于人類從一張扁平的2D X射線衍射圖像中進(jìn)行3D空間推理,而這類跨維度的空間抽象正是當(dāng)前AI難以達(dá)到的。世界模型若能突破,將使AI具備這種更深層次的空間推理能力。
三、Marble不是視頻生成模型,AI創(chuàng)業(yè)競(jìng)爭(zhēng)激烈程度很“震撼”
李飛飛還談到了World Labs最近發(fā)布的產(chǎn)品Marble,這是一個(gè)基于前沿世界模型的應(yīng)用程序,能夠僅通過一句話或一張圖像生成可探索的三維世界。用戶可以在這些虛擬環(huán)境中自由行走、互動(dòng)和導(dǎo)航,從而實(shí)現(xiàn)創(chuàng)意、設(shè)計(jì)、虛擬制作和機(jī)器人模擬等多種應(yīng)用。
她強(qiáng)調(diào),Marble不僅僅是生成二維視頻,而是提供具有真實(shí)空間結(jié)構(gòu)的世界,使創(chuàng)作者、游戲開發(fā)者、設(shè)計(jì)師和研究者能夠快速生成沉浸式場(chǎng)景。實(shí)際案例包括電影虛擬制作、心理學(xué)實(shí)驗(yàn)和機(jī)器人訓(xùn)練環(huán)境合成等等。
Marble與視頻生成模型有著本質(zhì)的區(qū)別。李飛飛稱,Marble核心關(guān)注空間智能,強(qiáng)調(diào)對(duì)三維和四維世界的理解、互動(dòng)和推理。同時(shí),平臺(tái)支持將場(chǎng)景導(dǎo)出為視頻或網(wǎng)格數(shù)據(jù),用于創(chuàng)作或模擬。
李飛飛透露,成立18個(gè)月的World Labs如今擁有一個(gè)大約30人的團(tuán)隊(duì),主要由研究人員和工程師組成,但也擁有設(shè)計(jì)師和產(chǎn)品人員。
李飛飛此前有過不少“創(chuàng)業(yè)”的經(jīng)歷,從19歲時(shí)開過的干洗店,到作為AI首席科學(xué)家領(lǐng)導(dǎo)谷歌云的相關(guān)研究,再到斯坦福以人為本AI研究所,她對(duì)創(chuàng)業(yè)這件事兒的挑戰(zhàn)性已經(jīng)有了一定心理準(zhǔn)備。
然而,當(dāng)真正投身AI創(chuàng)業(yè)后,她仍被AI領(lǐng)域的激烈競(jìng)爭(zhēng)所“震撼”,從模型和技術(shù)之爭(zhēng),到頂尖人才的爭(zhēng)奪,她意識(shí)到必須時(shí)刻保持警惕。
四、造機(jī)器人比造自動(dòng)駕駛汽車還難,“苦澀的教訓(xùn)”并不適用
李飛飛在訪談中,也談到了強(qiáng)化學(xué)習(xí)先驅(qū)Richard Sutton提出的“苦澀的教訓(xùn)”:簡(jiǎn)單模型配合海量數(shù)據(jù)往往比復(fù)雜模型加少量數(shù)據(jù)更有效。對(duì)她而言,這并非“苦澀”,而是“甜蜜”的教訓(xùn),也是她當(dāng)初建設(shè)ImageNet的核心信念。不過,她強(qiáng)調(diào),這一教訓(xùn)無法簡(jiǎn)單套用于機(jī)器人領(lǐng)域。
原因首先在于機(jī)器人數(shù)據(jù)極難獲取。與語(yǔ)言模型不同,語(yǔ)言訓(xùn)練數(shù)據(jù)是天然結(jié)構(gòu)化的詞與token,輸入與輸出形式高度一致,而機(jī)器人真正需要的是三維世界中的動(dòng)作數(shù)據(jù)。
網(wǎng)絡(luò)視頻雖然豐富,卻缺乏可以直接用于訓(xùn)練行動(dòng)策略的動(dòng)作標(biāo)注。因此,機(jī)器人訓(xùn)練不得不依靠遙操作數(shù)據(jù)或合成數(shù)據(jù)來補(bǔ)齊。換言之,機(jī)器人數(shù)據(jù)不像語(yǔ)言一樣自然“對(duì)齊”,這使得苦澀教訓(xùn)中的“大數(shù)據(jù)”假設(shè)難以完全成立。
其次,機(jī)器人是物理系統(tǒng),而不是純軟件模型。與語(yǔ)言模型或視覺模型不同,機(jī)器人更像自動(dòng)駕駛汽車——必須在現(xiàn)實(shí)世界中運(yùn)行、涉及硬件、供應(yīng)鏈、應(yīng)用場(chǎng)景等多種復(fù)雜因素。
李飛飛回顧了自動(dòng)駕駛的發(fā)展:從2005年斯坦福贏得DARPA挑戰(zhàn)賽至今已近20年,深度學(xué)習(xí)雖然加速了算法進(jìn)步,但自動(dòng)駕駛依然未完全解決。而自動(dòng)駕駛只是簡(jiǎn)單得多的機(jī)器人,僅需要在二維平面上避免碰撞,相比之下,機(jī)器人要在三維空間中操控物體,難度更高。
盡管如此,她依然認(rèn)為大數(shù)據(jù)、世界模型和空間智能將是機(jī)器人突破的關(guān)鍵,只是目前仍處在非常早期的探索階段。
結(jié)語(yǔ):AI時(shí)代里,每個(gè)人都有屬于自己的一席之地
在訪談的尾聲,李飛飛主動(dòng)談起了全球范圍內(nèi)對(duì)AI是否會(huì)取代人類的普遍焦慮。她認(rèn)為,任何技術(shù)的發(fā)展都不應(yīng)以犧牲人的尊嚴(yán)與能動(dòng)性為代價(jià),這應(yīng)當(dāng)成為技術(shù)開發(fā)、部署與治理的核心準(zhǔn)則。
無論是年輕藝術(shù)家利用AI進(jìn)行創(chuàng)作,還是臨近退休的農(nóng)民作為公民參與對(duì)AI的監(jiān)管決策,抑或是護(hù)士在AI的輔助下從繁重的工作中解脫,AI的真正價(jià)值,在于成為增強(qiáng)人類能力、服務(wù)于人類需求的賦能者。
對(duì)于AI取代人類的終極命題,李飛飛給出了一個(gè)明確而有力的回答:在AI時(shí)代里,每個(gè)人都有屬于自己的一席之地。
來源:
https://www.youtube.com/watch?v=Ctjiatnd6Xk