智東西(公眾號:zhidxcom)
編譯?|? 李水青
編輯 | ?云鵬

智東西10月21日報道,近日,前特斯拉AI總監(jiān)、OpenAI創(chuàng)始成員安德烈·卡帕西(Andrej Karpathy)進(jìn)行了一場長達(dá)2.5小時的深度訪談,系統(tǒng)性地分享了他對AI現(xiàn)狀與未來的深刻洞察,其諸多觀點挑戰(zhàn)主流認(rèn)知,極具啟發(fā)性。

當(dāng)業(yè)內(nèi)普遍熱議“智能體之年”時,Karpathy卻冷靜地提出,這將是“智能體的十年”。他指出,要打造出真正能像實習(xí)生一樣可靠工作的AI智能體,仍需攻克多模態(tài)、持續(xù)學(xué)習(xí)、使用計算機(jī)等核心瓶頸,這大約需要十年時間。

Karpathy以他近期開源的nanochat項目為例,揭示了大語言模型存在的“認(rèn)知缺陷”。在需要精確架構(gòu)的創(chuàng)新性編程任務(wù)中,AI助手因過度依賴訓(xùn)練數(shù)據(jù)中的常見模式,反而會誤解定制化代碼、增加不必要的復(fù)雜性,最終“讓代碼庫膨脹,簡直是一團(tuán)糟”。

對于推動大模型迭代的主流方法——強(qiáng)化學(xué)習(xí),Karpathy的批評尤為犀利。他形象地比喻道,這種方法本質(zhì)上是“用吸管吸監(jiān)督信號”,即艱難地將最終結(jié)果的單一信號分?jǐn)偟秸麄€復(fù)雜行動過程中,他認(rèn)為這既低效又荒謬。

通過與人類學(xué)習(xí)方式的對比,Karpathy指出了當(dāng)前大模型訓(xùn)練的兩個關(guān)鍵缺陷:“模型坍縮/模型崩潰(model collapse)”導(dǎo)致生成內(nèi)容多樣性枯竭,以及“過度記憶”阻礙了其像人類一樣發(fā)現(xiàn)通用模式。

這如同一個死循環(huán):用模型生成的數(shù)據(jù)訓(xùn)練新模型,只會讓結(jié)果越來越狹隘。有趣的是,Karpathy認(rèn)為,人類同樣會“崩潰”并固守陳規(guī),而大腦或許正通過“做夢”引入隨機(jī)性(熵)來對抗這一趨勢。

在衡量AI進(jìn)展時,Karpathy認(rèn)為應(yīng)更關(guān)注其在具體經(jīng)濟(jì)任務(wù)中的實際表現(xiàn),而非抽象指標(biāo)。他預(yù)判,AGI對宏觀經(jīng)濟(jì)增長的推動將是緩慢而持續(xù)的,會像計算機(jī)、手機(jī)等技術(shù)一樣,悄然融入并延續(xù)原有的約2%的GDP增長態(tài)勢。

盡管前景漫長,Karpathy卻堅信我們早已處于“智能爆炸”之中。他從一個更宏大的視角闡述:從歷史尺度看,這場變革猶如一場“煙花盛宴”,而我們正以慢動作見證著它的發(fā)生。

該訪談內(nèi)容在外網(wǎng)廣泛傳播,社交平臺X上很多網(wǎng)友的評價是“必看”、“每一分鐘都彌足珍貴”、“絕對值得一看”……這些顛覆認(rèn)知的觀點如何而來?又指向什么?智東西對截取了2.5小時訪談中的核心內(nèi)容,進(jìn)行了不改變原意的編輯。

前OpenAI大佬發(fā)“暴論”:大模型終將崩潰,越學(xué)越傻,人也一樣

前OpenAI大佬發(fā)“暴論”:大模型終將崩潰,越學(xué)越傻,人也一樣

一、AGI仍需十年時間,多模態(tài)、持續(xù)學(xué)習(xí)能力是瓶頸

當(dāng)業(yè)內(nèi)熱議“智能體之年”時,Karpathy卻提出這是“智能體的十年”。那么是什么瓶頸需要去攻克十年?

主要對話內(nèi)容如下:

Dwarkesh Patel: Andrej,為什么你說這是智能體的十年,而不是一個智能體年?

Andrej Karpathy: 這實際上是對之前一句名言的回應(yīng),我不確定這句話是誰說的,他們暗示就大語言模型及其未來發(fā)展而言,現(xiàn)在是智能體的十年。這句話之所以觸動我,是因為業(yè)內(nèi)存在一些過度預(yù)測的情況。

一些早期的智能體令人印象深刻,比如Claude和Codex等已被廣泛使用,但我仍然覺得還有很多工作要做,我們會和這些東西協(xié)作十年之久。

Dwarkesh Patel: 您認(rèn)為哪些事情需要十年才能實現(xiàn)?瓶頸是什么?

Andrej Karpathy: 真正讓它發(fā)揮作用。我們會把智能體想象成雇傭的員工或?qū)嵙?xí)生,但目前它們顯然做不到,原因是它們根本就不行——不夠智能,不夠多模態(tài),無法使用計算機(jī),缺乏持續(xù)學(xué)習(xí)能力等。他們的認(rèn)知能力不足,所以根本沒用,解決所有這些問題大概需要十年時間。

Dwarkesh Patel: 為什么是10年,而不是1年或者50年?

Andrej Karpathy: 這就涉及到我個人的一些直覺了,同時也是基于我在該領(lǐng)域的經(jīng)驗所做的一點推斷。我接觸AI領(lǐng)域已有近二十年,不算特別久。既有經(jīng)歷讓我認(rèn)為當(dāng)下問題是可解決、可克服的,但難度依然不小。如果綜合權(quán)衡一下,我感覺大概需要十年時間才能攻克。

二、大語言模型仍有認(rèn)知缺陷,編程模型做得“一團(tuán)糟”

10月14日,Karpathy開源nanochat,號稱可以只用不到100美元(約合人民幣711.5元)訓(xùn)練出“簡易版ChatGPT”,一經(jīng)發(fā)布在GitHub上就獲得了5.6k星。

但在構(gòu)建nanochat代碼庫時,Karpathy發(fā)現(xiàn)當(dāng)前AI編程助手存在明顯局限,幾乎沒有幫助,這是為什么?

主要對話內(nèi)容如下:

Dwarkesh Patel: 你在推特上談到編程模型對你構(gòu)建(nanochat)代碼庫幾乎沒有幫助,為什么?

Andrej Karpathy: 我大概花了一個多月的時間搭建了這個代碼庫。我認(rèn)為現(xiàn)在人們與代碼的交互方式主要分為三類:完全拒絕大語言模型、使用模型中的自動完成功能輔助編寫(我現(xiàn)在的階段),以及氛圍編程。我會在特定環(huán)境下使用它們。但這些都是你可用的工具,你必須了解它們擅長什么、不擅長什么,以及何時使用它們。

nanochat不是適合的場景,因為它是一個相當(dāng)獨特的代碼庫。它幾乎是智力密集型代碼,所有東西都必須非常精確地編寫。這些編程模型存在很多認(rèn)知缺陷。舉個例子,他們總是誤解代碼,因為他們記憶了太多互聯(lián)網(wǎng)上典型的做事方式,而我根本沒有采用這些方式。

Dwarkesh Patel: 舉個例子?

Andrej Karpathy: 我使用了八塊GPU,它們都在進(jìn)行前向和后向計算。在它們之間同步梯度的方法是使用PyTorch的分布式數(shù)據(jù)并行容器,當(dāng)你進(jìn)行后向計算時,它會自動開始通信和同步梯度。我認(rèn)為沒有必要用DDP容器,把它舍棄了,但編程模型試圖讓我使用DDP容器,還一直試圖搞亂代碼風(fēng)格。

他們防御性太強(qiáng)了,一直試圖構(gòu)建一個生產(chǎn)代碼庫,而我不需要這些額外的東西。所以我覺得他們讓代碼庫膨脹,增加了復(fù)雜性,他們不斷誤解,還大量使用棄用的API。這簡直是一團(tuán)糟,根本沒什么用。

三、強(qiáng)化學(xué)習(xí)很糟糕,就像“用吸管吸監(jiān)督信號”,愚蠢又瘋狂

強(qiáng)化學(xué)習(xí)是當(dāng)下大模型迭代的一個主流方法,然而Karpathy犀利地指出,這種方法本質(zhì)上是在“用吸管吸監(jiān)督信號”——將單一結(jié)果信號艱難地分?jǐn)偟秸麄€復(fù)雜行動過程中,既低效又荒謬,與人類通過精細(xì)復(fù)盤的學(xué)習(xí)方式截然不同。

主要對話內(nèi)容如下:

Dwarkesh Patel: 來聊聊強(qiáng)化學(xué)習(xí),如何理解人類僅通過與環(huán)境的互動就能構(gòu)建一個豐富的世界模型,而且?guī)缀跖c場景結(jié)束時的獎勵無關(guān)?

Andrej Karpathy: 人類不會使用強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)比我想象得要糟糕得多,當(dāng)然其他的方法更糟。在強(qiáng)化學(xué)習(xí)中,它幾乎假設(shè)你得出正確答案的每一個小細(xì)節(jié)都是正確的,但這并非事實。你可能在找到正確答案之前,一直在走錯路。你做的每一個錯誤,只要你最終得到了正確的答案,都會被加權(quán)為“繼續(xù)這樣做”。這很糟糕,它就是噪音。

你做了這么多工作,最后卻只得到一個數(shù)字?;谶@個數(shù)字,你就會把整個軌跡的權(quán)重加起來,或者減去權(quán)重。我喜歡這樣說,你就像在“用吸管吸著監(jiān)督信號”。你做了這么多工作,本來可能只需要一分鐘就能完成,但現(xiàn)在你卻把最終獎勵信號的監(jiān)督信息一點點地吸了進(jìn)去,然后把它傳播到整個軌跡上,用它來加權(quán)或減權(quán)軌跡。

這簡直愚蠢又瘋狂。人類永遠(yuǎn)不會這樣做。

首先,人類永遠(yuǎn)不會進(jìn)行數(shù)百次的部署;其次,當(dāng)一個人找到解決方案時,他們會經(jīng)歷一個相當(dāng)精細(xì)的復(fù)盤過程:“好吧,我覺得這些部分我做得很好,這些部分我做得不太好。我應(yīng)該這樣做或那樣做?!彼麄儠屑?xì)思考,目前的大模型訓(xùn)練中沒有類似的東西。但我確實看到一些論文試圖這樣做。

Dwarkesh Patel: 既然這一點顯而易見,那么為什么基于過程的監(jiān)督作為一種替代方案,卻沒能成功地提升模型的能力呢?是什么阻礙了我們使用這種替代范式?

Andrej Karpathy: 基于過程的監(jiān)督指的是我們不會在最后才設(shè)置獎勵機(jī)制。你完成了10分鐘的工作后,我不會告訴你做得好還是不好。我會在每一步都告訴你你做得有多好。我們沒有這樣做的原因是,如何正確地做到這一點很棘手。你只有部分解決方案,卻不知道如何分配功勞。

事實上,無論何時你使用大語言模型來分配獎勵,這些擁有數(shù)十億參數(shù)的龐然大物很容易被玩弄。如果你對它們進(jìn)行強(qiáng)化學(xué)習(xí),你幾乎肯定會找到對抗樣本來作為你的模型評判標(biāo)準(zhǔn)。所以你不能這樣做太久。你可能只進(jìn)行10步或20步,也許會成功,但你不可能進(jìn)行100步或1000步。它會在這個巨型模型的每一個角落和縫隙中找到所有這些虛假的東西,并找到欺騙它的方法。

四、與人類學(xué)習(xí)對比,AI面臨“隱性坍縮”危機(jī),過目不忘成痛點

與人類的學(xué)習(xí)方式作類比,Karpathy談及了大模型學(xué)習(xí)的兩個重要缺陷。

一是模型坍縮問題。當(dāng)前AI僅被動預(yù)測數(shù)據(jù),缺乏人類式的主動思考,導(dǎo)致其生成內(nèi)容多樣性枯竭,即出現(xiàn)隱性坍縮。

二是過度記憶問題。人類因不完美記憶而擅長發(fā)現(xiàn)通用模式;AI則困于精確記憶,弱于泛化。Karpathy認(rèn)為,增強(qiáng)AI思考能力需平衡記憶與算法,此為核心挑戰(zhàn)。

主要對話內(nèi)容如下:

Dwarkesh Patel: 在機(jī)器學(xué)習(xí)領(lǐng)域,與人類白日夢、睡眠或單純反思相對應(yīng)的概念是什么?

Andrej Karpathy:的確,我們在這方面遺漏了一些關(guān)鍵維度。舉個例子,就說讀書吧。目前大型語言模型的“讀書”只是被動地預(yù)測下一個詞,并從中汲取知識。但這并非人類的學(xué)習(xí)方式——書籍對我們而言,更像是一組激發(fā)思考、討論與內(nèi)化的“提示詞”。人類通過這種主動加工來真正掌握知識,而AI完全缺乏這一機(jī)制。我期望未來能讓模型在預(yù)訓(xùn)練中融入對材料的深度反思與消化環(huán)節(jié),但這仍是待解的研究課題。

這并非易事,舉個例子,我們?yōu)槭裁床挥煤铣蓴?shù)據(jù)訓(xùn)練模型?核心問題在于模型生成的樣本存在 “隱性坍縮(silently collapsed)”—— 單看樣本無明顯異常,但實則僅覆蓋極小的內(nèi)容思考范圍,數(shù)據(jù)分布過于局限(比如ChatGPT只會講幾個笑話)。這類樣本缺乏人類內(nèi)容的豐富性、多樣性與高熵值,難以支撐有效訓(xùn)練。如何在避免坍縮的同時維持熵值,讓合成數(shù)據(jù)發(fā)揮作用,仍是未解決的研究課題。

我認(rèn)為這個問題可能沒有根本的解決方案。我還認(rèn)為人類會隨著時間的推移而坍縮,或者說會崩潰。這就是為什么孩子們還沒有過度適應(yīng),他們會說一些讓你震驚的話,因為他們還沒有崩潰,但我們已經(jīng)崩潰了。我們最終會重復(fù)同樣的想法,會說越來越多同樣的話,學(xué)習(xí)率就會下降,崩潰會持續(xù)惡化,然后一切都會惡化。

Dwarkesh Patel: 你看過這篇超級有趣的論文嗎?它說做夢是防止這種過度擬合和崩潰的一種方式。它能讓你置身于與日常現(xiàn)實截然不同的奇特情境中,從而防止這種過度擬合。

Andrej Karpathy: 這是一個有趣的想法。我認(rèn)為當(dāng)你在腦海中生成事物并加以處理時,你是在用自己的樣本進(jìn)行訓(xùn)練,用合成數(shù)據(jù)進(jìn)行訓(xùn)練。如果你這樣做太久,就會偏離軌道,最終崩潰。生活中你總是需要尋找熵。與他人交談是熵的重要來源,諸如此類。也許大腦也建立了一些內(nèi)部機(jī)制來增加這一過程中的熵。這是一個有趣的想法。

Dwarkesh Patel: 有一個不成熟的想法,記憶力極差、易遺忘的幼兒,反而擅長學(xué)習(xí)新語言和探索世界;大語言模型雖能精準(zhǔn)復(fù)述信息,卻難快速掌握抽象概念;成年人介于二者之間。這其中或許有值得探究的內(nèi)容?

Andrej Karpathy: 人類比大語言模型更容易“只見樹木不見森林”。我們不那么擅長記憶,但這是一個特點而非缺點。

大語言模型的記憶力極強(qiáng),它們被預(yù)訓(xùn)練文檔的記憶所困擾,從某種意義上說,這可能非常分散它們的注意力。與大語言模型相比,人類不太擅長記憶,所以我們被迫在更普遍的意義上尋找模式。這是人類的特性而非缺陷,因為它迫使你只學(xué)習(xí)可泛化的部分

所以,當(dāng)我談到認(rèn)知核心時,我希望大語言模型更少地進(jìn)行記憶,只需保留用于思考的算法、實驗的想法以及所有這些用于行動的認(rèn)知粘合劑。

Dwarkesh Patel: 這也與防止模型崩潰(model collapse)有關(guān)嗎?解決方案是什么?

Andrej Karpathy: 我不確定,這大概是另一個分支。模型的記憶力太強(qiáng)了,我們應(yīng)該想辦法把它去掉。人類的記憶力差得多,但這也是一件好事。

談到解決方案,你可以想象一下對熵之類的東西進(jìn)行正則化。我猜它們在經(jīng)驗上效果不佳,因為現(xiàn)在的模型已經(jīng)坍縮了。但我要說的是,我們想要的大多數(shù)任務(wù)實際上并不要求多樣性,這或許就是問題的答案。

前沿實驗室正在努力讓這些模型變得實用。我覺得輸出結(jié)果的多樣性并不重要……首先,處理和評估這些事情要困難得多,但這可能并不是捕捉大部分價值的關(guān)鍵。

五、我們處于慢動作 “煙花盛宴”中,但AGI不會使GDP突進(jìn)增長

人們提出了不同的AGI進(jìn)展衡量標(biāo)準(zhǔn)。例如用“教育水平”類比:從高中生到博士生;或用“任務(wù)時長”衡量:從完成一分鐘任務(wù)到一周任務(wù)。

但Karpathy對這些標(biāo)準(zhǔn)都不認(rèn)同。他認(rèn)為更應(yīng)關(guān)注AI在具體經(jīng)濟(jì)任務(wù)中的實際表現(xiàn),而非這些抽象指標(biāo)。

主要對話內(nèi)容如下:

Dwarkesh Patel: 我們應(yīng)該如何看待AI的進(jìn)步?

Andrej Karpathy: 我?guī)缀跸刖芙^“如何衡量AGI進(jìn)展”這個問題,因為AI只是計算的延伸。我堅持OpenAI最初的AGI定義:一個能完成任何具有經(jīng)濟(jì)價值、性能達(dá)到或超過人類水平的系統(tǒng)。人們在探討進(jìn)展時把實體工作(可能占經(jīng)濟(jì)總量超80%?)排除在外,這與最初的定義相比,是一個相當(dāng)大的讓步。即便只拿下剩下的“知識工作”市場,那也是一個價值數(shù)萬億美元的龐大市場。

按OpenAI的定義,AI進(jìn)展其實有限。以放射科醫(yī)生為例,預(yù)測其被取代是錯誤的,因為工作本身復(fù)雜。真正可能自動化的是如呼叫中心員工的工作——簡單、重復(fù)、數(shù)字化。即便如此,我期待的也是“自主性滑塊”:AI完成80%工作量,人類負(fù)責(zé)監(jiān)督20%,管理不完善的AI。這將是漸進(jìn)過程,而非取代。

Dwarkesh Patel: 目前的模型更接近 “編譯器” 工具而非人類 “替代”。但如果真的出現(xiàn)AGI,它理應(yīng)能勝任你的工作。要是能并行復(fù)制出上百萬個 “你”,你認(rèn)為會極大加速AI的發(fā)展進(jìn)程嗎?是否會出現(xiàn) “智能爆炸”?

Andrej Karpathy: 我認(rèn)為會的,但這其實只是常規(guī)發(fā)展而已 —— 因為我們早已身處智能爆炸之中,而且已經(jīng)持續(xù)數(shù)十年了。本質(zhì)上,GDP曲線就是工業(yè)領(lǐng)域諸多方面的指數(shù)加權(quán)總和,能直觀反映這一點。

數(shù)百年來,所有事物都在逐步實現(xiàn)自動化:工業(yè)革命解決了物理層面的自動化,涉及機(jī)械組件、工具制造等領(lǐng)域;編譯器則是早期的軟件自動化產(chǎn)物,諸如此類。長期以來,我們一直在進(jìn)行遞歸式的自我提升,處于智能爆炸的進(jìn)程中。

換個角度看,若不考慮生物機(jī)制等因素,地球曾是個十分單調(diào)的地方,樣貌幾乎沒什么變化。但從太空俯瞰就會發(fā)現(xiàn),我們正處于一場 “煙花盛宴” 之中,只是我們是以慢動作在見證這一切。我堅信這種智能爆炸早已發(fā)生并持續(xù)了很久。

再說一次,在我看來,AI并非與長期以來的技術(shù)發(fā)展割裂的獨特技術(shù)。

Dwarkesh Patel: 你認(rèn)為它與這種超指數(shù)增長趨勢是一脈相承的?

Andrej Karpathy: 沒錯。這也是我對這個話題很感興趣的原因。我曾試圖在GDP數(shù)據(jù)中找到AI的痕跡,本以為GDP 會因此出現(xiàn)顯著增長,但后來我研究了其他一些我認(rèn)為具有變革性的技術(shù),比如計算機(jī)、手機(jī)等,卻發(fā)現(xiàn)也無法在GDP數(shù)據(jù)中看到它們的明顯影響,GDP依然保持著原有的指數(shù)增長態(tài)勢。

所有技術(shù)的影響都被分散開來,傳播過程十分緩慢,最終都被平均到了那條不變的指數(shù)增長曲線中。計算機(jī)的情況也完全一樣,你無法在GDP數(shù)據(jù)中找到 “哦,我們現(xiàn)在有計算機(jī)了” 這樣的明顯拐點,因為它的發(fā)展進(jìn)程太過緩慢。

AI也會呈現(xiàn)出完全相同的態(tài)勢。它本質(zhì)上只是更多形式的自動化,一種新型計算機(jī)和新型計算系統(tǒng),它存在諸多問題,其影響會隨著時間慢慢擴(kuò)散,最終也會融入那條既定的指數(shù)增長曲線。

這條指數(shù)曲線仍將持續(xù)攀升,變得愈發(fā)陡峭。生活在那樣的環(huán)境中,將會是一種非常陌生的體驗。

Dwarkesh Patel: 你是說,從工業(yè)革命前到現(xiàn)在的趨勢來看,呈現(xiàn)的是一種超指數(shù)增長。那如果把AI納入這個趨勢圖,它會讓增長率提升到20%甚至200%嗎?還是說增長率始終保持不變,一直是2%?

Andrej Karpathy: 增長率大致也保持穩(wěn)定吧。

Dwarkesh Patel: 只在過去兩三百年里保持穩(wěn)定而已。但縱觀人類歷史,增長率其實是爆發(fā)式增長的,從0%一路不斷加速達(dá)到了2%的增長率。

Andrej Karpathy: 我曾嘗試在GDP曲線中尋找AI的影響痕跡,但我逐漸意識到這種思路是錯誤的。

結(jié)語:道阻且艱,AGI尚有很多瓶頸需突破

在這一采訪中,Karpathy還談及了ASI(人工超級智能)、智能與文化的進(jìn)化、自動駕駛發(fā)展、教育等具有實際意義的話題方向,比如他還提出“ASI可能會讓人喪失對日益復(fù)雜的自動化系統(tǒng)的理解和掌控”,“未來智能體或許能演化出文化”、“要實現(xiàn)自動駕駛99%乃至99.9%的可靠性需要付出巨大的持久的努力”等。

在這場關(guān)于AI未來的深刻對話中,Karpathy既描繪了激動人心的技術(shù)遠(yuǎn)景,也毫不避諱地指出了當(dāng)前的根本性瓶頸。這提醒我們,在技術(shù)狂熱中保持清醒的認(rèn)知,或許比盲目樂觀更能推動真正的進(jìn)步。通往AGI的道路沒有捷徑,唯有持續(xù)攻克那些“不性感”的基礎(chǔ)問題,才能讓這場變革真正到來。

了解訪談完整內(nèi)容,地址如下:
https://www.dwarkesh.com/p/andrej-karpathy