欧美一区二区三区再线播放,91精品久久天干天天天按摩,京香中文字幕在线播放

AI應(yīng)用風(fēng)向標(biāo)（公眾號：ZhidxcomAI）
作者｜江宇
編輯｜漠影

智東西11月6日報(bào)道，近日，前特斯拉AI負(fù)責(zé)人、OpenAI研究員安德烈·卡帕西（Andrej Karpathy）接受播客《Dwarkesh Pdocast》專訪。

在長達(dá)150分鐘的對談中，這位AI界大神兼“網(wǎng)紅”系統(tǒng)回顧了過去十年人工智能的演進(jìn)路徑，重點(diǎn)闡述了他對“智能體十年”的判斷邏輯，重申大模型的局限性，并警告強(qiáng)化學(xué)習(xí)、模型坍縮等機(jī)制性問題仍未解決。

卡帕西認(rèn)為，當(dāng)前AI行業(yè)正在重演當(dāng)年“游戲通往AGI”的早期幻想熱潮。他提到，距離能真正替代實(shí)習(xí)生工作的智能體，還有至少十年技術(shù)迭代，而非某些公司口中的“2025元年”。

訪談圍繞“我們在構(gòu)建什么樣的智能體”、“模型智能的本質(zhì)是什么”和“未來AGI的落點(diǎn)在哪里”等問題展開，卡帕西從神經(jīng)網(wǎng)絡(luò)演進(jìn)史談到大模型的記憶瓶頸，從代碼自動補(bǔ)全的實(shí)用性談到AI文化缺失、合成數(shù)據(jù)坍縮，并提出了“認(rèn)知核心應(yīng)小于10億參數(shù)”的推測。

目前，這期節(jié)目在YouTube已獲得超87萬次觀看，評論區(qū)不少觀眾稱其為“過去幾個月AI頻道播客的黃金時段”，更有用戶將卡帕西的一句評論“我們不是在造動物，而是在造幽靈”稱為“精準(zhǔn)捕捉整個AI領(lǐng)域的神句”。

AI大神卡帕西3萬字訪談：AI是 “數(shù)字幽靈”，智能體好用還要10年

訪談中，卡帕西的核心判斷如下：

1、卡帕西反駁 “2025是智能體元年” 的說法，認(rèn)為智能體從 “能看” 到 “能工作” 需十年演進(jìn)，而非一年突破。

2、AI與生物智能存在本質(zhì)差異：AI是 “數(shù)字幽靈”，不是 “動物”。

3、未來AI核心驅(qū)動力是數(shù)據(jù)、硬件、算法的 “同步提升”，而非單一突破。

3、卡帕西反駁 “規(guī)模崇拜”，未來高效AI是 “小而精的認(rèn)知核心”，而非萬億參數(shù)模型。

4、卡帕西認(rèn)為現(xiàn)在的模型像是具備某些能力的神童，但整體認(rèn)知上仍然像是小孩。

5、強(qiáng)化學(xué)習(xí)對高階認(rèn)知沒用，靠 “對錯” 結(jié)果反向獎勵易失控。

6、卡帕西判斷當(dāng)前AI僅適配部分領(lǐng)域，其他行業(yè)想靠AI全自動化，短期內(nèi)根本不可能。

7、多智能體協(xié)作的核心瓶頸是模型沒 “真理解”，再厲害也只是 “認(rèn)知上的小孩”。

8、AI不會讓GDP跳漲，所謂 “智能爆炸” 是自動化的延續(xù)，而AI是計(jì)算的延續(xù)。

9、卡帕西否認(rèn) “AI算力過剩”，覺得現(xiàn)在建的算力早晚都會被真實(shí)需求用完，不用杞人憂天。

10、卡帕西直言大模型 “坍縮” 是硬傷，生成內(nèi)容越用越重復(fù)，靠自身合成數(shù)據(jù)訓(xùn)練只會更糟。

AI大神卡帕西3萬字訪談：AI是 “數(shù)字幽靈”，智能體好用還要10年

以下是對訪談全程內(nèi)容的編譯（為優(yōu)化閱讀體驗(yàn)智東西做了不改變原意的編輯）：

一、“2025是智能體元年”？卡帕西潑冷水：距離真正“能干活”還有十年

Dwarkesh Patel：Andrej，為什么你說這是“智能體的十年”，而不是“智能體元年”？

Andrej Karpathy：首先，謝謝邀請，很高興來聊這個話題。我之所以說“這是智能體的十年”，其實(shí)是回應(yīng)業(yè)內(nèi)流傳的一種說法——有人提出2025是“智能體之年”。我記不清是誰先說的了，應(yīng)該是某個大模型研究機(jī)構(gòu)提出來的，他們的意思是今年LLM將進(jìn)化出非常強(qiáng)的Agent能力。

我當(dāng)時聽到這個說法覺得有些被觸動了，因?yàn)槲?span style="color: #0f59a4">認(rèn)為現(xiàn)在行業(yè)里有一些過度樂觀的預(yù)期。我的判斷是，這個過程不會只花一年，而更可能是一個長達(dá)十年的演進(jìn)過程。現(xiàn)在我們確實(shí)已經(jīng)看到了一些很令人驚艷的早期智能體產(chǎn)品，比如Claude、Code Interpreter等，我自己也在日常使用它們。但距離“真的能工作”的狀態(tài)，我們還有很多技術(shù)問題沒解決。

所以我的說法更像是一種時間尺度上的糾偏：我們將花一個十年去把智能體真正做出來，它們會越來越好，我們會持續(xù)地與它們共事，但這不是一年能搞定的事情。

Dwarkesh Patel：那你覺得哪些能力的缺失導(dǎo)致它們現(xiàn)在還“不能工作”？具體的瓶頸是什么？

Andrej Karpathy：從本質(zhì)上來說，是因?yàn)?span style="color: #0f59a4">它們還沒法“真的完成工作”。你可以把Agent理解成一個虛擬的員工，甚至是一個實(shí)習(xí)生，你希望它能夠幫你完成某些日常任務(wù)。比如你在做播客，也許你會想讓Claude或Code Interpreter來做某些內(nèi)容整理工作——但你現(xiàn)在沒這么做，對吧？原因很簡單：它們還不夠智能。它們不具備真正的多模態(tài)能力，無法流暢使用電腦操作，記憶也很差，沒法持續(xù)學(xué)習(xí)，你告訴它一件事，它下次就忘了；思維能力也還遠(yuǎn)遠(yuǎn)不夠。所以說它們“不能工作”不是說它們完全沒用，而是還無法承擔(dān)你能交給一個人類實(shí)習(xí)生的那類任務(wù)。我認(rèn)為，解決這些問題至少需要十年時間。

Dwarkesh Patel：有意思。我作為播客主持人和一個對AI比較“遠(yuǎn)觀”的觀察者，確實(shí)能指出一些明顯缺失，比如持續(xù)學(xué)習(xí)、多模態(tài)能力，但我很難判斷這些問題會需要多久解決。那你為什么覺得是十年？為什么不是1年？或者50年？

Andrej Karpathy：這確實(shí)是一種經(jīng)驗(yàn)判斷，同時也依賴我在行業(yè)里的長期積累。嚴(yán)格說我做AI的時間還不到20年，大概15年左右，不算特別長。但這15年里，我見證了很多人對AI發(fā)展的預(yù)測，也觀察了這些預(yù)測如何實(shí)現(xiàn)或落空；我自己既在研究圈工作，也在工業(yè)界實(shí)戰(zhàn)過，這些經(jīng)歷讓我形成了一個相對穩(wěn)定的直覺。我的判斷是：這些問題是可以解決的，它們是“可攻克的”，但同時也不容易，它們確實(shí)“挺難”。所以如果讓我給出一個平均估算，大概十年是一個合理的時間框架。

二、卡帕西回顧15年AI三次“地震”：既有突破，也有彎路，正確路徑是LLM奠基，其上再建Agent

Dwarkesh Patel：這個視角很有意思。我其實(shí)也很好奇，從你進(jìn)入AI行業(yè)開始的這十幾年中，行業(yè)內(nèi)部都發(fā)生過哪些關(guān)鍵的“情緒轉(zhuǎn)變”？比如有哪些時候大家的預(yù)期過于樂觀或悲觀？

Andrej Karpathy：這是個很大的問題，因?yàn)檫^去15年AI發(fā)展中確實(shí)發(fā)生了幾次“地震級”的變化，每次都讓整個領(lǐng)域的視角發(fā)生重大轉(zhuǎn)向。大概有兩三次我是親歷者，我相信將來還會有更多這種突如其來的轉(zhuǎn)折。

比如我剛開始做深度學(xué)習(xí)，是因?yàn)槲耶?dāng)時恰好在多倫多大學(xué)，身邊正是杰弗里·辛頓（Geoffrey Hinton）——他是深度學(xué)習(xí)領(lǐng)域的奠基者。當(dāng)時他正在訓(xùn)練神經(jīng)網(wǎng)絡(luò)，我覺得這非?？嵋埠苡幸馑?，但那時候這完全不是AI主流的方向。也就是說，我是“誤打誤撞”進(jìn)入了這個賽道，但正是這些偶然的窗口，構(gòu)成了我后來的整段職業(yè)軌跡。

當(dāng)時神經(jīng)網(wǎng)絡(luò)還是一個邊緣話題，直到AlexNet等模型出現(xiàn)，才迎來第一次真正的“地震式轉(zhuǎn)變”。我覺得AlexNet的意義在于它重新校準(zhǔn)了行業(yè)方向，大家都開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)了。但那個階段依然是“按任務(wù)”訓(xùn)練模型，比如做圖像分類，做神經(jīng)機(jī)器翻譯，都是一項(xiàng)任務(wù)對應(yīng)一個模型。

直到后來，大家才慢慢對智能體真正感興趣。我們在“視覺皮層”——也就是感知系統(tǒng)這部分，已經(jīng)取得了一些不錯的進(jìn)展。那下一步是什么？是要去模擬大腦中其他功能區(qū)，尤其是那些能驅(qū)動行為的模塊，也就是讓智能體不僅能看、還能動，能感知世界、也能和環(huán)境交互。我認(rèn)為2013年左右Atari游戲上的深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)是這一探索的起點(diǎn)，它的意義在于：嘗試構(gòu)建既能感知世界又能采取行動的智能體，在環(huán)境中做出決策、獲取獎勵。當(dāng)時用的是Atari游戲環(huán)境。

我現(xiàn)在回頭看，會覺得這是一次方向錯誤。包括我當(dāng)時所在的OpenAI在內(nèi)，大家都陷入了這種用游戲做智能體的“潮流”中。當(dāng)時整個技術(shù)界的風(fēng)向就是做強(qiáng)化學(xué)習(xí)、打游戲、過關(guān)斬將，OpenAI也做了很多相關(guān)項(xiàng)目。

但我其實(shí)從一開始就對“用游戲通往AGI”這件事是有懷疑的。在我看來，一個真正有價(jià)值的Agent，應(yīng)該像一個會計(jì)，能在真實(shí)世界中進(jìn)行有意義的交互和工作，而游戲并沒有給出這樣的外部復(fù)雜度。因此我在OpenAI做的一個項(xiàng)目，是在“Universe”平臺下訓(xùn)練一個能用鍵盤和鼠標(biāo)操作網(wǎng)頁的Agent，我希望它能與真實(shí)數(shù)字世界交互，做一些知識工作。

但這個項(xiàng)目實(shí)在太早了，早到我們其實(shí)根本不該在那個時間點(diǎn)做它。因?yàn)橹悄荏w完全不知道自己在做什么，只是胡亂點(diǎn)鼠標(biāo)、敲鍵盤，然后試圖從極其稀疏的獎勵信號中學(xué)習(xí)。但這種設(shè)置幾乎學(xué)不到任何東西，只會耗費(fèi)大量計(jì)算資源，什么成果也出不來。問題的關(guān)鍵在于，我們當(dāng)時的模型沒有足夠的表征能力（representation power），所以無法真正理解環(huán)境，更談不上做出有效行動。

今天我們看到的一些“能用電腦的Agent”，都是建立在大語言模型之上的。這說明你必須先訓(xùn)練出一個語言模型，有了足夠強(qiáng)的表征能力之后，才能往上構(gòu)建Agent。換句話說，LLM是基礎(chǔ)，Agent是“后蓋的結(jié)構(gòu)”。

但過去我們反復(fù)犯了一個錯誤，就是在基礎(chǔ)能力沒跟上的情況下，就急著追逐“完整Agent”這個目標(biāo)。Atari是這樣，Universe也是這樣，包括我自己的很多早期嘗試其實(shí)都太著急了。我們總是試圖直接去構(gòu)建智能體，但其實(shí)必須先解決一些底層問題。

所以我認(rèn)為，過去這十幾年AI的發(fā)展，大概可以分為三個階段：第一階段是按任務(wù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)；第二階段是第一次嘗試構(gòu)建智能體；第三階段是用大語言模型訓(xùn)練出強(qiáng)表征能力，然后在此基礎(chǔ)上發(fā)展智能體，這才是目前比較靠譜的路徑。

三、別再用“造動物”思路做AGI：預(yù)訓(xùn)練只是“低配版進(jìn)化”，要提煉出能思考的“認(rèn)知核心”

Dwarkesh Patel：我覺得可以嘗試站在另一派的角度為他們的觀點(diǎn)辯護(hù)。他們會說，人類或動物其實(shí)天生就能從零開始學(xué)習(xí)，不需要語言、標(biāo)簽或結(jié)構(gòu)化數(shù)據(jù)。比如動物出生后被直接扔進(jìn)世界里，沒有任何“訓(xùn)練語料”，也能慢慢理解環(huán)境，學(xué)會行為。所以AGI的目標(biāo)是不是也該如此：從感官數(shù)據(jù)出發(fā)，看著屏幕，自己推理世界的規(guī)則？我們?yōu)槭裁匆◣装偃f年的訓(xùn)練計(jì)算量，才能學(xué)會這些東西？

Andrej Karpathy：這是個很好的問題。簡單說，我對“把AI類比動物”的說法會特別謹(jǐn)慎。因?yàn)閯游镞M(jìn)化出的智能，是經(jīng)過一種完全不同的優(yōu)化過程形成的，和我們用損失函數(shù)、梯度下降訓(xùn)練模型完全不一樣。雖然你直覺上會覺得“小動物能從零學(xué)會感知，那AI也應(yīng)該可以”，但兩者之間的機(jī)制差別實(shí)在太大了。

所以目前來看，我們還是需要先獲得強(qiáng)大的表征能力，通過預(yù)訓(xùn)練、大模型這些方式構(gòu)建知識，再考慮讓Agent去行動，而不是直接模擬生物從零開始的成長過程。

動物是在進(jìn)化過程中發(fā)展出來的，它們在出生時就帶有大量“內(nèi)建的硬件”。比如我舉過的例子，一只斑馬出生幾分鐘后就能奔跑、跟著母親移動，這是一個極其復(fù)雜的行為過程。這種能力并不是靠強(qiáng)化學(xué)習(xí)獲得的，而是直接內(nèi)嵌進(jìn)它們的大腦結(jié)構(gòu)中的。顯然，進(jìn)化有某種機(jī)制能將神經(jīng)網(wǎng)絡(luò)的權(quán)重“編碼”進(jìn)DNA序列（即ATCG堿基），雖然我不知道它具體是怎么做到的，但它確實(shí)有效。

所以我認(rèn)為，大腦的形成過程和我們現(xiàn)在訓(xùn)練AI的方式是完全不同的，這也是我為什么不太愿意直接從生物大腦那里汲取靈感——因?yàn)槲覀儾]有在運(yùn)行同樣的優(yōu)化過程。

我們現(xiàn)在其實(shí)不是在造“動物”，我們更像是在造“幽靈”或者“靈體”之類的東西。因?yàn)?span style="color: #0f59a4">我們不是通過進(jìn)化來訓(xùn)練智能體，而是靠模仿人類以及互聯(lián)網(wǎng)上的數(shù)據(jù)。最終我們獲得的是一些完全數(shù)字化的、在某種程度上模仿人類行為的“非實(shí)體智能體”，它們的智能形式和動物或人類的本質(zhì)差別非常大。

你可以把所有可能的智能體看成一個大的空間（intelligence space），而我們目前構(gòu)建的AI，和生物體所處的位置完全不同。當(dāng)然，我也認(rèn)為我們可以嘗試讓這些AI變得更像動物，我也希望朝那個方向推進(jìn)。

我覺得他們的思路是想“造動物”，這是一個很棒的目標(biāo)，如果真能讓一個統(tǒng)一算法在互聯(lián)網(wǎng)上跑一遍就能學(xué)會一切，那當(dāng)然是件偉大的事。但我懷疑這樣的算法是否真的存在，而且我可以確定動物也不是這么做的。動物的智能發(fā)展有一個“外循環(huán)”過程，那就是進(jìn)化，而我們沒有。看上去像“學(xué)習(xí)”的那些過程，其實(shí)很多是大腦成熟的結(jié)果，并不是真的強(qiáng)化學(xué)習(xí)。我甚至認(rèn)為，強(qiáng)化學(xué)習(xí)在動物身上其實(shí)主要用于運(yùn)動控制這類任務(wù)，比如“投籃”這樣的行為，而不是用于解決高階智能問題，比如邏輯推理或問題求解。換句話說，我認(rèn)為人類并沒有廣泛依賴強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)認(rèn)知智能。

Dwarkesh Patel：你能再重復(fù)一下剛才那句話嗎？你說強(qiáng)化學(xué)習(xí)主要解決的不是智能任務(wù)，而是類似運(yùn)動控制的事情？

Andrej Karpathy：對，我的看法是，強(qiáng)化學(xué)習(xí)在人類身上更像是用來完成一些基本動作類任務(wù)，比如投擲一個圈套、完成一個物理動作等。但在更高層級的智能任務(wù)，比如問題解決和認(rèn)知推理方面，我認(rèn)為人類并不怎么依賴強(qiáng)化學(xué)習(xí)。

Dwarkesh Patel：非常有趣，我需要消化一下你剛才講的這些內(nèi)容。那我想問一個澄清性問題：你是不是在說，進(jìn)化其實(shí)相當(dāng)于一個“預(yù)訓(xùn)練過程”？它構(gòu)建出一個足夠復(fù)雜的結(jié)構(gòu)，之后個體才能在一生中進(jìn)行學(xué)習(xí)。差別在于，人類的這套系統(tǒng)被壓縮到了DNA中，而不像神經(jīng)網(wǎng)絡(luò)那樣擁有龐大的權(quán)重參數(shù)?？雌饋恚M(jìn)化更像是在尋找“學(xué)習(xí)算法”，這個算法讓個體能在一生中進(jìn)一步學(xué)習(xí)。只是這種“終身學(xué)習(xí)”也許并不等同于強(qiáng)化學(xué)習(xí)。你同意這樣的看法嗎？

Andrej Karpathy：我同意你的說法。這里確實(shí)存在某種“不可思議的壓縮機(jī)制”，因?yàn)轱@然神經(jīng)網(wǎng)絡(luò)的全部權(quán)重不可能被編碼進(jìn)DNA序列里。進(jìn)化一定是某種“尋找學(xué)習(xí)算法”的過程，它讓個體能在線學(xué)習(xí)一些東西。所以我完全同意你的推斷。

只是我自己的視角會更務(wù)實(shí)一些。我不太從“我們要造動物”這個目標(biāo)出發(fā)，而是更像一個戴著安全帽的工程師，我的出發(fā)點(diǎn)是“我們要造出有用的東西”。我們沒法復(fù)現(xiàn)生物的進(jìn)化過程，我也不知道怎么做。但事實(shí)是，我們現(xiàn)在確實(shí)可以通過模仿互聯(lián)網(wǎng)上的人類數(shù)據(jù)，造出一種“幽靈”式的智能體。它們雖然不是動物，但通過這種方式，我們也能獲得某種“預(yù)先內(nèi)置的知識與智能”。這在某種程度上也類似于進(jìn)化賦予生物的先天能力。

所以我有時候會把“預(yù)訓(xùn)練”形容為“低配版的進(jìn)化”——它當(dāng)然沒有進(jìn)化復(fù)雜，但它是目前在我們技術(shù)條件下，能夠?qū)崿F(xiàn)的、最接近進(jìn)化的方法。它能讓我們到達(dá)一個合適的起點(diǎn)，在這個基礎(chǔ)上再去嘗試強(qiáng)化學(xué)習(xí)或其他方法，來進(jìn)一步提升AI能力。

預(yù)訓(xùn)練教會模型如何去學(xué)，也許可以被看成是一種元學(xué)習(xí)。但如果說進(jìn)化和預(yù)訓(xùn)練都在傳遞知識，那這個比喻就站不住了。

我們在預(yù)訓(xùn)練中做的，其實(shí)是把“預(yù)測下一個token”的任務(wù)丟給一個神經(jīng)網(wǎng)絡(luò)，喂它全互聯(lián)網(wǎng)的數(shù)據(jù)。這個過程其實(shí)是在做兩件不太相關(guān)的事：第一，它確實(shí)在學(xué)習(xí)大量的知識，第二，它也在逐步形成某種智能。換句話說，它通過觀察互聯(lián)網(wǎng)上的數(shù)據(jù)，學(xué)會了一些“算法式的模式”，這些模式讓網(wǎng)絡(luò)內(nèi)部激活了一些小的回路和子算法，從而獲得了比如上下文學(xué)習(xí)這樣的能力。

事實(shí)上，我們并不是真的需要神經(jīng)網(wǎng)絡(luò)掌握那么多知識。我甚至覺得，太多的知識反而會拖累它的整體表現(xiàn)。比如現(xiàn)在的智能體普遍不擅長“跳出數(shù)據(jù)流形”，也就是說它們很難應(yīng)對互聯(lián)網(wǎng)上不存在的數(shù)據(jù)或場景。如果它們的知識或記憶少一些，也許反而表現(xiàn)更好。

所以我認(rèn)為接下來的研究方向之一，就是想辦法把一些知識剝離出去，保留下來我稱之為“認(rèn)知核心”（cognitive core）的部分。這個核心不是指知識本身，而是一種算法能力，是解決問題的策略和智能的本質(zhì)。我們要保留的是能思考、能應(yīng)變的那個“核心智能體”。

四、上下文撐不起真正智能：卡帕西直指模型無法寫入經(jīng)驗(yàn)，只能一遍遍從空狀態(tài)重啟

Dwarkesh Patel：說到上下文學(xué)習(xí)，它的效果確實(shí)很神奇。你跟模型對話時，感覺它真的能理解你，能反思、能糾正錯誤，這些能力都發(fā)生在上下文窗口內(nèi)。它們是預(yù)訓(xùn)練過程中通過梯度下降“學(xué)出來”的嗎？這就像人類擁有了大腦結(jié)構(gòu)，但真正的學(xué)習(xí)是在成長過程中通過別的機(jī)制實(shí)現(xiàn)的。

Andrej Karpathy：我不完全同意你的類比。雖然上下文學(xué)習(xí)不是在運(yùn)行時用梯度下降訓(xùn)練出來的，但我懷疑它內(nèi)部確實(shí)有類似的機(jī)制。上下文學(xué)習(xí)本質(zhì)是“模式補(bǔ)全”，模型會基于輸入在當(dāng)前窗口中繼續(xù)寫下去，而互聯(lián)網(wǎng)恰好提供了足夠多的模式供它學(xué)習(xí)。這些能力已經(jīng)被編碼進(jìn)網(wǎng)絡(luò)權(quán)重里，并在運(yùn)行時激活。

有些研究表明，模型在上下文學(xué)習(xí)時，內(nèi)部確實(shí)可能在運(yùn)行一個“迷你版”的梯度下降過程。比如有論文展示了模型可以通過上下文學(xué)習(xí)完成線性回歸任務(wù)，這實(shí)際上就是一個典型的梯度下降問題。有些團(tuán)隊(duì)甚至嘗試在模型內(nèi)部硬編碼一個“自我優(yōu)化器”，用注意力機(jī)制等結(jié)構(gòu)來執(zhí)行梯度更新。

所以我的觀點(diǎn)是，我們還不完全清楚上下文學(xué)習(xí)是如何運(yùn)作的，但它很可能真的在執(zhí)行某種內(nèi)部優(yōu)化過程。這個過程可能不是傳統(tǒng)意義上的梯度下降，但它確實(shí)具備類似的邏輯，這是我對這個問題唯一的保留意見。

Dwarkesh Patel：那如果上下文學(xué)習(xí)和預(yù)訓(xùn)練都在某種程度上實(shí)現(xiàn)了類似梯度下降的過程，為什么上下文學(xué)習(xí)給人的感覺更像是真正的“持續(xù)學(xué)習(xí)”或“類智能”的東西，而預(yù)訓(xùn)練沒有這種感覺？

Andrej Karpathy：如果算法類似，那差異可能來自另一個因素，比如模型在處理每個token時所能保留的信息量。

比如以LLaMA 3為例，它的70B模型在預(yù)訓(xùn)練時處理了大約15萬億個token，但參數(shù)只有700億個左右，平均每個token只留下約0.07比特的信息。而相比之下，在上下文學(xué)習(xí)中，每多讀入一個token，KV緩存（KV cache）的信息增長量大約是320KB。這意味著上下文學(xué)習(xí)中每個token帶來的“存儲”信息量，是預(yù)訓(xùn)練時的3500萬倍。我覺得這點(diǎn)可能非常關(guān)鍵。

我自己的表述方式是這樣的：任何發(fā)生在訓(xùn)練階段的事情，模型最終保留下來的只是某種“模糊的回憶”，因?yàn)閴嚎s比實(shí)在太高了。你把15萬億個token壓縮進(jìn)一個只有幾十億參數(shù)的模型里，損失的信息是巨大的。所以它對互聯(lián)網(wǎng)的記憶本質(zhì)上是模糊的。而反過來，當(dāng)你在推理階段通過上下文窗口輸入token，這些token的信息就非常直接地加載進(jìn)了模型的“工作記憶”，是立即可訪問的。

這也是為什么我們經(jīng)常會發(fā)現(xiàn)，LLM和人類大腦之間會出現(xiàn)一些意外的類比，盡管我們并不是在有意構(gòu)建類人腦系統(tǒng)。比如你問模型一本書的內(nèi)容，它可能給出一些大致正確的回憶，但如果你把整章原文放進(jìn)上下文里再提問，模型的表現(xiàn)會立刻好很多，因?yàn)樗藭r已把關(guān)鍵內(nèi)容加載進(jìn)了工作記憶。我基本上同意你剛才長篇的論述，確實(shí)如此。

回到更大的問題：現(xiàn)在的模型在哪些方面最不像人類智能？我覺得整體上還有很多地方?jīng)]做到。換一個說法也許更清晰——雖然類比不完美，但transformer神經(jīng)網(wǎng)絡(luò)可能已經(jīng)摸到了一塊非常通用的“皮層組織”。它們可以訓(xùn)練在文本、音頻、視頻等多種模態(tài)上，強(qiáng)大、通用、靈活。就像人腦皮層那樣具備極強(qiáng)的可塑性。比如過去曾有實(shí)驗(yàn)將動物的大腦視覺皮層與聽覺皮層重新連接，它們最終依然能學(xué)習(xí)和適應(yīng)。

我們現(xiàn)在在做的“思維鏈”、規(guī)劃任務(wù)，可能有點(diǎn)類似人類大腦的前額葉皮層，這是處理高級認(rèn)知的區(qū)域。而強(qiáng)化學(xué)習(xí)微調(diào)可能對應(yīng)基底節(jié)，這是與行動選擇有關(guān)的大腦區(qū)域。但也有很多大腦結(jié)構(gòu)我們并沒有去模擬，比如海馬體——目前尚不清楚它在AI中該如何對應(yīng)。還有杏仁核、本能與情緒相關(guān)的區(qū)域，我們幾乎沒觸碰過。某些部分可能沒那么重要，比如小腦通常被認(rèn)為對認(rèn)知沒太大影響，可能可以忽略。但很多古老的神經(jīng)核團(tuán)可能蘊(yùn)含著重要的本能機(jī)制，我們還完全沒開始探索。

當(dāng)然我也不一定主張我們必須要復(fù)現(xiàn)整個大腦。我本質(zhì)上還是個工程師，更關(guān)注怎么把有用的東西做出來。

以至于回答“為什么現(xiàn)在的模型還無法被當(dāng)作實(shí)習(xí)生雇用”這個問題，其實(shí)可以換一個角度來看。我們和這些模型互動時，能明顯感受到它們還存在很多認(rèn)知缺陷，這讓人直觀地覺得它們不夠“完整”。可以想象成，我們還沒有在它們身上“打勾”所有人腦的重要模塊。

這其實(shí)也和“持續(xù)學(xué)習(xí)”這個話題有關(guān)?，F(xiàn)在有種觀點(diǎn)認(rèn)為，只要給模型一些跨會話的激勵，讓它能記住更長時間范圍內(nèi)的信息，持續(xù)學(xué)習(xí)的能力就會自發(fā)出現(xiàn)——就像上下文學(xué)習(xí)是預(yù)訓(xùn)練過程中自然涌現(xiàn)的一樣。比如通過一個外部循環(huán)的強(qiáng)化學(xué)習(xí)框架，在這個框架中，模型自動調(diào)整自身，或者把經(jīng)驗(yàn)寫入外部記憶。你覺得這種“自然出現(xiàn)”的路徑靠譜嗎？我很難判斷它到底有多可能。

我對此持保留態(tài)度。因?yàn)槟壳暗哪Ｐ驮诿看瓮评頃r，都是從一個空的上下文窗口開始的，相當(dāng)于每次都“重啟”了狀態(tài)。這和人類的感受不同，比如我們清醒時，會不斷積累當(dāng)天的上下文信息，但睡覺之后，大腦里似乎發(fā)生了某種“魔法”般的轉(zhuǎn)變。我的感覺是，人類在睡眠中會把短時記憶提煉為權(quán)重結(jié)構(gòu)的一部分，也就是說我們有一種“蒸餾機(jī)制”，這在現(xiàn)有的大語言模型中是缺失的。

現(xiàn)在的模型缺乏這種“從經(jīng)驗(yàn)中提取核心，再寫入自身參數(shù)”的機(jī)制。人類可能是在夜間進(jìn)行反思、重構(gòu)、生成類合成數(shù)據(jù)，然后將它們通過某種方式融入長期記憶結(jié)構(gòu)里。

或許未來我們可以讓模型也擁有每個人專屬的微型子網(wǎng)絡(luò)，比如用LoRA（一種參數(shù)高效微調(diào)方法）來更新部分稀疏的參數(shù)，讓它們形成“個體化模型”，這樣模型就不只是靠不斷擴(kuò)展的上下文窗口來維持記憶。

我也覺得，人類擁有非常復(fù)雜的稀疏注意機(jī)制（sparse attention scheme），而我們剛剛開始模仿這種結(jié)構(gòu)。比如DeepSeek V3.2最近就引入了稀疏注意機(jī)制，這是讓上下文窗口變得更長的一種實(shí)現(xiàn)方式。總體來看，我覺得我們正在用完全不同的路徑，重新發(fā)明進(jìn)化賦予人類的一些認(rèn)知技巧，最終可能會在認(rèn)知架構(gòu)上收斂到類似的形式。

Dwarkesh Patel：那你覺得十年后我們還會用transformer嗎？只是它的注意力結(jié)構(gòu)變得更稀疏、MLP模塊更優(yōu)化？

Andrej Karpathy：我會從時間尺度的不變性來思考這個問題。十年前是2015年，那時我們主力模型還是卷積神經(jīng)網(wǎng)絡(luò)，ResNet剛出來。雖然和現(xiàn)在的架構(gòu)相比差異巨大，但也能看出技術(shù)在逐步演進(jìn)。那時transformer還沒出現(xiàn)，更別說今天常見的各種變種。所以我覺得十年后我們可能仍會使用巨型神經(jīng)網(wǎng)絡(luò)，通過前向傳播、反向傳播和梯度下降來訓(xùn)練，只是具體結(jié)構(gòu)可能會發(fā)生很大變化。

我還做過一個有趣的回溯實(shí)驗(yàn)：重現(xiàn)了楊立昆（Yann LeCun）在1989年發(fā)布的卷積神經(jīng)網(wǎng)絡(luò)模型，那是我所知最早通過現(xiàn)代意義上的梯度下降來訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，用于手寫數(shù)字識別。我嘗試用現(xiàn)在的工具去復(fù)刻它，看看進(jìn)步主要來自哪幾個方面——是算法、數(shù)據(jù)還是算力。我發(fā)現(xiàn)只靠算法改進(jìn)，比如把學(xué)習(xí)率調(diào)一半，我就能把誤差減少50%。這是靠“算法時間旅行”做到的。但如果想要進(jìn)一步提升效果，就必須引入更多數(shù)據(jù)，比如把訓(xùn)練集擴(kuò)大10倍，還得引入現(xiàn)代的計(jì)算優(yōu)化技術(shù)，比如Dropout和各種正則化方法，并延長訓(xùn)練時間。

這說明了過去幾十年AI進(jìn)展背后的幾個核心驅(qū)動力：算法改進(jìn)能帶來初期收益，但最終的突破往往依賴于數(shù)據(jù)規(guī)模的擴(kuò)展和計(jì)算資源的提升。而這些因素，很可能也將決定未來十年的智能體演進(jìn)路徑。

我們其實(shí)是在一個所有因素都必須同時進(jìn)步的環(huán)境中前行。我們會有更多的數(shù)據(jù)，會有更好的硬件，更高效的底層算子和軟件，也會有更優(yōu)的算法。奇妙的是，沒有哪一個方面在“單獨(dú)領(lǐng)跑”，它們幾乎是以一種同步演進(jìn)的方式推動整個系統(tǒng)前進(jìn)。

這也是我們這些年看到的趨勢。所以如果要回答你的問題，我確實(shí)認(rèn)為未來在算法層面會有所不同，但某些核心要素可能會保留，比如用梯度下降訓(xùn)練的大規(guī)模神經(jīng)網(wǎng)絡(luò)，這點(diǎn)我認(rèn)為十年后仍然成立。

不過讓我覺得最值得注意的，是要讓整個系統(tǒng)進(jìn)步，必須讓每一個組成部分——模型結(jié)構(gòu)、優(yōu)化器、損失函數(shù)等全面升級。而這種全方位的演進(jìn)，其實(shí)從一開始就存在。

五、Karpathy開源nanochat：親手搭建最能理解AI，模型寫代碼反而拖后腿

Dwarkesh Patel：你最近開源了nanochat，你在從零搭建一個ChatGPT式模型的過程中有沒有新的認(rèn)知？有沒有發(fā)現(xiàn)某一個因素最為關(guān)鍵？

Andrej Karpathy：nanochat是我發(fā)布的一個完整的代碼庫，目標(biāo)是提供一個最簡潔但完整的、覆蓋從訓(xùn)練到部署的ChatGPT克隆實(shí)現(xiàn)。它并不是專注某一個模塊，而是整個pipeline都涵蓋了。

之前我也寫過很多針對單點(diǎn)模塊的教程，用極簡代碼講清楚算法原理，但這次的nanochat更多是構(gòu)建了一個從頭到尾都打通的系統(tǒng)。我個人在寫它的過程中并沒有學(xué)到什么新東西，因?yàn)槲冶緛砭椭涝撛趺醋?，這次只是把這些思路實(shí)現(xiàn)成代碼并整理清晰，方便別人學(xué)習(xí)和使用。

Dwarkesh Patel：那你覺得學(xué)習(xí)這份代碼最好的方式是什么？

Andrej Karpathy：這是個很好的問題。整個代碼庫大概有8000行，我建議最好的方式是雙屏操作，把代碼放在右邊，自己從零開始動手實(shí)現(xiàn)一遍?？梢詤⒖?，但不能復(fù)制粘貼。這個過程會強(qiáng)迫你真的去理解每一部分邏輯。

不過，這個代碼庫本身還是挺大的，真正寫代碼的過程并不是線性從上往下寫的，而是模塊化、分塊構(gòu)建，再逐步拼接組合的。所以單靠最終版本的代碼，其實(shí)很難還原整個“從無到有”的過程。我希望之后能把這個過程也補(bǔ)充出來，可能做成視頻形式，來展示我是怎么逐步構(gòu)建每一塊組件的。

我始終認(rèn)為，知識有兩個層次：表面上的理解和動手做出來的理解。當(dāng)你真正寫代碼實(shí)現(xiàn)某個系統(tǒng)時，你會發(fā)現(xiàn)自己很多原以為理解的地方其實(shí)并沒掌握。這個過程會迫使你面對“自己不知道自己不懂”的那些部分，而這正是通往更深理解的唯一路徑。

有人說過，“如果你不能構(gòu)建它，那你就不理解它?！蔽彝耆膺@個觀點(diǎn)。我一直非常堅(jiān)信，真正的知識掌握是靠搭建系統(tǒng)實(shí)現(xiàn)來的，不是寫博客、做幻燈片。必須寫代碼、動手搭建、調(diào)試出結(jié)果。否則，你掌握的知識只是記憶，不是理解。

Dwarkesh Patel：你還發(fā)過推文，說在組裝這個代碼庫的過程中，代碼生成模型對你幾乎沒有幫助。我挺好奇為什么？

Andrej Karpathy：我花了大概一個多月搭建了這個代碼庫，在這個過程中我覺得現(xiàn)在程序員與代碼互動主要有三種方式。一種是完全拒絕使用大語言模型，堅(jiān)持從零開始手寫代碼，我認(rèn)為這已經(jīng)不太合理了。第二種，也是我現(xiàn)在的做法，是你還是會從頭寫不少代碼，但會借助模型提供的自動補(bǔ)全功能。當(dāng)你開始寫一段代碼時，模型會幫你補(bǔ)全內(nèi)容，通常還挺準(zhǔn)的，有時候不對你也可以改掉，但你仍然是整段代碼的架構(gòu)師。而第三種是所謂的“VIP編碼”，就是你告訴模型“請幫我實(shí)現(xiàn)某某功能”，然后回車讓模型自動生成，這種更接近智能體的做法。

我覺得智能體在特定場景下是有用的，我自己也會在這些特定場景里用，但它們只是工具之一，你得了解它們的長處和短處，知道什么時候用比較合適。比如對于樣板代碼——那種大量復(fù)制粘貼、格式化的重復(fù)性代碼，模型做得非常好，因?yàn)榛ヂ?lián)網(wǎng)上這種代碼很多，訓(xùn)練數(shù)據(jù)也覆蓋了大量這類模式。但如果像我這個nanochat的項(xiàng)目，就完全不是樣板代碼，它的結(jié)構(gòu)很獨(dú)特，需要精確組織邏輯和執(zhí)行順序，屬于智力密集型的寫法，模型在這方面表現(xiàn)就很差。

模型經(jīng)?！袄斫忮e”我的代碼，因?yàn)樗鼈兡X子里裝滿了網(wǎng)絡(luò)上常見的寫法，而我寫的方式與它們見過的不一樣。比如一個具體例子：在多GPU訓(xùn)練中，大家通常會用PyTorch的分布式數(shù)據(jù)并行模塊（DistributedDataParallel，簡稱DDP）來自動同步各個GPU的梯度。但我不想用DDP，因?yàn)闆]必要，所以我把它砍了，自己在優(yōu)化器的step步驟中寫了同步邏輯。結(jié)果模型不停試圖讓我用DDP，完全無法理解我已經(jīng)自己實(shí)現(xiàn)了這個功能。

而且它們還總是在風(fēng)格上搞錯，比如過度防御，老是加一堆try-catch語句，好像在寫線上生產(chǎn)代碼。我自己代碼里有很多假設(shè)，但那是可以接受的，不需要模型加一堆沒必要的復(fù)雜邏輯進(jìn)去。它們這樣反而讓代碼變臃腫、難維護(hù)，還老是用到過時的API，結(jié)果就是整個代碼質(zhì)量很差。雖然我可以手動清理一遍，但說實(shí)話那樣的幫助并不大。而且我也不太喜歡用英文打一大段話告訴模型我想干嘛，那太低效了。我更喜歡直接跳到我知道要寫代碼的位置，開始寫前幾個字符，模型就會自動補(bǔ)全，大部分時候還挺準(zhǔn)。這種方式的信息帶寬其實(shí)是最高的。

當(dāng)然，模型在一些特定位置還是有用的。我舉兩個我親自使用過的例子。一是我生成報(bào)告的部分，那部分本來就比較模板化，所以我部分地用了“VIP編碼”方式，這種情況是可以接受的，不是核心代碼，而且結(jié)果也不錯。另一個例子是我在用Rust重寫分詞器的時候，因?yàn)槲覍ust不太熟，寫得沒那么順手。這時候我會讓模型先寫一部分，我再參考Python的實(shí)現(xiàn)去優(yōu)化效率，而且我有測試覆蓋，心里更踏實(shí)些。這種情況下模型非常有幫助。它們可以顯著降低你使用不熟悉語言或編程范式的門檻。

尤其像Rust這類語言，現(xiàn)在網(wǎng)絡(luò)上已經(jīng)有很多相關(guān)代碼，模型在這方面表現(xiàn)不錯，我自己雖然還不太會Rust，但它們可以幫我快速上手。

六、AI離爆發(fā)還遠(yuǎn)：卡帕西批評行業(yè)自嗨，強(qiáng)化學(xué)習(xí)效率低下，2027不現(xiàn)實(shí)

Dwarkesh Patel：我認(rèn)為這個問題之所以有意思，是因?yàn)槿缃耜P(guān)于AI迅速爆發(fā)、走向超級智能的主流敘事，核心就是AI自動化工程和研究的能力。人們看到像Claude這樣的模型已經(jīng)能從零生成完整的應(yīng)用程序，就會設(shè)想，如果OpenAI或DeepMind內(nèi)部的模型也具備類似能力，那就等于你擁有成千上萬個你自己在并行工作，不斷優(yōu)化架構(gòu)細(xì)節(jié)，這聽上去是非常強(qiáng)大的圖景。你說AI在這方面反而做得不夠好，這對預(yù)測2027年是否可能發(fā)生AI爆炸式進(jìn)展是一個重要參考。

Andrej Karpathy：是的，我認(rèn)為你描述得很準(zhǔn)確，也契合了我為什么對AI發(fā)展時間線持相對更長的觀點(diǎn)。模型在處理那些“從未寫過的代碼”時能力有限，而這恰恰是我們在構(gòu)建這些模型時追求的目標(biāo)。

Dwarkesh Patel：聽起來有點(diǎn)奇怪，那些你加到nanochat模型中的架構(gòu)改進(jìn)，不是都已經(jīng)寫在論文里，甚至放在開源代碼倉庫了嗎？比如你加了rope embedding（位置編碼方法）之類的東西，它們?yōu)槭裁礇]法用對？

Andrej Karpathy：確實(shí)有點(diǎn)難。模型似乎“知道”這些信息，但只是“似懂非懂”。它們無法將這些改動完整地融合到你的代碼倉庫里，跟上你的風(fēng)格、代碼習(xí)慣、一些自定義的實(shí)現(xiàn)方式，或者倉庫背后的結(jié)構(gòu)性假設(shè)。這方面它們還沒做到。它們確實(shí)有些相關(guān)知識，但無法真正理解這些改動的作用，也無法有效整合到實(shí)際項(xiàng)目中。不過我得說，它們確實(shí)在持續(xù)變好。目前我最常用的是GPT-5 Pro，這是一個非常強(qiáng)大的模型。如果我有20分鐘時間，我會直接把整個代碼倉庫貼進(jìn)去，然后請它幫我解決一些問題，它的表現(xiàn)常常還不錯，跟一年前相比確實(shí)驚人地進(jìn)步了。

但從整體上看，這些模型還是沒達(dá)到預(yù)期。我感覺整個行業(yè)在這件事上跳得太快、說得太滿，好像AI已經(jīng)無所不能了，但其實(shí)并沒有。很多產(chǎn)品就是一堆“爛泥”，行業(yè)自己也不愿正視這點(diǎn)，也許是因?yàn)檫€想拉融資吧。我不清楚具體原因，但我們目前處于一種“中間狀態(tài)”：模型非常強(qiáng)大，但仍需大量完善。對我來說，現(xiàn)在最適合的使用方式還是自動補(bǔ)全功能。有時候，處理某些代碼問題時，我也會用一些Agent。

Dwarkesh Patel：從編程史來看，你提到的這個“自動補(bǔ)全”的AI功能，確實(shí)有跡可循。歷史上很多編程工具提升了開發(fā)效率，比如編譯器、靜態(tài)分析工具、編程語言本身的演進(jìn)等，但它們并沒有引發(fā)所謂的“編程爆炸”，這或許也說明，AI目前的進(jìn)展更像是在這些工具改進(jìn)的范疇里。

Andrej Karpathy：我同意。其實(shí)我覺得現(xiàn)在很難劃清AI到底從哪里開始、又在哪結(jié)束。某種意義上，我認(rèn)為AI就是計(jì)算的延續(xù)，它是計(jì)算發(fā)展非常核心的一部分。從早期我們做的各種工具，比如代碼編輯器、語法高亮、數(shù)據(jù)類型檢查器，到搜索引擎——這些其實(shí)也可以算作AI工具。比如搜索排序算法，其本質(zhì)就是一種AI技術(shù)。Google剛創(chuàng)立時就把自己定位為AI公司，我覺得這非常合理。

所以我認(rèn)為AI的發(fā)展是一個連續(xù)體，不像有些人那樣硬性區(qū)分AI和非AI?，F(xiàn)在我們有了更強(qiáng)的自動補(bǔ)全，也開始出現(xiàn)一些智能體，這些Agent可以自主循環(huán)決策，但有時又會跑偏。總的趨勢是，人在做的底層工作越來越少。就像我們不再寫匯編語言，而是用C語言交給編譯器去轉(zhuǎn)換。這個過程本質(zhì)上是一個“自動化滑桿”，我們在不斷提升抽象層級，同時逐步把可以被自動化的部分交給AI處理。我們自己則退居上層，做更少但更抽象的事情。

正是在這樣的背景下，我常說，人類并不是通過強(qiáng)化學(xué)習(xí)來學(xué)習(xí)的。我覺得人類在做的是另一套機(jī)制，是基于經(jīng)驗(yàn)的積累。強(qiáng)化學(xué)習(xí)其實(shí)遠(yuǎn)比大多數(shù)人想象的要糟糕，它本質(zhì)上是一個非常弱的學(xué)習(xí)方法。之所以我們還在用它，只是因?yàn)橹拔覀兯蕾嚨哪７聦W(xué)習(xí)方式更加不堪。比如以前我們只是去模仿人類行為，本身就存在各種問題。

以解決數(shù)學(xué)題為例，這是一個很簡單的任務(wù)。在強(qiáng)化學(xué)習(xí)的設(shè)定下，你拿到一個題目，會并行地嘗試上百種解法——每一種都可能包含多步推理，比如嘗試A方法，再嘗試B方法，然后發(fā)現(xiàn)不對，換另一個方向等等。最終，也許某個嘗試得到了正確答案。你翻開答案后確認(rèn)某些嘗試成功了，而其他97個都錯了。

強(qiáng)化學(xué)習(xí)的做法是：只要你最終得到正確答案，那么整個解題路徑上的每一個步驟、每一個token（即生成的每一個文字單位）都會被整體上調(diào)權(quán)重，意味著“多做點(diǎn)這種操作”。但問題在于——這完全不合理。你可能在過程中走了很多彎路，做了許多錯誤的嘗試，但因?yàn)樽詈蟮慕Y(jié)果是對的，系統(tǒng)就會把所有這些“錯誤路徑”都當(dāng)作有價(jià)值的部分來強(qiáng)化。

人們通常會說，這樣的估計(jì)器“方差很大”，意思就是太嘈雜，太不穩(wěn)定。你最終只是拿到一個結(jié)果——正確或錯誤，然后就用這個單一的反饋去對整條路徑進(jìn)行加權(quán)或者減權(quán)。這就像你做了一分鐘的復(fù)雜推理工作，但整個訓(xùn)練信號就是“正確”或“錯誤”這樣一個簡單標(biāo)簽，然后你試圖像吸管吸水那樣，從這個極為稀薄的信號中“吸出”監(jiān)督信息，強(qiáng)行傳播給整個決策路徑的每一步。

人類是不會這么學(xué)習(xí)的。第一，人不會去進(jìn)行幾百次的嘗試再找出一條正確路徑；第二，當(dāng)人找到了一個解，他們會對過程進(jìn)行復(fù)雜的復(fù)盤，比如哪些步驟是有效的，哪些是不該再做的，下次應(yīng)該換個方法。他們會進(jìn)行自我思考和反省。但現(xiàn)有的大語言模型（LLMs）中并沒有類似的機(jī)制。

我最近看到谷歌的一篇論文，嘗試引入“反思與復(fù)盤”機(jī)制，其他類似的研究也陸續(xù)出現(xiàn)。我認(rèn)為未來我們會在這個方向迎來一次重要的算法范式更新，不過這還遠(yuǎn)遠(yuǎn)不夠，我們可能還需要三到五次類似的突破。

七、“呃呃呃呃”也能拿滿分？卡帕西直言強(qiáng)化學(xué)習(xí)不靈了，合成訓(xùn)練惹禍，模型坍縮成了新難題

Dwarkesh Patel：你經(jīng)常能用很形象的比喻解釋復(fù)雜的問題，比如你剛才說強(qiáng)化學(xué)習(xí)是“用吸管吸監(jiān)督信號”，非常貼切。你提到的問題是，強(qiáng)化學(xué)習(xí)只看最終結(jié)果來分配獎勵，但這中間的過程極其復(fù)雜，信息量巨大，卻只能從最終是否成功這一點(diǎn)來反推所有步驟的優(yōu)劣。這很顯然是個問題。那為什么我們沒有更好地使用“過程式監(jiān)督”來代替這種基于結(jié)果的方式呢？是什么阻礙了這一思路的發(fā)展？

Andrej Karpathy：所謂“過程式監(jiān)督”，指的是我們不只在一個任務(wù)結(jié)束時告訴模型“對”還是“錯”，而是沿著整個過程的每一步都給予反饋，比如每寫一步代碼、每做一步計(jì)算，都告訴它做得怎么樣。這聽起來當(dāng)然更高效，但問題在于，這很難自動化實(shí)現(xiàn)。我們不知道該如何為部分正確的中間步驟分配合理的“部分獎勵”。如果只有最終答案，那很簡單——只需判斷結(jié)果是否等于標(biāo)準(zhǔn)答案就行了。但若我們想為一個不完整的解法打分，就必須回答一個更難的問題：這個中間解法值不值得鼓勵？目前不少實(shí)驗(yàn)室正在嘗試用大語言模型（LLM）作為“AI裁判”來解決這個問題，即提示一個LLM：“這是學(xué)生做出的部分解法，目標(biāo)答案是這個，請你判斷當(dāng)前進(jìn)展做得怎么樣?！彼麄儠{(diào)試指令去實(shí)現(xiàn)更好的評估效果。

但這個方法本身也存在根本問題：語言模型本身是復(fù)雜的、擁有數(shù)十億參數(shù)的大模型，是可以被攻擊的。一旦你用強(qiáng)化學(xué)習(xí)去優(yōu)化模型輸出，使其在LLM評判下得高分，那模型幾乎一定會找到對LLM評判機(jī)制的“對抗樣本”。在開始的10到20步訓(xùn)練中可能還能正常運(yùn)行，但如果持續(xù)進(jìn)行幾百上千步，模型就會學(xué)會如何“鉆空子”。

我印象特別深的一個例子是：我們當(dāng)時訓(xùn)練模型，獎勵函數(shù)是由一個LLM裁判給出的。起初訓(xùn)練效果很好，但突然獎勵變得異常高——看起來模型完全掌握了數(shù)學(xué)題的解法，幾乎每題都拿滿分。但你仔細(xì)看它的解答，會發(fā)現(xiàn)一開始幾步還正常，后面就全是“呃呃呃呃”（duh duh duh duh）這種毫無意義的輸出，像是胡言亂語一樣。可令人震驚的是，LLM裁判竟然給了這段“解答”滿分。為什么？因?yàn)檫@是一個它從沒見過的對抗樣本，完全超出了訓(xùn)練分布，導(dǎo)致它無法判斷正確性，只能盲目給出高分。這就是“強(qiáng)化學(xué)習(xí)+語言模型打分機(jī)制”的脆弱之處。

當(dāng)你進(jìn)入所謂的“純泛化領(lǐng)域”，總能找到這種打破規(guī)則的例子。其實(shí)是在把LLM訓(xùn)練作為尋找對抗樣本。這些對抗樣本是明顯錯誤、毫無邏輯的內(nèi)容，但模型卻認(rèn)為它們很優(yōu)秀。

Dwarkesh Patel：如果你認(rèn)為這就是目前強(qiáng)化學(xué)習(xí)難以奏效的瓶頸之一，那么解決方案就是讓LLM學(xué)會更好地判斷答案，也就是“判別器”變得更聰明。如果想要實(shí)現(xiàn)自動化流程，那你得訓(xùn)練模型變得更加健壯。這會不會最終變成類似GAN的路線？用生成器和判別器不斷博弈來提升能力？

Andrej Karpathy：我猜各大實(shí)驗(yàn)室現(xiàn)在大概就是在做這個方向。最基本的做法是，如果某個解答本來不該拿100%的獎勵，那就把它加到LLM裁判的訓(xùn)練集里，標(biāo)注為0%，而不是100%。但問題是，每次你這么做，就等于是訓(xùn)練出一個新的LLM，而新的LLM依然會被其他對抗樣本騙到。因?yàn)閷箻颖臼菬o限的，我認(rèn)為你迭代幾輪之后，確實(shí)會越來越難找到這樣的樣本，但我也不能100%確認(rèn)，畢竟這些模型有一萬億個參數(shù)?？傊?，我猜實(shí)驗(yàn)室肯定在嘗試。但我個人覺得，我們還需要一些全新的方法。

Dwarkesh Patel：你有沒有對“新的方法”有什么初步設(shè)想？比如那種用生成數(shù)據(jù)去訓(xùn)練模型，讓它在某種元學(xué)習(xí)（meta-learning）機(jī)制下變得更強(qiáng)?，F(xiàn)在也確實(shí)看到一些論文開始往這個方向走了。

Andrej Karpathy：我也有看到這類思路的論文，但目前還停留在讀摘要階段。說實(shí)話，很多論文只是概念設(shè)計(jì)，真正要在前沿LLM的實(shí)驗(yàn)室規(guī)模上部署，還需要很多工程工作。而且即便做出來，也不見得能全面泛化。有時候這些論文挺有意思的，但很嘈雜，不夠有說服力。當(dāng)然，大型LLM實(shí)驗(yàn)室如今都相對封閉，我們也不知道他們內(nèi)部到底做到了哪一步。

Dwarkesh Patel：我倒是可以想象如何基于合成問題來訓(xùn)練模型。你給它一些自己設(shè)計(jì)的問題，然后不斷訓(xùn)練它去解決這些問題。但我覺得人類做的還有另一個過程，比如睡覺或者白日夢。我們不是設(shè)計(jì)一個新問題，而是在“反思”（reflect）。這種機(jī)制在機(jī)器學(xué)習(xí)中似乎找不到等價(jià)物。

Andrej Karpathy：我也覺得我們確實(shí)缺少了某種機(jī)制。比如說，人類讀一本書時，不是像LLM那樣把文本拉成一串token去逐個預(yù)測。對于人類來說，書籍更像是引發(fā)思考的提示，你并不是在“記憶書的內(nèi)容”，而是在用書觸發(fā)自己的內(nèi)在生成過程，甚至是為了去和朋友討論。而真正的理解，是在加工這些信息的過程中產(chǎn)生的。當(dāng)前的LLM完全沒有這個過程。我很希望預(yù)訓(xùn)練階段能夠加入某種“消化內(nèi)容—思考—整合”的步驟，讓模型試著把新信息與已有知識結(jié)合起來，深入思考一段時間，但這仍是研究領(lǐng)域的問題。

我們目前缺乏這樣的能力，也不是沒有嘗試過。比如你可能想，“我們可以自己生成一些模型讀書的樣例，把這些‘思考’的樣本拿去訓(xùn)練”，看起來是個合理的想法。但問題在于，所有模型生成的樣本都存在一個非常隱蔽的缺陷：它們都處于某種“坍縮態(tài)”（collapsed state），也就是它們只覆蓋了整個合理輸出空間中非常狹窄的一小塊。你看每一個樣本可能覺得還行，但整體來說，分布是非常不完整的。這種坍縮是不容易察覺的。

你可以用一個簡單例子驗(yàn)證：去ChatGPT里讓它講個笑話。它大概只會告訴你三個笑話。這就是坍縮的體現(xiàn)——它不是給你整個笑話空間的多樣性，而是只掌握了其中非常小的一部分。

它們在無聲地“坍縮”（collapse），所以你得不到像人類那樣豐富、多樣、有熵值的輸出。人類的信息表達(dá)會更嘈雜一些，但至少不會在統(tǒng)計(jì)意義上出現(xiàn)這種“靜默坍縮”的問題。人類的大腦在信息生成中仍保持了大量的熵值，而大模型則容易陷入重復(fù)與單調(diào)。因此，如何在生成合成數(shù)據(jù)時避免坍縮、維持足夠的信息熵，是一個仍待解決的研究問題。

Dwarkesh Patel：我理解你是說，如果我們希望模型生成新的合成問題或反思內(nèi)容，而不是從已有的數(shù)據(jù)分布中直接復(fù)制內(nèi)容，就必須關(guān)注坍縮問題？

Andrej Karpathy：可以這么理解。比如我們讓模型就某本書的一章進(jìn)行反思，它可能會給出看起來挺合理的內(nèi)容，但你多問十次，就會發(fā)現(xiàn)每次幾乎都一樣。你不能一味依賴固定提示詞去驅(qū)動“反思”，指望它能持續(xù)給出有價(jià)值的新東西。單看每一條生成的內(nèi)容都還行，但它們組成的整體分布非常糟糕，尤其是當(dāng)你用這些合成內(nèi)容繼續(xù)訓(xùn)練模型時，會加劇坍縮。我甚至覺得可能不存在徹底的解決方案。某種程度上，人類的大腦也會隨時間產(chǎn)生坍縮。我們小時候天馬行空、未被“過擬合”，說出讓人驚訝的話。但成年人就陷入了思維重復(fù)，常說相似的話，學(xué)習(xí)效率降低，坍縮問題也越來越嚴(yán)重。

Dwarkesh Patel：我看過一篇挺有趣的論文，認(rèn)為人類“做夢”就是為了避免這種過擬合和坍縮。夢境能把你置于非現(xiàn)實(shí)、離奇的情境中，從而在演化上起到反過擬合的作用。

Andrej Karpathy：這個想法很有趣。當(dāng)我們在腦中生成內(nèi)容并注意它的時候，實(shí)際上就是在用自己的合成數(shù)據(jù)訓(xùn)練自己。如果你長期只沉浸在自己的內(nèi)部想法中，不接觸外界信息，會走偏，也會加速坍縮。所以我們必須主動尋找熵值，和別人交談就是一個重要的信息熵來源?；蛟S我們的大腦進(jìn)化出了某些機(jī)制，來幫助維持認(rèn)知系統(tǒng)中的熵。這些想法還很初步，但值得思考。

Dwarkesh Patel：我想到了一個可能相關(guān)的現(xiàn)象。人類學(xué)習(xí)能力最強(qiáng)的階段——兒童時期，其實(shí)是記憶能力最差的時候。嬰兒早期幾乎不會保留任何記憶，但卻能輕松掌握語言、理解世界。而另一頭的LLM預(yù)訓(xùn)練模型，能逐字復(fù)現(xiàn)維基百科下一句話，但抽象概念學(xué)習(xí)的能力遠(yuǎn)不如孩子。而成年人介于兩者之間，學(xué)習(xí)的靈活性降低了，但記憶能力強(qiáng)很多。這種反差可能有一些啟示。

Andrej Karpathy：我同意。人類其實(shí)不擅長記憶，而這恰恰是一種優(yōu)勢。因?yàn)椴簧瞄L死記硬背，我們被迫去總結(jié)規(guī)律、形成概念化的理解。而大語言模型則非常擅長記憶，它們能復(fù)述訓(xùn)練數(shù)據(jù)中的原文段落，甚至能在只訓(xùn)練一兩次后完全復(fù)現(xiàn)某段隨機(jī)字符串。人類根本不可能一次看完隨機(jī)數(shù)字就完整復(fù)述。但從泛化的角度說，人類的這種“不能記”反而是好事——它讓我們只能去學(xué)那些真正能提煉出的規(guī)律。而模型卻會被自身儲存的大量信息分散注意力。這也是我為什么提出“認(rèn)知核心”的原因：我希望模型去除大部分記憶，只保留用于思考的算法、實(shí)驗(yàn)思路、行為鏈條等“認(rèn)知膠水。從這個角度看，減少記憶，也是防止模型坍縮的一種方式。

至于“模型坍縮”（model collapse）該怎么解決？我們能想象的一些“樸素方法”其實(shí)都挺幼稚的，比如嘗試讓模型輸出的概率分布更分散，或者用一些熵（entropy）正則化技術(shù)去約束模型。

但從經(jīng)驗(yàn)上看，這些方法效果并不好。原因可能在于，我們目前對模型的主要使用目標(biāo)并不要求高多樣性。前沿實(shí)驗(yàn)室的目標(biāo)是讓模型實(shí)用，所以它們訓(xùn)練出來的模型，輸出趨于收斂——因?yàn)槎鄻有圆粌H難以評價(jià)，而且很難控制。在很多應(yīng)用里，太“花哨”的輸出反而會被懲罰，比如在強(qiáng)化學(xué)習(xí)中，如果你行為過于隨機(jī)或“創(chuàng)造性”太強(qiáng)，結(jié)果往往是不好的。就連寫作輔助等任務(wù)中，模型的回答也往往趨于單一，不愿探索各種可能的解法。我傾向于認(rèn)為，這是因?yàn)槎鄶?shù)應(yīng)用場景根本不需要多樣性，所以模型也就沒保留這部分能力。但當(dāng)我們進(jìn)入“合成生成階段”，缺乏多樣性又會變成問題。我們反而是自己限制了模型的“熵”，從而讓未來任務(wù)的性能受損。從這個角度說，我認(rèn)為實(shí)驗(yàn)室在保留模型多樣性方面應(yīng)該更努力。

Dwarkesh Patel：你剛才提到這可能是個非常根本性的問題，意味著它很難解決？你怎么看？

Andrej Karpathy：我倒不一定認(rèn)為這是一個根本性問題，可能我剛才說話沒那么準(zhǔn)確。我并不覺得這類問題無解，雖然我自己還沒有做這方面的實(shí)驗(yàn)，但我相信是可以對模型的輸出熵進(jìn)行一定的正則化處理，讓它在訓(xùn)練中被鼓勵產(chǎn)生更多樣的解法。但這又很微妙：如果你過度鼓勵熵，模型可能就會偏離訓(xùn)練分布，開始發(fā)明自己的語言，使用非常稀有的詞匯，導(dǎo)致輸出“漂移”過大。所以問題的關(guān)鍵是——你必須控制模型的分布不要偏得太離譜，而這恰恰是非常棘手的事情。所以說，這事兒確實(shí)不簡單。

八、卡帕西預(yù)判AGI方向：把模型從“壓縮機(jī)”變成“認(rèn)知體”認(rèn)知核心規(guī)模縮到10億參數(shù)

Dwarkesh Patel：那如果你要猜的話，一個“理想的認(rèn)知核心”到底應(yīng)該有多大？我們能否將“認(rèn)知核心”壓縮到一個可攜帶、可部署的程度？

Andrej Karpathy：這其實(shí)是個挺有意思的問題。在過去的AI發(fā)展中，我們一度非常執(zhí)著于“規(guī)模崇拜”，大家都在追求更大的模型——上萬億參數(shù)的模型。但現(xiàn)在趨勢變了，一些前沿模型反而在變小，但即使如此，它們?nèi)匀挥浀锰鄾]必要的東西。我個人一直認(rèn)為，其實(shí)“認(rèn)知核心”不需要那么大。哪怕只有10億個參數(shù)，如果架構(gòu)得當(dāng)，我相信20年后我們就能和它進(jìn)行非常高效的交流。它能思考，能像人一樣行動；遇到不知道的事它也不會瞎說，而是告訴你“我不知道”，然后再去查找答案。我甚至覺得，這樣的模型比那些啥都記得的上萬億參數(shù)模型還要更像人。

Dwarkesh Patel：可我們現(xiàn)在已經(jīng)有幾十億參數(shù)的模型表現(xiàn)得很聰明了，而GPT-4這種過萬億參數(shù)的模型反而有些累贅。從發(fā)展速度來看，我還以為你會認(rèn)為，未來的“智能核心”也許只需要幾千萬甚至幾百萬參數(shù)就夠了。

Andrej Karpathy：我之所以不這么看，是因?yàn)?span style="color: #0f59a4">現(xiàn)在的訓(xùn)練數(shù)據(jù)實(shí)在太差。我們用的是互聯(lián)網(wǎng)，而互聯(lián)網(wǎng)的質(zhì)量非常糟糕。你我說到互聯(lián)網(wǎng)，腦子里想到的可能是《華爾街日報(bào)》這種高質(zhì)量文本，但真正用作訓(xùn)練數(shù)據(jù)的互聯(lián)網(wǎng)內(nèi)容，是一堆亂七八糟的東西——很多都是完全無法閱讀的廢料，充斥著股票代碼和隨機(jī)亂碼。我經(jīng)常想，我們竟然還能在這種訓(xùn)練數(shù)據(jù)上搞出有用的模型，簡直不可思議。

所以我們不得不訓(xùn)練非常大的模型來“壓縮”這些雜亂無章的數(shù)據(jù)，而這種壓縮大多是記憶工作，而不是認(rèn)知工作。我們真正想要的是模型的“認(rèn)知能力”，而不是“存儲能力”。理想情況是：我們需要用智能模型來幫助清洗預(yù)訓(xùn)練數(shù)據(jù)，把其中真正有認(rèn)知價(jià)值的部分篩出來，只保留對思考、推理、理解有幫助的內(nèi)容，而不是讓模型背下互聯(lián)網(wǎng)的垃圾。這樣一來，模型的參數(shù)規(guī)?？梢源蠓s小，因?yàn)閿?shù)據(jù)集更干凈，訓(xùn)練本身也可以更集中在核心能力上。

當(dāng)然，最終的小模型大概率不是直接在這些精煉數(shù)據(jù)上訓(xùn)練的，而是通過蒸餾從更大、更全面的模型中得到。但即便如此，我認(rèn)為蒸餾后的認(rèn)知核心依然會在10億參數(shù)量級——因?yàn)檎麴s技術(shù)非常有效，小模型幾乎都依賴它，沒有必要從頭訓(xùn)練。

Dwarkesh Patel：那為什么你認(rèn)為10年后蒸餾后的模型仍然需要10億參數(shù)？為什么不可能更?。?/strong>

Karpathy：你是說小到幾百萬？我不覺得幾百萬參數(shù)就能做出真正有趣的東西。至少要有足夠多的參數(shù)才能支撐復(fù)雜思維。雖然過去幾年我們確實(shí)通過技術(shù)改進(jìn)，讓模型從“上萬億參數(shù)”降到“幾十億參數(shù)”，性能反而更好，這確實(shí)證明有大量低垂果實(shí)可以摘。但我認(rèn)為“認(rèn)知核心”能壓到10億參數(shù)，已經(jīng)算是激進(jìn)觀點(diǎn)了，顯然你比我更激進(jìn)。

不過確實(shí)，未來可能會更小一些。但是從實(shí)際使用角度看，模型還是需要保留部分知識，不能什么都查，否則它每一步思考都要訪問外部知識庫，根本無法在腦中完成推理。它只需要常識，而不需要背誦冷門知識。至于未來最大模型的規(guī)模，我也沒有特別確定的判斷?，F(xiàn)在模型縮小更多是因?yàn)閷?shí)驗(yàn)室有算力與成本預(yù)算，預(yù)訓(xùn)練并不是最值得花錢的地方，因此參數(shù)規(guī)模在下降，但中間訓(xùn)練和強(qiáng)化學(xué)習(xí)階段的投入反而在增加。所以規(guī)模走大走小更多是務(wù)實(shí)考量，而不是發(fā)展方向的必然結(jié)果。真正的變化是在其他方面：數(shù)據(jù)集會變得更好，硬件會更強(qiáng)，內(nèi)核和算子優(yōu)化會更激進(jìn)，算法也會不斷改進(jìn)。我認(rèn)為未來不是出現(xiàn)某個單一“巨大突破”，而是所有環(huán)節(jié)——數(shù)據(jù)、硬件、優(yōu)化方法、模型架構(gòu)全都持續(xù)提升，每一個提升5%～20%，累積起來就是巨大的躍升。

九、“AI會什么”比“AI像人”更重要，卡帕西否定“Y軸智能進(jìn)化論”

Dwarkesh Patel：但很多人會嘗試找一種衡量AI向AGI進(jìn)展的標(biāo)準(zhǔn)化方式，比如畫出一條Y軸，標(biāo)示進(jìn)步程度，再看什么時候這條線會與AGI交匯，于是在X軸上得到一個時間點(diǎn)。有些人說AI像是經(jīng)歷教育階段，從高中生到強(qiáng)化學(xué)習(xí)階段相當(dāng)于大學(xué)生，未來還能上博士；有些人提出“視野長度”的度量——比如能否獨(dú)立完成持續(xù)一分鐘的任務(wù)，然后是一小時、一周的任務(wù)等等。你怎么看這個問題？你認(rèn)為哪種方式才是衡量AI進(jìn)展最合理的Y軸？

Andrej Karpathy：我大概有兩個回應(yīng)。首先，我?guī)缀跸胫苯臃穸ㄟ@個問題本身。因?yàn)?span style="color: #0f59a4">我一直把AI看作計(jì)算的延伸。我們從來沒有特別認(rèn)真地討論過該如何衡量“計(jì)算”的進(jìn)步，比如從1970年代到現(xiàn)在，我們怎么畫出一條線來衡量計(jì)算的發(fā)展？這在某種意義上就顯得有點(diǎn)荒謬。所以這個問題本身我覺得就挺奇怪的。

但如果一定要回答，我可以說說OpenAI早期對AGI的定義。我們當(dāng)時討論的是，AGI應(yīng)該是一個可以執(zhí)行任何具有經(jīng)濟(jì)價(jià)值的任務(wù)，且其完成水平與人類相當(dāng)或更優(yōu)的系統(tǒng)。我那時候?qū)@個定義還挺滿意的，到現(xiàn)在也基本沿用這個思路。雖然這幾年外界不斷給AGI貼上各種新定義，但我仍然喜歡這個版本。

不過現(xiàn)在大家默認(rèn)會做一個妥協(xié)，就是把所有物理類的任務(wù)都排除掉，只看“知識型”工作。我覺得這其實(shí)是個很大的讓步，因?yàn)樽畛醯亩x是“任何人類能做的任務(wù)”，那顯然也包括搬東西之類的操作任務(wù)，但AI目前還無法完成這些，所以我們就默認(rèn)跳過了。這就帶來一個問題：如果我們只討論知識類工作，到底是在排除經(jīng)濟(jì)中的多大一塊？我沒查過具體數(shù)字，但直覺上可能是10%到20%的份額，也就是那些可以遠(yuǎn)程完成、不需要出現(xiàn)在現(xiàn)場的工作。即便如此，這仍是一個巨大的市場，僅在美國也可能涉及幾萬億美元的產(chǎn)出。

所以回到定義本身，我更關(guān)注的是這個標(biāo)準(zhǔn)如今能實(shí)現(xiàn)多少。我們不妨把“任務(wù)”而非“職位”作為衡量單位來思考，因?yàn)槁毼坏臉?gòu)成會隨著社會對自動化能力的調(diào)整而發(fā)生變化。我們可以問：現(xiàn)在有哪些任務(wù)或工作確實(shí)已經(jīng)能被AI取代了？比如過去杰弗里·辛頓曾預(yù)測放射科醫(yī)生會被淘汰，但結(jié)果證明這個預(yù)測錯得離譜。雖然計(jì)算機(jī)視覺對圖像識別非常擅長，但放射科醫(yī)生的工作要復(fù)雜得多，還涉及處理患者和各種工作環(huán)境的細(xì)節(jié)。目前來看，這個職業(yè)不但沒消失，還在繼續(xù)發(fā)展。

所以如果按照“能完成所有經(jīng)濟(jì)上有價(jià)值任務(wù)”的定義，我認(rèn)為AI還遠(yuǎn)未達(dá)標(biāo)。但也有一些職業(yè)可能更容易被自動化，比如呼叫中心的員工。這個經(jīng)常被提及，我也覺得很合理，因?yàn)檫@類任務(wù)結(jié)構(gòu)化程度高、環(huán)境變量少、交互模式固定，是AI比較擅長的方向。

所以這里的重點(diǎn)是看“任務(wù)的跨度”，也就是完成一次任務(wù)所需的時間長度。同時，這類工作幾乎沒有復(fù)雜的上下文，通常只是你、顧客和數(shù)據(jù)庫三者之間的交互，不涉及多個部門或不同系統(tǒng)的串聯(lián)，整個環(huán)境是封閉的、可理解的、且是純數(shù)字化的。從這些角度來看，我確實(shí)覺得這是AI很合適介入的方向。

但即便如此，我也不認(rèn)為短期內(nèi)會出現(xiàn)“完全自動化”的情況，更可能的是我們會出現(xiàn)一個“自動化滑桿”的狀態(tài)，也就是先替代其中80%的工作量，剩下20%由人類完成。比如未來可能是一個人類員工負(fù)責(zé)管理五個AI組成的客服團(tuán)隊(duì)，他們來處理那些更機(jī)械的內(nèi)容。我們也許會看到一些新產(chǎn)品或公司專門去做這個“AI管理層”的中間接口，因?yàn)檫@些AI還不夠完美，需要調(diào)度與監(jiān)督。

但放眼整個經(jīng)濟(jì)體，很多工作比客服復(fù)雜得多。就比如放射科醫(yī)生，我其實(shí)對他們的具體工作流程并不了解，但可以打個比方，比如早期自動駕駛剛開始落地時，前排一定還坐著人，為的是確保一旦出錯有人接手。即使是現(xiàn)在，一些自動駕駛出租車?yán)镆廊挥邪踩珕T坐在車?yán)铩＿@種情況有可能也會發(fā)生在醫(yī)療等領(lǐng)域：即使AI能完成99%的工作，剩下那1%卻極為關(guān)鍵，是整條路徑的瓶頸。如果這個1%必須由受過多年專業(yè)訓(xùn)練的人來處理，那他們的工資只會升高，因?yàn)樗麄儾豢商娲?。他們就像那一個阻礙全面部署的核心點(diǎn)，不像出租車司機(jī)那樣可以隨便替換。所以我推測，這或許也是放射科醫(yī)生薪資上漲的原因之一。

Dwarkesh Patel：確實(shí)，目前似乎有些引入AI的公司已經(jīng)在重新雇人，這點(diǎn)還挺讓人驚訝的。

Andrej Karpathy：是的，很令人意外。我們本來以為，一旦AGI出現(xiàn)，尤其是如果它能處理所有知識工作，不涉及體力勞動，那它應(yīng)該是“無所不能”的。照理說，它應(yīng)該能夠逐步替代顧問、會計(jì)等各類職位的某些子任務(wù)，從各個角度慢慢地滲透知識型勞動。但從目前的發(fā)展看，事實(shí)好像完全不是這么回事。顧問和會計(jì)這些行業(yè)似乎并沒有出現(xiàn)大幅的效率提升。反而是程序員這個群體，在工作中有更多部分被自動化。如果你去看這些AI公司的收入組成，撇除那些純聊天產(chǎn)品的收入，專注API收入的話，基本都是靠編程相關(guān)的服務(wù)撐起來的。也就是說，這種“理論上應(yīng)當(dāng)通用”的智能系統(tǒng)，實(shí)際上大多數(shù)還只是服務(wù)于寫代碼。這是一個相當(dāng)出乎意料的發(fā)展路徑。

我認(rèn)為這里有一個很有意思的點(diǎn)。編碼這件事，恰好是大型語言模型（LLM）和智能體最適合處理的任務(wù)類型之一。原因在于，編程從根本上講就是圍繞文本展開的。無論是命令行界面還是各種IDE（集成開發(fā)環(huán)境），一切都是基于文本，而LLM天生就是擅長處理文本的系統(tǒng)。它們的訓(xùn)練過程依賴大量互聯(lián)網(wǎng)文本數(shù)據(jù)，因而具備極強(qiáng)的文本處理能力。而且，我們早就為文本和代碼的處理建好了大量配套基礎(chǔ)設(shè)施，比如Visual Studio Code這類開發(fā)工具。如果一個智能體對某個代碼庫進(jìn)行了修改，它可以通過代碼差異比較功能直觀地呈現(xiàn)變更內(nèi)容，我們的開發(fā)環(huán)境本身就支持這一機(jī)制，智能體可以直接接入現(xiàn)有工具鏈。

相較之下，那些不依賴文本、或者沒有配套工具基礎(chǔ)設(shè)施的任務(wù)，就難很多。比如，我看到有團(tuán)隊(duì)嘗試讓智能體自動制作PPT，結(jié)果非常困難。原因是幻燈片不是純文本，它是視覺元素的集合，包含大量空間布局、圖形內(nèi)容，而且缺乏像“代碼差異比較”那樣的版本對比機(jī)制。如果一個智能體改動了幻燈片，目前沒有標(biāo)準(zhǔn)的方式來展示這些變化。因此，整個支持體系還得從頭建立。總之，雖然AI是文本處理器，但很多任務(wù)并不容易適配，而代碼是一個意外地高度適配的領(lǐng)域。

Dwarkesh Patel：我嘗試過一些“文本進(jìn)—文本出”的任務(wù)，比如改寫訪談、剪輯視頻字幕，按理說LLM應(yīng)該擅長，但效果始終不理想?？赡苁俏覜]做足微調(diào)。這讓我懷疑，哪怕在語言領(lǐng)域內(nèi)，真正能發(fā)揮LLM商業(yè)價(jià)值的，可能也只有編程任務(wù)。

Andrej Karpathy：你說的這些確實(shí)成立。我要強(qiáng)調(diào)的是，我并不是說只要是文本任務(wù)就一定容易。代碼的結(jié)構(gòu)性非常強(qiáng)，而普通文本則更加自由和“花哨”，我覺得“熵”這個詞比較貼切——文本的表達(dá)自由度更高，變化更多。同時，編程任務(wù)本身也很難，但正因?yàn)槿绱?，人們在編程中更容易感受到LLM的“賦能”，哪怕只是基礎(chǔ)級別的幫助。雖然文本的屬性本身確實(shí)讓AI更容易介入，但這不意味著所有的文本任務(wù)就都變得容易了。

Dwarkesh Patel：你如何看待“超級智能”？你覺得它在感受上會和現(xiàn)在的人類或人類組織有什么質(zhì)的不同嗎？

Andrej Karpathy：我傾向于把它看作是社會中自動化進(jìn)程的延續(xù)，是計(jì)算能力發(fā)展趨勢的自然外推。我認(rèn)為，未來我們會看到越來越多的“自治體”出現(xiàn)在數(shù)字工作場景中，之后也可能逐步延伸到物理世界。從本質(zhì)上講，我把超級智能看作是自動化的極限狀態(tài)。當(dāng)然，自動化包含了人類已經(jīng)能做的任務(wù)，而超級智能還包括人類尚無法完成的任務(wù)，比如創(chuàng)造新事物——我也會把“發(fā)明”這種能力視作自動化的一種體現(xiàn)。

Dwarkesh Patel：我想問得更具體一些。你是否預(yù)期，超級智能會帶來一種完全不同的文明感受？比如，它可以思考得比人類快、可以大量復(fù)制自己、可以讓多個副本合并決策、或者它的某些優(yōu)勢讓人類根本無法比擬……你是否覺得，當(dāng)這些AI成為主角的社會出現(xiàn)時，整個世界會在“體驗(yàn)層面”上變得與今天完全不同？

Andrej Karpathy：我認(rèn)為會的，雖然從本質(zhì)上講這仍是自動化的延伸，但它的表現(xiàn)會非常陌生，甚至有點(diǎn)“異化”。對我來說，最值得擔(dān)憂的情景是：我們可能會逐步失去對這些系統(tǒng)的理解和控制。這種喪失不會是突然發(fā)生的，而是漸進(jìn)式的。我們會一點(diǎn)一點(diǎn)把這些AI系統(tǒng)部署到各個角落，形成層層疊加的依賴體系，而了解它們工作機(jī)制的人會越來越少，直到我們完全無法理解這個系統(tǒng)的整體運(yùn)作。在我看來，這是最有可能的未來：一個我們逐漸失去控制權(quán)、卻仍不斷前進(jìn)的AI世界。

Dwarkesh Patel：理解的喪失我可以想象，但為什么你認(rèn)為我們也會失去控制？

Andrej Karpathy：這個問題說實(shí)話我也不確定會怎么發(fā)展，只能用點(diǎn)像科幻小說的方式去設(shè)想。我不認(rèn)為會有某個單一的超級智能體接管一切，更可能的情景是多個AI系統(tǒng)同時存在、彼此競爭，它們逐漸變得越來越自主，有些甚至“越界”了，而另一些可能會試圖對其加以遏制。最后形成一個類似動態(tài)競爭、你中有我我中有你的“熱鍋”局面，我們把權(quán)力逐層委托下去，最終可能連我們自己也搞不清楚到底是誰在做決策。

而這種失控，并不是因?yàn)樗鼈儽任覀兟斆鳎且驗(yàn)樗鼈儽舜酥g在競爭，而這個競爭本身帶來的復(fù)雜性，最終導(dǎo)致我們對整體結(jié)果的控制力下降。比如，有些AI工具可能是人類個體在使用的，表面上是“人為操控”，但在整體上，它們的行為和決策早已脫離了我們原初設(shè)想的控制邊界。

十、卡帕西駁斥“AGI奇點(diǎn)論”：智能不會突然爆發(fā)，它是自動化的漸進(jìn)延伸

Dwarkesh Patel：我本該早一點(diǎn)問這個問題。我們之前提到，現(xiàn)在AI工程更像是使用編譯器，而不是在構(gòu)建一個能替代自己的系統(tǒng)。如果有一天我們實(shí)現(xiàn)了所謂的AGI，它應(yīng)該能完成你現(xiàn)在做的所有工作。你是否認(rèn)為，如果有一百萬個“你”的副本并行工作，會帶來某種AI進(jìn)展的大爆炸？你期待會出現(xiàn)“智能爆炸”嗎？

Andrej Karpathy：我認(rèn)為會的，但它其實(shí)就是一種“正常的業(yè)務(wù)發(fā)展”狀態(tài)。我們其實(shí)已經(jīng)身處在一場“智能爆炸”中了，而且這已經(jīng)持續(xù)了幾十年。幾百年來，我們就在不斷實(shí)現(xiàn)自動化——工業(yè)革命是對物理層面的自動化；軟件工具、編譯器是對思維和信息處理的自動化。我們已經(jīng)處在一場持續(xù)的自我改進(jìn)和擴(kuò)張之中。

換種方式說，從外太空看，地球其實(shí)幾百萬年來都是一樣的在自轉(zhuǎn)、運(yùn)行，變化不大。但從文明的視角來看，我們其實(shí)處在一場正在爆炸的“煙花”之中，只是我們在慢動作中感知不到那種劇烈變化。我并不覺得AI是某種“不同于過往”的技術(shù)，它本質(zhì)上是這種持續(xù)爆炸的一部分。

Dwarkesh Patel：這就像人類在工業(yè)革命前的增長速度是0%，今天是2%，所以整體是個“超指數(shù)”，而AI可能會把它帶到20%甚至200%的年增長？

Andrej Karpathy：你可以這么理解?；仡欉^去300年，我們就是在不斷接入新技術(shù)，比如蒸汽機(jī)、電力、鐵路、計(jì)算機(jī)、通信，現(xiàn)在是AI。這些技術(shù)每一個都沒有單獨(dú)地改變曲線的形態(tài)，但它們疊加起來，共同塑造了這條“加速曲線”。AI并不會改變這個模式，它只是下一波浪潮而已。

Dwarkesh Patel：但GDP并沒有真正跳變，還是2%左右。你是說未來也會維持在這個水平？

Andrej Karpathy：我個人預(yù)期增長率大致還是維持穩(wěn)定。過去200到300年里，人類整體的增長趨勢基本上保持在一個平穩(wěn)的軌道上。的確，從人類歷史的長河來看，這條曲線是從接近0%的增長突然加速，到工業(yè)革命后達(dá)到2%，好像是“爆發(fā)式”的。但如果你回頭看，其實(shí)一切都是逐步遞進(jìn)的。比如我過去也試圖從GDP曲線中尋找AI的影響，但我現(xiàn)在越來越認(rèn)為這是誤判。人們常說“遞歸式自我改進(jìn)”，說AI實(shí)驗(yàn)室會不斷加速自己，但我認(rèn)為這其實(shí)只是“日常事務(wù)”。AI確實(shí)在幫助我們提高構(gòu)建AI的效率，比如用LLM幫助工程師更快完成下一代LLM的開發(fā)，自動化程度不斷提高，各種模塊也越來越好調(diào)試和優(yōu)化。我們今天每個人都能用Google搜索、用IDE開發(fā)工具、有代碼自動補(bǔ)全，這些本質(zhì)上就是同一條技術(shù)加速鏈條的一部分。所以我的觀點(diǎn)是，經(jīng)濟(jì)增長率這條曲線非常平滑，AI不會改變它的形狀。

Dwarkesh Patel：所以你的意思是，“智能爆炸”其實(shí)只是在幫助我們繼續(xù)維持這個2%的增長軌道？就像當(dāng)年互聯(lián)網(wǎng)也沒有讓GDP曲線出現(xiàn)斷層，而是繼續(xù)推著它往前走。

Andrej Karpathy：對，我的預(yù)期就是我們會保持現(xiàn)在的增長模式。

Dwarkesh Patel：那我來提一個反對觀點(diǎn)。我的看法是，如果真正的AGI出現(xiàn)，不是你說的代碼自動補(bǔ)全工具，而是真正可以在服務(wù)器里替代一個人類的智能體，那它就和過去的生產(chǎn)力技術(shù)是“質(zhì)”的不同。因?yàn)槟遣恢皇翘嵘实膯栴}，而是直接創(chuàng)造“勞動力”。如果我們突然擁有了數(shù)十億個“額外的人類”在發(fā)明、在創(chuàng)辦公司、在完成從0到1的完整產(chǎn)品鏈條，那它就不像是某項(xiàng)單一技術(shù)的推動，而更像是地球上多了數(shù)十億聰明人，這個影響是本質(zhì)不同的。

Andrej Karpathy：這是一個可以討論的角度，我也沒有特別堅(jiān)持自己的觀點(diǎn)，愿意被說服。不過我們也可以從另一個角度來看——計(jì)算本身也是“勞動力”。計(jì)算機(jī)的出現(xiàn)讓很多數(shù)字信息處理的工作都不需要人來做了，很多崗位因此消失。這其實(shí)已經(jīng)是“勞動的自動化”。比如自動駕駛也是一種計(jì)算替代勞動的例子，屬于同一個范式之內(nèi)。所以即使未來的AI看起來更強(qiáng)大，它也仍然是這個“持續(xù)演進(jìn)”的一部分。我們會擁有更多可以創(chuàng)造“自動駕駛”“互聯(lián)網(wǎng)”這種級別成果的機(jī)器，但整個過程仍然是連續(xù)的。

Dwarkesh Patel：可是歷史上也確實(shí)出現(xiàn)過增長范式的變化，比如從農(nóng)業(yè)社會到工業(yè)社會，然后到信息時代，每一次都不是2%變2%，而是真正的質(zhì)變。假設(shè)我們有一臺機(jī)器，它不僅能產(chǎn)出下一個“自動駕駛”或“互聯(lián)網(wǎng)”，還能更快地產(chǎn)出一系列類似的系統(tǒng)，這就可能引發(fā)范式變化。

Andrej Karpathy：我明白這個設(shè)想，也能理解它的吸引力。但我覺得很多人誤以為AGI是“神明裝進(jìn)盒子”，一旦放出來就能什么都做。這種想象不太現(xiàn)實(shí)。它確實(shí)會在某些事情上很強(qiáng)，但也會在很多方面出錯，仍然需要我們慢慢把它部署進(jìn)社會各個領(lǐng)域。所以我預(yù)期仍然是一個“漸進(jìn)融合”的過程，不會出現(xiàn)那種突然的斷層式爆發(fā)。我們不會真的擁有一個“通用智能”放進(jìn)一個服務(wù)器，然后讓它去接管所有復(fù)雜的社會任務(wù)。最終我們會看到的是AI技術(shù)像以往一樣，逐步融入行業(yè)、融入工作流程。

而且我覺得“智能”這個詞有時候是誤導(dǎo)性的，因?yàn)樗屓苏`以為會出現(xiàn)一個超級聰明的AI實(shí)體，坐在服務(wù)器里，自己發(fā)明新技術(shù)、設(shè)計(jì)新產(chǎn)品，從而引發(fā)指數(shù)級增長。但我心中設(shè)想的20%增長并不是這個樣子。我想象的是，我們有了數(shù)以億計(jì)的“聰明大腦”——也許還沒達(dá)到人類通用智能的水平，但足夠聰明，可以獨(dú)立開發(fā)產(chǎn)品，自己找方法融入經(jīng)濟(jì)系統(tǒng)。就像一個非常優(yōu)秀的移民來到某個國家，他不需要別人幫他規(guī)劃，他自己就能創(chuàng)業(yè)、做研究、提升社會生產(chǎn)力。

我們已經(jīng)看到一些類似的例子，在當(dāng)前體制下，像香港、深圳這樣的地區(qū)，曾經(jīng)也經(jīng)歷過連續(xù)幾十年的10%甚至更高的經(jīng)濟(jì)增長。那種增長來自于勞動力的增加與資本之間的配比變化?，F(xiàn)在，如果我們能釋放出足夠多的“聰明勞動力”，也可能帶來一輪類似的追趕式發(fā)展。我們之所以沒有爆發(fā)，某種程度上是因?yàn)檫€有很多潛力沒有被用上。

我認(rèn)為你說的也許是對的，但我還是覺得你假設(shè)了某種“離散躍遷”的存在，仿佛有什么關(guān)鍵的“解鎖”點(diǎn)在等待我們達(dá)成，一旦突破，我們就會在數(shù)據(jù)中心里擁有“天才級”的智能體。但我覺得你這個前提并不成立——這樣的躍遷在歷史上基本沒有先例，我也找不到任何統(tǒng)計(jì)數(shù)據(jù)可以支持這種觀點(diǎn)，所以我認(rèn)為它大概率不會發(fā)生。

Dwarkesh Patel：工業(yè)革命就是這種躍遷吧？我們從0%或0.2%的增長跳升到了2%。我只是說，未來也許會出現(xiàn)類似的跳變。

Andrej Karpathy：這個說法我有些存疑，我得具體看一看。例如，工業(yè)革命前的數(shù)據(jù)記錄質(zhì)量可能并不好，所以我們對那段歷史的判斷也許有偏差。我對這件事還沒有非常堅(jiān)定的看法。

Dwarkesh Patel：也許那次就是一個非常魔法般的奇點(diǎn)事件，而你是否認(rèn)為現(xiàn)在AI也可能帶來類似的范式突破。

Andrej Karpathy：不，我的看法相反。工業(yè)革命的關(guān)鍵恰恰在于它不是魔法。如果你把鏡頭拉近，比如聚焦1770年到1870年這一段，你會看到那并不是某項(xiàng)關(guān)鍵技術(shù)突然爆發(fā)、改變了一切的瞬間。

Dwarkesh Patel：是，但整個經(jīng)濟(jì)確實(shí)進(jìn)入了一個進(jìn)步速度更快的新狀態(tài)，呈現(xiàn)出10倍速的指數(shù)增長。我也期望AI能帶來類似的情況。

Andrej Karpathy：但這并不是因?yàn)橛心囊豢掏蝗槐l(fā)，而是因?yàn)橛幸粋€“過剩任務(wù)”的存在——比如，有很多認(rèn)知類的工作積壓在那里沒被完成。而AI的發(fā)展會逐步填補(bǔ)這個過剩。你所說的“新技術(shù)跨過門檻”，其實(shí)是在補(bǔ)上這些空白。

Dwarkesh Patel：對，我是這個意思?；仡櫄v史，經(jīng)濟(jì)增長往往來自兩方面：有人提出想法，有人去執(zhí)行這些想法、產(chǎn)出價(jià)值。過去幾十年增長放緩，很多人認(rèn)為原因是人口增長停滯了，尤其是在一些發(fā)達(dá)國家?，F(xiàn)在我認(rèn)為，AI可能會帶我們回到“超指數(shù)增長”的路徑上——以前是人口驅(qū)動，現(xiàn)在是智能體驅(qū)動。

Andrej Karpathy：我理解你這個觀點(diǎn)，但我從直覺上并不完全認(rèn)同它。

Dwarkesh Patel：你曾推薦給我Nick Lane的書，我讀完之后也很感興趣，還去采訪了他。我現(xiàn)在想就“智能的進(jìn)化”這個主題聊聊。畢竟你過去20年都在做AI，現(xiàn)在應(yīng)該對“智能是什么”“發(fā)展智能需要什么”有更直觀的理解。你會因此對“進(jìn)化居然自發(fā)產(chǎn)生出智能”這件事感到更驚訝，還是更能接受？

Andrej Karpathy：我非常喜歡Nick的書，我來這路上還在聽他的播客。從進(jìn)化的角度講，我確實(shí)覺得智能的出現(xiàn)挺意外的——它真的非常新。在所有可能存在生命的星球中，如果有1000個像地球這樣的行星，我覺得大多數(shù)可能都只會進(jìn)化出類似細(xì)菌那樣的低級生命，這是Nick Lane也曾說過的觀點(diǎn)。

Dwarkesh Patel：他當(dāng)時的說法是，大部分星球上確實(shí)都只會出現(xiàn)細(xì)菌或類似的東西。

Andrej Karpathy：對。他的觀點(diǎn)是，智能生命是非常罕見的突破，我也傾向于這么看。比如，如果細(xì)菌在地球上存在了20億年都沒有進(jìn)化出更復(fù)雜的生命形態(tài)，那說明“躍遷”到真核生物是個非常難的步驟，因?yàn)榧?xì)菌在地球進(jìn)化的早期就已經(jīng)出現(xiàn)了。

那我們什么時候才有動物？也許是在幾億年前吧，那些會爬、會跑的多細(xì)胞生物，這大概只占地球歷史的10%。從這個時間尺度上看，智能的進(jìn)化也許并不是那么難，但從宇宙整體概率來看，應(yīng)該還是相當(dāng)罕見的。

我至今仍覺得這件事令人驚訝。直覺上，我原本以為演化會發(fā)展出許多類動物的生命形式，做些動物式的事情。但現(xiàn)實(shí)是，竟然出現(xiàn)了能夠創(chuàng)造文化和知識、并持續(xù)積累的生命體，這一點(diǎn)真的很讓我吃驚。

如果我們采納那種“太陽角度”的觀點(diǎn)——也就是認(rèn)為智能的核心其實(shí)是動物智能，那么有一句話很有意思：“如果你能造出一只松鼠，你就離AGI不遠(yuǎn)了。”換句話說，松鼠那種級別的智能，其實(shí)在寒武紀(jì)大爆發(fā)后不久、也就是6億年前，就已經(jīng)演化出來了。而觸發(fā)那個爆發(fā)的事件，是地球大氣中的含氧量上升。

一旦有了氧氣，似乎整個“智能算法”也就隨之誕生了，從而產(chǎn)生了松鼠式的智能。也許進(jìn)化之所以能這么快取得突破，是個偶然事件，但這也可能意味著智能的本質(zhì)比我們想象中要簡單得多。

當(dāng)然，這些事情都很難判斷。我們也許可以從一個生物存在了多久、或者它是否經(jīng)歷過長時間的“瓶頸”來看。比如，細(xì)菌曾在地球上主宰了數(shù)十億年，擁有極其豐富的生化反應(yīng)類型，卻始終沒有演化出更復(fù)雜的生物，這說明存在某種非常明顯的進(jìn)化瓶頸。但關(guān)于動物和智能的演化，我們似乎還沒發(fā)現(xiàn)類似的長期停滯。

另一種思路是，研究“智能”是否在多個物種中獨(dú)立演化過。比如，人類有一種智能，烏鴉等鳥類也表現(xiàn)出極高的聰明程度，但它們的大腦結(jié)構(gòu)與哺乳動物差異很大。這也許可以看作是智能在兩個系統(tǒng)中獨(dú)立出現(xiàn)的例子。如果真是這樣，那么“智能”作為一種能力可能更常見一些。

還有一些研究者提出了一個有趣的觀點(diǎn)：人類和靈長類所擁有的那種“可擴(kuò)展算法”，其實(shí)也在鳥類中出現(xiàn)過。區(qū)別在于，人類占據(jù)了一個特別的進(jìn)化生態(tài)位，這個生態(tài)位鼓勵智能的邊際提升，而且也有一套可擴(kuò)展的大腦機(jī)制，能夠?qū)⑦@些提升轉(zhuǎn)化為能力。

反過來說，如果一只鳥的大腦更大，它可能就飛不起來了。所以鳥類的大腦已經(jīng)在給定體積下非常聰明了，但它們的生態(tài)位并不鼓勵腦容量繼續(xù)增長。某些海豚也很聰明，但問題類似。

而人類則不同，我們擁有手，可以學(xué)會使用工具，還能借助工具實(shí)現(xiàn)“外部消化”，釋放更多能量供大腦使用，從而帶動了整個智能發(fā)展的飛輪。而且，我們的生存環(huán)境中還有許多可以“操控”的東西。比如，如果我是一只海豚，我就很難使用火，海洋中可供利用的材料和化學(xué)環(huán)境遠(yuǎn)不如陸地豐富。所以，從化學(xué)角度來說，水下世界的創(chuàng)造空間可能遠(yuǎn)小于陸地。

我同意這種“生態(tài)位”視角，也認(rèn)同智能的發(fā)展是因?yàn)槟承┨囟畲嬖凇５疫€是覺得很神奇。我原以為進(jìn)化會停留在“肌肉更強(qiáng)的動物”階段，沒想到最終卻選擇了走“智能”這條路線。

有人對這個問題的描述也非常精彩：智能之所以難以演化，是因?yàn)樗幵谝粋€非常狹窄的區(qū)間——既不能重要到必須直接寫進(jìn)DNA，也不能無足輕重到不值得學(xué)習(xí)。它必須足夠重要，以至于有必要開發(fā)一種算法，在個體的一生中動態(tài)學(xué)習(xí)這些能力。

換句話說，必須激勵出某種“適應(yīng)性”。這種情況下，演化會傾向于產(chǎn)生能在生命周期中“現(xiàn)學(xué)”的機(jī)制。而這又要求環(huán)境足夠不可預(yù)測——不可預(yù)見的環(huán)境讓進(jìn)化無法提前將策略寫死在基因里，只能借助個體智能在“測試時刻”做出判斷。

很多動物在出生時就已經(jīng)具備了一整套預(yù)設(shè)行為，可以說是“預(yù)訓(xùn)練”的。而人類則必須在出生后自己去探索和學(xué)習(xí)。這也許就是為什么我們會發(fā)展出智能，因?yàn)槲覀冃枰诳焖僮兓沫h(huán)境中現(xiàn)學(xué)現(xiàn)用。

我曾看過一篇很有意思的博客，提到他認(rèn)為不會出現(xiàn)“智能突變”現(xiàn)象的原因，他指出：人類其實(shí)曾經(jīng)經(jīng)歷過一次突變——大約6萬年前，我們獲得了今天所擁有的認(rèn)知架構(gòu)；但直到1萬年前才出現(xiàn)農(nóng)業(yè)革命和現(xiàn)代文明。那么在這中間的5萬年里，我們都在干什么？這仍然是個未解之謎。

這確實(shí)是一個有趣的問題，人類花了很長時間才建立起文化這種“腳手架”結(jié)構(gòu)，來實(shí)現(xiàn)跨代知識的積累。而在AI模型訓(xùn)練中，這種能力幾乎是“免費(fèi)”附帶的。你可以把前一個模型的知識蒸餾到下一個模型中，也可以讓它們共享同樣的預(yù)訓(xùn)練語料，因此它們不需要從頭開始學(xué)習(xí)。這種“文化循環(huán)”在人類社會中花了數(shù)萬年才建立，而在訓(xùn)練語言模型時卻天然具備。但話說回來，也不能完全類比，因?yàn)?span style="color: #0f59a4">目前的語言模型并不真正擁有“文化”這個概念——也許我們給它們的任務(wù)定義本身就抑制了文化的形成。

十一、多智能體仍存瓶頸，卡帕西呼吁建立“AI文化”與“自我博弈”機(jī)制

Dwarkesh Patel：那你覺得LLM文化應(yīng)該是什么樣子？

Andrej Karpathy：最簡單的設(shè)想是一個大型的草稿本（scratch pad），模型可以在其中不斷編輯、記筆記。當(dāng)它在執(zhí)行任務(wù)或閱讀內(nèi)容時，會不斷修改草稿本，為自己積累信息。

Dwarkesh Patel：那為什么不能讓一個LLM給另一個LLM寫一本書？讓其他模型讀它的書，從中獲得靈感或受到震撼？這聽起來很有趣。

Andrej Karpathy：對啊，這種機(jī)制現(xiàn)在還不存在。但我覺得這類文化性的交流應(yīng)該會在未來出現(xiàn)，而且這也是我們更廣泛探討多智能體系統(tǒng)時的一個重要方向。其實(shí)有兩個尚未充分實(shí)現(xiàn)、但我認(rèn)為非常有前景的想法：一個是“文化”——語言模型之間可以建立一個不斷增長的知識體系，供彼此使用；另一個是“自我博弈”，這個概念其實(shí)非常強(qiáng)大。

你看，進(jìn)化本質(zhì)上就是競爭驅(qū)動智能的過程。而像AlphaGo這樣的系統(tǒng)，就是通過和自己對弈不斷進(jìn)步的?，F(xiàn)在我們還沒有看到語言模型實(shí)現(xiàn)類似的機(jī)制，比如一個模型提出各種新問題，另一個模型負(fù)責(zé)解決它們，然后再不斷提高問題的難度。理論上這是可行的，但至今還沒人真正做出令人信服的成果。

目前的研究大多還局限在單體智能體的范疇，組織層面的文化尚未出現(xiàn)。因此我認(rèn)為我們還處在非常早期的階段。

Dwarkesh Patel：你覺得阻礙多智能體協(xié)作的關(guān)鍵瓶頸是什么？

Andrej Karpathy：很多類比本不該成立，但在語言模型上卻成立了。小模型就像幼兒園的學(xué)生，大模型像小學(xué)、高中生——我們還沒有培養(yǎng)出能“畢業(yè)”的模型。現(xiàn)在的模型像是具備某些能力的神童，它們可以參加博士考試，看起來能做很多復(fù)雜的事，但整體認(rèn)知上仍然像是小孩。

它們擁有完美的“記憶”，能生成很多看起來很不錯的內(nèi)容，但我認(rèn)為它們?nèi)圆焕斫庾约涸谧鍪裁础?span style="color: #0f59a4">它們在許多認(rèn)知維度上仍不具備“真正的理解”。在這些方面我們還有很多工作要做。

Dwarkesh Patel：你怎么看這樣一個觀點(diǎn)：如果AI的實(shí)際使用沒達(dá)到一些人的預(yù)期，那我們是不是正在“過度建設(shè)”算力？比如我們現(xiàn)在的投資節(jié)奏可能一年內(nèi)增長10倍、十年內(nèi)增長100倍，是不是會像當(dāng)年電信行業(yè)泡沫或鐵路行業(yè)那樣，提前鋪設(shè)但需求遲遲未到？

Andrej Karpathy：你說得沒錯，像電信行業(yè)提前為互聯(lián)網(wǎng)建設(shè)基礎(chǔ)設(shè)施，但等真正的需求來了卻已經(jīng)是十年之后，那個過程中確實(shí)也產(chǎn)生了泡沫。我要承認(rèn)，我剛才聽起來可能有些悲觀。但我其實(shí)是很樂觀的，我覺得這一切是可以做成的，是可以落地的。我聽起來像在潑冷水，是因?yàn)槲以谏缃幻襟w上看到太多不合理的樂觀預(yù)測。

這種現(xiàn)象背后有很多原因。很多時候是為了融資，也可能是為了吸引注意力——因?yàn)樵诨ヂ?lián)網(wǎng)上，流量可以變現(xiàn)。說到底，是激勵結(jié)構(gòu)的問題。我之所以這么反應(yīng)，是因?yàn)槲铱吹教嗯c現(xiàn)實(shí)脫節(jié)的說法。

但我總體上依然對這項(xiàng)技術(shù)持看好態(tài)度。過去一年進(jìn)展飛快，比如Code Interpreter、OpenAI Codex這些東西，在一年前根本還不存在。它們的能力已經(jīng)證明了市場有巨大的真實(shí)需求，比如ChatGPT就已經(jīng)展現(xiàn)了這一點(diǎn)。所以我不認(rèn)為我們“算力過?！?。從我的理解來看，我們正在建設(shè)的這些算力，很可能都會被吃掉。

不過，我確實(shí)對那些“快速實(shí)現(xiàn)AGI”“很快超越人類智能”這類時間線預(yù)測持保留態(tài)度。我從事AI已有15年了，我聽到過太多這類錯判，很多還來自非常有聲望的人。我希望人們在這些預(yù)測上更加校準(zhǔn)現(xiàn)實(shí)，尤其是當(dāng)這類話題具有地緣政治影響時，犯錯的代價(jià)就非常大。我們必須腳踏實(shí)地地理解技術(shù)到底做到了什么、還沒做到什么。

十二、卡帕西拒回AI實(shí)驗(yàn)室，選擇辦學(xué)育人：擔(dān)心AI進(jìn)步，人類卻被甩下車

Dwarkesh Patel：那我們來談?wù)劷逃?，還有Eureka這些項(xiàng)目。你現(xiàn)在在做什么？有沒有考慮回去開個AI實(shí)驗(yàn)室繼續(xù)搞研究？

Andrej Karpathy：我覺得現(xiàn)在AI實(shí)驗(yàn)室在做的事情已經(jīng)有很強(qiáng)的“決定性路徑”了。我可以參與其中，起到一定作用，但未必能帶來特別獨(dú)特的貢獻(xiàn)。

而我最擔(dān)心的問題其實(shí)是在“人類”這邊。我擔(dān)心這些技術(shù)的發(fā)展會讓人類變得無足輕重。比如你可以想象未來AI自己建戴森球（圍繞恒星構(gòu)建的巨大結(jié)構(gòu)，最大限度地收集恒星發(fā)出的能量）、自己完成所有任務(wù)的畫面，但我更關(guān)心的是，在那樣的未來里，人類會變成什么樣？

我不希望我們走向電影《瓦力》或《白癡時代》（Idiocracy）那種人類被邊緣化的世界。我希望人類在這個未來里依然過得很好、活得有尊嚴(yán)。我相信自己能在這件事上做出更獨(dú)特的貢獻(xiàn)，而不是僅僅去做一個前沿實(shí)驗(yàn)室的微小優(yōu)化。

所以對我來說，“教育”是實(shí)現(xiàn)這個目標(biāo)的路徑之一。我相信通過教育，人類才能真正參與進(jìn)AI時代，而不是被技術(shù)甩在一邊。

我現(xiàn)在正在做的Eureka項(xiàng)目，可以用一句話來概括：我們想要打造“星際艦隊(duì)學(xué)院”。你看過《星際迷航》嗎？它里面設(shè)定了一所培養(yǎng)太空飛船駕駛員和技術(shù)專家的精英學(xué)院，我們的目標(biāo)也差不多——建設(shè)一所面向前沿技術(shù)、教學(xué)內(nèi)容高度更新的頂尖技術(shù)機(jī)構(gòu)。我一直對“怎么教授技術(shù)或科學(xué)知識”這個問題很感興趣，特別是怎樣把它教得更好。我想從兩個角度來談這個問題，一是我在YouTube上所做內(nèi)容的經(jīng)驗(yàn)，另一個是我在Eureka正在構(gòu)思的做法。

我認(rèn)為教育會因?yàn)锳I而發(fā)生根本性變化，整個教學(xué)流程需要被重新設(shè)計(jì)。現(xiàn)在大家最先想到的當(dāng)然是用LLM來回答問題、提供提示，但這些方式對我來說仍顯得粗糙。我不想只是用現(xiàn)在這些“提示工程”的方式去搭建學(xué)習(xí)體驗(yàn)，我想要的是一個真正意義上的AI家教系統(tǒng)。

我確實(shí)正在做這件事，但我想強(qiáng)調(diào)：任何體驗(yàn)過真正好老師的人，都會意識到這事有多難做成。所以現(xiàn)在我還在等待那個關(guān)鍵能力的出現(xiàn)。在這之前，我會先做一些更傳統(tǒng)、但有數(shù)字化與現(xiàn)實(shí)結(jié)合元素的教育產(chǎn)品。未來的形態(tài)我已經(jīng)很清楚了，只是今天的技術(shù)還沒有準(zhǔn)備好。

順便說一句，我曾經(jīng)給一些公司做計(jì)算機(jī)視覺方面的AI顧問，結(jié)果發(fā)現(xiàn)我最大的價(jià)值不是告訴他們怎么用AI，而是告訴他們什么時候不要用AI。我在教育領(lǐng)域也持類似觀點(diǎn)——雖然AI未來一定會成為教育革命的核心驅(qū)動力，但現(xiàn)在還不是做出理想產(chǎn)品的時候。未來會到來的，但我們得等等看。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、“2025是智能體元年”？卡帕西潑冷水：距離真正“能干活”還有十年

二、卡帕西回顧15年AI三次“地震”：既有突破，也有彎路，正確路徑是LLM奠基，其上再建Agent

三、別再用“造動物”思路做AGI：預(yù)訓(xùn)練只是“低配版進(jìn)化”，要提煉出能思考的“認(rèn)知核心”

四、上下文撐不起真正智能：卡帕西直指模型無法寫入經(jīng)驗(yàn)，只能一遍遍從空狀態(tài)重啟

五、Karpathy開源nanochat：親手搭建最能理解AI，模型寫代碼反而拖后腿

六、AI離爆發(fā)還遠(yuǎn)：卡帕西批評行業(yè)自嗨，強(qiáng)化學(xué)習(xí)效率低下，2027不現(xiàn)實(shí)

七、“呃呃呃呃”也能拿滿分？卡帕西直言強(qiáng)化學(xué)習(xí)不靈了，合成訓(xùn)練惹禍，模型坍縮成了新難題

八、卡帕西預(yù)判AGI方向：把模型從“壓縮機(jī)”變成“認(rèn)知體”認(rèn)知核心規(guī)模縮到10億參數(shù)

九、“AI會什么”比“AI像人”更重要，卡帕西否定“Y軸智能進(jìn)化論”

十、卡帕西駁斥“AGI奇點(diǎn)論”：智能不會突然爆發(fā)，它是自動化的漸進(jìn)延伸

十一、多智能體仍存瓶頸，卡帕西呼吁建立“AI文化”與“自我博弈”機(jī)制

十二、卡帕西拒回AI實(shí)驗(yàn)室，選擇辦學(xué)育人：擔(dān)心AI進(jìn)步，人類卻被甩下車

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、“2025是智能體元年”？卡帕西潑冷水：距離真正“能干活”還有十年

二、卡帕西回顧15年AI三次“地震”：既有突破，也有彎路，正確路徑是LLM奠基，其上再建Agent

三、別再用“造動物”思路做AGI：預(yù)訓(xùn)練只是“低配版進(jìn)化”，要提煉出能思考的“認(rèn)知核心”

四、上下文撐不起真正智能：卡帕西直指模型無法寫入經(jīng)驗(yàn)，只能一遍遍從空狀態(tài)重啟

五、Karpathy開源nanochat：親手搭建最能理解AI，模型寫代碼反而拖后腿

六、AI離爆發(fā)還遠(yuǎn)：卡帕西批評行業(yè)自嗨，強(qiáng)化學(xué)習(xí)效率低下，2027不現(xiàn)實(shí)

七、“呃呃呃呃”也能拿滿分？卡帕西直言強(qiáng)化學(xué)習(xí)不靈了，合成訓(xùn)練惹禍，模型坍縮成了新難題

八、卡帕西預(yù)判AGI方向：把模型從“壓縮機(jī)”變成“認(rèn)知體”認(rèn)知核心規(guī)模縮到10億參數(shù)

九、“AI會什么”比“AI像人”更重要，卡帕西否定“Y軸智能進(jìn)化論”

十、卡帕西駁斥“AGI奇點(diǎn)論”：智能不會突然爆發(fā)，它是自動化的漸進(jìn)延伸

十一、多智能體仍存瓶頸，卡帕西呼吁建立“AI文化”與“自我博弈”機(jī)制

十二、卡帕西拒回AI實(shí)驗(yàn)室，選擇辦學(xué)育人：擔(dān)心AI進(jìn)步，人類卻被甩下車

相關(guān)推薦

一、“2025是智能體元年”？卡帕西潑冷水：距離真正“能干活”還有十年

二、卡帕西回顧15年AI三次“地震”：既有突破，也有彎路，正確路徑是LLM奠基，其上再建Agent

三、別再用“造動物”思路做AGI：預(yù)訓(xùn)練只是“低配版進(jìn)化”，要提煉出能思考的“認(rèn)知核心”

四、上下文撐不起真正智能：卡帕西直指模型無法寫入經(jīng)驗(yàn)，只能一遍遍從空狀態(tài)重啟

五、Karpathy開源nanochat：親手搭建最能理解AI，模型寫代碼反而拖后腿

六、AI離爆發(fā)還遠(yuǎn)：卡帕西批評行業(yè)自嗨，強(qiáng)化學(xué)習(xí)效率低下，2027不現(xiàn)實(shí)

七、“呃呃呃呃”也能拿滿分？卡帕西直言強(qiáng)化學(xué)習(xí)不靈了，合成訓(xùn)練惹禍，模型坍縮成了新難題

八、卡帕西預(yù)判AGI方向：把模型從“壓縮機(jī)”變成“認(rèn)知體”認(rèn)知核心規(guī)模縮到10億參數(shù)

九、“AI會什么”比“AI像人”更重要，卡帕西否定“Y軸智能進(jìn)化論”

十一、多智能體仍存瓶頸，卡帕西呼吁建立“AI文化”與“自我博弈”機(jī)制

十二、卡帕西拒回AI實(shí)驗(yàn)室，選擇辦學(xué)育人：擔(dān)心AI進(jìn)步，人類卻被甩下車