智東西(公眾號:zhidxcom)
編輯 | GenAICon 2024

2024中國生成式AI大會于4月18-19日在北京舉行,在大會首日的主會場大模型專場上,前Meta首席工程負責人胡魯輝老師以《從多模態(tài)大模型到理解物理世界》為題發(fā)表演講。

胡魯輝談道,聚焦多模態(tài)大模型的后GPT-4時代呈現(xiàn)出4大趨勢,一是語言大模型到多模態(tài)大模型,二是數(shù)據(jù)集成到向量數(shù)據(jù)庫,三是Agent智能體到大模型操作系統(tǒng),四是模型微調到Plugin(插件)平臺。

他認為大模型是通向AGI靠譜的方法。在大模型的落地應用中,企業(yè)和研究機構需要面對多方面的挑戰(zhàn)。首先是數(shù)據(jù)的標準化問題,不同來源和格式的數(shù)據(jù)需要被轉化成一種統(tǒng)一的格式,以便于模型的訓練和應用。

此外,模型的分散性和應用場景的復雜性也大大增加了開發(fā)的難度。例如,在不同的物理環(huán)境下,模型需要調整其參數(shù)以適應特定的硬件和軟件條件。同時,算力成本和訓練時間的長短也是制約大模型廣泛應用的重要因素。

胡魯輝預測下一個AI 2.0爆發(fā)點及落地大方向將是AI for Robotics。這一領域的發(fā)展需要模型不僅理解編程或語言處理,更要深入到物理世界的具體應用中去。這涉及對物理環(huán)境的理解和設計,需要大模型能夠整合各種感知數(shù)據(jù),進行快速的決策和學習,以應對不斷變化的外部條件。這一過程中,模型的訓練和應用將更加依賴于高效的算力和先進的硬件支持。

以下為胡魯輝的演講實錄:

今天我要分享的是《從多模態(tài)大模型到理解物理世界》。大模型的快速發(fā)展加上不斷的技術演變,變化很大,我希望將自己的一些實戰(zhàn)經(jīng)歷分享給大家。

今天主要分享4個方面。首先從大模型的原理出發(fā),講一下GPT-4之后硅谷及全球有哪些重大變化;其次結合大模型和多模態(tài)的特征,分享Transformer以及我在Meta的相關工作經(jīng)歷;今天的重點是為什么要去理解物理世界,僅僅依靠語言大模型并不能走向通用人工智能,理解物理世界才有可能走向它;最后,結合多模態(tài)大模型和理解物理世界探討如何接近AGI。

一、大模型開啟AI 2.0時代,Meta是開源領導者

每個技術的快速發(fā)展離不開背后大量的科研創(chuàng)新工作,這是人工智能復興的原因,因為其在快速發(fā)展和迭代。人工智能的重要性和意義十分突出,可以說,這次人工智能是第四次計算時代或第四次工業(yè)革命。第三次計算時代是移動互聯(lián)網(wǎng)時代,我們正處于這個時代,根據(jù)每次的發(fā)展,第四次的規(guī)模比第三次要大,且從經(jīng)濟效益上來講,對人類社會的影響力更大。

人工智能在歷史上有兩個拐點,AlphaGoChatGPT。雖然每一個拐點只代表一個產(chǎn)品或者技術,但其對人類的影響不僅是技術本身,如AlphaGo,不可能所有公司都做下棋產(chǎn)品或平臺。對社會來說,第一次是利用拐點背后的技術(如CV或別的技術)開始AI 1.0時代。這一次則是基于大模型泛化涌現(xiàn)的能力開始AI 2.0時代。

ChatGPT發(fā)布了一年多,性能表現(xiàn)的排名仍比較領先。并且現(xiàn)在大模型訓練的費用或成本越來越高,之前GPT-4訓練的時候需要6000萬美元左右,GPT-5可能更貴。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

目前OpenAI是閉源大模型的領導者,Meta是開源的領導者。OpenAI在閉源大模型中的領導地位是公認的,Meta的開源大模型Llama和視覺SAM比較領先。其中Llama幫助了很多語言模型開發(fā)公司的團隊,讓他們擁有了很好的基礎。

現(xiàn)在模型中,有三個閉源三個開源比較領先。或許大家疑惑Meta的Llama怎么不見了,Meta在做另外一件更有意義的事情,就是理解物理世界,他們叫世界模型。最近Llama還沒有迭代,大家可以拭目以待,這個排名還是會變化的,Llama為很多大語言模型奠定了基礎,幫助很多企業(yè)飛速發(fā)展。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

二、Meta有三大SOTA視覺大模型,多模態(tài)、視覺與語言走向融合

Meta的視覺大模型還有很多貢獻。Transformer最初應用于語言模型,逐步衍生到視覺,其中比較火的一個就是ViT,視覺Transformer。

Meta通過ViT或Transformer不斷迭代,有三個影響比較大的視覺Transformer:一是DeTr,Detection Transformer,它有端到端的Object Detection;二是DINO,通過Transformer開啟了視覺領域的自監(jiān)督,無論是大語言模型還是其他大模型,都不能依賴打標簽,需要它能夠自主學習監(jiān)督;三是SAM,更多是零樣本,是泛化的能力。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

在視覺領域,除了Sora,SAM影響力較大。怎么訓練SAM,需要多少資源,或者訓練過程中需要注意哪些事情?我去年寫了一篇文章Fine-tune SAM,詳細講了怎么利用SAM做微調,如何控制資源,或者利用資源更有效地做微調。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

幾年前,一提到人工智能,就會想到視覺、語言兩個支派,CNN、RNN基本上井水不犯河水。做NLP的一波人和做CV的那波人有各自的學術派,方法不一樣,會議也不太一樣。這次深度學習,語言模型從LSTM到Word2Vec,到最近的GPT還有BERT。視覺模型最早從分類到檢測,再到分割,接著從語義分割到實例分割。

這里有許多地方特別相近,所謂的語言大模型無非是更深層次的一個相關性和邏輯推理。視覺也是一樣,邏輯上二者是融合的,技術上是Transformer。語言層面GPT-4、 Llama比較經(jīng)典;視覺中Sora和SAM都是比較經(jīng)典的例子,它后面的Backbone都是基于Transformer。

無論從邏輯上講語義相關性,還是技術上Transformer Backbone,都在逐步融合。

這是一個好消息。對研發(fā)工作者而言,以前井水不犯河水的NLP和CV終于有一天融合了。它在發(fā)生一個質的變化。

當前AI的核心技術,也是個比較靠譜的AGI方法,能從一個技術、一個方向擴展到下一階段。但Meta首席AI科學家楊立昆反而不這么認為,JEPA從最初的Image JEPA到Video JEPA有自己的理論。但不管怎么樣,從工程上或者應用上,它的效果確實突出。

打造大模型的核心關鍵能力是什么?一般人會說是三個核心,數(shù)據(jù)、算力、算法。而我根據(jù)一些工作經(jīng)驗還歸納出來另外兩點。

一個是模型架構,現(xiàn)在的大模型和以前的深度學習算法不同的地方,就是模型架構的重要性。通過Backbone或模型架構的重塑做遷移學習或微調,不是僅僅把領域數(shù)據(jù)或者領域知識輸入進去,而是通過改變模型架構產(chǎn)生一個新的模型,達到自己想要的領域模型。

還有一個是智能工程。Llama是開源的,OpenAI搞出來GPT-3.5,也就是ChatGPT,改變世界的奇點就發(fā)生了。有GPT-3,有數(shù)據(jù)、算力,但能不能制造出GPT-3.5?不同的公司不一樣,根本原因就是智能工程不同。

這五個里面哪個最核心、最關鍵?很多人可能會說是算力,很貴,買不到H100、A100,但是無論是谷歌還是微軟,都不會缺乏算力,他們目前卻沒有世界最領先的GPT-4這樣的模型。

國內很喜歡說數(shù)據(jù),沒有數(shù)據(jù)的確很難搞出好的模型,但是很多大廠也不會缺數(shù)據(jù)。算法基本上是開源的,像Transformer或者一些比較新的算法也是開源的,它也不是最關鍵因素。而模型架構,也可以通過一些微調、不同的嘗試探索出來。

所以結合國外的模型和國內的現(xiàn)狀,最核心打造大模型的能力應該是智能工程。

這也就是說OpenAI的一些人出來創(chuàng)業(yè)搞Claude,剛才大家看到排名中第二領先的就是Claude,就是OpenAI中的人出來創(chuàng)業(yè)做的事情。說明人才是最值錢的。

三、預測“后GPT-4”四大發(fā)展趨勢,理解物理世界有七大特征

現(xiàn)在GPT-4是多模態(tài)大模型,在硅谷及全球人工智能發(fā)展到底有哪些趨勢?我認為有四個方面,這張圖是根據(jù)我的預測讓GPT-4生成的圖例展示。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

第一,從語言大模型到多模態(tài)大模型。

第二,邁向向量數(shù)據(jù)庫。目前的大語言模型或多模態(tài)大模型不論多大,都有一定的局限性,導致向量數(shù)據(jù)庫火起來了。大家可以把一部分或大部分的數(shù)據(jù)放在向量數(shù)據(jù)庫里,把相關的數(shù)據(jù)放在大模型中。

第三,從自動Agent到將大模型作為操作系統(tǒng)。Agent比較火,但是它的背后依然是語言大模型或多模態(tài)大模型。Agent相當于軟件自動實現(xiàn)。后續(xù)多模態(tài)大模型作為操作系統(tǒng)可能是比較核心的。

第四,開源模型從微調到引入插件平臺。ChatGPT相當于一個平臺,不僅可以微調,而且可以通過插件作為一個平臺,因此插件可能是未來的一個方向。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

為什么模型能夠這么快發(fā)展,為什么我們能夠支撐Scaling Law?很大原因是計算能力的發(fā)展。CPU時代有摩爾定律,GPU時代同樣發(fā)展速度更快。去年英偉達發(fā)布能夠支撐1億FLOPS的算力,今年他們發(fā)布了新的DGX GB200,去年是GH200,現(xiàn)在是GB200,小了一點,更快一點,但還是一個量級的。好幾個DGX串起來是很大的規(guī)模,近十年之前IBM計算機也是相當大的,而現(xiàn)在手機就能支撐以前的算力,GPU其實也一樣。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

有這個大模型或算力后,應用在發(fā)生什么變化?可以看到,AI 2.0比較以前的傳統(tǒng)軟件或互聯(lián)網(wǎng),用戶和場景可能都一樣。但是以前是用戶從App到服務軟件再到CPU,現(xiàn)在是用戶從多模態(tài)到基礎模型,然后到GPU,中間可以依賴數(shù)據(jù)庫或者訓練數(shù)據(jù),傳統(tǒng)的用數(shù)據(jù)庫,現(xiàn)在用向量數(shù)據(jù)庫。

接下來關于理解物理世界,AI賦能了智能手機、智能車、智能家居等等,圍繞的計算核心是智能云。現(xiàn)在或未來中心會是AI factory(人工智能工廠),它的輸入是Token,文字、視覺或視頻,它的輸出就是AI。過去應用有手機、有車,將來就是各種機器人。未來汽車某種意義上也是一種機器人。從架構來看,AI for Robotics是一個未來方向,未來即將爆發(fā)的方向,從云計算、AI工程、基礎模型,生成式AI再到上面的AI for Robotics。

理解物理世界也比較有挑戰(zhàn)性,現(xiàn)在的語言模型只能局限于訓練的范圍中,對外界的理解還是有相當?shù)木窒扌浴?/p>

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

理解物理世界到底有哪些特征,怎么能夠從現(xiàn)有的多模態(tài)大模型轉向理解物理世界,有了理解物理世界以后再向AGI接近?我認為有七個方面,最外面的紫色是比較優(yōu)秀的人,因為人的水平都不一樣,作為比較優(yōu)秀的人能夠理解物理世界的水平。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發(fā)展趨勢,理解物理世界才能接近AGI|GenAICon 2024

但GPT-4或最新的GPT-4 Turbo是什么樣?是里面的圈。現(xiàn)在GPT-4 Turbo和人還是有很大的距離,只有從每個維度提升發(fā)展,才能真正理解物理世界,更加接近地通用人工智能。

理解物理世界不僅僅是對空間的理解或者空間智能,因為從概念上 “空間”相當于3D,不包括語言等核心AI。

說到這里,大家可能覺得比較抽象,這也是Meta最近在做的一些事情。Meta在開源大模型或者開源多模態(tài)大模型方面目前顯得“落后”了,但Llama 3馬上來了,是因為它把很多精力花在了世界模型中,同時在治理的7個方面提高模型的能力。

我最近成立一家公司叫智澄AI,致力于通用人工智能?!俺巍钡囊馑际侵鸩阶呦蛘嬲闹悄?。

以上是胡魯輝老師演講內容的完整整理。