智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會于4月18-19日在北京舉行,在大會第一天的主會場大模型專場上,云天勵飛“云天天書”大模型技術(shù)負責(zé)人余曉填以《多模態(tài)大模型技術(shù)演進與落地應(yīng)用探索》為題發(fā)表演講。

2022年底,ChatGPT橫空出世,攪起了AI行業(yè)的發(fā)展熱潮。2024年初,文生視頻大模型Sora推出,AGI(通用人工智能)發(fā)展駛?cè)肟燔嚨?。余曉填以Sora的發(fā)布以及美國利用腦機接口幫助癱瘓病人實現(xiàn)自主行動等案例,展示了AI技術(shù)驚人的迭代速度及其潛力。余曉填認為,大模型技術(shù)從前幾年的嶄露頭角,發(fā)展到現(xiàn)在的如日中天,人類已然邁入了AI的新時代,并朝著AGI的大道全速前進。

在AI蓬勃發(fā)展的新時代,大模型技術(shù)成為AI領(lǐng)域的焦點之一。以Transformer結(jié)構(gòu)為核心的大型模型被認為是一種高效、可擴展的學(xué)習(xí)器,能夠在短時間內(nèi)對海量數(shù)據(jù)進行學(xué)習(xí)和信息壓縮。然而,大模型技術(shù)的發(fā)展仍舊面臨挑戰(zhàn)。其中突出問題之一便是數(shù)據(jù)支持的不足。

如何克服這一難題?余曉填認為,解決的關(guān)鍵在于頂尖AI人才的培育,頂級的人才、專家才是支撐著大模型技術(shù)快速發(fā)展的基石。

多模態(tài)大模型作為大模型技術(shù)的重要發(fā)展方向,也引起了各界的廣泛關(guān)注。余曉填提到,多模態(tài)大模型信息壓縮策略主要分為兩種類型:分階對齊結(jié)構(gòu)和端到端對齊結(jié)構(gòu)。前者利用文本數(shù)據(jù)的廣泛覆蓋優(yōu)勢,加速學(xué)習(xí)收斂速度;后者則通過一次性對各種信息進行交叉并發(fā),實現(xiàn)高效的信息壓縮。然而,多模態(tài)大模型的落地應(yīng)用面臨諸多挑戰(zhàn)。

在此背景下,云天勵飛又將如何打破大模型應(yīng)用的“三角約束”,為大模型技術(shù)在各行各業(yè)的應(yīng)用提供新的可能?

以下為余曉填的演講實錄:

在梳理大模型技術(shù)近期的重要事件中,如大模型的發(fā)布、算力的提升,我看到了兩點重要信:第一,AI技術(shù)的迭代速度驚人,世界各地的科技巨頭均在競相爭奪領(lǐng)先地位;第二,以大模型技術(shù)為核心的AI領(lǐng)域正在經(jīng)歷前所未有的快速發(fā)展,并且這種加速度正持續(xù)提升。

我們梳理了三個可視化的例子。

首先,去年特斯拉在其投資者日公開展示了一個視頻,展示了一個人形機器人正在嘗試組裝機器。這預(yù)示著我們可能即將邁入機器人制造機器人的時代。

其次,最近OpenAI發(fā)布了名為Sora的項目,并與Figure合作,開發(fā)了具備人形外觀的智能機器人。這種機器人具備了高度交互性,能夠與人類進行流暢的溝通,并執(zhí)行人類的指令。

另外,上個月,美國首例利用腦機接口幫助癱瘓的病人已經(jīng)開始使用自己的意念來發(fā)推文,甚至在半夜使用意念玩游戲。這些令人震驚的應(yīng)用展示了AI技術(shù)帶來的巨大潛力,表明人類已經(jīng)邁入了AI的新時代。

一、從ChatGPT到Transformer,大模型在信息壓縮與學(xué)習(xí)中的演進

ChatGPT的根基是圍繞著Transformer結(jié)構(gòu)的演化,但是,什么是Transformer?我們認為,它是一個很高效的、可擴展的海量數(shù)據(jù)的學(xué)習(xí)器。簡單來說,它是一種信息壓縮機制,能夠在短時間內(nèi)將人類歷史上的所有知識進行壓縮,并從中發(fā)現(xiàn)語言的規(guī)律。

GPT的結(jié)構(gòu)并不偏好任何特定的領(lǐng)域或模態(tài),它能夠?qū)?span style="color: #0f59a4;">各種知識和多種模態(tài)進行壓縮。這種信息壓縮的關(guān)鍵條件包括巨大的參數(shù)規(guī)模、強大的計算能力以及海量的數(shù)據(jù)支持。參數(shù)規(guī)模已經(jīng)發(fā)展到了千億或萬億級別。在計算能力方面,英偉達一直在為其提供強大支持。

然而,從數(shù)據(jù)層面,一些學(xué)者表示,以后數(shù)據(jù)將不足以支撐大模型的訓(xùn)練,那這時候怎么辦?可能是采用數(shù)據(jù)合成,用大模型去制造更多的數(shù)據(jù)進行博弈的學(xué)習(xí)。

我們認為大模型的一個核心根基人才,頂尖的AI人才。這種人才可以把大參數(shù)、大算力、大數(shù)據(jù)有機地結(jié)合在一起,形成真正算法結(jié)構(gòu)下的高效信息壓縮,而這種頂級的專家人才則是支撐著美國大模型技術(shù)快速發(fā)展的基石。

云天勵飛余曉填:剖解大模型技術(shù)演進與挑戰(zhàn),算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

可以看到,大模型技術(shù)的發(fā)展以及大模型的能力,歸納起來就是海量信息的壓縮,并學(xué)習(xí)到其中的統(tǒng)計規(guī)律。目前在文本方面,我們可以把海量的數(shù)據(jù)進行壓縮,得到了文本的規(guī)律,形成了語言的理解和生成。視頻、圖像、聲音等也可以通過海量的數(shù)據(jù)進行壓縮,訓(xùn)練數(shù)百萬小時的視頻,最終用眼睛去看和理解這個世界,甚至在未來進行多種模態(tài)的數(shù)據(jù)交互,這時候,自然而然就會引出來下一個真正要討論的主題——多模態(tài)大模型。

二、多模態(tài)大模型如何做信息壓縮?探索分階對齊結(jié)構(gòu)、端到端對齊結(jié)構(gòu)

多模態(tài)大模型是怎么去做信息壓縮的?我們認為有兩大類型

第一大類型,分階的對齊結(jié)構(gòu)。第一個階段先去壓縮文本的信息,第二階段再壓縮其它的信息,其它的信息包括視覺、聲音等。

云天勵飛余曉填:剖解大模型技術(shù)演進與挑戰(zhàn),算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

為什么要這么做?因為文本的數(shù)據(jù)覆蓋面更廣,全量,而且是高知識量的。以此為基礎(chǔ),就可以獲得更快的學(xué)習(xí)收斂速度。這里可以類比人,人學(xué)習(xí)的過程最重要的三大來源:說話、眼睛看世界、耳朵聽東西,這三個信息可能最開始要引導(dǎo)的教育過程,是引導(dǎo)他講東西,這也就是分階段對齊的核心要義。從圖來看,LLM Backbone以語言對齊為核心,分階段去做多模態(tài)大模型的信息壓縮,找到其中的信息系規(guī)律。

第二大類型,端到端對齊結(jié)構(gòu)。就是對不同模態(tài)的數(shù)據(jù)同時學(xué)習(xí),同時輸入圖像、文本各種各樣的信息,直接把所有信息交叉并發(fā),把所有的信息進行壓縮,抽取里面的規(guī)律,最終達到理解這個世界,去驅(qū)動跟這個世界進行交互。

云天勵飛余曉填:剖解大模型技術(shù)演進與挑戰(zhàn),算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

三、解讀大模型技術(shù)發(fā)展三階段,場景反哺技術(shù)階段仍面臨挑戰(zhàn)

大模型能夠幫我們做什么?我們很清楚大模型技術(shù)只是一個工具,從技術(shù)的角度去看,它幫我們把很多信息壓縮,更高效地找出其中的規(guī)律。大模型要體現(xiàn)出價值,就要落實到各行各業(yè)、各種業(yè)務(wù)的閉環(huán)應(yīng)用里面去。

借鑒AI技術(shù)發(fā)展的路徑,我們認為大模型技術(shù)發(fā)展定義也有三個階段。這三個階段實際上也是技術(shù)跟數(shù)據(jù)或者算法的關(guān)系。

云天勵飛余曉填:剖解大模型技術(shù)演進與挑戰(zhàn),算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

一開始,我們設(shè)計算法時通常會使用少量數(shù)據(jù)進行驗證,這被稱為技術(shù)找場景。在第二階段,場景反哺技術(shù),我們則采用更多數(shù)據(jù)來提升算法和技術(shù)的能力。第三階段,場景找技術(shù),即所有應(yīng)用和需求都能通過同一個算法、模型來解決,這標志著我們邁入AGI時代的大道。

那么,技術(shù)找場景現(xiàn)在的進展如何?我們已經(jīng)走完了技術(shù)找場景在大模型技術(shù)發(fā)展應(yīng)用的這段路。許多應(yīng)用,例如智能問答、文生成圖以及像ChatGPT這樣的生成式大模型單點應(yīng)用,已經(jīng)驗證了大模型技術(shù)的應(yīng)用和算法成熟度。

目前,我們正處于第二階段,即場景反哺技術(shù)的階段。我們可以看到,多模態(tài)大模型的落地還有很長一段路要走,其困難之處在于行業(yè)場景的復(fù)雜性。盡管我們希望在各行各業(yè)中廣泛應(yīng)用大模型,但行業(yè)場景的知識深度對大模型的能力提出了嚴峻的考驗,仍存在著參差不齊、遠未滿足需求的情況。

因此,我們需要積極推動多模態(tài)大模型技術(shù)的落地,并應(yīng)對挑戰(zhàn)尋找解決方案。

四、如何打破大模型應(yīng)用的“三角約束”?云天勵飛提出“算法芯片化”

我們要考慮主要的變量是什么?從智慧城市中的城市治理、智慧交通,我們歸納出,要在多模態(tài)大模型進行落地變現(xiàn),應(yīng)注意三個變量的“三角約束”。

云天勵飛余曉填:剖解大模型技術(shù)演進與挑戰(zhàn),算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

如今,對話系統(tǒng)備受關(guān)注,其精度已經(jīng)接近人類,跟人沒有差異,但在對垂域的深度支持和行業(yè)的價值,大模型沒法去做。在真實生產(chǎn)環(huán)境中,很多任務(wù)是很復(fù)雜的,由于對垂域?qū)I(yè)知識的不足,以及數(shù)據(jù)優(yōu)化結(jié)構(gòu)的增加,大模型面臨著成本和效率方面的挑戰(zhàn)。

因此,我們需要在精度、成本效率之間尋找平衡點,以推動多模態(tài)大模型技術(shù)在對話系統(tǒng)中的落地應(yīng)用。我們相信,我們正在積極解決這一問題,并與AI領(lǐng)域的同仁一道不斷推進技術(shù)進步。

云天勵飛是如何突破“三角約束”的?我來分享一下我們的解決方案。

自2014年云天勵飛建立之初,我們就定義了“算法芯片化”的技術(shù)發(fā)展路徑。算法芯片化不僅僅是簡單地將算法應(yīng)用于芯片,還需要高度專業(yè)的人才,需要專家人才對算法有深刻理解,對不同場景和行業(yè)數(shù)據(jù)有專業(yè)認知,并能夠通過協(xié)同設(shè)計算法與場景,最終體現(xiàn)在芯片側(cè)、算子側(cè),包括推進可伸縮的指令集、優(yōu)化計算架構(gòu)以及工具鏈的優(yōu)化。

這樣的技術(shù)支持使得我們能夠應(yīng)用包括Transformer、各種深度學(xué)習(xí)算法框架等多種算法。最重要的一點,它的成本、效率是制約多模態(tài)大模型落地的關(guān)鍵。

過去打造的云天天書多模態(tài)大模型包含了幾個維度,包括語言、CV、文本問答、目標檢測分割等。這些大模型的落地采取了分層解耦的策略,通過設(shè)計算法芯片化平臺,我們構(gòu)建了一個通用大模型。這個通用大模型具備基礎(chǔ)能力,它在行業(yè)知識和場景經(jīng)驗方面可能只達到60到70分,但在通用性方面可以達到80分、90分甚至滿分。

再往上走就是行業(yè)大模型、場景大模型,要在具體的場景業(yè)務(wù)里面拿到90分,需要低成本的算子層面優(yōu)化,并通過與邊緣側(cè)數(shù)據(jù)的高效迭代訓(xùn)練來滿足客戶需求。

過去十年,云天天書算法研究經(jīng)歷了長時間的迭代發(fā)展。從2017年之前研究以ResNet卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí),到Transformer結(jié)構(gòu)起來之后,我們第一批啟動了Transformer結(jié)構(gòu)適配整個算法芯片化的平臺。去年公司上市后,我們加大了對大模型技術(shù)的研發(fā)投入,并持續(xù)跟進海內(nèi)外的先進技術(shù)。我們成功地研發(fā)了從百億級到千億級的語言多模態(tài)大模型。

上個月,我們發(fā)布了云天天書3.5V的大模型。在圖文理解、生成以及問答等方面,這些模型表現(xiàn)非??捎^。在語言大模型方面,我們?nèi)ツ暌呀?jīng)多次獲得了權(quán)威榜單的第一名。

五、云天勵飛是怎么取得可觀成績的?背后有4項關(guān)鍵技術(shù)

我們?nèi)绾螌崿F(xiàn)這些可觀的成績?盡管我們面臨了諸多挑戰(zhàn),但我們總結(jié)歸納后認為有四個關(guān)鍵點值得分享:

第一,解決成本的問題。精度可以通過數(shù)據(jù)堆積解決,在真正落地的時候,推理的成本是繞不過去的,我們的核心要義是解決高效的推理引擎問題。

為此,我們自主研發(fā)了Space推理引擎,它與算子層高效融合,實現(xiàn)了無損的推理,并將推理速度提升了50%以上。具體來說,像生成式大模型,通常是進行單字符的向前預(yù)測,但我們想辦法一次性預(yù)測多個字符,同時保持無損、精度不變。在這種情況下,我們通過對算法結(jié)構(gòu)進行改進,實現(xiàn)了一次性預(yù)測多個詞條,從而提升了推理效率。

第二,降低核心成本。我們致力于提高效率和減少GPU存儲需求,通過研究分布式切塊,包括自適應(yīng)的稀疏緩存解碼等技術(shù),我們成功將GPU需求降低了50%。

第三,優(yōu)化訓(xùn)練技術(shù)。優(yōu)化訓(xùn)練是大模型落地的根基,所有的應(yīng)用都在這個根基上長起來。我們研發(fā)了一套可伸縮的大模型訓(xùn)練技術(shù),簡單來說,訓(xùn)練一個大模型,這個大模型要考慮如果擴展它的參數(shù)或者說擴展它的規(guī)模、優(yōu)化它的結(jié)構(gòu),能不能復(fù)用原有的大模型?

答案是肯定的,這種方法也節(jié)省了訓(xùn)練成本。從深度和廣度的角度來看,通過復(fù)用已訓(xùn)練的參數(shù),達到深度擴展和寬度擴展,使訓(xùn)練效率翻倍,同時降低了達50%的訓(xùn)練成本。

第四,神經(jīng)網(wǎng)絡(luò)處理器和推理芯片是我們近十年來的重點。如今已經(jīng)歷了四代迭代,從第一代NNP100到目前的NNP400T,我們已經(jīng)完全靈活適配多種深度學(xué)習(xí)架構(gòu),特別是在Transformer架構(gòu)下,我們進行了指令集優(yōu)化、算子的協(xié)同設(shè)計以及高效的聯(lián)合設(shè)計,支撐了Transformer結(jié)構(gòu)的高效推理。此外,我們還是最早一批使用Chiplet結(jié)構(gòu)適配大模型的公司之一。

云天勵飛余曉填:剖解大模型技術(shù)演進與挑戰(zhàn),算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

利用這四項核心技術(shù),我們構(gòu)建了支持邊緣大模型的算法芯片化系統(tǒng)。我們的底層技術(shù)支持了神經(jīng)網(wǎng)絡(luò)處理器和自主研發(fā)的推理芯片,促進了國產(chǎn)化進程,避免了對供應(yīng)鏈的依賴,并在此基礎(chǔ)上實現(xiàn)了多模態(tài)大模型的運行。從行業(yè)應(yīng)用的角度來看,我們有基于行業(yè)到邊緣的場景大模型。更重要的是,我們支持用戶進行無感知的在線微調(diào),同時保護用戶的數(shù)據(jù)隱私,而且成本極低。

六、實現(xiàn)每秒30字高效推理,多模態(tài)大模型已落地G端

云天天書的多模態(tài)大模型在文本理解和生成方面表現(xiàn)卓越,每秒可實現(xiàn)30字的高效推理速度,并能處理超過45萬字的上下文。通過指定要求,快速生成符合特定格式的通知、決議等文件,從而有效推動辦公自動化。大家可以看到整個生成過程內(nèi)容極其簡潔,速度極其快。

此外,我們也支持帶參考內(nèi)容的文章修改和潤色,可以復(fù)制一部分已有的參考內(nèi)容,高效地進行潤色、修改,變成大家所需要的東西。目前這一塊的內(nèi)容已成功地在多個地級市、省廳局委辦落地。采用我們的多模態(tài)大模型進行辦公賦能,對于項目報告的內(nèi)容生成也是非常靈活。

最后,在文本內(nèi)容的理解和生成方面,很重要的一點是生成的質(zhì)量。我們自帶校閱功能,生成完之后可以多次優(yōu)化里面的內(nèi)容,達到自迭代、自進化的效果。云天天書多模態(tài)大模型支撐視頻數(shù)據(jù)的理解和生成,很多數(shù)據(jù)訓(xùn)練過程結(jié)束之后,有一些數(shù)據(jù)是需要優(yōu)化、編輯的,尤其在消費端的場景,比如對圖片編輯,對3D數(shù)據(jù)合成。

我們可以通過多模態(tài)大模型進行數(shù)據(jù)的合成,達到我們想要的3D數(shù)據(jù)。對于圖片的數(shù)據(jù)理解,比如通過指令去渲染,通過指令去編輯整個圖片,讓大模型去理解,根據(jù)指令操作圖片,甚至畫出不同的風(fēng)格。多模態(tài)大模型的Agent能力,以開源目標檢測為例,這種技術(shù)為城市發(fā)展提供了支持,正如我們之前提到的,我們發(fā)布了一個AI模盒,旨在促進AI技術(shù)在城市領(lǐng)域的應(yīng)用,其中就包括基于多模態(tài)大模型的支持。

我們非常榮幸,能夠身處在這個AI蓬勃發(fā)展,引領(lǐng)各行各業(yè)不斷變革的時代。如今,AI大模型技術(shù)在各行各業(yè)遍地開花,我們希望攜手各行各業(yè)的專家及朋友,共同引領(lǐng)多模態(tài)技術(shù)的落地,并邁向AGI大方向。

以上是余曉填演講內(nèi)容的完整整理。