智東西(公眾號(hào):zhidxcom)
編輯?| ?GTIC

智東西4月10日?qǐng)?bào)道,在剛剛落幕的GTIC 2023中國(guó)AIGC創(chuàng)新峰會(huì)上,中國(guó)科學(xué)院自動(dòng)化研究所研究員&博士生導(dǎo)師、武漢人工智能研究院副院長(zhǎng)張家俊進(jìn)行了主題為《紫東太初大模型——認(rèn)識(shí)世界,理解世界》,基于“紫東太初”大模型,他解讀了其是如何整合資源、并進(jìn)一步探索通用人工智能產(chǎn)業(yè)化路徑的技術(shù)奧秘。

張家俊談道,深度學(xué)習(xí)預(yù)訓(xùn)練大模型效果不斷提升。當(dāng)下,通過自監(jiān)督學(xué)習(xí)條件下“大數(shù)據(jù)+大模型”方式,多模態(tài)大模型初現(xiàn)“多專多能”,在小樣本學(xué)習(xí)、自然語言問答、跨模態(tài)生成等方面快速進(jìn)步。大模型帶動(dòng)了創(chuàng)新潮,但其能耗和成本極高,認(rèn)知能力與人相比仍有很大差距。

“紫東太初”是中科院自動(dòng)化所團(tuán)隊(duì)推出的全球首個(gè)千億參數(shù)多模態(tài)大模型。張家俊稱,這一模型支持Token級(jí)別、模態(tài)級(jí)別與樣本級(jí)別的多任務(wù)自監(jiān)督學(xué)習(xí),多模態(tài)弱關(guān)聯(lián)數(shù)據(jù)在512卡訓(xùn)練128天,同時(shí)實(shí)現(xiàn)模態(tài)理解與模態(tài)生成統(tǒng)一建模?!白蠔|太初”支持以文搜圖、以圖生音、以音生圖等跨模態(tài)檢索與生成實(shí)例,比如輸入一個(gè)真實(shí)圖像,紫東太初就能生成個(gè)性化的3D形象。

目前,團(tuán)隊(duì)已推出了紫東太初開放服務(wù)平臺(tái)1.0、紫東太初·洛神1.0 AIGC智能生成平臺(tái),并整合產(chǎn)學(xué)研用各方資源搭建人工智能開源開放生態(tài),探索通用人工智能產(chǎn)業(yè)化路徑。

以下為張家俊的演講實(shí)錄:

大家上午好!我是自動(dòng)化所張家俊。

首先解釋一下,我個(gè)人從事的是自然語言處理和機(jī)器翻譯相關(guān)的研究。大模型來了之后,實(shí)際上從2020年GPT-3出來之后,我就參與了自動(dòng)化所發(fā)起的多模態(tài)大模型項(xiàng)目,我主要負(fù)責(zé)語言這一塊。今天我作為一個(gè)參與者,跟大家分享一下自動(dòng)化所大模型相關(guān)的情況。

一、大模型正在從單模態(tài)有監(jiān)督,邁向多模態(tài)自監(jiān)督學(xué)習(xí)

大模型出現(xiàn)之前,基本上模型的能力都是單一的,而且需要依賴于大量的標(biāo)注數(shù)據(jù),而且泛化能力非常差。

大模型來了之后,基于其大的數(shù)據(jù)、大的模型,很多種比如自然語言處理、語音識(shí)別、計(jì)算機(jī)視覺等任務(wù)得到了非常大的改善。我們現(xiàn)在也會(huì)發(fā)現(xiàn),模型參數(shù)量也在不斷提升。我們不知道GPT-4是多少參數(shù)量,但肯定是千億以上,不會(huì)比ChatGPT還少。

不管是圖像還是文本,單一模態(tài)大模型采用的是非常好、非常自然的訓(xùn)練目標(biāo),也就是自監(jiān)督訓(xùn)練,圖像我們可以通過重構(gòu)方式,文本可以通過下一個(gè)單詞預(yù)測(cè)的方式。而現(xiàn)實(shí)世界是一個(gè)多模態(tài)環(huán)境,在多模態(tài)環(huán)境當(dāng)中又該如何去進(jìn)行訓(xùn)練或者設(shè)計(jì)它的目標(biāo)?另一方面,多模態(tài)環(huán)境下如何從之前的“一專一能”方式過渡到“多專多能”的模型或者框架,現(xiàn)在實(shí)際上很多認(rèn)知能力與我們期待的還很遙遠(yuǎn)。

正如剛才提到的,一方面從文本到多模態(tài)實(shí)際有很多挑戰(zhàn),但是我們生活在這樣一個(gè)多模態(tài)的環(huán)境當(dāng)中,所以我們有必要去進(jìn)行探索。

中科院張家?。憾嗄B(tài)大模型初現(xiàn)“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

因此,當(dāng)2020年GPT-3發(fā)布之后,我們就認(rèn)為多模態(tài)必將是一個(gè)未來的方向,我們現(xiàn)在也看到GPT-4已經(jīng)可以處理圖文輸入和理解輸入。

二、具備部分類腦特性,初現(xiàn)“多專多能”

我們當(dāng)時(shí)在做的時(shí)候,就一直在考慮應(yīng)該如何設(shè)計(jì),將不同模態(tài)放在一個(gè)模型下面進(jìn)行學(xué)習(xí)。我們提出了三個(gè)層級(jí)的多模態(tài)訓(xùn)練方式,比如從詞源token級(jí)別、模態(tài)級(jí)別與樣本級(jí)別,我們也提出了語義弱關(guān)聯(lián)多模態(tài)學(xué)習(xí)方式,這樣就可以進(jìn)行多模態(tài)理解和跨模態(tài)相互生成,進(jìn)而完成各種各樣跨模態(tài)的任務(wù),多模態(tài)的理解、分類,跨模態(tài)的檢索,多模態(tài)之間的相互轉(zhuǎn)換生成。

這些是可以完成的功能,那么具體來說,我們?nèi)绾稳?shí)現(xiàn)的?

右下角可以看到,它不是像GPT這種的單一解碼器(Decorder),我們發(fā)現(xiàn)如果你的數(shù)據(jù)特別多、模型特別大的時(shí)候,像GPT-3.5或者GPT-4可以對(duì)文本數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行統(tǒng)一融合。

中科院張家俊:多模態(tài)大模型初現(xiàn)“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

但是當(dāng)模型沒有那么大,我們可能考慮模態(tài)之間融合時(shí)就需要設(shè)計(jì)不同的策略。

所以當(dāng)時(shí)我們提出了對(duì)不同的模態(tài)進(jìn)行分別編碼,同時(shí)在上一層設(shè)計(jì)一個(gè)跨模態(tài)編碼。其余各自的模態(tài)比如文本模態(tài)、圖像模態(tài)、語言模態(tài)分別有一個(gè)解碼器。

這樣的模式看起來像是一個(gè)集成模型,但是它有一個(gè)非常好的地方是你可以通過不同的模態(tài)進(jìn)行分別優(yōu)化,且不影響其他模態(tài)的功能。我們針對(duì)此做了一些優(yōu)化,語言方面,我們可以直接優(yōu)化語言底部的解碼器,不影響文本和圖像的分辨結(jié)果。

多模態(tài)的通用模型針對(duì)任何任務(wù)的處理方式都相同,但實(shí)際上不同的任務(wù)應(yīng)該有針對(duì)性地去處理。因此我們提出了任務(wù)感知的訓(xùn)練方式。如果大家用過ChatGPT就會(huì)發(fā)現(xiàn),不同的提示會(huì)產(chǎn)生不同的結(jié)果。那么,我們能不能針對(duì)不同的樣本生成合適這個(gè)樣本的提示?所以我們生成一個(gè)樣本級(jí)的提示學(xué)習(xí)方式,可以面向特定樣本生成適應(yīng)這個(gè)樣本的提示。

在語音層面,我們可以只優(yōu)化語音,例如將語種識(shí)別、端點(diǎn)檢測(cè)各種語音相關(guān)的功能融合在一個(gè)任務(wù)下,同時(shí)語音的優(yōu)化又不影響文本、圖像,優(yōu)化之后可以得到語音方面非常好的結(jié)果。

在視覺方面也是一樣。例如針對(duì)視覺如何進(jìn)行無監(jiān)督學(xué)習(xí),我們提出了視覺掩碼自監(jiān)督模型,一方面是通過注意力動(dòng)態(tài)掩碼保留關(guān)鍵區(qū)域,第二步通過解碼恢復(fù)掩碼,和語言里面的BERT非常相似。

中科院張家?。憾嗄B(tài)大模型初現(xiàn)“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

經(jīng)過這樣簡(jiǎn)單的操作之后,我們就可以在很多任務(wù)上得到最好的性能,比如在目標(biāo)檢測(cè)和實(shí)例分割上,就可以超越任務(wù)特定的預(yù)訓(xùn)練模型精度。

在不同的模態(tài)仿真訓(xùn)練中,當(dāng)模型特別大時(shí),有模態(tài)信息,還有大量參數(shù),如何保證它快速、穩(wěn)定地學(xué)習(xí)是非常關(guān)鍵的因素。因此,我們?cè)谶@種學(xué)習(xí)過程中提出了一些方案,例如基于空間通道稀疏化的多模態(tài)大模型,這種方案可以將空間信息和通道信息分割開來,就可以得到優(yōu)化20%到35%的浮點(diǎn)運(yùn)算。

此外,在穩(wěn)定性方面,我們?cè)谟?xùn)練時(shí)發(fā)現(xiàn)當(dāng)批處理變得特別大之后,學(xué)習(xí)率的線性尺度原則就會(huì)失效。針對(duì)這個(gè)問題,我們提出了周期性矩衰減優(yōu)化的方案。學(xué)習(xí)率通過逐層動(dòng)態(tài)調(diào)整,周期性清零梯度信息,擺脫歷史梯度影響,從而加速網(wǎng)絡(luò)快速收斂。收斂的速度相比之前能提升30倍。

這樣的方法一方面可以保證訓(xùn)練的快速,另一方面保證訓(xùn)練的穩(wěn)定性。

很多時(shí)候,當(dāng)我們?cè)趪?guó)產(chǎn)化的平臺(tái)上訓(xùn)練,比如基于昇騰多維混合并行的訓(xùn)練,很多時(shí)候我們會(huì)和昇思MindSpore共同研發(fā),因?yàn)?021年,MindSpore的很多功能沒有十分完善,在其對(duì)大模型的較好支持下,我們?cè)谟?xùn)練時(shí)可以在這個(gè)基礎(chǔ)上去不斷優(yōu)化算子。

同時(shí),大模型在預(yù)訓(xùn)練階段學(xué)習(xí)到了很多先驗(yàn)的知識(shí),這些先驗(yàn)的知識(shí)對(duì)于長(zhǎng)尾現(xiàn)象有很多輔助作用,比如可以將其遷移到長(zhǎng)尾數(shù)據(jù)集,可以更容易學(xué)習(xí)尾部的圖像類別特征表述。

經(jīng)過文本、語音、視覺上的針對(duì)性優(yōu)化之后,我們很多千億三模態(tài)大模型在跨模態(tài)檢索、視覺問答、圖像語義描述等上實(shí)現(xiàn)非常好的性能,這些任務(wù)在2021年基本達(dá)到了State-of-the-art(最高水準(zhǔn)的)。

例如在2021年,基于預(yù)訓(xùn)練模型的視覺描述競(jìng)賽中,紫東太初大模型得到第一名,并且在大規(guī)模視頻場(chǎng)景理解比賽中也獲得第一名。

下圖是一些案例,我們訓(xùn)練多模態(tài)大模型之后會(huì)產(chǎn)生一個(gè)什么樣的結(jié)果。

中科院張家?。憾嗄B(tài)大模型初現(xiàn)“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

剛才我們提到不僅有文本、圖像,我們知道目前大多數(shù)呈現(xiàn)出來的是文生圖或圖片、文本之間的模型,那么我們把語音加進(jìn)去,可以直接讓沒有聲音的圖片和視頻生成語音播報(bào)。例如,一個(gè)沒有聲音的圖像或者視頻可以直接生成一鍵語音播報(bào)。這看起來似乎是直接從圖像到文本再到語音,實(shí)際上我們跳過了文本環(huán)節(jié),直接由圖像或者視頻生成語音,也可以由語音生成圖像,或者由語音生成視頻。

以文生圖為例,很多模型都有這樣的能力,這里簡(jiǎn)單展示一下我們也有這樣的能力,可以生成風(fēng)格多變的文生圖能力。

我們從2020年10月開始做這件事情,2021年7月發(fā)布了第一版多模態(tài)大模型。2022年,“紫東太初”獲得大規(guī)模預(yù)訓(xùn)練模型優(yōu)秀應(yīng)用案例獎(jiǎng),中國(guó)算力大會(huì)先鋒案例獎(jiǎng),以及世界人工智能大會(huì)SAIL獎(jiǎng),也是世界人工智能大會(huì)的最高獎(jiǎng)。

三、打造開放服務(wù)平臺(tái)1.0,一鍵完成采集、訓(xùn)練、部署

剛才介紹了多模態(tài)大模型的研制過程和各個(gè)模態(tài)針對(duì)性的優(yōu)化,以及優(yōu)化之后能達(dá)到的水平。當(dāng)達(dá)到這個(gè)水平之后,我們希望基于此開發(fā)一套服務(wù)平臺(tái),讓這樣的模型能夠服務(wù)于千家萬戶,讓多模態(tài)模型的利用和部署變得非常簡(jiǎn)便。

因此,我們依托紫東太初大模型,開發(fā)了紫東太初服務(wù)平臺(tái),現(xiàn)在是1.0階段。我們希望這個(gè)服務(wù)平臺(tái)能夠一鍵完成數(shù)據(jù)采集、模型訓(xùn)練到模型的部署。這樣的話,可以大幅節(jié)省人力,從幾個(gè)月的訓(xùn)練時(shí)間縮短到幾天、一周的訓(xùn)練時(shí)間。

中科院張家俊:多模態(tài)大模型初現(xiàn)“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

有了智能化的標(biāo)注平臺(tái),用戶不僅可以在上面進(jìn)行標(biāo)注,而且可以根據(jù)模型來不斷迭代。有了模型之后,我們可以根據(jù)訓(xùn)練模型來發(fā)現(xiàn)還需要標(biāo)注哪些樣本,通過這樣的主動(dòng)學(xué)習(xí),可以加快數(shù)據(jù)的標(biāo)注過程。

為了實(shí)現(xiàn)一鍵微調(diào),開發(fā)者可以選擇各種各樣的開發(fā)工具,可以選擇主流的開發(fā)平臺(tái),也可以選擇異構(gòu)資源的統(tǒng)籌,我們可以統(tǒng)籌如昇騰、GPU等各種異構(gòu)算力,同時(shí)可以支持分布式訓(xùn)練,并且訓(xùn)練過程還可以可視化。我們支持可視化建模、交互式建模、自動(dòng)學(xué)習(xí)、自定義任務(wù)等的可視化。

對(duì)于一鍵部署,這個(gè)平臺(tái)可以覆蓋數(shù)據(jù)的搜集、模型的訓(xùn)練再到模型的部署。實(shí)際上就是說,我們可以先導(dǎo)入訓(xùn)練任務(wù),然后再把本地的數(shù)據(jù)或者相關(guān)的信息進(jìn)行導(dǎo)入,最后選擇相關(guān)的模型再進(jìn)行微調(diào),就能得到最終適應(yīng)用戶目標(biāo)或者任務(wù)的應(yīng)用部署。

中科院張家?。憾嗄B(tài)大模型初現(xiàn)“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

并且這一服務(wù)平臺(tái)里有很多語音、文本、圖像、視頻的算法庫,不需要用戶進(jìn)行訓(xùn)練,可以直接拿來集成使用。

在這個(gè)平臺(tái)上,我們最近開發(fā)了洛神1.0圖文生成平臺(tái)。洛神1.0可以替代傳統(tǒng)的數(shù)字生成技術(shù),實(shí)現(xiàn)數(shù)字人的快速批量生成。它可以完成自動(dòng)驅(qū)動(dòng)和用戶之間互動(dòng),能夠幫助用戶完成數(shù)字人的自動(dòng)化生成。

下面是一個(gè)例子,比如它可以進(jìn)行個(gè)性化虛擬人生成。開發(fā)者選擇一個(gè)形象之后,就可以通過語音方式驅(qū)動(dòng)生成視頻。而且可以按照自己的需求自定義,選擇一個(gè)形象之后,你可以將其變成三維形象,再選擇其它的形象進(jìn)行融合,將文本或者需要生成的內(nèi)容輸入進(jìn)去之后就會(huì)按照你的需求進(jìn)行相應(yīng)的生成?,F(xiàn)在數(shù)字人進(jìn)行簡(jiǎn)單的播報(bào)越來越真實(shí)化。

中科院張家俊:多模態(tài)大模型初現(xiàn)“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

在算法研究、模型開發(fā)和平臺(tái)研制基礎(chǔ)上,我們?cè)谕苿?dòng)多模態(tài)產(chǎn)業(yè)聯(lián)盟的成立,目前在紫東太初框架下面有41家成員,我們希望整合產(chǎn)學(xué)研用各方資源,來打造多模態(tài)人工智能行業(yè)應(yīng)用,希望探索通用人工智能產(chǎn)業(yè)化的道路。

四、已應(yīng)用于醫(yī)療、文旅、公益等,打造差異化AGI道路

我們?yōu)槟P痛蛟炝碎_發(fā)開放平臺(tái),同時(shí)我們已經(jīng)用這樣的模型在各種各樣的下游任務(wù)當(dāng)中得到了非常好的應(yīng)用,比如在智慧醫(yī)療、社會(huì)公益、智慧文旅等方面已經(jīng)有了各種各樣的應(yīng)用。

這里面因?yàn)闀r(shí)間關(guān)系就不一一介紹,我介紹其中的一個(gè)應(yīng)用,就是手語教考一體機(jī)。

這是一個(gè)非常有意思的應(yīng)用,例如《新聞聯(lián)播》、《新聞30分》節(jié)目的右下角都會(huì)有手語形象,但很多時(shí)候聾啞群體或者聽障群體會(huì)有歧義,沒辦法知道手勢(shì)代表什么意思,那如果我們給出手勢(shì)的同時(shí)給出多模態(tài)的圖像視頻展示,這樣立馬就能夠讓聽障人士感知到并快速發(fā)現(xiàn)他應(yīng)該在說什么,在表達(dá)什么樣的含義。這樣多模態(tài)的應(yīng)用是非常有意思,也是非常好的方面。

中科院張家?。憾嗄B(tài)大模型初現(xiàn)“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

還有在智慧交通、智能制造方面的應(yīng)用,我們打造了一個(gè)文旅多模態(tài)場(chǎng)景“南宋御街”,用戶可以通過VR方式和各種各樣的歷史環(huán)境、歷史人物進(jìn)行交互。

我們也會(huì)把它應(yīng)用到媒體,特別是多媒體內(nèi)容的安全審查上面。

這兩年來我們的模型也得到央視新聞、人民網(wǎng)等媒體的一系列報(bào)道,我們也還在不斷努力??梢钥吹紾PT正在不斷地突破人們的想象,從GPT-4到周老師剛剛介紹的GPT和各種各樣插件的融合。

我們?cè)诓粩嘧汾s,不斷打造差異化的通向通用人工智能的道路,目前而言,可能我們的模型不是特別大,不像GPT-4那么通用,但我認(rèn)為我們應(yīng)該追求一個(gè)開放的環(huán)境,我們希望在各種各樣的產(chǎn)業(yè)當(dāng)中得到更好的應(yīng)用,希望和大家一起推動(dòng)通用人工智能的發(fā)展。

謝謝大家!

以上是張家俊演講內(nèi)容的完整整理。