智東西(公眾號(hào):zhidxcom
作者 | 香草
編輯 | 李水青

智東西6月3日?qǐng)?bào)道,近日,AI技術(shù)公司彩云科技發(fā)布了全新通用模型結(jié)構(gòu)DCFormer,通過(guò)改進(jìn)注意力矩陣,在相同訓(xùn)練數(shù)據(jù)下,最高可以將算力智能轉(zhuǎn)化率提升至Transformer2

具體來(lái)說(shuō),DCFormer改變了向量矩陣的推理通路,將Transformer結(jié)構(gòu)中綁定的矩陣改進(jìn)為任意線(xiàn)性組合,可以用2組原來(lái)的注意力矩陣組合出4種搭配,用8組注意力矩陣組合出64種搭配。

根據(jù)實(shí)驗(yàn),在相同訓(xùn)練數(shù)據(jù)和算力下,用DCFormer架構(gòu)改進(jìn)后的69億參數(shù)模型,擁有比120億參數(shù)模型更好的效果。如果GPT-4o能夠應(yīng)用,其推理一次128k上下文的成本,就可能從4元變成2元。

效率2倍于Transformer!彩云科技推出全新模型架構(gòu),高分登機(jī)器學(xué)習(xí)頂會(huì)ICML

▲同一款模型在DCFormer架構(gòu)改進(jìn)前后的性能偏移曲線(xiàn)

該模型結(jié)構(gòu)相關(guān)論文已于5月15日發(fā)布在arXiv,并將在第41屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)ICML 2024正式發(fā)表。彩云科技引用一位ICML評(píng)委的話(huà)透露,今年錄用論文的平均分為4.25-6.33,而DCFormer論文獲得平均7。

DCFormer模型代碼、權(quán)重和訓(xùn)練數(shù)據(jù)集已開(kāi)源發(fā)布,相關(guān)成果后續(xù)將在彩云科技旗下彩云天氣、彩云小譯等產(chǎn)品,以及小夢(mèng)V4、小夢(mèng)V5等模型上應(yīng)用。

在媒體溝通會(huì)上,智東西及少數(shù)媒體與彩云科技CEO袁行遠(yuǎn)進(jìn)行了深入交談。

當(dāng)智東西問(wèn)道,與市面上其他挑戰(zhàn)Transformer的模型架構(gòu),如Mamba、RetNet等相比,DCFormer采取的路徑有什么不同?具體有哪些差異化優(yōu)勢(shì)?

袁行遠(yuǎn)稱(chēng),Mamba等架構(gòu)對(duì)模型的改動(dòng)都比較大,是沒(méi)有辦法在已有模型上去做改進(jìn)的,需要從頭重新訓(xùn)練模型。

相較之下,DCFormer是在Transformer的基礎(chǔ)上進(jìn)行改進(jìn),能夠和現(xiàn)有的模型疊加,而不是互斥,因此所有基于Transformer架構(gòu)的大模型都能在DCFormer的基礎(chǔ)上降低成本

DCFormer對(duì)Transformer的改動(dòng)很小,那么為什么7年間沒(méi)有其他團(tuán)隊(duì)實(shí)現(xiàn)這一突破?是沒(méi)有想到這個(gè)路徑,還是其他原因?

袁行遠(yuǎn)告訴智東西,實(shí)際上這個(gè)路徑之前也有人想到,但其大多選擇在預(yù)訓(xùn)練之后去改進(jìn),沒(méi)有達(dá)到理想的效果。為什么彩云科技做到了?袁行遠(yuǎn)用“中二”這個(gè)詞來(lái)形容自己和團(tuán)隊(duì),“我們相信能做到,并且堅(jiān)持做了下去。”

談及近期大模型廠(chǎng)商之間的“價(jià)格戰(zhàn)”,袁行遠(yuǎn)認(rèn)為,現(xiàn)在處于一個(gè)市場(chǎng)搶占的過(guò)程,大模型的價(jià)格肯定是存在一些補(bǔ)貼的。從電力發(fā)展的歷程來(lái)看,這些資源未來(lái)都會(huì)變得越來(lái)越便宜,甚至免費(fèi),因此廠(chǎng)商提前去做一些補(bǔ)貼也不會(huì)有太大的影響。

同時(shí),如果大模型廠(chǎng)商能利用DCFormer架構(gòu)壓縮大模型訓(xùn)練推理的成本,也能進(jìn)一步降低自身的成本,在提供低價(jià)云服務(wù)時(shí)更具優(yōu)勢(shì)。

論文地址:

https://arxiv.org/abs/2405.08553

開(kāi)源地址:

https://github.com/Caiyun-AI/DCFormer

一、算力智能轉(zhuǎn)化率提升2倍,可將GPT-4o成本壓縮一半

在傳統(tǒng)的Transformer模型中,如果輸入“上海的簡(jiǎn)稱(chēng)”和“中國(guó)的人口”,它們將分別被拆分成兩組注意力矩陣Q1、K1、V1、O1和Q2、K2、V2、O2。

但其中,QKVO這四個(gè)矩陣是綁定的,因此要解決新問(wèn)題,必須重新再來(lái)2組注意力矩陣。

比如輸入新問(wèn)題“上海的人口”和“中國(guó)的簡(jiǎn)稱(chēng)”,Transformer模型需要Q3、K3、V3、O3和Q4、K4、V4、O4這兩組新矩陣來(lái)解決。

而在DCFormer中,查找通路和變換通路可以根據(jù)輸入的不同而任意組合。對(duì)于上面這兩個(gè)新問(wèn)題,只需要搭配成Q1、K1、V2、O2和Q2、K2、V1、O1,就能在不創(chuàng)造新矩陣的條件下解決問(wèn)題。

這就意味著,可以用2組原來(lái)的注意力矩陣組合出4種搭配,用8組注意力矩陣組合出64種搭配。

效率2倍于Transformer!彩云科技推出全新模型架構(gòu),高分登機(jī)器學(xué)習(xí)頂會(huì)ICML

▲DCFormer與Transformer在注意力矩陣上的搭配

袁行遠(yuǎn)為我們舉了個(gè)用更通俗的例子:Transformer就像一家只能點(diǎn)套餐的麥當(dāng)勞,麥辣雞腿堡只能搭配可樂(lè),奧爾良烤雞只能搭配薯?xiàng)l;而DCFormer就是可以任意單點(diǎn)的麥當(dāng)勞,麥辣雞腿堡可以搭配薯?xiàng)l,奧爾良烤雞也可以搭配可樂(lè),甚至可以只點(diǎn)半個(gè)麥辣雞腿堡,組合半只奧爾良烤雞。

反映在具體模型上,DCFormer可以達(dá)到1.7-2倍算力的Transformer模型效果,即算力智能轉(zhuǎn)化率提升1.7-2倍。

袁行遠(yuǎn)稱(chēng),如果GPT-4o能夠用上DCFormer,推理一次128k上下文的成本,就可能從4元變成2元。此外,DCFormer模型越大效果越好,考慮到GPT模型的巨大參數(shù)量,在千億、萬(wàn)億模型上,DCFormer可能將價(jià)格壓縮至一次128k上下文推理1.5元、1元。

二、打開(kāi)神經(jīng)網(wǎng)絡(luò)“黑盒”,動(dòng)態(tài)組合改進(jìn)注意力機(jī)制

Transformer架構(gòu)問(wèn)世已經(jīng)7年,期間雖然不乏挑戰(zhàn)者,但能真正做到有效改進(jìn)的架構(gòu)并不多。無(wú)論是國(guó)內(nèi)還是海外,Transformer仍是使用率最高的模型基礎(chǔ)架構(gòu)。

袁行遠(yuǎn)認(rèn)為,如果底層模型沒(méi)有突破,AI終將停滯不前,“人人都說(shuō)神經(jīng)網(wǎng)絡(luò)是個(gè)黑盒,我們需要勇氣和耐心打開(kāi)這個(gè)黑盒,通過(guò)分析模型運(yùn)轉(zhuǎn)原理,我們才能知道智能的本質(zhì)規(guī)律,從而可以改進(jìn)模型,提高模型的運(yùn)行效率?!?/p>

為了改進(jìn)Transformer,彩云科技團(tuán)隊(duì)提出了一種動(dòng)態(tài)可組合多頭注意力機(jī)制(DCMHA),通過(guò)動(dòng)態(tài)組合注意力頭來(lái)提高Transformer的表達(dá)能力。

效率2倍于Transformer!彩云科技推出全新模型架構(gòu),高分登機(jī)器學(xué)習(xí)頂會(huì)ICML

▲DCFormer整體架構(gòu)及計(jì)算合成

論文提到,該機(jī)制的核心是一個(gè)可學(xué)習(xí)的Compose函數(shù),能夠根據(jù)輸入數(shù)據(jù)變換注意力分?jǐn)?shù)和權(quán)重矩陣,這種動(dòng)態(tài)性增加了模型的表達(dá)能力,同時(shí)保持參數(shù)和計(jì)算的效率。

將DCMHA應(yīng)用于Transformer架構(gòu)中,就得到DCFormer模型。實(shí)驗(yàn)結(jié)果表明,DCFormer在不同架構(gòu)和模型規(guī)模上的語(yǔ)言建模任務(wù)上顯著優(yōu)于原始的Transformer,甚至在計(jì)算量減少的情況下也能達(dá)到相似的性能。

效率2倍于Transformer!彩云科技推出全新模型架構(gòu),高分登機(jī)器學(xué)習(xí)頂會(huì)ICML

▲Transformer和DCFormers的Scaling曲線(xiàn)

在眾多NLP下游任務(wù)和圖像識(shí)別任務(wù)上的測(cè)評(píng)也驗(yàn)證了DCFormer的有效性。根據(jù)實(shí)驗(yàn),DCFormer對(duì)性能算力比的提升幅度,超過(guò)被廣泛采用的兩項(xiàng)結(jié)構(gòu)改進(jìn)架構(gòu)Transformer++的提升幅度之和。

隨著模型規(guī)模的增大,DCFormer的提升越來(lái)越大,而Transformer++的提升越來(lái)越小。可以說(shuō),DCFormer讓Transformer的能力又躍上一個(gè)新臺(tái)階。

三、將用于天氣、翻譯、寫(xiě)作產(chǎn)品,以1/10價(jià)格提供10倍效率

談到未來(lái)的發(fā)展戰(zhàn)略,袁行遠(yuǎn)分享道,首先是在2倍效率提升的基礎(chǔ)上繼續(xù)提升優(yōu)化效率,目標(biāo)是以目前1/10的價(jià)格,提供10倍以上的智能能力。

其次,DCFormer將應(yīng)用于彩云科技目前的三款應(yīng)用產(chǎn)品矩陣中,包括彩云天氣、彩云小譯、彩云小夢(mèng)。

彩云天氣是一款分鐘級(jí)高精度天氣預(yù)報(bào)應(yīng)用,其基于三維時(shí)空卷積神經(jīng)網(wǎng)絡(luò)技術(shù),每天為公眾和開(kāi)發(fā)者提供超過(guò)15億次天氣預(yù)報(bào)服務(wù)。據(jù)介紹,彩云天氣目前累計(jì)用戶(hù)數(shù)超5000萬(wàn),每日服務(wù)上百萬(wàn)用戶(hù)。

效率2倍于Transformer!彩云科技推出全新模型架構(gòu),高分登機(jī)器學(xué)習(xí)頂會(huì)ICML

▲彩云天氣的實(shí)時(shí)天氣預(yù)測(cè)

袁行遠(yuǎn)談道,基于DCFormer帶來(lái)的模型效率的提升,彩云天氣有望在未來(lái)將分鐘級(jí)的高準(zhǔn)確率預(yù)測(cè)時(shí)長(zhǎng),從2小時(shí)擴(kuò)展到3-12小時(shí)。

彩云小譯是一款中英同傳應(yīng)用,基于殘差長(zhǎng)短期記憶網(wǎng)絡(luò)提供服務(wù),目前月活超100萬(wàn),每天翻譯量達(dá)到10億字。

袁行遠(yuǎn)向我們分享了一個(gè)有趣的數(shù)據(jù):在彩云小譯的翻譯服務(wù)中,有80%的流量都用于小說(shuō)翻譯。他認(rèn)為,雖然這看起來(lái)是娛樂(lè)用途,但小說(shuō)本質(zhì)上是對(duì)世界的模擬。

彩云小夢(mèng)是一款A(yù)I RPG(角色扮演游戲)平臺(tái),基于相對(duì)位置編碼與人設(shè)編碼的Transformer能力,有超過(guò)1500萬(wàn)用戶(hù)創(chuàng)作的虛擬角色,國(guó)內(nèi)版日產(chǎn)4億字。

目前,彩云小夢(mèng)基于V2、V3模型,在保持邏輯通順與描寫(xiě)細(xì)致的前提下單次可以創(chuàng)作幾百字到一千字的內(nèi)容。袁行遠(yuǎn)稱(chēng),在DCFormer的加持下,下一代V4、V5版本有希望擴(kuò)展到2-5千字的創(chuàng)作;再通過(guò)故事工程優(yōu)化,目標(biāo)是一年內(nèi)可以輕松創(chuàng)作出達(dá)到專(zhuān)業(yè)作家水平的5萬(wàn)字長(zhǎng)度中篇故事,同時(shí)小夢(mèng)角色扮演的故事體驗(yàn)也能達(dá)到專(zhuān)業(yè)編劇的水平。

結(jié)語(yǔ):大模型算力智能轉(zhuǎn)化率現(xiàn)新里程碑

DCFormer的推出,讓大模型在提升效率和降低成本方面邁出重要一步。其模型代碼、權(quán)重和訓(xùn)練數(shù)據(jù)集已全面開(kāi)源,期待計(jì)算機(jī)科學(xué)界和產(chǎn)業(yè)界能在DCFormer的基礎(chǔ)上,帶來(lái)更多研究與應(yīng)用上的精彩演繹。