智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西1月25日報道,昨日,巖山科技旗下創(chuàng)企巖芯數(shù)智(Rock AI)推出國內(nèi)首個非Attention機制的大模型Yan,也是業(yè)內(nèi)少有的非Transformer架構(gòu)大模型。

巖芯數(shù)智CEO劉凡平介紹,Yan是一個通用大語言模型,擁有相較于同等參數(shù)Transformer的7倍訓(xùn)練效率、5倍推理吞吐、3倍記憶能力,同時支持CPU無損運行、低幻覺表達(dá)、100%支持私有化應(yīng)用。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

標(biāo)準(zhǔn)的Transformer架構(gòu)模型在消費級顯卡微調(diào),難以達(dá)到大規(guī)模商業(yè)化的目標(biāo);訓(xùn)練至少花費數(shù)百萬以上,對企業(yè)來說并不經(jīng)濟(jì)劃算。劉凡平透露,基于Yan架構(gòu),僅需投入50萬元的訓(xùn)練成本,就可以擁有百萬參數(shù)級的大模型。Yan支持100%支持私有化部署,支持CPU服務(wù)器運行,能在端側(cè)設(shè)備上流暢運行。

智東西與少數(shù)媒體對巖芯數(shù)智CEO劉凡平進(jìn)行了采訪。巖芯數(shù)智對標(biāo)業(yè)內(nèi)的什么大模型?Yan有什么優(yōu)勢和劣勢?

劉凡平告訴智東西,Yan還沒有真正對標(biāo)誰,今天大家看到對比Transformer的一些數(shù)據(jù)是用Llama 2的數(shù)據(jù)進(jìn)行的比較,能看到性能差異。團(tuán)隊對標(biāo)的是底層技術(shù)架構(gòu),而不是某一產(chǎn)品。

優(yōu)勢和劣勢方面,今天介紹的效果是通過大量實驗驗證測試出來的,它確實在訓(xùn)練效率、推理效率、記憶能力、幻覺表現(xiàn)了很強的優(yōu)勢,包括CPU上運行。團(tuán)隊自己從理論上(非應(yīng)用層面)推導(dǎo)的劣勢,可能在上百k超長文本上會有語義上的缺陷。

當(dāng)下,業(yè)內(nèi)同時出現(xiàn)了Mamba、RWKV等非Transformer架構(gòu)的大模型。劉凡平說,參考Mamba與Llama 2對比的數(shù)據(jù)圖表,Yan的數(shù)據(jù)比Mamba要好。

一、比Mamba數(shù)據(jù)好,效率7倍于Transformer

Attention機制,簡單來說,是通過一種非線性的矩陣方式表達(dá)更多東西。在標(biāo)準(zhǔn)Attention機制下,計算復(fù)雜度較高,已經(jīng)成為大模型領(lǐng)域的一大難題。

巖芯數(shù)智技術(shù)負(fù)責(zé)人楊華解讀,Yan不采用Attention機制,也不采用RNN序列,而是建立一種線性的向量方式,將計算復(fù)雜度大幅降低,做到線性時間復(fù)雜度,還能做到常量的空間復(fù)雜度,從而提高大模型的性能和效果。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

1、訓(xùn)練效果:預(yù)測準(zhǔn)確率提高17%

以機器翻譯為例,對Yan與Transformer架構(gòu)的表現(xiàn)對比,在訓(xùn)練集和驗證集上,Yan的損失值都要低于Transformer。Yan的訓(xùn)練效率是Transformer的7倍,消耗的資源更低。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

訓(xùn)練集上,Yan的預(yù)測準(zhǔn)確率比Transformer高出17%,驗證集上Yan要高出13%。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

2、推理吞吐量:同資源下高于Transformer

在推理吞吐量對比方面,相同資源下,Yan的吞吐量都要高于相同情況下的Transformer,達(dá)到其5倍,能支持更多用戶的并發(fā)使用。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

3、推理資源消耗:支持更長序列,降低應(yīng)用成本

當(dāng)模型輸出的Token從200增加到3000時,Transformer會出現(xiàn)顯存不足,但Yan模型始終顯存穩(wěn)定。理論上可以實現(xiàn)無限長度的推理,應(yīng)用成本更低。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

4、記憶能力:準(zhǔn)確率為Transformer的3倍

以古詩續(xù)寫為例,對Yan與Transformer的記憶能力進(jìn)行對比。訓(xùn)練集上Yan的準(zhǔn)確率達(dá)到Transformer的3倍,記憶能力更強。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

從以下三個例子看到,Transformer沒有完成對訓(xùn)練數(shù)據(jù)的記憶,只記住了句式和字?jǐn)?shù);Yan則克服幻覺,依靠記憶進(jìn)行了續(xù)寫。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

劉凡平說,Yan不是基于Llama、GPT、PaLM的套殼,不是基于其他Transformer架構(gòu)大模型的二次預(yù)訓(xùn)練,不是基于開源模型的微調(diào),而是其完全自主知識產(chǎn)權(quán)研發(fā)的新一代架構(gòu)大模型。

二、現(xiàn)場演示四大能力,記憶力與邏輯兼顧

目前,Yan1.0推出1.3B、7B和48B三個版本參數(shù)規(guī)模的模型,并支持大于100B模型的訓(xùn)練。

巖芯數(shù)智在現(xiàn)場對Yan1.0大模型進(jìn)行了演示,通過一臺筆記本電腦,本地內(nèi)存使用維持在13G之內(nèi),實現(xiàn)模型運行。演示的內(nèi)容涉及機器翻譯、古詩續(xù)寫、自由對話和醫(yī)學(xué)問答四個方面。

1、機器翻譯,比Transformer更地道

如下圖所示,當(dāng)輸入“東方明珠是上海的經(jīng)典建筑”,Yan1.0給出了準(zhǔn)確翻譯。由于機器翻譯是Transformer的根,因此巖芯數(shù)智從這一根技術(shù)出發(fā)驗證Yan1.0大模型的能力。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

通過一個翻譯示例看到,Yan將上海浦東翻譯成一個地方,但Transformer沒有識別出浦東這一地名,以為是一個Pond(池塘)。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

2、古詩續(xù)寫,提升記憶、降低幻覺

在故事續(xù)寫能力方面,Yan1.0現(xiàn)場續(xù)寫了“青海長云暗雪山”這句詩,展現(xiàn)了其記憶能力。Yan1.0的古詩續(xù)寫不依賴網(wǎng)絡(luò)搜索引擎和專家系統(tǒng),而是靠自己的架構(gòu)能力。對于實際應(yīng)用來說,記憶能力可以幫大模型降低幻覺,從而更具有實用性。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

3、自由對話,能作詩能寫文章

在自由對話方面,Yan1.0在現(xiàn)場演示創(chuàng)作了一首詩,描述春天百花齊放的場景。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

而后,Yan1.0又被要求描述AI如何影響社會發(fā)展,它流暢地輸出了200~300字的短文。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

4、醫(yī)學(xué)問答,提供健康助理建議

當(dāng)被問到“流行性感冒如何緩解?”、“腰間盤突出如何緩解?”、“脂肪肝需要如何治療?”等問題,Yan1.0都給出了建議。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

三、超1000天三大迭代,Yan2.0將升級全模態(tài)

劉凡平說,Yan并不是團(tuán)隊研發(fā)的第一代模型,而是經(jīng)過了1000多天三代迭代的成果。

Dolphin1.0是標(biāo)準(zhǔn)的Transformer架構(gòu),當(dāng)時團(tuán)隊認(rèn)為通用人工智能應(yīng)該已經(jīng)有了一個比較好的模型架構(gòu)Transformer了,于是就基于Transformer去做了一套模型。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

但在深入研究和實踐之后發(fā)現(xiàn)缺陷:Transformer架構(gòu)訓(xùn)練成本太高,成本難以覆蓋客戶給公司的付費,這種情況下一直做下去是做一單虧一單。團(tuán)隊一開始的解法是基于它加深研究。

所以有了Dolphin2.0。2.0出來之后,團(tuán)隊發(fā)現(xiàn)模型的交互還是有很多問題,包括引入線性的Attention機制也有很多問題。于是團(tuán)隊就兩頭走,一方面嘗試改進(jìn)Attention機制,另一方面嘗試引進(jìn)新的模型架構(gòu)。

通過兩條路探索,團(tuán)隊最終發(fā)現(xiàn)還是Yan架構(gòu)有優(yōu)勢。但這個Yan是最后走出來的,此前團(tuán)隊還嘗試了圖架構(gòu)、樹形架構(gòu)等多種路徑。從圖架構(gòu)最開始出來的時候,只有部分功能比較好用;到后來樹形記憶網(wǎng)絡(luò)階段,模型能克服幻覺,記憶能力更好,但推理能力卻下降了,比如回答問題沒有邏輯性。所以,最后才慢慢演化出了Yan架構(gòu)。

面臨算力耗費高、數(shù)據(jù)需求大等問題,因此巖芯數(shù)智從技術(shù)上放棄了Transformer架構(gòu)和Attention機制。

劉凡平預(yù)告,巖芯數(shù)智第四代大模型Y2.0已經(jīng)在路上,這是一個全模態(tài)的大模型架構(gòu),目標(biāo)是要全面打通感知、認(rèn)知、決策與行動,構(gòu)建通用人工智能的智能循環(huán)。巖芯數(shù)智不是要復(fù)制一個Llama,或者做一個垂直大模型,而是要做一個通用人工智能操作系統(tǒng)。

CPU可跑大模型!國內(nèi)首個非Attention大模型發(fā)布,訓(xùn)練效率7倍于Transformer

后續(xù)在商業(yè)化方面,巖芯數(shù)智計劃上接云計算、終端廠商等廠家,下接應(yīng)用開發(fā)類廠商,促進(jìn)其通用人工智能操作系統(tǒng)的落地。

結(jié)語:Transformer計算成本高,新模型架構(gòu)引關(guān)注

隨著大模型的爆火,傳統(tǒng)的Transformer架構(gòu)同時展現(xiàn)出計算復(fù)雜度高、成本壓力大等問題,國際上已有Mamba、RWKV等非Transformer架構(gòu)大模型引起關(guān)注,國內(nèi)也誕生了Yan這樣的新架構(gòu)。

為了研發(fā)Yan架構(gòu),正如劉凡平所說,其團(tuán)隊經(jīng)歷了眾多架構(gòu)的嘗試和迭代,最終取得了記憶、推理等多項能力提升。大模型底層技術(shù)的路線之爭是一個長期演進(jìn)過程,哪一條路線能真正跑贏,還需要在實踐和與全球?qū)κ值谋绕粗械玫津炞C。