智東西(公眾號(hào):zhidxcom)
編輯?| ?GTIC

智東西4月6日?qǐng)?bào)道,在剛剛落幕的GTIC 2023中國(guó)AIGC創(chuàng)新峰會(huì)上,墨芯人工智能創(chuàng)始人兼CEO王維進(jìn)行了主題為《AIGC時(shí)代,算力如何“進(jìn)化”》的演講。

AIGC與通用人工智能要發(fā)展,作為基礎(chǔ)設(shè)施的算力必須先行。隨著大模型參數(shù)日益攀升,算力需求激增,算力供需缺口巨大、費(fèi)用昂貴等難題,已成為AIGC發(fā)展亟需解決的首要問(wèn)題。

王維說(shuō):單純靠硬件難以滿足指數(shù)級(jí)的算力增長(zhǎng)需求,必須通過(guò)軟硬融合。在這個(gè)方向上,稀疏計(jì)算是公認(rèn)的最有潛力發(fā)展和落地的方向。相比稠密計(jì)算,稀疏計(jì)算可以達(dá)到1-2個(gè)數(shù)量級(jí)的性能提升。

通過(guò)在176B開源大模型BLOOM上的實(shí)測(cè),墨芯S30計(jì)算卡在僅采用中低倍稀疏率的情況下,就可以達(dá)到25tokens/每秒的生成速度,并以4S30超過(guò)8A100的生成速度,大幅加速推理速度。

同時(shí),墨芯預(yù)計(jì)在5月中旬開放大模型的開發(fā)套件,可以在1700億參數(shù)模型中實(shí)現(xiàn)每秒40-50tokens的推理效果,去助力各個(gè)AIGC的應(yīng)用場(chǎng)景發(fā)展。

他認(rèn)為:大模型的快速發(fā)展,給AI芯片初創(chuàng)公司帶來(lái)了向巨頭玩家發(fā)起挑戰(zhàn)的機(jī)會(huì),擁有了全新的展示舞臺(tái),用顛覆式創(chuàng)新帶來(lái)數(shù)量級(jí)性能突破。

以下為王維的演講實(shí)錄:

大家上午好!我今天講的是算力和模型的發(fā)展,以及算力進(jìn)化的問(wèn)題。

講算力的話,我們就要先了解一下今天的算力是從哪里來(lái)的?過(guò)去算力是處在什么情況和狀態(tài)下?未來(lái),我們的算力走向何方去支持生成式AI巨大爆炸式的應(yīng)用?

我們希望能量化地看待從供給側(cè)和需求側(cè)之間有多大的GAP,然后再看現(xiàn)在我們手上有什么樣的手段、什么樣的技術(shù)、什么樣的可以融合創(chuàng)新的方向去尋找新的算力。

一、人類數(shù)字文明建立在半導(dǎo)體集成電路之上

算力從哪里來(lái)?人類過(guò)去接近一個(gè)世紀(jì)的數(shù)字文明都是建立在硅基半導(dǎo)體制造的芯片之上。

我簡(jiǎn)單帶大家回顧一下算力發(fā)展歷史過(guò)程。歷史上最重要的一個(gè)人是肖克利博士,他是麻省理工固體物理學(xué)博士,加入了貝爾實(shí)驗(yàn)室。1947年,他在貝爾實(shí)驗(yàn)室發(fā)明了人類第一個(gè)晶體管。1955年他回到家鄉(xiāng)Santa Clara(圣克拉拉)。這也有很多巧合因素,為什么Santa Clara變成了現(xiàn)在的硅谷?為什么偉大的科學(xué)家或者商業(yè)家會(huì)從那個(gè)地方開始啟蒙?

肖克利博士在圣克拉拉建立了第一家半導(dǎo)體公司。源于他在學(xué)術(shù)界的威望,這家公司吸引了一大批能人志士加入。但因?yàn)樗强茖W(xué)家,所以在管理層面上出現(xiàn)了一些問(wèn)題。

1957年,硅谷出現(xiàn)了“硅谷八叛徒”,這個(gè)稱號(hào)是肖克利博士對(duì)他們的稱號(hào)。原因在于這八個(gè)人由于不滿肖克利的管理方式而從這家公司“出逃”,創(chuàng)建了著名的仙童半導(dǎo)體。

我認(rèn)為仙童半導(dǎo)體是集成電路發(fā)展史上開拓性或具有宗師級(jí)意義的企業(yè),1961年仙童半導(dǎo)體推出第一塊集成電路,把晶體管集成在硅基的集成電路上,就是集成二極管、三極管、電阻、電容,才有了集成電路的發(fā)展。

50年代到60年代間,整個(gè)半導(dǎo)體行業(yè)發(fā)展非常迅速,那么為什么又出來(lái)英特爾這些公司?原因在于,當(dāng)時(shí)仙童半導(dǎo)體公司的投資人菲爾柴爾德家族占有了其絕大部分股份,把公司產(chǎn)品的利潤(rùn)和所有的資金挪到東岸其它產(chǎn)業(yè)方面。而在半導(dǎo)體產(chǎn)業(yè)里很有理想的工程師、科學(xué)家們對(duì)此十分不滿意,1968年八叛徒中的戈登·摩爾和羅伯特·諾伊斯離開了仙童半導(dǎo)體,成立了今天大家熟知的英特爾。

還有一點(diǎn)大家可能不太熟悉的是,1969年杰里·桑德斯從仙童半導(dǎo)體出走,成立了今天的AMD公司,ADM的發(fā)展歷史也很傳奇。

后面大家都知道了,我們的計(jì)算、算力都是遵循著摩爾定律在CPU的基礎(chǔ)上發(fā)展。

當(dāng)時(shí),摩爾提出摩爾定律的背景是,1965年,摩爾給《電子學(xué)》期刊做35周年觀察家評(píng)論報(bào)告時(shí),他發(fā)現(xiàn)過(guò)去這幾年集成電路的發(fā)展基本每?jī)赡瓿鲆淮庐a(chǎn)品,并且每代新產(chǎn)品晶體管的數(shù)量翻了一番,他就在這個(gè)圖上畫出了著名的摩爾定律,就是今天所知的每18-24個(gè)月,晶體管的數(shù)量翻一番,或者從經(jīng)濟(jì)學(xué)的角度說(shuō),每過(guò)兩年,每1美元可以買到的算力翻一番,成本降低一倍。

從1971年第一塊4位CPU英特爾4004,1972年8位CPU 8008,再到今天熟知的大半個(gè)世紀(jì)的發(fā)展,都遵循著摩爾定律。

墨芯人工智能王維:稀疏計(jì)算成大模型落地最優(yōu)解,墨芯引領(lǐng)AI 2.0算力進(jìn)化丨GTIC 2023

和我們的生活和應(yīng)用場(chǎng)景相關(guān)的這幾十年,在最早的Wintel聯(lián)盟時(shí)代,英特爾提供芯片,Windows做操作系統(tǒng)。當(dāng)時(shí)有一句話說(shuō),英特爾每?jī)赡晏峁┧懔ouble一下,比爾蓋茨把它給用掉。再后來(lái)到移動(dòng)互聯(lián)網(wǎng)時(shí)代,邊緣端手機(jī)側(cè)和云端的云計(jì)算等算力都在不斷演進(jìn)。

我創(chuàng)立墨芯之前,曾有幸參與英特爾2012年22nm第五代酷睿處理器,一直到2019年做到英特爾第十代10nm CPU。英特爾每一代CPU里面我很驕傲地設(shè)計(jì)了這些芯片里面的核心高速鏈路架構(gòu)設(shè)計(jì)和電路設(shè)計(jì)。

對(duì)于我個(gè)人來(lái)說(shuō)很有成就感,每每想到全球每個(gè)角落、每個(gè)用戶敲一個(gè)鍵盤、動(dòng)一下鼠標(biāo),每一個(gè)字節(jié)0和1都通過(guò)我做過(guò)的電路實(shí)現(xiàn),這是我人生事業(yè)一個(gè)非常大的成就。

二、AI 1.0向2.0進(jìn)化,硬件層面找不到滿足算力解法

剛剛回顧了一下算力發(fā)展的歷程,我們?nèi)匀贿€是沿著摩爾定律發(fā)展,在物理層面上我們擺脫不了摩爾定律。從需求側(cè)我們看一下發(fā)生了什么樣的根本性變化。

這張圖大家非常熟悉,這就是過(guò)去十年AI的發(fā)展歷程。我相信AlexNet是第一個(gè)深度學(xué)習(xí)非常有代表性的且開拓了深度學(xué)習(xí)的紀(jì)元,今天以GPT-3.5生成式AI作為一個(gè)爆點(diǎn),可以看到AI從1.0轉(zhuǎn)向2.0,之所以會(huì)引起社會(huì)這么大的關(guān)注和影響力,更多的是因?yàn)?,?.0到2.0,小模型或者之前的模型從分析式變?yōu)榻裉斓纳墒健?/p>

生成式給大家打開了應(yīng)用的想象空間和大門,商業(yè)化不再被擔(dān)心,唯一擔(dān)心的是我如何能夠趕上這個(gè)潮流,以及多快能夠趕上的問(wèn)題,這也是為什么今天會(huì)成為一個(gè)爆炸性的時(shí)刻。

從算法角度來(lái)看,我們把1.0時(shí)代歸納為小模型時(shí)代,2.0時(shí)代就是以Transformer為基礎(chǔ)的大模型時(shí)代。正是因?yàn)?.0到2.0的變革,才導(dǎo)致對(duì)算力提出了根本性的挑戰(zhàn)和變革。

小模型時(shí)代,有AlexNet、ResNet、CNN模型、RNN模型,這些小模型的特點(diǎn)是,在每個(gè)細(xì)分場(chǎng)景會(huì)用場(chǎng)景數(shù)據(jù)去訓(xùn)練小模型,并且研發(fā)和部署的周期很短,是以周和月為單位去部署,對(duì)算力的要求更多是通用性和易用性,在這個(gè)基礎(chǔ)上其實(shí)對(duì)成本、功耗的要求在大部分應(yīng)用場(chǎng)景下不是痛點(diǎn),是癢點(diǎn)而已。

原因在于,英偉達(dá)GPU平臺(tái)可以做矢量和張量并行計(jì)算,它很早做了CUDA工具包,對(duì)科學(xué)計(jì)算到底層并行架構(gòu)在軟件鏈路的積累,使得這一平臺(tái)很好用且通用。所以在小模型時(shí)代,大家會(huì)更多選用GPGPU。

但是回到大模型時(shí)代,對(duì)算力的需求完全不一樣。模型結(jié)構(gòu)不再多樣化,我們通過(guò)Transformer做大模型預(yù)訓(xùn)練,所有的模型結(jié)構(gòu)統(tǒng)一化,對(duì)算力的需求更多在于擴(kuò)展性。從GPT-1到GPT-3、GPT-4,Transformer模型需要“暴力出奇跡”。

ChatGPT應(yīng)該是在訓(xùn)練方面找到了更聰明的方法,使得它在生成式上產(chǎn)生突破。但從模型角度來(lái)說(shuō),仍然是暴力出奇跡。其實(shí)所有的深度學(xué)習(xí)都是特征提取器,當(dāng)你學(xué)的東西越多,你就需要更大的空間矩陣、張量空間承載信息,所以它的模型是暴力增長(zhǎng)。

預(yù)訓(xùn)練正是因?yàn)樾枰劝阉袞|西學(xué)一遍,再到細(xì)分場(chǎng)景上精調(diào),因此算力需求不僅僅看中通用性、易用性,更看重的是算力能不能跟上模型的增長(zhǎng)速度、跟上算力需求速度,使得我可以更大規(guī)模拓展模型,用更先進(jìn)、更聰明的方法訓(xùn)練出更厲害的預(yù)訓(xùn)練模型或者場(chǎng)景應(yīng)用等。

總的計(jì)算算力增長(zhǎng)和在應(yīng)用層面上的推理速度就變成了絕對(duì)的痛點(diǎn)。而又因?yàn)樯墒紸I基本上都是在線應(yīng)用,所以系統(tǒng)的反應(yīng)速度一定是痛點(diǎn)。訓(xùn)練層面上,需要很多GPU,訓(xùn)練很長(zhǎng)時(shí)間,那么高算力也一定是痛點(diǎn)。

這種情況下,通用性問(wèn)題就可以被容忍。因?yàn)榈讓佣际荰ransformer架構(gòu)的注意力機(jī)制,在模型的算子層面慢慢固化,這個(gè)就是我們算力的需求在發(fā)生變化。

那么,提供算力的人怎么去滿足它?我們可以看到Transformer模型參數(shù)每?jī)赡暝鲩L(zhǎng)275倍,對(duì)算力的需求是每3.5個(gè)月翻一番。而摩爾定律是每?jī)赡攴环?,參?shù)是275倍和2倍的增長(zhǎng)速度,這中間是兩個(gè)數(shù)量級(jí)的GAP。

墨芯人工智能王維:稀疏計(jì)算成大模型落地最優(yōu)解,墨芯引領(lǐng)AI 2.0算力進(jìn)化丨GTIC 2023

所以,僅從硬件層面上,我們找不到完美的答案。

現(xiàn)在解決這個(gè)痛點(diǎn)的手段包括做存內(nèi)計(jì)算、光子計(jì)算、量子計(jì)算等。存內(nèi)計(jì)算的局限性在于它很難做浮點(diǎn)高精度計(jì)算,不支持先進(jìn)制程,使得其應(yīng)用距離解決目前的問(wèn)題還有很大差距。光子、量子計(jì)算的生態(tài)體系和現(xiàn)有的軟硬件生態(tài)也有很大距離。我承認(rèn),它們?cè)趯?shí)驗(yàn)室里有很大發(fā)展前景,但未來(lái)五到十年內(nèi)仍需要依靠硅基半導(dǎo)體。

三、在算法里找“聰明辦法”,稀疏計(jì)算最具潛力

軟硬融合就是在算法方面尋找更聰明算力的一大方法,軟硬融合的稀疏計(jì)算就是整個(gè)業(yè)界、學(xué)術(shù)界公認(rèn)的最有發(fā)展?jié)摿Γ⑶铱梢月涞氐姆较颉?/p>

借用模型的增長(zhǎng)曲線,圖中橘黃色的線是整個(gè)產(chǎn)業(yè)界、學(xué)術(shù)界發(fā)表的稀疏計(jì)算研究論文數(shù)量。

墨芯人工智能王維:稀疏計(jì)算成大模型落地最優(yōu)解,墨芯引領(lǐng)AI 2.0算力進(jìn)化丨GTIC 2023

大家可以發(fā)現(xiàn)在小模型時(shí)代GPU很好用,并行化加速、成本、速度都可以被企業(yè)接受。因此,這一時(shí)期對(duì)于稀疏計(jì)算的研究更多是在算法層,而突然到了大模型指數(shù)級(jí)增長(zhǎng)時(shí)代,大家發(fā)現(xiàn),大規(guī)模矩陣張量運(yùn)算中有很多稀疏特性,不能再暴力把零元素、噪音元素都進(jìn)行計(jì)算,我們需要做更聰明地計(jì)算,只計(jì)算真正有用的計(jì)算,這也正是稀疏計(jì)算的本質(zhì)。

最近在學(xué)術(shù)界以及產(chǎn)業(yè)界的頭部公司,比如最近混合專家模型MoE架構(gòu)就是用了稀疏計(jì)算思路,不需要每次都激活所有的專家子模型,只會(huì)在通過(guò)某些通道的時(shí)候激活有必要的專家子模塊,這樣的話,在有限的算力情況下模型還可以繼續(xù)拓展。這是稀疏計(jì)算的核心思路之一。

最近谷歌和OpenAI同時(shí)發(fā)布了一篇論文,該論文比較了稠密計(jì)算和稀疏計(jì)算的性能和加速,稠密計(jì)算的模型計(jì)算速度能在CPU上跑到3.61秒。

如果以稠密計(jì)算作為基準(zhǔn)的話,把所有的Transformer大模型每一層,如FF、QKV和loss全部都用等效稀疏計(jì)算的話,稀疏計(jì)算可以提升37倍。也就是說(shuō),真正有效的計(jì)算通過(guò)稀疏計(jì)算可以達(dá)到一到兩個(gè)數(shù)量級(jí)的性能提升,這也向我們展示了稀疏性確實(shí)存在于模型里面,關(guān)鍵的問(wèn)題是你能不能找到它,要用什么樣的方法實(shí)現(xiàn)它。

2018年,我在硅谷創(chuàng)立墨芯,2019年回到深圳的時(shí)候,最開始我們就看到了稀疏性,并且看到了它一個(gè)數(shù)量級(jí)、兩個(gè)數(shù)量級(jí)上的性能增長(zhǎng)空間,我們這三四年來(lái)也一直篤定堅(jiān)持做稀疏計(jì)算平臺(tái)。

墨芯人工智能王維:稀疏計(jì)算成大模型落地最優(yōu)解,墨芯引領(lǐng)AI 2.0算力進(jìn)化丨GTIC 2023

微創(chuàng)新技術(shù)是大公司做的事情,以非常高成本的Chiplet為例,它是在硬件層面解決倍數(shù)問(wèn)題,而不是解決數(shù)量級(jí)問(wèn)題的技術(shù)。創(chuàng)業(yè)公司要做的是要看到數(shù)量級(jí)增長(zhǎng)的技術(shù)空間,只要你篤定地去做,即使前面難一點(diǎn),但只有這樣,未來(lái)的空間才能突破、才沒(méi)有上限。

四、以人腦為靈感,稀疏計(jì)算已成產(chǎn)學(xué)界重點(diǎn)研究方向

對(duì)于墨芯來(lái)說(shuō),作為業(yè)界稀疏計(jì)算的引領(lǐng)者,我們做了什么事情?所謂的稀疏計(jì)算到底是什么意思?我們的AI芯片和英偉達(dá)的GPGPU有什么區(qū)別?

英偉達(dá)基于V100的Tensor Core GPU是4×4矩陣并行加速單元,通過(guò)幾萬(wàn)個(gè)、十幾萬(wàn)個(gè)并行單元去加速矩陣運(yùn)算、張量運(yùn)算等。

之后,英偉達(dá)也同樣知道模型有稀疏性,稀疏是未來(lái)。到了A100的時(shí)候,英偉達(dá)在原有架構(gòu)基礎(chǔ)之上,在模型矩陣層做了4拖2,也就是說(shuō)4個(gè)里面有2個(gè)加速,理論上就可以加速一倍。

對(duì)于GPGPU公司,稀疏計(jì)算是它們的“意外收獲”,可以在原有性能上提升一倍,但墨芯要做的事是超過(guò)它10倍甚至100倍。

墨芯采用的Sparse Tensor Core是64×64的矩陣空間,2個(gè)Tensor矩陣空間里均支持高達(dá)32倍的稀疏率。2個(gè)矩陣空間分別代表計(jì)算模型層的矩陣空間和激活層、神經(jīng)元層的矩陣空間。

在模型層,并不是所有的矩陣?yán)锒际怯杏玫脑兀?dāng)我們把這么多有用的信息提取出來(lái)放到一個(gè)巨大的矩陣空間里,它的表現(xiàn)形式就是濾波器,濾波器之間的距離就是表示特征之間的特性。所以這個(gè)巨大的矩陣空間是稀疏的,隨著模型越大、學(xué)的東西越多、特征區(qū)別越細(xì)粒度時(shí),模型按指數(shù)級(jí)增長(zhǎng),稀疏率也會(huì)按指數(shù)級(jí)或者更高的速度增長(zhǎng),這就是模型稀疏。

激活稀疏,我們的大腦學(xué)習(xí)、理解都是激活稀疏,人有百億級(jí)神經(jīng)原,大腦的功耗只有幾十瓦左右,當(dāng)我們處理不同的事情、思考不同問(wèn)題時(shí),對(duì)眼睛、耳朵反應(yīng)激活的神經(jīng)原層面不一樣,只有局部激活。包括混合專家模式也是一樣的,對(duì)于不同模態(tài)、不同專家系統(tǒng)只需要激活部分模塊。這就是墨芯底層的張量和支持大規(guī)模稀疏的矩陣和矩陣并行加速。

五、12nm VS 4nm,墨芯S30性能是英偉達(dá)H100 1.2倍

那么,稀疏計(jì)算在效果上到底怎么樣?

我們研發(fā)了三年,2022年初墨芯第一顆高稀疏率的稀疏計(jì)算芯片Antoum流片成功回片,而且在幾秒鐘之內(nèi)就點(diǎn)亮,不到24小時(shí)跑通了ResNet、BERT。

基于Antoum芯片,我們制作出了三款A(yù)I加速卡S4、S10、S30。因?yàn)槟镜目蛻羰窃朴?jì)算客戶,不是直接用芯片,而是需要用GPU這樣的AI加速卡。

墨芯人工智能王維:稀疏計(jì)算成大模型落地最優(yōu)解,墨芯引領(lǐng)AI 2.0算力進(jìn)化丨GTIC 2023

國(guó)際上最權(quán)威、影響力最大的AI基準(zhǔn)測(cè)試性能平臺(tái)MLPerf,是由圖靈獎(jiǎng)得主大衛(wèi)·帕特森聯(lián)合谷歌、斯坦福、哈佛大學(xué)頂尖學(xué)術(shù)機(jī)構(gòu),還有英偉達(dá)、英特爾、微軟云、谷歌云等發(fā)起成立,這一平臺(tái)每年有兩次性能的評(píng)比和提交。

去年8月,墨芯帶著第一款S30在MLPerf 2.1推理性能上與其他產(chǎn)品上臺(tái)競(jìng)技,結(jié)果是基于12nm的S30單卡算力超越英偉達(dá)4nm的H100,ResNet性能是它的1.2倍。12nm VS 4nm,在工藝上墨芯落后英偉達(dá)三代,中間還有10nm、7nm,除此以外,H100采用SXM模式,是700瓦大芯片,不是PCIe板卡。墨芯的S30不到300瓦。也就是說(shuō)墨芯的工藝落后英偉達(dá)三代,功耗接近其1/3,但性能可以做到1.2倍。

墨芯人工智能王維:稀疏計(jì)算成大模型落地最優(yōu)解,墨芯引領(lǐng)AI 2.0算力進(jìn)化丨GTIC 2023

如果大家說(shuō)你只是做一個(gè)CNN模型,Transformer怎么樣?墨芯的BERT-Large做到單芯片超3800 SPS,僅次于英偉達(dá)H100,H100大概為7000、8000 SPS左右。

不過(guò),墨芯仍然超過(guò)了現(xiàn)在經(jīng)常斷供、缺貨的A100。墨芯在BERT的性能上是A100的2倍。在BERT上輸給H100的原因是,H100加入了新的數(shù)據(jù)類型FP8,但墨芯的第一代芯片只支持FP16。如果我們的下一代芯片支持FP8,那我們的性能也會(huì)翻倍,這樣性能就和H100差不多,這些都是我們看得見的可以實(shí)現(xiàn)的優(yōu)化,只不過(guò)是什么時(shí)候可以實(shí)現(xiàn)的時(shí)間問(wèn)題。

六、“稀疏計(jì)算方向是對(duì)的!”,推理效果超A100

正是由于MLPerf的打榜,給行業(yè)揭示了一件事情,軟硬件設(shè)計(jì)的稀疏計(jì)算潛力有多大,三代半導(dǎo)體工藝的差距,性能差距會(huì)達(dá)到八倍,三個(gè)數(shù)量級(jí),同時(shí)功耗會(huì)是它的1/3,簡(jiǎn)單乘一下那就是24倍。

如果我也做4nm、做700瓦的功耗,那這個(gè)性能就會(huì)再往上提20倍。

我們默默無(wú)聞做這一件事做了三四年,就是想告訴大家,這個(gè)是對(duì)的方向。大模型時(shí)代到來(lái),就是我們開始發(fā)揮的時(shí)候。

之前,你的客戶可能會(huì)問(wèn),通用性怎么樣?算子支持度怎么樣?易用性怎么樣?當(dāng)然,我們?nèi)魏我患褹I芯片公司在生態(tài)上都無(wú)法和英偉達(dá)匹敵,但是今天我們走上了快車道。大模型的發(fā)展和算法的發(fā)展速度,給了今天的AI芯片公司一個(gè)全新的舞臺(tái)和展示機(jī)會(huì),使得它們可以在一個(gè)更高的維度上和過(guò)去的霸主進(jìn)行競(jìng)爭(zhēng)和挑戰(zhàn)。

在大模型領(lǐng)域的實(shí)踐和突破中,我們拿不到ChatGPT的模型參數(shù),因此我們選用了學(xué)術(shù)界最知名的BLOOM開源庫(kù),176B的開源大模型。

墨芯人工智能王維:稀疏計(jì)算成大模型落地最優(yōu)解,墨芯引領(lǐng)AI 2.0算力進(jìn)化丨GTIC 2023

在這樣一個(gè)開源模型下,墨芯目前做到的推理效果是在中低稀疏倍率下,同樣是176B大模型,用4卡的S30對(duì)標(biāo)英偉達(dá)8卡的A100。

生成式AI對(duì)于時(shí)延的要求非常高,因?yàn)樗枰粋€(gè)一個(gè)token去算,因此對(duì)速度的要求是未來(lái)大模型上線的第一個(gè)痛點(diǎn),也是最明顯的痛點(diǎn)。

墨芯測(cè)試時(shí)1700億的參數(shù)模型,A100每秒可以產(chǎn)生20左右個(gè)token。因?yàn)槟咀隽四P蛪嚎s,因此墨芯在實(shí)驗(yàn)室使用4卡,不需要用8卡,其可以做到稍微比A100好一點(diǎn)的性能,也就是每秒鐘25個(gè)token。不過(guò),我們的目標(biāo)是在1700模型中做到每秒50個(gè)token。大家作為開發(fā)者的話,可以知道這個(gè)性能和速度已經(jīng)到了極致。

七、5月中旬開放開發(fā)套件,堅(jiān)持“科技向善”

大家很關(guān)心的一件事情就是什么時(shí)候可以試?我們預(yù)計(jì)在5月中旬去釋放大模型的開發(fā)套件,在1700億參數(shù)模型中做到40-50token/秒,去助力各個(gè)AIGC的應(yīng)用場(chǎng)景發(fā)展。

我們作為一個(gè)科技工作者,看到生成式AI和AGI到來(lái)的突然性和其未來(lái)的進(jìn)化速度,不禁讓我們既興奮又驚恐。

我拿人的大腦和ChatGPT做一個(gè)類比,ChatGPT是1750億參數(shù),對(duì)應(yīng)人的大腦是千億級(jí)的神經(jīng)原,神經(jīng)原之間的連接關(guān)系Synapse是100萬(wàn)億。如果對(duì)應(yīng)深度學(xué)習(xí)模型,我們需要拿連接關(guān)系和它的模型參數(shù)做比較,1700億到100萬(wàn)億,中間相差三個(gè)數(shù)量級(jí),也就是至少差1000倍。

人腦的計(jì)算速度大概是硅芯片計(jì)算速度的1/1000,差三個(gè)數(shù)量級(jí),人腦耗電大概在20瓦左右,數(shù)據(jù)中心千瓦級(jí)。我們會(huì)遐想,看到AI在知識(shí)領(lǐng)域的進(jìn)化速度,人類能夠超越或者不被機(jī)器取代的領(lǐng)域已經(jīng)非常少了。

前兩天我看到一個(gè)非常有意思的漫畫,以前我招一個(gè)人給他配一臺(tái)電腦,今天我招一臺(tái)AI電腦給它配一個(gè)人,這個(gè)就是我們對(duì)于未來(lái)的擔(dān)憂。

考慮到算法進(jìn)化速度,當(dāng)然前提是你有多少算力,因此我們是參與其中的。

如果今天的AI模型從1700億進(jìn)化到100萬(wàn)億,和大腦相當(dāng)?shù)臅r(shí)候,它的計(jì)算速度是我的1000倍,同時(shí)也是稀疏計(jì)算的時(shí)候,并且當(dāng)我們的訓(xùn)練方法越來(lái)越聰明,我們?cè)谥R(shí)領(lǐng)域能干的事還會(huì)剩下多少?最恐怖的是,如果我們新的訓(xùn)練方法使得它有了自我的進(jìn)化意識(shí),這會(huì)讓我們非常擔(dān)憂。

作為AI前沿浪潮的參與者,我們都在關(guān)心一件事情,不僅僅是技術(shù),更是AI發(fā)展的倫理、法治和道德層面。

所以,我在公司成立的時(shí)候就想好了這件事情,墨芯的使命和價(jià)值觀一定是科技向善、照顧弱小、利他利社會(huì)。

你可以想象,如果未來(lái)我們的社會(huì)掌握在一小群極致聰明的人手上,我們的生活被他們照顧,甚至我們的下一代的教育,這也是我非常擔(dān)心的問(wèn)題,以后孩子們要學(xué)哪些東西?尤其應(yīng)試教育比較多的方面,以后人要往哪方面發(fā)展?

最后,回到這個(gè)基礎(chǔ)之上,微軟說(shuō)要做負(fù)責(zé)任的AI,保證安全性、可控性,這也是OpenAI不開源大模型的原因之一。谷歌的口號(hào)是“我們不作惡”。

墨芯的口號(hào)是“科技向善”,我們?nèi)ベx能和支持AI的發(fā)展,但是一定要做善事,把技術(shù)應(yīng)用于善待人類、照顧人類。有一段時(shí)間我們自嘲地說(shuō),AI芯片就是類似于這場(chǎng)AI戰(zhàn)爭(zhēng)的“軍火商”,“軍火商”大部分是貶義,這也迫使我們?nèi)ゴ_立我們的使命和價(jià)值觀,也就是只能把“軍火”用在做善事上。

墨芯是一家稀疏計(jì)算公司,我們開拓和引領(lǐng)稀疏計(jì)算,謝謝大家!

以上是王維演講內(nèi)容的完整整理。