智東西(公眾號:zhidxcom)
編譯 | 夏舍予
編輯 | 云鵬

智東西6月24日消息,據(jù)外媒VentureBeat報(bào)道,美國AI芯片創(chuàng)企Cerebras Systems創(chuàng)造了在單個(gè)設(shè)備上運(yùn)行最大參數(shù)量NLP模型(自然語言處理模型)的記錄。

這要?dú)w功于Cerebras Systems公司的CS-2系統(tǒng)和WSE-2芯片。WSE-2芯片是該公司在2021年4月發(fā)布的巨型晶圓芯片,WSE-2芯片比世界上現(xiàn)存的最大芯片Ampere A100多2.55萬億個(gè)晶體管。WSE-2芯片的內(nèi)核是Ampere A100的123倍,內(nèi)存是Ampere A100的1000倍,可提供的內(nèi)存寬帶是A100的12000倍。

WSE-2芯片為Cerebras Systems公司打造的CS-2系統(tǒng)提供核心算力。

▲Cerebras的WSE-2與英偉達(dá)的A100 GPU的性能參數(shù)對比(圖源:Cerebras)

一、從幾個(gè)月到幾分鐘,NPL模型運(yùn)行時(shí)間驟縮

Cerebras Systems公司表示,CS-2系統(tǒng)只需要一個(gè)WSE-2晶圓芯片就可以在單個(gè)設(shè)備上運(yùn)行參數(shù)量數(shù)十億的NLP模型(自然語言處理模型),這些模型包括GPT-J 6B、GPT-3 13B和GPT-NeoX 20B。

Cerebras Systems公司的首席執(zhí)行官安德魯·費(fèi)爾德曼(Andrew Feldman)表示,Cerebras Systems公司發(fā)明了一個(gè)新的軟件執(zhí)行架構(gòu)技術(shù),該技術(shù)被稱為Weight Streaming。這種新的技術(shù)分解了計(jì)算和參數(shù)存儲,首次實(shí)現(xiàn)在芯片外存儲模型參數(shù)。并且Weight Streaming技術(shù)消除了延遲和內(nèi)存帶寬問題,極大地簡化了工作負(fù)載分配模型。因此,一個(gè)單獨(dú)的CS-2系統(tǒng)就能為具有數(shù)萬億參數(shù)的模型提供算力。

“每個(gè)GPU的內(nèi)存是固定的”,費(fèi)爾德曼說,“如果模型的參數(shù)量大于其GPU內(nèi)存的支持上限,就要增加GPU的數(shù)量,再把工作分散到多個(gè)GPU上,這會導(dǎo)致模型運(yùn)行的復(fù)雜性爆炸式增長?!盋erebras Systems公司的Weight Streaming技術(shù)可以分解計(jì)算和參數(shù)存儲,實(shí)現(xiàn)在單個(gè)CS-2系統(tǒng)上運(yùn)行任意數(shù)量參數(shù)的模型。

費(fèi)爾德曼表示,通過WSE-2芯片的計(jì)算能力和Weight Streaming的技術(shù)支持,Cerebras Systems公司可以實(shí)現(xiàn)在單個(gè)CS-2系統(tǒng)上支持最大參數(shù)規(guī)模的NLP模型。這不僅縮短了模型的運(yùn)行時(shí)間,也簡化了模型的操作方式。人們只需要敲幾下鍵盤,就可以在GPT-J和GPT-Neo(兩種NLP模型)之間進(jìn)行切換。這項(xiàng)任務(wù)在數(shù)百個(gè)GPU的集群上需要數(shù)月的工程時(shí)間才能完成,而Cerebras Systems公司把這個(gè)時(shí)間縮短到了幾分鐘。

費(fèi)爾德曼說:“機(jī)器學(xué)習(xí)社區(qū)需要花費(fèi)幾個(gè)月才能做到的事情,在我們這里只需要按16下。”

從幾個(gè)月到幾分鐘,NLP模型運(yùn)行效率暴漲,小公司也能玩大模型

▲Cerebras公司的CS-2系統(tǒng)采用的晶圓大小的芯片(圖源:Cerebras)

二、降低門檻,讓任何組織都能運(yùn)行大型NLP模型

費(fèi)爾德曼表示,研究證明,參數(shù)量越大的NLP模型運(yùn)行的效果越準(zhǔn)確。但是有足夠的資源和專業(yè)知識能分解這些大型模型,并在數(shù)百或數(shù)千個(gè)GPU上進(jìn)行分布式訓(xùn)練的公司非常少。

費(fèi)爾德曼說:“隨著技術(shù)的進(jìn)步,NLP模型的參數(shù)量一直呈指數(shù)增長,這使得其體量變得越來越龐大。因此,只有很少的公司有能力使用它們。我們改變了這一現(xiàn)狀,任何組織都能以輕松的方式使用大型NLP模型?!边@不是費(fèi)爾德曼單方面的說法,還獲得了Intersect 360 research的首席研究官丹·奧茲(Dan Olds)的認(rèn)可。

丹·奧茲一份聲明中說:“Cerebras Systems公司降低了大型NLP模型的運(yùn)行門檻,開啟了一個(gè)新的人工智能時(shí)代。Cerebras Systems公司為那些無法花費(fèi)數(shù)千萬美元購買設(shè)備的組織提供了一個(gè)輕松、廉價(jià)的途徑,讓這些公司有機(jī)會進(jìn)入NLP大聯(lián)盟?!?/p>

從幾個(gè)月到幾分鐘,NLP模型運(yùn)行效率暴漲,小公司也能玩大模型

▲Cerebras 公司的WSE-2芯片與最大GPU的對比(圖源:Cerebras)

三、客戶遍布全球,新系統(tǒng)可助基因研究

目前,這項(xiàng)技術(shù)已經(jīng)在全球范圍內(nèi)被廣泛采用。Cerebras Systems公司在北美、亞洲、歐洲和中東地區(qū)都有客戶,這些客戶包括GSK、阿斯利康、TotalEnergies、匹茲堡超級計(jì)算中心、萊布尼茨超級計(jì)算中心、愛丁堡并行計(jì)算中心(EPCC)、國家能源技術(shù)實(shí)驗(yàn)室等等。

這項(xiàng)技術(shù)在客戶公司中廣獲好評。英國制藥公司GSK是CS-2系統(tǒng)的使用客戶之一,該公司的人工智能高級副總裁Kim Branson表示:“GSK需要新的設(shè)備來處理通過基因組和基因研究生成的極其龐大的數(shù)據(jù)集。而Cerebras Systems公司的CS-2系統(tǒng)在我們公司使用生物數(shù)據(jù)集進(jìn)行語言模型訓(xùn)練中承擔(dān)重要功能。使用這個(gè)系統(tǒng)后,我們能夠處理的數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)超過以前。這個(gè)模型是GSK公司許多人工智能系統(tǒng)的基礎(chǔ),在我們進(jìn)行藥物轉(zhuǎn)型研究方面發(fā)揮著重要作用?!?/p>

從幾個(gè)月到幾分鐘,NLP模型運(yùn)行效率暴漲,小公司也能玩大模型

▲WSE-2芯片的主要參數(shù)配置(圖源:Cerebras)

結(jié)語:CS-2系統(tǒng)實(shí)現(xiàn)技術(shù)突破,推動(dòng)人工智能向前發(fā)展

Cerebras Systems公司的CS-2系統(tǒng)可以在單個(gè)設(shè)備上運(yùn)行參數(shù)量超過數(shù)十億的NLP模型,這是人工智能領(lǐng)域的一項(xiàng)重要技術(shù)突破。這不僅擴(kuò)充了單個(gè)設(shè)備上NLP模型的參數(shù)容量,還讓更多公司能夠使用大型NLP模型,擴(kuò)大其應(yīng)用市場。

但是,AI技術(shù)想要獲得突破,不能只靠提高參數(shù)數(shù)量,擴(kuò)大模型體量。就像CPU的主頻一樣,AI模型的參數(shù)量只是一個(gè)指標(biāo)。更重要的是用更少的參數(shù)達(dá)到更好的結(jié)果。畢竟,訓(xùn)練AI模型的目的是讓這些模型工作得更聰明,而不是更努力。

來源:VentureBeat