智東西(公眾號:zhidxcom)
文 | 心緣

這家AI芯片創(chuàng)企已經(jīng)潛伏近三年了。

2016年底,谷歌TPU核心團(tuán)隊的十個人中,有八人悄悄組隊離職,合伙創(chuàng)辦了新公司——Groq。

谷歌TPU,AlphaGo擊敗世界圍棋冠軍背后算力的核心功臣,一戰(zhàn)成名,帶動起全球?qū)S肐A芯片市場的火熱。它的核心設(shè)計人員外出創(chuàng)業(yè),毫無疑問被外界視作無法忽視的存在。

明知被產(chǎn)業(yè)熱切地關(guān)注著,這家創(chuàng)企卻相當(dāng)任性,在官宣要在2018年發(fā)布第一代AI芯片后,它就再次進(jìn)入神隱狀態(tài),任你外界怎么猜測,我自巋然不動。

這一神隱就神隱到了今年9月。Groq被曝將參展美國計算機(jī)歷史博物館舉辦的AI硬件峰會,多少人正期待Groq成為這場峰會的最大熱點(diǎn)時,Groq又相當(dāng)任性地撂挑子不干了,空留其logo顯眼而尷尬地留在了橫幅上。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

▲在AI硬件峰會上的Groq徽標(biāo)和空椅子(圖源:Tirias Research)

10月21日,Groq突然更新了博客《世界,認(rèn)識Groq》。這一篇博客,似乎在無聲地宣告,Groq即將要高調(diào)地回歸大眾視野。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

一、預(yù)告400TOPS算力的芯片

2017年還算是Groq有點(diǎn)活躍的一年。

3月,Social Capital風(fēng)險投資家、前Facebook高管Chamath Palihapitiya告訴美媒,他花了1.5年招攬谷歌TPU背后的工程師。

4月,Groq被報道拿到由Chamath Palihapitiya領(lǐng)投的1030萬美元啟動資金,這是Groq第一次出現(xiàn)在公眾視野。

7月,賽靈思前全球銷售執(zhí)行副總裁Krishna Rangasaye加盟Groq,擔(dān)任首席運(yùn)營官(COO),不過現(xiàn)在Groq的COO已變成Adrian Mendes。

11月,Groq在官網(wǎng)宣布要在2018年發(fā)布第一代AI芯片產(chǎn)品,號稱這款芯片的運(yùn)算速度將可以達(dá)到400 TOPS,每瓦特能進(jìn)行8萬億次的運(yùn)算。

而當(dāng)時谷歌最新一代的TPU算力才達(dá)到180TOPS,這意味著Groq性能將超谷歌TPU兩倍還多。

而此時距離Groq成立才短短一年,如果擱在其它創(chuàng)企身上,可能還會被質(zhì)疑是說大話,偏偏Groq由Google X的前工程師道格拉斯·懷特曼(Douglas Wightman)和喬納森·羅斯(Jonathan Ross?)等共同創(chuàng)立。早期谷歌TPU團(tuán)隊的十位核心成員中,有八位都來到了這家公司。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

▲Groq創(chuàng)始人兼首席執(zhí)行官Jonathan Ross

包括CEO 喬納森·羅斯(Jonathan Ross)在內(nèi)的Groq創(chuàng)始團(tuán)隊,是早期TPU十人核心設(shè)計團(tuán)隊中的八人。

谷歌曾在短短約14個月的時間里發(fā)布首個TPU,Groq能在超短時間內(nèi)展示其芯片似乎也不是什么難以理解的事情。

二、沉寂一年,突然回歸

然而,在無數(shù)人的翹首以盼中,Groq卻并沒有如期亮出它們打磨的核心利器。

時間一晃而逝,轉(zhuǎn)眼到了今年9月,美國證劵交易委員會公布了一項文件,顯示Groq正目標(biāo)籌集約6000萬美元的資金。這一文件顯示它已經(jīng)融資超過5200萬美元,至少有16位投資方為這新的一輪融資做出貢獻(xiàn)。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

同樣在9月,當(dāng)大家都以為Groq要帶著它的芯片產(chǎn)品一起露面了,它又出人意料的“放了AI硬件峰會的鴿子”。

當(dāng)美媒終于聯(lián)系上Jonathan Ross,他的回復(fù)卻顯得些微輕描淡寫。

“我們有一句話:展示,不要告訴?!盝onathan Ross說,他們本打算在AI硬件峰會上做演示,但他們不得不將資源轉(zhuǎn)移給客戶,無法進(jìn)行演示,因此他們決定退出。

或許正如Jonathan Ross所言,Groq的AI芯片產(chǎn)品已經(jīng)獲得客戶的認(rèn)可,Groq終于開始主動揭開神秘的面紗,以博客的方式陸續(xù)透露出關(guān)于其芯片產(chǎn)品差異化的拼圖。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

在Groq官網(wǎng)的首頁,Groq芯片的性能顯示為400 TOPS,但除了知道這是INT8計算的最高性能,可以處理整數(shù)與浮點(diǎn)運(yùn)算外,我們尚未得知要達(dá)到這一性能還有哪些其他條件。

有趣的是,盡管Groq創(chuàng)始團(tuán)隊脫胎于谷歌TPU團(tuán)隊,但他們既沒有在谷歌TPU,也沒有在GPU、GPU、FPGA等架構(gòu)上做迭代,而是嘗試一種新的體系架構(gòu)。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

▲截至目前,Groq擁有70名全職員工,已籌集了6700萬美元的資金

三、AI推理需要更簡化、更可擴(kuò)展的架構(gòu)

當(dāng)前,處理器架構(gòu)的復(fù)雜性不僅阻礙開發(fā)人員生產(chǎn)力,也阻礙著AI應(yīng)用程序和其他計算繁重工作負(fù)載的采用。

在Jonathan Ross看來,由于對傳統(tǒng)服務(wù)器群集的投資已達(dá)到計算成本壁壘,處理推理任務(wù)的目標(biāo)時獲得大量的并行吞吐量,而現(xiàn)有的設(shè)備已經(jīng)被擠得水泄不通,即便增加物理處理器的數(shù)量,也無法實(shí)現(xiàn)更快、更有效的神經(jīng)網(wǎng)絡(luò)處理。

同時,CPU、GPU等標(biāo)準(zhǔn)計算體系結(jié)構(gòu)擠滿了硬件功能和元素,這些硬件和元素對推理性能沒有任何幫助。為了每秒執(zhí)行越來越多的操作,芯片變得越來越大、越來越復(fù)雜,具有多個內(nèi)核、多個線程、片上網(wǎng)絡(luò)和復(fù)雜的控制電路。

為了提高軟件性能和輸出,機(jī)器學(xué)習(xí)模型的開發(fā)人員要面對復(fù)雜的編程模型、安全問題,以及由于處理抽象層而導(dǎo)致的對編譯器控制的可見性的喪失。

另外,據(jù)Ross回憶,谷歌Jeff Dean在TPU推出前曾做過數(shù)學(xué)運(yùn)算,分享說他們雖然可以訓(xùn)練生產(chǎn)級別的模型,但由于價格太昂貴,他們無力使用現(xiàn)有架構(gòu)來部署它們。

“如果他們要為所有人部署語音識別,那么谷歌必須將數(shù)據(jù)中心的數(shù)量增加2-3倍,再增加20到40個。這些成本以十億計。如果您僅出于語音識別的目的,以另一種方式對運(yùn)算成本進(jìn)行數(shù)學(xué)計算,則他們必須將其計算能力提高一倍?!?/p>

要在這些約束條件下獲得更高的機(jī)器學(xué)習(xí)性能,需要依靠對硬件體系結(jié)構(gòu)有深入了解,并進(jìn)行費(fèi)力的手動優(yōu)化。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

面對這一現(xiàn)狀,Groq專門針對機(jī)器學(xué)習(xí)應(yīng)用程序和其他計算密集型工作負(fù)載的性能要求,設(shè)計了一種更簡化、更可擴(kuò)展的新型處理體系結(jié)構(gòu),以提供更高的吞吐量和更易用性。

這種新架構(gòu)降低了傳統(tǒng)開發(fā)的復(fù)雜性,使得開發(fā)者可以專注于算法,而無需考慮讓其解決方案適應(yīng)硬件,從而節(jié)省了開發(fā)人員資源,也使大規(guī)模部署AI解決方案變得更加容易。

四、Groq高性能架構(gòu)的三大特點(diǎn)

根據(jù)Groq的博客,Groq芯片是通用深度學(xué)習(xí)推理芯片,是高性能、低延遲、計算密集型工作負(fù)載的理想平臺。

具體而言,其高性能架構(gòu)的愿景基于技術(shù)創(chuàng)新的三個關(guān)鍵領(lǐng)域:

1、軟件定義的硬件

受軟件優(yōu)先思想的啟發(fā),Groq將執(zhí)行控制和數(shù)據(jù)流控制從硬件轉(zhuǎn)移到了編譯器。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

所有執(zhí)行計劃都在軟件中進(jìn)行,從而釋放了寶貴的硅空間,并提供了額外的內(nèi)存帶寬和晶體管來提高性能。

軟件從本質(zhì)上協(xié)調(diào)所有所需的數(shù)據(jù)流和時序,以確保計算不會發(fā)生停頓,Groq的芯片允許在編譯時預(yù)先知道所有延遲,從而使延遲和性能可預(yù)測。

2、芯片創(chuàng)新

Groq的簡化架構(gòu)從芯片上去除了對AI沒有任何處理優(yōu)勢的多余電路,從而實(shí)現(xiàn)了更高效的芯片設(shè)計,每平方毫米的性能更高。

這消除了對緩存、核心到核心通信、推測性和無序執(zhí)行的需求。

Groq的芯片將大量的算術(shù)邏輯單元(ALU)與大量的片上存儲器結(jié)合在一起,并具有超過60TB/s的充足帶寬來輸送給大量ALU。

根據(jù)EETimes看到的幻燈片顯示,其芯片中三列ALU與兩個大內(nèi)存條交錯,ALU約占芯片面積的40%,內(nèi)存接近芯片面積的50%。

通過增加跨芯片總帶寬和用于計算的晶體管總數(shù)的更高百分比,可以實(shí)現(xiàn)更高的計算密度。

3、最大程度提升開發(fā)速度

Groq系統(tǒng)體系結(jié)構(gòu)的簡單性消除了手工優(yōu)化,配置文件和主導(dǎo)傳統(tǒng)以硬件為中心的設(shè)計方法的專業(yè)設(shè)備知識的需求。

相反,Groq專注于編譯器,從而使軟件需求能夠驅(qū)動硬件規(guī)范。其編譯器已經(jīng)設(shè)法將編譯時間壓縮至秒。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

在編譯時,開發(fā)人員可以精確獲知內(nèi)存使用情況、模型效率和延遲。

這聽起來可能不是特別重要,但隨著芯片規(guī)模擴(kuò)大,在數(shù)據(jù)中心進(jìn)行擴(kuò)展會變得更困難,假設(shè)擴(kuò)展到數(shù)千個芯片,如果有一個因為延遲慢了,那么有60%的機(jī)會每一個查詢都將是慢的。

Groq芯片的這種確定性設(shè)計,意味著用戶可以在將多芯片擴(kuò)展連接時,精確把控運(yùn)行一次計算需要多長時間,使得用戶可以更加專注于算法并更快地部署解決方案,從而簡化了生產(chǎn)流程。

四、像,但不是FPGA

雖然軟件定義的硬件與確定性操作相結(jié)合的概念可能使人想到FPGA,但Jonathan Ross強(qiáng)調(diào),Groq的芯片絕對不是FPGA。

Ross表示,F(xiàn)PGA可在每個周期重新配置,這與他們的芯片工作原理相似,但Groq的芯片不是FPGA,它沒有查找表,用戶可逐周期完全更改芯片的功能,能確切知道芯片的每個部分在任何時刻都在做什么,這種控制級別非常精細(xì)。

此前另一家長期隱身的AI芯片創(chuàng)企SambaNova也有提出軟件定義硬件的概念,他們正在開發(fā)可重構(gòu)的數(shù)據(jù)流體系結(jié)構(gòu)并致力于用于編程加速器的語言。

在Tirias研究首席分析師Kevin Krewell看來,Groq的方法與常規(guī)FPGA和SambaNova的方法就是很像,而且他對迄今為止Groq所分享的內(nèi)容表達(dá)一些擔(dān)憂。

Kevin Krewell擔(dān)心的是其每平方毫米的效率計算,設(shè)計是靜態(tài)編譯的,這意味著一次只能處理一種類型的機(jī)器學(xué)習(xí)算法,而某些任務(wù)需要多種不同的機(jī)器學(xué)習(xí)模型,比如圖像處理和語音處理。

五、目標(biāo)AI推理,適合自動駕駛與金融

Groq工程部副總裁Michelle Tomasko表示,有硅片后,他們第一天就上電了,第一周就在芯片上運(yùn)行了程序,六周后又向客戶提供了樣品。

Tomasko詳細(xì)介紹了TSP的確定性將如何改善客戶的系統(tǒng)驗證時間,并補(bǔ)充說,能夠在芯片推出之前就很好地交付編譯器的功能,意味著客戶可以成功地將他們的模型面向TSP的體系結(jié)構(gòu)。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

▲Groq工程部副總裁Michelle Tomasko

在加入Groq之前,Tomasko曾在谷歌工作了3年,此前還曾在NVIDIA工作。

她說,NVIDIA可以做暴力疊加,而Groq這種架構(gòu)能能迅速靈活地執(zhí)行任務(wù),這是他們領(lǐng)先于NVIDIA的關(guān)鍵。

撬走谷歌TPU核心團(tuán)隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創(chuàng)企在醞釀什么大招?

▲Groq首席運(yùn)營官Adrian Mendes

Groq的目標(biāo)是數(shù)據(jù)中心和自動駕駛汽車中的推理應(yīng)用。

其首席運(yùn)營官Adrian Mendes表示,“微秒級”的延遲與整體確定性相結(jié)合,使得Groq的芯片適合于自動駕駛、金融等安全關(guān)鍵型應(yīng)用。

“從8月開始,我們已經(jīng)向少數(shù)客戶提供了硬件?!?Mendes說,“我們的硬件現(xiàn)在位于客戶數(shù)據(jù)中心中……他們正在這些板上運(yùn)行程序,并從中獲得很好的結(jié)果?!?/p>

結(jié)語:AI推理市場行路難

Groq在創(chuàng)辦之初的確帶給了人們很多的期待,但不可否認(rèn)的是,它的神秘主義盡管使得部分人對它更加感興趣,卻也伴隨著AI芯片熱度的退卻,消磨了大眾的熱情和耐心。

從當(dāng)前透露的信息來看,有著高起點(diǎn)的Groq確實(shí)有很多關(guān)于AI推理市場的思考,我們也可以看到其創(chuàng)新架構(gòu)的核心組成就是編譯器,但是這一架構(gòu)究竟能不能獲得足夠高的市場反響,還需要等時間來證明。

就目前AI芯片市場格局,Groq要想突圍AI推理市場還面臨很多阻礙。且不論NVIDIA、英特爾依然是阻擋在眾多創(chuàng)企面前的兩座大山,要想和巨頭硬碰硬,不僅要有源源不斷的資金支持,還要構(gòu)建能支持各種主流通用機(jī)器學(xué)習(xí)框架的軟件工具,這對大多數(shù)AI芯片創(chuàng)企來說,都是亟待解決的難題。

原文來自:ElectronicDesign,EE Times,Groq