芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西8月6日報(bào)道,昨晚,“英偉達(dá)勁敵”之一Groq甩出了兩個重磅新聞:

1、獲得6.4億美元D輪融資,由貝萊德領(lǐng)投,思科、三星旗下風(fēng)投機(jī)構(gòu)等跟投,估值達(dá)28億美元(折合約200億人民幣)。

2、請來2018年圖靈獎得主、“深度學(xué)習(xí)三巨頭之一”、紐約大學(xué)教授、Meta副總裁兼首席AI科學(xué)家楊立昆(Yann LeCun),擔(dān)任技術(shù)顧問。

楊立昆雖然經(jīng)常接地氣地跟馬斯克隔空互噴,但論起AI學(xué)術(shù)界的地位、產(chǎn)學(xué)雙棲的實(shí)力,沒有幾人能比這位AI重要奠基人物享有更高的聲譽(yù),而且是前沿世界模型的“頭號代言人”。

天天喊話AI產(chǎn)業(yè)大佬的Groq,這回真“傍”上了一位重量級大牛。

這家由谷歌TPU核心成員搭伙創(chuàng)辦的創(chuàng)企堪稱AI芯片界的整活兒大師,剛成立時主打神秘感,把技術(shù)和產(chǎn)品瞞得密不透風(fēng),吊足了業(yè)界的胃口。

后來市場不及預(yù)期,生存遇到危機(jī),Groq痛定思痛,在抓住生成式AI這根救命稻草后畫風(fēng)突變,打出“世界最快推理”的招牌,接連喊話“宇宙網(wǎng)紅”馬斯克、OpenAI CEO薩姆·阿爾特曼、Meta創(chuàng)始人兼CEO馬克·扎克伯格,屢屢挑釁英偉達(dá),跟剛成立時的低調(diào)作風(fēng)判若兩司。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億

除了搏眼球功夫深,它的吸粉能力也可圈可點(diǎn),不少知名大佬都給它打過廣告。

楊立昆說“Groq芯片真的很有市場”。扎克伯格宣布Groq將為Meta Llama 3.1大語言模型提供推理芯片。原阿里副總裁、創(chuàng)辦AI Infra創(chuàng)企Lepton AI的賈揚(yáng)清自稱是“Groq超級粉絲”。

這次新融資后,硅谷AI芯片三大獨(dú)角獸——Groq(估值28億美元)、Cerebras(估值40億美元)、SambaNova(估值51億美元)——終于在200億人民幣估值俱樂部會師。

一、融資金額比預(yù)期翻倍,今年銷售額可能達(dá)1億美元

全球最大AI計(jì)算巨頭英偉達(dá)的市值已經(jīng)一度飆升到3萬億美元,2023年?duì)I收達(dá)609億美元。

相比之下,Groq的體量還很小,根據(jù)《福布斯》看到的財(cái)務(wù)文件,這家創(chuàng)企2023年的銷售額僅為340萬美元,凈虧損達(dá)到8830萬美元。

不過消息人士稱,Groq預(yù)計(jì)今年銷售額可能樂觀地達(dá)到1億美元。

但走到今天這一步,對于這家AI芯片創(chuàng)企來說已經(jīng)是時來運(yùn)轉(zhuǎn)、柳暗花明了。

別看Groq是現(xiàn)在叫板英偉達(dá)最起勁兒的AI芯片創(chuàng)企之一,在ChatGPT引爆全球生成式AI熱潮前,Groq曾經(jīng)歷了一段很難熬的日子。

據(jù)聯(lián)合創(chuàng)始人喬納森·羅斯 (Jonathan Ross)回憶,Groq有好幾次差點(diǎn)“死掉”,在2019年低谷期時再有一個月就沒錢了。

以至于羅斯后來都懊悔Groq創(chuàng)辦得有點(diǎn)早。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億▲Groq創(chuàng)始人喬納森·羅斯

2016年底,包括羅斯在內(nèi),谷歌TPU十位核心成員中的八人悄悄離職,合伙創(chuàng)立Groq。

谷歌TPU,AlphaGo擊敗世界圍棋冠軍背后算力的核心功臣,一戰(zhàn)成名,帶動起全球?qū)S肁I芯片市場的火熱。它的核心設(shè)計(jì)人員出走創(chuàng)業(yè),受關(guān)注程度可想而知。但Groq創(chuàng)立初期一路神隱,悄悄熬過了一段缺錢窘境,直到2019年年底才偶爾發(fā)發(fā)博客文章,滿足一下業(yè)界的好奇心。

2017年,Groq被報(bào)道獲得1030萬美元啟動資金,這是它第一次出現(xiàn)在公眾視野。之后找到新投資者似乎就變得困難,Groq又經(jīng)歷3輪融資,但累計(jì)金額僅6000多萬美元。

直到2021年4月,Groq終于拿到一筆相對大的3億美元融資,總?cè)谫Y額超過3.6億美元,估值超過10億美元,躋身芯片獨(dú)角獸俱樂部。

時隔3年,Groq如今一口氣獲得6.4億美元新融資,總?cè)谫Y額越過10億大關(guān),估值暴漲到28億美元,比上次融資后估值的兩倍還多。

羅斯新發(fā)的推文一股凡爾賽味兒:我們起初打算融資3億美元來著,為了能在2025年第一季度末部署10.8萬塊IPU投入生產(chǎn),誰承想籌到2倍的資金,所以也在擴(kuò)大云計(jì)算和核心工程團(tuán)隊(duì)。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億

二、跑Llama 3 70B,快過GPT-4o mini

在發(fā)布旗艦大語言模型Llama 3.1 405B時,扎克伯格發(fā)表一篇題為《開源AI是前進(jìn)的道路》的文章,其中提到“像Groq這樣的創(chuàng)新者已為所有新模型構(gòu)建了低延遲、低成本的推理服務(wù)”。

羅斯稱,相比用英偉達(dá)GPU,LPU集群將為大語言推理提供更高吞吐量、更低延遲、更低成本。

Groq自研的LPU(語言處理單元)旨在克服大語言模型的計(jì)算密度和內(nèi)存帶寬瓶頸,計(jì)算能力超過GPU和CPU,能夠減少計(jì)算每個單詞所需時間,更快生成文本序列。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億

在ChatGPT掀起生成式AI熱潮后,經(jīng)歷過瀕臨生存危機(jī)的Groq開啟暴走模式,瘋狂宣傳自家AI推理引擎LPU,號稱做到“世界最快推理”,并在社交平臺上頻繁發(fā)文和轉(zhuǎn)發(fā)合作伙伴們、網(wǎng)友們對其LPU的實(shí)測結(jié)果和好評。

今年2月,根據(jù)Groq及一些網(wǎng)友分享的技術(shù)演示視頻,在LPU上運(yùn)行大語言模型Mixtral 8x7B-32k生成回答只用時11秒,而OpenAI ChatGPT 4需要花費(fèi)長達(dá)1分鐘。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億

AI寫作創(chuàng)企HyperWriteAI CEO Matt Shumer稱LPU“快如閃電”、“不到1秒寫出數(shù)百個單詞”、“大語言模型的運(yùn)行時間只有幾分之一秒”。

根據(jù)Artificial Analysis今年7月公布的數(shù)據(jù),Groq以大約340tokens/s的輸出速度提供Llama 3 70B,比GPT-4o mini的兩倍還快。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億

通用全球資本參與了Groq的多輪融資,其聯(lián)合創(chuàng)始人埃米什·沙阿(Aemish Shah)稱Groq產(chǎn)品的推理速度“明顯優(yōu)于市場上任何其他產(chǎn)品”。

在即時AI推理速度的吸引下,大批開發(fā)者涌向Groq。

今年3月,Groq推出了一個由LPU驅(qū)動的開發(fā)者平臺GroqCloud。開發(fā)者可以通過這一平臺租用LPU芯片,而無需直接購買。

該平臺提供Meta Llama 3.1、OpenAI Whisper Large V3、谷歌Gemma、Mistral Mixtral等開源模型,支持在云實(shí)例中使用其芯片的API。

為了吸引開發(fā)者,Groq提供免費(fèi)訪問:第一個月就有7萬人注冊?,F(xiàn)在已有超過36萬名開發(fā)人員在GroqCloud上創(chuàng)建AI應(yīng)用,數(shù)量還在增加。

Groq最近剛剛聘請了英特爾前代工業(yè)務(wù)前負(fù)責(zé)人、惠普前首席信息官斯圖爾特·潘恩(Stuart Pann)擔(dān)任首席運(yùn)營官。潘恩對Groq的增長持樂觀態(tài)度:在GroqCloud的客戶訂購中,超過1/4的客戶要求支付更多的計(jì)算能力。

Groq打算用新融資擴(kuò)大其TaaS(Token即服務(wù))產(chǎn)品的版圖,并為GroqCloud添加新的模型和功能。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億

三、架構(gòu)設(shè)計(jì)不走尋常路:沒HBM、沒CoWoS,比GPU效率高

Groq宣稱LPU在運(yùn)行大語言模型及其他生成式AI模型等解決方案時,能效至少是GPU的10倍。

GroqChip1芯片采用14nm制程,搭載230MB片上共享SRAM,內(nèi)存帶寬達(dá)80TB/s,F(xiàn)P16算力為188TFLOPS,int8算力為750TOPS。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億

與很多大模型芯片不同的是,Groq的芯片沒有HBM、沒有CoWoS,因此不受HBM供應(yīng)短缺的限制。它采用了單核心時序指令集計(jì)算機(jī)架構(gòu),無需像使用HBM的GPU那樣頻繁從內(nèi)存中加載數(shù)據(jù),能有效利用每個時鐘周期,降低成本,運(yùn)行大語言模型的速度更快。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億▲傳統(tǒng)GPU內(nèi)存結(jié)構(gòu)

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億▲Groq芯片內(nèi)存結(jié)構(gòu)

實(shí)時AI推理是一個專門的系統(tǒng)問題。硬件和軟件都在速度和延遲方面發(fā)揮作用。再多的軟件也無法克服芯片設(shè)計(jì)和架構(gòu)造成的硬件瓶頸。

Groq用軟件定義硬件方法將執(zhí)行控制和數(shù)據(jù)流控制的決策步驟從硬件轉(zhuǎn)移到了編譯器。通過精確調(diào)度每個內(nèi)存負(fù)載、操作和數(shù)據(jù)包傳輸,確保最高的性能和最快的系統(tǒng)響應(yīng),釋放了額外的芯片空間和處理能力。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億▲Groq的簡化軟件定義硬件方法釋放了額外的芯片空間和處理能力

編譯器會將模型劃分為較小的塊,這些塊在空間上映射到多個LPU芯片上。就像一條計(jì)算裝配線,每個LPU集群都設(shè)置為運(yùn)行特定的計(jì)算階段,并將執(zhí)行該任務(wù)所需的所有數(shù)據(jù)存儲在其本地片上 SRAM內(nèi)存中,數(shù)據(jù)傳輸從LPU到LPU,不需要外部HBM芯片和外部路由器。

這種高效的流水線架構(gòu)之所以可行,是因?yàn)長PU推理引擎具有完全確定性,系統(tǒng)準(zhǔn)確地知道每個芯片上每個階段發(fā)生的情況,使流水線能夠以最高效率運(yùn)行。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億▲LPU(右)的可編程流水線架構(gòu)與GPU(左)方法更快更高效

根據(jù)Groq的描述,GPU的工作方式是在小型芯片集群中運(yùn)行,每個集群執(zhí)行生成token所需的每個順序計(jì)算階段。在每個階段,GPU從另一個芯片上的HBM中檢索執(zhí)行該階段所需的所有數(shù)據(jù),完成任務(wù)后,數(shù)據(jù)返回到片外HBM,所有傳輸數(shù)據(jù)都需要來自外部芯片的指示,既低效又昂貴。

Groq編譯器將操作直接映射到LPU,無需任何手動調(diào)優(yōu)或?qū)嶒?yàn),因此LPU的設(shè)計(jì)非常簡單?;趶埩苛魇郊軜?gòu),LPU不需要CUDA或內(nèi)核。

AI芯片獨(dú)角獸宣布楊立昆加盟!估值暴漲到200億▲單個LPU架構(gòu)

“我們的目標(biāo)是在硬件上投入的每一美元都能獲得全額回報(bào),我們不想賠錢?!绷_斯說。

Groq從兩年前開始銷售芯片,陸續(xù)獲得客戶,已經(jīng)與Meta、三星等多家公司以及沙特阿拉伯等主權(quán)國家合作生產(chǎn)和推出其芯片。

阿貢國家實(shí)驗(yàn)室曾使用Groq的芯片研究核聚變。今年早些時候,Groq與沙特阿美數(shù)字公司達(dá)成合作,計(jì)劃在中東和北非地區(qū)建立最大的AI推理即服務(wù)計(jì)算基礎(chǔ)設(shè)施之一;并與歐洲可持續(xù)能源公司Earth Wind & Power合作,將在挪威數(shù)據(jù)中心部署數(shù)萬塊IPU。

目前Groq正在推進(jìn)下一代芯片的研發(fā)生產(chǎn),去年8月宣布將與晶圓代工廠格芯簽訂生產(chǎn)4nm IPU的合同。

根據(jù)此前報(bào)道,Groq下一代芯片的能效預(yù)計(jì)相較前一代提高15~20倍,尺寸將變得更大。執(zhí)行相同任務(wù)所需的芯片數(shù)量也將大幅減少。

在對Meta Llama 2 70B模型做推理基準(zhǔn)測試時,Groq將在9個機(jī)架中576塊芯片互連。而到2025年完成這一任務(wù),可能只需在2個機(jī)架使用大約100塊芯片。

結(jié)語:AI芯片越來越熱鬧了

隨著生成式AI熱潮持續(xù),AI芯片市場前景可期,Groq面臨的競爭也日趨激烈。

根據(jù)Groq在今年4月發(fā)表的博客文章,到2027年,AI芯片TAM市場預(yù)計(jì)將達(dá)到1194億美元,當(dāng)前約40%的AI芯片用于推理,應(yīng)用程序達(dá)到成熟后通常會將90-95%的資源分配給推理,這表明隨著時間的推移,推理市場會變得更大。

目前英偉達(dá)把控著70%~95%的AI芯片市場。谷歌、微軟、亞馬遜、Meta等科技巨頭均在自研AI芯片。OpenAI今年籌備啟動一項(xiàng)AI芯片制造計(jì)劃。Arm也被傳將成立一個AI芯片部門。

多家AI芯片企業(yè)均有新動作。去年年底,美國AI芯片創(chuàng)企D-Matrix獲得1.1億美元B輪融資;今年6月,美國AI芯片創(chuàng)企Etched宣布完成1.2億美元A輪融資,美國晶圓級芯片獨(dú)角獸Cerebras秘密申請IPO;7月,日本軟銀集團(tuán)以6億美元收購英國AI芯片獨(dú)角獸Graphcore。

據(jù)外媒報(bào)道,一位風(fēng)險投資家拒絕參與Groq的新融資,理由是Groq的方法雖然新穎,但從長遠(yuǎn)來看,其知識產(chǎn)權(quán)并不可靠。也有一些人質(zhì)疑Groq大規(guī)模生產(chǎn)芯片的成本效益。

要打消市場的種種疑慮,Groq仍需竭力證明自家產(chǎn)品在推理市場的商用實(shí)力。

畢竟這么多年來,“英偉達(dá)勁敵”越來越多,但市值3萬億美元的英偉達(dá)始終只有一個。

來源:Groq,TechCrunch,F(xiàn)orbes