芯東西(公眾號(hào):aichip001)
作者 | ?ZeR0
編輯 | ?漠影
200億美元。
這是英偉達(dá)買下AI芯片獨(dú)角獸Groq團(tuán)隊(duì)和非獨(dú)家技術(shù)授權(quán)后,最先被市場(chǎng)記住的數(shù)字。它超過了此前英偉達(dá)任何一筆并購交易的金額。
Groq主攻的是其特有的LPU芯片技術(shù),一種用軟件定義硬件的可重構(gòu)數(shù)據(jù)流架構(gòu),加之Groq由谷歌TPU初始研發(fā)團(tuán)隊(duì)創(chuàng)辦,于是也被一些業(yè)內(nèi)人士稱作“進(jìn)階版TPU”。
經(jīng)過多天發(fā)酵,此事的核心關(guān)注點(diǎn)已經(jīng)轉(zhuǎn)移。英偉達(dá)的選擇,使「非GPU」賽道新型技術(shù)路徑受到高度關(guān)注。類似技術(shù)路線的代表企業(yè),還包括Intel正在收購的美國的SambaNova、剛剛完成數(shù)十億融資的中國的清微智能等。
在公司主體未被收購的前提下,200億美元這個(gè)天價(jià)數(shù)字值得被反復(fù)咀嚼:
英偉達(dá)究竟在為一種怎樣的技術(shù)能力付費(fèi)?
一、花掉近1/3現(xiàn)金儲(chǔ)備,英偉達(dá)在下一盤多大的棋?
答案是AI推理。
在對(duì)外表態(tài)保持克制的同時(shí),英偉達(dá)CEO黃仁勛發(fā)送了一封致員工郵件。郵件后來被媒體獲取,其中明確提到,英偉達(dá)計(jì)劃將Groq的低延遲處理器集成進(jìn)NVIDIA AI Factory架構(gòu),服務(wù)于更廣泛的AI推理與實(shí)時(shí)工作負(fù)載。
隨著模型進(jìn)入規(guī)?;渴痣A段,AI算力消耗形態(tài)發(fā)生變化。服務(wù)于大量終端用戶的推理請(qǐng)求持續(xù)膨脹,對(duì)并行吞吐能力提出更高要求,延遲是否穩(wěn)定、能效是否可控、單位算力能承載多少并發(fā),逐漸成為影響整體成本的關(guān)鍵因素。
擅長(zhǎng)并行計(jì)算但具有高能耗特點(diǎn)的GPU,未必是滿足長(zhǎng)期推理需求的最佳高效路線。
在英偉達(dá)接洽前,Groq并沒有尋求出售,剛剛完成多輪數(shù)億美元融資。交易額達(dá)200億美元的消息,最早來自其主要投資方Disruptive。該機(jī)構(gòu)CEO Alex Davis透露。
英偉達(dá)預(yù)計(jì)2025年年底現(xiàn)金儲(chǔ)備可能超過700億美元。斥資200億美元收購Groq的人才和技術(shù)授權(quán),相當(dāng)于要花掉接近1/3的現(xiàn)金儲(chǔ)備。
那么英偉達(dá)為何如此看好Groq團(tuán)隊(duì)?
這得益于Groq手里的三張王牌:沙特市場(chǎng)、大模型推理、可重構(gòu)架構(gòu)。
在推理戰(zhàn)場(chǎng),英偉達(dá)對(duì)龐大的主權(quán)AI市場(chǎng)虎視眈眈,遍地土豪的沙特?zé)o疑是“必征之地”。而Groq在2025年2月宣布已獲得來自沙特阿拉伯15億美元的投資承諾,用于擴(kuò)大基于LPU的AI推理基礎(chǔ)設(shè)施。更早之前,Groq在2024年12月建成沙特阿拉伯最大的推理集群。
據(jù)外媒透露,被英偉達(dá)遞出橄欖枝時(shí),Groq并未處于出售壓力之下。在2025年9月完成新一輪7.5億美元融資后,Groq的投后估值達(dá)到約69億美元,2025年?duì)I收目標(biāo)為5億美元,主要來自大模型推理服務(wù)和基礎(chǔ)設(shè)施大單。
而這些核心業(yè)務(wù)的底層硬件,就是一種面向推理負(fù)載設(shè)計(jì)、采用可編程流式架構(gòu)的新型LPU芯片。
二、彌補(bǔ)GPU短板,走出差異化技術(shù)路徑
Groq將芯片設(shè)計(jì)重點(diǎn)放在極致的推理性能優(yōu)化。資料顯示,該芯片在int8精度下峰值算力達(dá)到750TOPS,運(yùn)行萬億參數(shù)的月之暗面Kimi K2模型可實(shí)時(shí)生成token。
這主要通過TSP架構(gòu)、極致確定性、采用SRAM來實(shí)現(xiàn)。該芯片取消了指令分發(fā)、分支預(yù)測(cè)、緩存控制等硬件邏輯,編譯器將每個(gè)執(zhí)行步驟精確到最小執(zhí)行周期,實(shí)現(xiàn)時(shí)鐘級(jí)確定性。相比GPU通常采用的外部HBM,它采用的SRAM訪問速度更快。
而它最核心TSP(Tensor Streaming Processor)架構(gòu),從底層芯片設(shè)計(jì)邏輯來看,就是一種軟件定義硬件的可重構(gòu)架構(gòu)。
不同于遵循馮·諾依曼架構(gòu)(指令驅(qū)動(dòng)數(shù)據(jù))的GPU,可重構(gòu)數(shù)據(jù)流是一種支持芯片內(nèi)部及芯片間的流水線式流程,無需等待計(jì)算或內(nèi)存資源,可以彌補(bǔ)GPU架構(gòu)的短板,已在持續(xù)運(yùn)行的推理場(chǎng)景中體現(xiàn)出系統(tǒng)工程優(yōu)勢(shì)。
這可能就是英偉達(dá)選擇通過技術(shù)和團(tuán)隊(duì)引入,將Groq經(jīng)驗(yàn)嵌入自身平臺(tái)的直接原因。
英偉達(dá)、英特爾陸續(xù)押注,以及后續(xù)可以預(yù)見的巨量研發(fā)投入,主流AI芯片三大技術(shù)流派至此形成:
GPU:擅長(zhǎng)暴力并行計(jì)算,生態(tài)最強(qiáng),是大模型訓(xùn)練和通用計(jì)算任務(wù)的首選,但做推理任務(wù)時(shí)難避高能耗的劣勢(shì)。代表企業(yè)有英偉達(dá)、摩爾線程等。
ASIC/DSA:專用芯片、領(lǐng)域特定架構(gòu)路線,硬件路徑是固定的,專為AI運(yùn)算的矩陣乘法極致優(yōu)化,但在處理非矩陣類運(yùn)算時(shí)性能會(huì)大幅下降。代表企業(yè)有谷歌、寒武紀(jì)、昆侖芯等。
可重構(gòu):根據(jù)數(shù)據(jù)流動(dòng)態(tài)重構(gòu)計(jì)算路徑,能夠適應(yīng)多元化的算法,隨時(shí)調(diào)整電路連接方式,相比GPU可大幅減少能耗,相比靜態(tài)ASIC又保留了對(duì)模型演進(jìn)的適配能力。代表企業(yè)有SambaNova、Groq以及清微智能等。
在可重構(gòu)的實(shí)現(xiàn)方法上,Groq團(tuán)隊(duì)硬件邏輯是靜態(tài)、固定的,全靠編譯器來實(shí)現(xiàn)邏輯上的重構(gòu),這種方法會(huì)犧牲一定的通用性。
更經(jīng)典的做法則是依靠硬件內(nèi)部的可編程交換矩陣,來動(dòng)態(tài)或半靜態(tài)地改變處理單元之間的物理連接。這樣一來,硬件就像會(huì)變身的“算力樂高”,能根據(jù)算法動(dòng)態(tài)重構(gòu)計(jì)算陣列和互連拓?fù)?,?shí)現(xiàn)更高的通用性。
如今Groq大部分成員歸入英偉達(dá),SambaNova屢傳被英特爾洽談收購??芍貥?gòu)作為第三大AI芯片主流賽道,已被國際芯片巨頭們虎視眈眈。國產(chǎn)可重構(gòu)AI芯片頭部企業(yè)的清微智能,則已啟動(dòng)IPO籌備。
三、開啟全新資本周期,國產(chǎn)AI芯片迎來第三種解法
2025年12月,清微智能宣布完成超20億元C輪融資,并已啟動(dòng)上市籌備相關(guān)工作,目標(biāo)打造國內(nèi)“非GPU”新型架構(gòu)芯片領(lǐng)域首個(gè)上市標(biāo)桿企業(yè)。
當(dāng)前,中國AI芯片市場(chǎng)呈現(xiàn)多元架構(gòu)并起的格局,上市公司多為GPU或ASIC企業(yè)。清微智能作為全球最早實(shí)現(xiàn)可重構(gòu)計(jì)算商用的企業(yè)之一,其IPO具有破局意義。
在先進(jìn)制程工藝受限的背景下,可重構(gòu)芯片通過架構(gòu)創(chuàng)新?lián)Q取性能的國產(chǎn)替代方案,是中國實(shí)現(xiàn)算力自給的重要方向之一。而清微智能研發(fā)的芯片代表了目前中國在可重構(gòu)計(jì)算領(lǐng)域的最前沿。
清微智能今年推出下一代芯片,性能還將大幅提升,其可重構(gòu)數(shù)據(jù)流架構(gòu)具備3D擴(kuò)展的天然優(yōu)勢(shì),能夠與3D芯片、晶圓級(jí)芯片技術(shù)等前沿集成技術(shù)結(jié)合,形成清晰且可持續(xù)的升級(jí)迭代路徑。
面向大規(guī)模擴(kuò)展,為可重構(gòu)架構(gòu)設(shè)計(jì)的高效數(shù)據(jù)互連技術(shù)TSM-LINK支持多芯片點(diǎn)對(duì)點(diǎn)直連,能夠?qū)崿F(xiàn)數(shù)據(jù)高效傳輸,規(guī)避傳統(tǒng)交換機(jī)架構(gòu)存在的帶寬瓶頸與通信延遲問題。
針對(duì)長(zhǎng)期生態(tài)建設(shè),清微智能持續(xù)推進(jìn)軟件棧適配與工具鏈建設(shè),以降低開發(fā)與遷移成本。
中國擁有豐富的端側(cè)AI應(yīng)用場(chǎng)景,許多場(chǎng)景都對(duì)功能、延時(shí)極其敏感,這為可重構(gòu)芯片提供了優(yōu)質(zhì)的練兵場(chǎng)。
可重構(gòu)芯片憑借高能效優(yōu)勢(shì),既符合低碳目標(biāo)的國情所需,又能夠消解單一架構(gòu)遇阻的風(fēng)險(xiǎn)。此類企業(yè)走向IPO,將有助于鼓勵(lì)更多企業(yè)探索底層創(chuàng)新技術(shù),為國家算力主權(quán)發(fā)展出更多條可持續(xù)發(fā)展的生命線。
結(jié)語:英偉達(dá)200億美元高價(jià),拉高了可重構(gòu)賽道的稀缺性
隨著大模型應(yīng)用重心向“快”和“便宜”轉(zhuǎn)移,可重構(gòu)芯片的高能效、低延遲等特性,正好迎合了爆發(fā)式增長(zhǎng)的AI商業(yè)化普及潮。
而英偉達(dá)為Groq掏出的200億美元高價(jià),某種程度上提供了可重構(gòu)這類新架構(gòu)的技術(shù)估值,讓業(yè)界意識(shí)到AI計(jì)算路線勝負(fù)未定、軟件定義硬件將是接下來的重要技術(shù)發(fā)展方向。這一領(lǐng)域的國內(nèi)頭部企業(yè),在資本市場(chǎng)的稀缺性也在2026年被進(jìn)一步放大。
