芯東西(公眾號(hào):aichip001)
編輯 | 全球AI芯片峰會(huì)

9月17日,2025全球AI芯片峰會(huì)在上海舉行,在峰會(huì)主論壇上,奎芯科技聯(lián)合創(chuàng)始?兼副總裁唐睿以《Chiplet,AI算力的基石》為主題發(fā)表演講。

當(dāng)前AI革命與過(guò)往互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展不同,利潤(rùn)高度向硬件環(huán)節(jié)傾斜。唐睿稱,隨著模型尺寸不斷變大、算力需求飆升,科技企業(yè)的CAPEX(資本性支出)大幅增長(zhǎng)且逐漸取代OPEX(運(yùn)營(yíng)性支出)成為主流趨勢(shì),這是因?yàn)锳I整體的性能與互聯(lián)帶寬、內(nèi)存容量深度綁定。

同時(shí),當(dāng)下芯片設(shè)計(jì)周期遠(yuǎn)跟不上AI算力或者模型發(fā)展的需求,在唐??磥?lái),基于Chiplet的設(shè)計(jì)能加快芯片研發(fā)迭代。2021年-2030年處理器預(yù)計(jì)研發(fā)項(xiàng)目數(shù)量年化增長(zhǎng)約9%,但基于Chiplet的設(shè)計(jì)年化增長(zhǎng)率高達(dá)44%,預(yù)計(jì)2030年占比超一半。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

基于這一現(xiàn)狀,奎芯打造了基于UCle標(biāo)準(zhǔn)接口IP的國(guó)產(chǎn)化完整解決方案,研發(fā)了兩代UCle IP,第一代為16GT/s,第二代為32GT/s,且在標(biāo)準(zhǔn)封裝實(shí)現(xiàn)。這些IP具有高性能、低功耗、靈活性等優(yōu)勢(shì),能為芯片快速迭代提供支持。

以下為唐睿的演講實(shí)錄:

ChatGPT爆發(fā)到現(xiàn)在只有不到三年時(shí)間,芯片設(shè)計(jì)周期一般至少兩到三年,所以芯片設(shè)計(jì)的周期遠(yuǎn)遠(yuǎn)跟不上AI算力或者AI模型發(fā)展的需求。

怎么才能加快芯片的研發(fā)速度、提升芯片研發(fā)的周期?Chiplet是長(zhǎng)期的趨勢(shì),還可以增加下游芯片設(shè)計(jì)公司的迭代速度。

一、硬件公司獲得大部分利潤(rùn),科技公司資本性支出大漲

首先介紹一下AI產(chǎn)業(yè)的發(fā)展趨勢(shì)。

目前的模型智能化程度越來(lái)越高,下圖是AI基準(zhǔn)測(cè)試提供商Artificial Analysis所給出的最新模型智能水平綜合排名。

該排名綜合了十項(xiàng)測(cè)試標(biāo)準(zhǔn),包括數(shù)學(xué)基準(zhǔn)測(cè)試AIME以及推理能力的Benchmark等。排名第一的GPT-5發(fā)布于今年8月,排名第二的Grok 4發(fā)布于今年7月,以及國(guó)產(chǎn)通義千問(wèn)、DeepSeek-V3.1等模型也發(fā)布不久,這說(shuō)明模型的性能更新日新月異

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

在整個(gè)AI產(chǎn)業(yè)中,哪些公司或者哪些相關(guān)的產(chǎn)業(yè)在掙錢(qián)?

AI革命和此前互聯(lián)網(wǎng)產(chǎn)業(yè)革命略有不同。因?yàn)槟壳叭允?strong>硬件公司獲得大部分利潤(rùn),一些分析師預(yù)計(jì)今年英偉達(dá)的數(shù)據(jù)中心營(yíng)收會(huì)達(dá)到1800億美元(折合人民幣約1.3萬(wàn)億元);博通最新的第三季度財(cái)報(bào)顯示,其數(shù)據(jù)中心相關(guān)的AI硬件營(yíng)收是52億美元(折合人民幣約370億元);臺(tái)積電今年第二季度的HPC營(yíng)收也超過(guò)180億美元(折合人民幣約1279億元),占總營(yíng)收的80%。

而最上層的應(yīng)用層,如OpenAI、Anthropic的ARR(年度經(jīng)常性收入)并不是很高。今年7月,OpenAI最新ARR數(shù)據(jù)是120億美元(折合人民幣約853億元)左右,Anthropic大概在50億美元(折合人民幣約355億元)左右。

其余數(shù)據(jù)中心相關(guān)公司獲取了大部分的行業(yè)利潤(rùn)和營(yíng)收,包括EDA和IP公司。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

為了實(shí)現(xiàn)AGI,五大科技巨頭的資本支出非常驚人。

到今年第二季度,五大科技公司的CAPEX(資本性支出)已經(jīng)飆升到970億美元一個(gè)季度。除了這五大科技公司,剛剛上市的CoreWave今年預(yù)計(jì)CAPEX達(dá)到230億美元,此外甲骨文在最新財(cái)報(bào)會(huì)議中透露,預(yù)計(jì)2026年的資本支出達(dá)到350億美元震驚業(yè)界,這主要是因?yàn)镺penAI與其簽訂合同,預(yù)計(jì)2030年甲骨文云營(yíng)收達(dá)到1440億美元。

這個(gè)趨勢(shì)印證了一個(gè)變化,這些公司的財(cái)報(bào)顯示,公司OPEX(經(jīng)營(yíng)性支出)在這幾年幾乎沒(méi)有增加,甚至還有略微下降,這可能與公司裁員有關(guān),也說(shuō)明CAPEX取代OPEX的現(xiàn)象已經(jīng)在發(fā)生。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

到2025年6月,美國(guó)數(shù)據(jù)中心的支出已經(jīng)接近于辦公室建設(shè)支出,大概都在400億美元左右,這也進(jìn)一步驗(yàn)證了大公司CAPEX超過(guò)OPEX的趨勢(shì)。

為什么需要這么大的CAPEX?因?yàn)槟P统叽绮粩嘧兇?,雖然閉源模型的尺寸可能不完全透明和公開(kāi),但開(kāi)源模型尺寸非常驚人,如Kimi K2的總參數(shù)規(guī)模達(dá)到1萬(wàn)億。這樣的模型尺寸就意味著需要龐大的算力資源去支撐模型訓(xùn)練,整體算力需求每年以4倍的速度增長(zhǎng)。

除了算力,模型訓(xùn)練和推理對(duì)內(nèi)存、互聯(lián)帶寬的需求也在不斷提升。

目前AI整體的性能還是被互聯(lián)帶寬以及內(nèi)存容量所綁定。

下面是一張比較老生常談的圖,20年間芯片算力提升了6萬(wàn)倍,但是內(nèi)存帶寬只增加了100倍、互聯(lián)帶寬只增加了30倍。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

這背后的原因是,算力與芯片面積成正比,IO的帶寬或接觸內(nèi)存的Beachfront與芯片周長(zhǎng)成正比,帶寬會(huì)隨著芯片周長(zhǎng)線性增加,但算力可以隨周長(zhǎng)增長(zhǎng)呈幾何平方增加,因此帶寬永遠(yuǎn)跟不上算力的增長(zhǎng)。

二、基于UCle標(biāo)準(zhǔn)接口IP,打造國(guó)產(chǎn)化完整解決方案

下面介紹一下奎芯的IP和Chiplet產(chǎn)業(yè)。

最新的主流AI芯片非常重視互聯(lián)帶寬和內(nèi)存容量,包括英偉達(dá)的GB300、AMD的MI355X都采用了最新的HBM3E內(nèi)存。NVLink的帶寬已經(jīng)高達(dá)大概3.6TB/s,Infinity Fabric接近于1TB互聯(lián)帶寬。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

整個(gè)數(shù)據(jù)中心中,CPU之間或XPU之間的互聯(lián)、XPU和Switch之間的互聯(lián)以及整個(gè)數(shù)據(jù)中心的Scale-Out和Scale-Up,都離不開(kāi)互聯(lián)IP的支撐。

目前芯片設(shè)計(jì)逐步走向Chiplet化,Marvell的數(shù)據(jù)顯示,近十年整體芯片的數(shù)量年化增長(zhǎng)約為9%左右,但是基于Chiplet設(shè)計(jì)的芯片數(shù)量年化增長(zhǎng)為44%。2021年,Chiplet base的設(shè)計(jì)只占很小部分,預(yù)計(jì)到2030年占比將超過(guò)一半。

Open Chiplet Architecture(芯粒架構(gòu)開(kāi)放標(biāo)準(zhǔn))的構(gòu)想是,未來(lái)會(huì)有CPU Chiplet、Memory Chiplet、Base Chiplet、AI Chiplet,構(gòu)成各家合作共贏的生態(tài),這些Chiplet都可以通過(guò)UCIe的IP進(jìn)行連接。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

下圖是一個(gè)典型的基于Chiplet設(shè)計(jì)的芯片,這是AMD最新GPU,有8個(gè)計(jì)算Die、8個(gè)HBM3E及兩塊很大的IO Die。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

奎芯在UCIe IP以及Chiplet相關(guān)領(lǐng)域的布局:

首先奎芯研發(fā)了UCIe IP,因?yàn)閁CIe IP是連接Chiplet Die的基礎(chǔ),所有的Chiplet小芯片都可以通過(guò)UCIe IP去進(jìn)行互聯(lián)??綰CIe IP具備高性能、低功耗、國(guó)產(chǎn)化以及靈活性等優(yōu)勢(shì)。

目前,奎芯已經(jīng)研發(fā)了兩代IP,第一代速度為16Gbps,第二代為32Gbps。第二代的32Gbps基于標(biāo)準(zhǔn)封裝實(shí)現(xiàn),這在國(guó)內(nèi)相當(dāng)領(lǐng)先且功耗相對(duì)比較低,基本上可以控制在1.0 pJ/bit。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

兩塊IP已經(jīng)進(jìn)行了測(cè)試,最新的32Gbps測(cè)試板采用5顆Die共封設(shè)計(jì),包含1顆Single Die,10mm、25mm Die-to-Dia互連。25mm的UCIe IP測(cè)試的眼圖結(jié)果,奎芯實(shí)現(xiàn)了72小時(shí)無(wú)誤碼率,眼的寬度達(dá)到0.75UI。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

奎芯的UCIe IP以及Chiplet已經(jīng)有客戶。下圖是其HPC領(lǐng)域客戶,結(jié)合奎芯的IO Die,可以幫助客戶實(shí)現(xiàn)HBM內(nèi)存和SoC之間的解耦。一個(gè)IO Die、SoC上,都對(duì)應(yīng)集成了16個(gè)標(biāo)準(zhǔn)封裝的UCIe IP模組,單向速率可以完全匹配或超過(guò)HBM3的帶寬要求。該企業(yè)在整個(gè)芯片設(shè)計(jì)中,采用了奎芯8對(duì)UCIe IP。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

下面是奎芯ML100 IO Die的設(shè)計(jì),這是其整體交付給客戶Chiplet Base Design的一部分。

奎芯采用HBM顆粒和IO Die在interposer(中介層)上實(shí)現(xiàn)共封,但是IO Die UCIe和SoC內(nèi)UCIe是通過(guò)Substrate進(jìn)行互連。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

這有如下幾點(diǎn)好處:第一是可以解耦HBM,降低SoC的溫度對(duì)HBM性能的影響;第二是IO Die模組涵蓋了HBM顆粒,可以實(shí)現(xiàn)單獨(dú)封裝交付,良率可控;第三是因?yàn)榕懦司o耦合,單位SoC的邊長(zhǎng)可以連接的HBM顆粒數(shù)量稍多,可進(jìn)行靈活配置,同時(shí)因?yàn)镮nterposer只用于IO Die和HBM3顆粒之間互聯(lián),使得整體Interposer面積縮??;第四是國(guó)產(chǎn)化供應(yīng)鏈的解決方案,保證了供應(yīng)鏈的靈活性。

下圖右邊可以看到Interposer的尺寸以及用了多少M(fèi)etal,最后匹配整體速率,與UCIe IP結(jié)合實(shí)現(xiàn)相對(duì)完美的速率匹配。這是奎芯基于UCIe的互連擴(kuò)展方案示意圖。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

之前很多嘉賓談到了分離Prefill(預(yù)填充)和Decode(解碼)這兩塊的計(jì)算,在芯片設(shè)計(jì)領(lǐng)域也要考慮Prefill和Decode的計(jì)算分離。用IO Die去連接不同的內(nèi)存是經(jīng)濟(jì)實(shí)惠的方案,那Prefill采用GDDR和LPDDR就夠了。

基于奎芯的整體解決方案,企業(yè)只需要在SoC端或者計(jì)算芯片上放置其UCIe IP就可以,在IO Die上,可以基于企業(yè)所需要的內(nèi)存,在UCIe到HBM的IO Die以及UCIe到LPDDR的IO Die之間做切換,方便于企業(yè)后面接外置內(nèi)存進(jìn)行直接切換,在SoC上不用放置不同的PHY,可以節(jié)省SoC面積,同時(shí)也可以把SoC的面積更多利用來(lái)仿真計(jì)算單元。

奎芯也在規(guī)劃研發(fā)UCIe到SerDes的Chiplet,以及UCIe到Optical Chiplet的解決方案。

三、解讀四大長(zhǎng)期趨勢(shì),建立AI硬件基礎(chǔ)服務(wù)設(shè)施平臺(tái)公司

最后介紹關(guān)于奎芯的未來(lái)產(chǎn)品規(guī)劃以及愿景。

奎芯看到五到十年的長(zhǎng)期趨勢(shì)包括:

CPO在逐步取代LPO和NPO;CPO從Switch端轉(zhuǎn)向XPU之間互聯(lián)、XPU和內(nèi)存之間互聯(lián);基于HBM4各大內(nèi)存廠家都提出了Base Die的概念,可能不需要Phy;國(guó)內(nèi)有很多Emerging 3D內(nèi)存技術(shù)、Flash技術(shù),都會(huì)對(duì)Base Die提出更高要求。

奎芯正在與海外客戶研討基于Optical Chiplet的內(nèi)存以及互聯(lián)擴(kuò)展方案,包括用Optical部分解決現(xiàn)在的連線瓶頸,最后連接到SoC端或者是AI計(jì)算端,仍采用UCIe IP,但是在內(nèi)存端可以做自由切換。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

這一方案脫離了合封限制,用GDDR可能是更經(jīng)濟(jì)有效的方案,甚至可以用LP/GDDR來(lái)做內(nèi)存,只要在帶寬上滿足對(duì)Prefill或者Decode不同階段的內(nèi)存需求。

XPU之間如果通過(guò)Optical互聯(lián),可以提升帶寬瓶頸,真正意義上突破了周長(zhǎng)受限模式。

奎芯也在與國(guó)內(nèi)內(nèi)存廠商研討基于新型內(nèi)存定制Base Die的方案,還是通過(guò)UCIe IP連接芯片。

其帶寬稍微低于HBM,但大大節(jié)省了成本,同時(shí)這種方案采用標(biāo)準(zhǔn)封裝,省掉了Interposer的設(shè)計(jì)和制造成本,整體上可以降低整體AI系統(tǒng)成本。再加上方案采用國(guó)內(nèi)3D堆疊的DRAM,成本明顯低于標(biāo)準(zhǔn)HBM,供應(yīng)鏈相對(duì)可控。

奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā),加碼UCIe IP、Chiplet丨GACS 2025

其它海外內(nèi)存大廠還在積極推進(jìn)HBM4 Base Die的研發(fā),這一塊奎芯也在于海外大廠共同探討合作,這里面的細(xì)節(jié)與Base Die的設(shè)計(jì)有異曲同工的相似之處。

最后是奎芯的愿景和使命。

奎芯是以互聯(lián)IP起家的公司,未來(lái)希望憑借豐富的IP組合,建立領(lǐng)先的AI硬件基礎(chǔ)服務(wù)設(shè)施平臺(tái)公司,來(lái)引領(lǐng)AI和Chiplet領(lǐng)域的創(chuàng)新。

客戶只要提供自己與自己算法強(qiáng)相關(guān)的核心計(jì)算Die,其它的非核心的Die,像IO Die也好,基本的計(jì)算Die也好,以及2.5D封裝設(shè)計(jì)也好,都可以交給奎芯去做。這樣的商業(yè)模式,特別適合現(xiàn)在大模型的快速迭代速度,以及比較感興趣自己核心算法迭代的大模型公司或者互聯(lián)網(wǎng)公司做一些更快速的芯片的迭代。

謝謝大家!

以上是唐睿演講內(nèi)容的完整整理。