芯東西(公眾號(hào):aichip001)
作者 | 李水青
編輯 | 漠影

在大模型浪潮席卷全球、算力成為核心競爭力的當(dāng)下,國產(chǎn)高端芯片的進(jìn)展備受矚目。

尤其在生成式AI走向規(guī)?;瘧?yīng)用之后,訓(xùn)練效率、推理成本、系統(tǒng)穩(wěn)定性,正在深度反作用于模型能力。僅是實(shí)驗(yàn)室指標(biāo)與參數(shù)競賽,不足回答市場對國產(chǎn)算力“能否真用、是否好用”的拷問。

近日,國產(chǎn)通用GPU“四小龍”之一的天數(shù)智芯,在上市后的首次生態(tài)合作伙伴大會(huì)上,給出了一份系統(tǒng)性的回應(yīng)——罕見地一次性亮出了三張關(guān)鍵“底牌”:

1、首次完整公布天樞、天璇、天璣、天權(quán)四代GPU架構(gòu)路線圖,明確提出分階段對標(biāo)并超越NVIDIA Hopper、Blackwell、Rubin架構(gòu)的技術(shù)目標(biāo)。

該公司在2025年已經(jīng)邁出第一步,天數(shù)天樞整體效率較當(dāng)前行業(yè)最優(yōu)水平提升約60%,在DeepSeek V3的實(shí)測中實(shí)現(xiàn)超20%的表現(xiàn)。

這份首次公開的架構(gòu)路線圖,藏著國產(chǎn)GPU的技術(shù)底氣與成長邏輯

2、正式推出“彤央”系列四款邊端GPU新品,實(shí)測稠密算力覆蓋100T—300T區(qū)間,性能指標(biāo)全面超越NV AGX Orin;

3、首次對外披露商業(yè)落地成果,截至目前已服務(wù)超300家客戶,完成1000余次部署,累計(jì)交付通用GPU超5.2萬片。

天數(shù)智芯董事長兼CEO蓋魯江在會(huì)上強(qiáng)調(diào),AI算力需“以全棧自研筑牢生態(tài)根基”。

此次發(fā)布,這家國產(chǎn)GPU代表企業(yè)已不局限于單點(diǎn)突破,而是試圖從技術(shù)路徑、完整產(chǎn)品和可復(fù)制商業(yè)化三個(gè)維度,構(gòu)建一個(gè)更具確定性的產(chǎn)業(yè)未來。

一、首發(fā)三年超越路線圖:國產(chǎn)通用GPU不止于“可用”

與以往國產(chǎn)GPU企業(yè)更強(qiáng)調(diào)“當(dāng)代產(chǎn)品對標(biāo)”不同,天數(shù)智芯此次發(fā)布的一大變化,就是給出了一個(gè)明確的時(shí)間維度。

天數(shù)智芯首次系統(tǒng)性披露了2025-2027年的架構(gòu)演進(jìn)路線圖。在天數(shù)天樞、天數(shù)天璇、天數(shù)天璣、天數(shù)天權(quán)四大系列架構(gòu)框架下,其技術(shù)目標(biāo)被清晰地映射到國際主流GPU架構(gòu)的代際節(jié)奏之中:

2025年,天數(shù)天樞架構(gòu)實(shí)現(xiàn)對英偉達(dá)Hopper架構(gòu)的超越;

2026年,天數(shù)天璇架構(gòu)對標(biāo)Blackwell,同年天璣架構(gòu)實(shí)現(xiàn)對其的全面超越;

2027年,天數(shù)天權(quán)架構(gòu)將超越下一代的Rubin架構(gòu)。

在此之后,公司的目標(biāo)將轉(zhuǎn)向“突破性計(jì)算芯片架構(gòu)”的原創(chuàng)性設(shè)計(jì)。

這釋放了一個(gè)強(qiáng)烈信號(hào)——天數(shù)智芯不再回避與全球GPU技術(shù)主線的正面對照,而是將自身演進(jìn)節(jié)奏直接嵌入到同一技術(shù)坐標(biāo)系中。

天數(shù)智芯AI與加速計(jì)算技術(shù)負(fù)責(zé)人單天逸認(rèn)為,專用芯片就像應(yīng)試教育,在限定的“題庫”里去完成計(jì)算任務(wù)。而天數(shù)所代表的通用芯片是為了回歸計(jì)算本質(zhì),支持所有類型的計(jì)算。它既能高效支持的當(dāng)前熱點(diǎn)任務(wù),也能支持那些我們還沒想象到的全新算子、全新架構(gòu)。

這份首次公開的架構(gòu)路線圖,藏著國產(chǎn)GPU的技術(shù)底氣與成長邏輯

“我們始終堅(jiān)信,不應(yīng)讓算力的僵化限制算法進(jìn)化,硬件絕不應(yīng)該成為束縛算法探索的枷鎖,而要成為孵化新算法的堅(jiān)實(shí)底座?!眴翁煲輰⑻鞌?shù)芯片比作新世紀(jì)的“算力風(fēng)洞”,意在為研究者探索智慧的本質(zhì)與邊界提供基礎(chǔ)工具。

為了實(shí)現(xiàn)這種面向未來的通用性與高效能,天數(shù)智芯在架構(gòu)層面進(jìn)行了系列創(chuàng)新。這一路線圖并非簡單的算力堆疊,而是圍繞通用計(jì)算效率的系統(tǒng)性優(yōu)化展開:

1、TPC Broadcast設(shè)計(jì),算力的核心瓶頸是帶寬,天數(shù)智芯不單純放大帶寬,而是追求單位帶寬最優(yōu)效果。當(dāng)檢測到相同地址數(shù)據(jù)時(shí),芯片內(nèi)部Load Store單元避免無效訪問,在上游進(jìn)行廣播,大幅降低緩存功耗,等效提升緩存帶寬,以更小功耗和面積實(shí)現(xiàn)同等功能。

2、Instruction Co-Exec設(shè)計(jì),實(shí)現(xiàn)多類指令并行運(yùn)行,除Tensor Core、Vector Core外,新增Scalar Core及指數(shù)、通訊等操作,通過X-Schedule模塊以最低成本提升多指令并行處理能力,從容適配MMA、各類算子及DeepSeek V4等模型。

3、Dynamic Warp Scheduling設(shè)計(jì),微架構(gòu)可駐留更多Warp,通過動(dòng)態(tài)調(diào)度實(shí)現(xiàn)Warp有序協(xié)作,避免資源爭搶與閑置,持續(xù)輸出算力。

值得一提的是,這些技術(shù)并不是針對某一個(gè)模型或某一類負(fù)載的“定制化性能”,而是一種長期可擴(kuò)展的通用GPU架構(gòu)邏輯。

對產(chǎn)業(yè)與投資界而言,這份路線圖的價(jià)值在于提供了難得的“可預(yù)期性”。它標(biāo)志著國產(chǎn)高端GPU的競爭,正從初期的“解決有無問題”和“單點(diǎn)性能比拼”,邁入一個(gè)有明確技術(shù)爬坡路徑、可被持續(xù)驗(yàn)證的新階段。

二、云邊端全棧落地:“彤央”系列補(bǔ)齊邊端算力拼圖

如果說路線圖解決的是“向哪里走”的問題,那么產(chǎn)品矩陣則決定了“如何走”。

本次大會(huì)的另一重頭戲,是天數(shù)智芯正式發(fā)布了其邊端算力產(chǎn)品系列——“彤央”(TY)?!巴搿毕盗幸淮涡酝瞥隽?span style="color: #0f59a4;">四款新品:TY1000、TY1100、TY1100_NX和TY1200,覆蓋100T-300T的實(shí)測稠密算力區(qū)間。在多項(xiàng)關(guān)鍵指標(biāo)上,這一系列產(chǎn)品已全面超越同級別的英偉達(dá)AGX Orin。

但相比性能數(shù)字本身,更值得關(guān)注的是彤央系列的產(chǎn)品定位邏輯。

“彤央”系列并非簡單意義上的“算力下沉版GPU”。天數(shù)智芯邊端事業(yè)部負(fù)責(zé)人郭為談道,其產(chǎn)品定位是圍繞“物理AI”這一前沿趨勢進(jìn)行系統(tǒng)級設(shè)計(jì)。所謂“物理AI”,即讓AI不僅“會(huì)說話”,更能“會(huì)干活”,理解并反饋物理世界規(guī)律,這正是具身智能機(jī)器人、高級別自動(dòng)駕駛、智能工廠等場景的核心需求。

這份首次公開的架構(gòu)路線圖,藏著國產(chǎn)GPU的技術(shù)底氣與成長邏輯

以性能最強(qiáng)的TY1200為例,它不僅在緊湊的機(jī)身內(nèi)容納了300TOPS的算力,更搭載了完整的異構(gòu)算力調(diào)度框架,能夠充分協(xié)調(diào)CPU與GPU資源。這一特性使其能夠應(yīng)用于“機(jī)器人大小腦融合”這類復(fù)雜場景——傳統(tǒng)上,機(jī)器人的運(yùn)動(dòng)控制(“小腦”)與感知決策(“大腦”)由不同模塊處理,容易因通信延遲導(dǎo)致動(dòng)作不協(xié)調(diào)。TY1200的高集成度與強(qiáng)算力,為在一顆芯片上實(shí)現(xiàn)協(xié)同控制提供了可能。

實(shí)測數(shù)據(jù)證明了其產(chǎn)品力。在計(jì)算機(jī)視覺、自然語言處理乃至DeepSeek-32B大語言模型等多個(gè)場景的測試中,彤央TY1000的性能表現(xiàn)均優(yōu)于市場主流產(chǎn)品英偉達(dá)AGX Orin。

“彤央”系列還考慮到客戶已有硬件方案的替換成本問題。該系列全部采用標(biāo)準(zhǔn)化的699Pin接口設(shè)計(jì),在硬件上與英偉達(dá)Orin系列產(chǎn)品實(shí)現(xiàn)了“Pin-to-Pin”兼容,從而極大降低替換成本。

可以看到,通過統(tǒng)一的通用GPU架構(gòu)、開放的軟件生態(tài)以及一致的開發(fā)接口,天數(shù)智芯試圖在“物理AI”趨勢尚未全面爆發(fā)之前,提前完成算力形態(tài)的卡位。

至此,天數(shù)智芯已經(jīng)形成了覆蓋云端訓(xùn)練(天垓)、推理(智鎧)以及邊端計(jì)算(彤央)的完整全棧自研算力矩陣。在架構(gòu)層、軟件層和系統(tǒng)層實(shí)現(xiàn)統(tǒng)一,使得模型可以在不同算力形態(tài)之間平滑遷移。

值得一提的是,這種“全棧自研”的能力并非沒有技術(shù)門檻。從單卡性能,到多卡互聯(lián),再到千卡級集群的穩(wěn)定運(yùn)行,每一層都涉及架構(gòu)設(shè)計(jì)、驅(qū)動(dòng)優(yōu)化與系統(tǒng)工程能力的長期積累。天數(shù)智芯披露,其千卡級集群已穩(wěn)定運(yùn)行超過1000天,驗(yàn)證了其系統(tǒng)的成熟度。

三、5.2萬片交付背后:國產(chǎn)GPU商業(yè)化放量

任何一條技術(shù)路線,最終都必須接受商業(yè)化的檢驗(yàn)。

天數(shù)智芯此次發(fā)布會(huì)的第三大焦點(diǎn),便是首次體系化地公開了其規(guī)?;虡I(yè)落地成果,以實(shí)實(shí)在在的數(shù)據(jù)回應(yīng)了市場關(guān)于國產(chǎn)GPU“能否用好”的疑問。

其披露的最新數(shù)據(jù)顯示,天數(shù)智芯已向金融、互聯(lián)網(wǎng)、醫(yī)療、交通、科研等超過20個(gè)行業(yè)的超300家客戶,完成了超過1000次行業(yè)部署,數(shù)千卡集群穩(wěn)定運(yùn)行1000天。

天數(shù)智芯副總裁鄒翾在演講中列舉了一系列案例:在互聯(lián)網(wǎng)領(lǐng)域,其產(chǎn)品幫助頭部客戶將AI客服的Token處理成本降低了一半;在金融行業(yè),基于其加速卡的研報(bào)生成效率提升了70%,量化交易決策響應(yīng)可達(dá)毫秒級;在醫(yī)療場景,結(jié)構(gòu)化電子病歷的生成時(shí)間從數(shù)分鐘縮短至30秒,腸胃鏡病灶的AI輔助定位精度提升了30%。

這份首次公開的架構(gòu)路線圖,藏著國產(chǎn)GPU的技術(shù)底氣與成長邏輯

另一個(gè)優(yōu)勢是敏捷的模型適配能力。面對國內(nèi)大模型以“季度”為單位的迭代速度,天數(shù)智芯通過與主流模型團(tuán)隊(duì)深度合作,實(shí)現(xiàn)了“多數(shù)大模型發(fā)布當(dāng)天即可跑通”。目前,其平臺(tái)已支持超過150種模型及變種穩(wěn)定運(yùn)行。例如,從DeepSeek V3升級到V3.2,因其已預(yù)先支持95%的算子,客戶僅需調(diào)整不到2%的模型結(jié)構(gòu)即可完成適配。

這種廣泛的行業(yè)覆蓋與深度應(yīng)用,反過來也錘煉了其產(chǎn)品與解決方案的成熟度。郭為在問答環(huán)節(jié)坦誠分享道,早期拓展市場時(shí)面臨更多的是客戶的“排斥與冷淡”,尤其是那些純粹基于性價(jià)比和穩(wěn)定性做選擇的商業(yè)客戶。

破局之道在于“技術(shù)實(shí)力”。只要客戶愿意嘗試,工程師便快速進(jìn)場,通過深度調(diào)優(yōu)呈現(xiàn)超出預(yù)期的性能,逐步建立信任。他甚至透露,一些深度合作的客戶在兩年內(nèi)通過反饋機(jī)制提出了數(shù)百個(gè)問題或建議,這些來自真實(shí)場景的“壓力測試”和需求輸入,成為了產(chǎn)品迭代升級最寶貴的動(dòng)力。

在GPU競爭中,生態(tài)始終是決定成敗的核心壁壘。天數(shù)智芯對此有著清醒認(rèn)知,其將“易遷移”作為核心競爭力之一,在軟件接口層深度兼容CUDA等主流開發(fā)生態(tài),支持PyTorch等主流框架,盡量避免客戶為遷移付出額外學(xué)習(xí)成本。

從其商業(yè)化放量的財(cái)務(wù)數(shù)據(jù)看,2022-2024年,營收從1.894億元增長至5.395億元,復(fù)合年增長率高達(dá)68.8%;2025年上半年?duì)I收達(dá)3.243億元,同比增長64.2%。這些財(cái)務(wù)數(shù)字背后,是一個(gè)已經(jīng)跑通并進(jìn)入放量增長階段的商業(yè)閉環(huán)。

結(jié)語:算力競爭,正在回歸長期主義

回顧整場發(fā)布會(huì),天數(shù)智芯反復(fù)強(qiáng)調(diào)的關(guān)鍵詞并非“替代”,而是“賦能者”。

其通用GPU架構(gòu)已兼容PyTorch、xllm等主流框架,支持150余種模型穩(wěn)定運(yùn)行;在實(shí)際項(xiàng)目中,開發(fā)與遷移成本僅為部分競品的三分之一;并已完成與主流CPU、服務(wù)器廠商及云平臺(tái)的系統(tǒng)級適配。

在智能社會(huì)逐步成型的過程中,真正稀缺的,并不是某一代芯片的峰值性能指標(biāo),而是一個(gè)能夠持續(xù)支撐算法演進(jìn)、應(yīng)用擴(kuò)展與產(chǎn)業(yè)規(guī)模化的底層算力平臺(tái)。

從清晰的路線圖,到完整的產(chǎn)品矩陣,再到正在放量的商業(yè)化數(shù)據(jù),天數(shù)智芯正在給出一種更偏長期主義、也更具產(chǎn)業(yè)確定性的答案。

國產(chǎn)GPU“行不行”,或許不再需要一句口號(hào)式回應(yīng),而正在被一項(xiàng)項(xiàng)工程進(jìn)展與商業(yè)結(jié)果,逐步寫入現(xiàn)實(shí)。