芯東西(公眾號(hào):aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西1月29日?qǐng)?bào)道,近日,國(guó)內(nèi)AI芯片創(chuàng)企奕行智能分享技術(shù)路線及業(yè)務(wù)進(jìn)展。其研發(fā)的國(guó)內(nèi)業(yè)界首款RISC-V AI算力芯片Epoch正在大規(guī)模量產(chǎn)出貨中。

該芯片在業(yè)界率先采用RISC-V + RVV(RISC-V向量擴(kuò)展)指令集架構(gòu),結(jié)合自研的VISA(虛擬指令集)技術(shù),兼顧了AI計(jì)算的通用性與專用性。

奕行智能成立于2022年1月,專注于新一代通用AI計(jì)算的芯片設(shè)計(jì)及解決方案,在2025年完成數(shù)億元A輪融資,累計(jì)融資已超過10億元。

該公司已推出數(shù)款AI芯片,最新一代AI計(jì)算芯片產(chǎn)品Epoch于2025年啟動(dòng)量產(chǎn),目前在頭部系統(tǒng)廠商、互聯(lián)網(wǎng),數(shù)據(jù)中心及行業(yè)客戶均取得商業(yè)突破,斬獲巨額在手商業(yè)訂單,迎來規(guī)?;慨a(chǎn)。

據(jù)奕行智能分享,Epoch系列產(chǎn)品及計(jì)算平臺(tái)解決方案2025年開始推向市場(chǎng),反饋火爆。公司現(xiàn)金流健康,不斷持續(xù)融資,具備很強(qiáng)的造血能力,較早實(shí)現(xiàn)規(guī)模可觀的銷售收入,且從2023年以來每年銷售收入都以平均200%左右的速度在增長(zhǎng),公司資本化也在積極規(guī)劃中。

一、創(chuàng)業(yè)受特斯拉BEV算法啟發(fā),研發(fā)類TPU架構(gòu)RISC-V AI算力芯片

奕行智能管理團(tuán)隊(duì)創(chuàng)業(yè)念頭的萌芽,始于2021年特斯拉AI Day上發(fā)布的BEV算法。BEV算法的底層架構(gòu)就是Transformer,也就是如今紅遍大江南北的大語(yǔ)言模型的基石。

創(chuàng)業(yè)后,奕行智能團(tuán)隊(duì)在戰(zhàn)略上定位,一定要有自己的AI計(jì)算架構(gòu)作為公司的技術(shù)靈魂,所以投入了大量的團(tuán)隊(duì)資源和研發(fā)力量,圍繞Transformer的計(jì)算特點(diǎn),構(gòu)建了一套包括AI計(jì)算架構(gòu)、AI編譯器以及相應(yīng)的軟件工具鏈的核心技術(shù)棧。

在先后開發(fā)了兩代車載AI芯片并規(guī)?;慨a(chǎn)的同時(shí),順應(yīng)大模型應(yīng)用場(chǎng)景爆發(fā)式增長(zhǎng)的趨勢(shì),奕行智能團(tuán)隊(duì)結(jié)合自研的AI計(jì)算架構(gòu),定義并開發(fā)了Epoch AI計(jì)算芯片。

Epoch采用了業(yè)界首款RISC-V +VISA雙融合通用AI計(jì)算架構(gòu)

該架構(gòu)與TPU具備較強(qiáng)的相似性,例如同樣采用RISC-V內(nèi)核,并內(nèi)置了性能強(qiáng)大的雙脈動(dòng)流水矩陣運(yùn)算引擎及具備復(fù)雜矩陣數(shù)據(jù)處理與變換的4D DMA引擎。

根據(jù)奕行智能分享,DeepSeek等大模型廠商對(duì)下一代AI計(jì)算芯片的很多硬件性能要求,在其芯片中都有前沿布局,例如對(duì)分塊量化FP8計(jì)算的支持、對(duì)FP8累加精度達(dá)到34比特以上的精度要求的支持、在芯片中設(shè)計(jì)專門加速通信流的硬件專用單元、把硬件的縱向擴(kuò)展和橫向擴(kuò)展統(tǒng)一成一套網(wǎng)絡(luò)體系等。

除了支持傳統(tǒng)的多種浮點(diǎn)及整型數(shù)據(jù)類型以外,其AI芯片還支持DeepSeek所需的基于分塊量化的FP8計(jì)算精度,并支持NVFP4、MXFP4、MXFP8、MXINT8等前沿的數(shù)據(jù)格式,可高效釋放算力,大幅降低存儲(chǔ)開銷。

據(jù)其披露的實(shí)測(cè)產(chǎn)品性能,Epoch產(chǎn)品能和國(guó)際競(jìng)品相比均有優(yōu)勢(shì)。在運(yùn)行ResNet-50、BERT-Base、GPT-J、Llama 2等模型時(shí),Epoch性能比競(jìng)品高出25%~52%。

在FlashAttention-3等關(guān)鍵大模型融合算子,其算力利用率較競(jìng)品具有明顯優(yōu)勢(shì)。

針對(duì)AI對(duì)算力的需求,奕行智能的方案有三大亮點(diǎn):

  • 規(guī)?;?/strong>:采用先進(jìn)芯片架構(gòu),實(shí)現(xiàn)更高算力密度,并通過ELink互聯(lián)技術(shù)支持大規(guī)模擴(kuò)展;
  • 效率提升:采用類TPU架構(gòu),兼顧高性能與高效率,并通過深度軟硬協(xié)同,提升算力使用效率;
  • 生態(tài)創(chuàng)新:采用RISC-V + RVV開源指令集,賦予硬件靈活擴(kuò)展能力,并基于軟硬件一體的Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu),通過Tile語(yǔ)義的虛擬指令集提供更友好的編程界面。

國(guó)內(nèi)首款RISC-V AI算力芯片大規(guī)模量產(chǎn)!類TPU架構(gòu)迎爆發(fā)

在多芯互聯(lián)方面,奕行智能擁有自研的互聯(lián)技術(shù)方案ELink,可支持大規(guī)?;ヂ?lián)擴(kuò)展。

ELink能與集成RoCEv2、SUE、EthLink、C-Link協(xié)議的交換設(shè)備和芯片進(jìn)行無縫高效互聯(lián),支持800G/400G/200G可配置以太網(wǎng)標(biāo)準(zhǔn)協(xié)議,支持Scale up超大帶寬與超低延遲傳輸需求,支持全帶寬互聯(lián)等多種互聯(lián)拓?fù)?,兼容?nèi)存語(yǔ)義與DMA語(yǔ)義,并能配合交換側(cè)支持業(yè)界最前沿的在網(wǎng)計(jì)算功能。

二、“CUDA兼容”并非唯一答案,專用領(lǐng)域計(jì)算+Tile路線快速發(fā)展

現(xiàn)有AI計(jì)算芯片中,英偉達(dá)的GPGPU憑借SIMT架構(gòu)具備強(qiáng)大并行計(jì)算能力,依賴強(qiáng)大的CUDA生態(tài),使得GPU成為當(dāng)前業(yè)界占比最高的算力硬件形態(tài)。

產(chǎn)業(yè)界有不少采用類GPGPU架構(gòu)的廠家,希望通過CUDA兼容的方式,獲得GPGPU的一部分市場(chǎng)份額。

但因?yàn)镃UDA是英偉達(dá)深度軟硬件協(xié)同的產(chǎn)物,就好比CUDA是把針對(duì)英偉達(dá)硬件的“鑰匙”,只有用在英偉達(dá)的GPGPU上才能發(fā)揮其強(qiáng)大性能,所以CUDA兼容往往只能做到API層面的兼容,看上去很美,實(shí)際上卻存在普遍性的水土不服。

同時(shí)因?yàn)橛ミ_(dá)的硬件不斷往前演進(jìn),CUDA兼容可能會(huì)出現(xiàn)落后N卡許多年的尷尬之處。

國(guó)內(nèi)首款RISC-V AI算力芯片大規(guī)模量產(chǎn)!類TPU架構(gòu)迎爆發(fā)

另一方面,以谷歌TPU為代表的ASIC芯片采用SIMD架構(gòu),內(nèi)置針對(duì)矩陣運(yùn)算等AI范式的專用加速單元,在性能與能效上具有比GPGPU更大的優(yōu)勢(shì),但其過去的挑戰(zhàn)主要在于生態(tài)適配成本。

相較于已發(fā)展近20年的CUDA生態(tài),如何吸引開發(fā)者在專用硬件上進(jìn)行高效編程,成為多數(shù)ASIC廠商面臨的共同問題。

而包括谷歌在內(nèi)的頭部ASIC廠商通過長(zhǎng)期投入,已在生態(tài)適配方面取得顯著突破。

以TPU為例,其通過XLA編譯技術(shù),不僅支持谷歌系的TensorFlow和JAX框架,也能適配主流開源框架PyTorch(該框架在全球機(jī)器學(xué)習(xí)開發(fā)應(yīng)用中占比超過80%),從而有效降低了生態(tài)遷移門檻。

國(guó)內(nèi)首款RISC-V AI算力芯片大規(guī)模量產(chǎn)!類TPU架構(gòu)迎爆發(fā)

另一條提升編程友好性和開發(fā)效率的路徑,在于近年來興起的Tile(數(shù)據(jù)分塊)計(jì)算范式。AI計(jì)算中的數(shù)據(jù)往往具有規(guī)整性,基于Tile的編程模式更貼合這類計(jì)算特征,能夠提供更友好的編程接口,提升算子開發(fā)效率。

例如,DeepSeek已采用北大團(tuán)隊(duì)開源的TileLang構(gòu)建算子,并在新模型中以其作為精度基準(zhǔn);甚至英偉達(dá)也在CUDA 13.1中推出了基于Tile編程范式的編程界面CUDA Tile。

國(guó)內(nèi)首款RISC-V AI算力芯片大規(guī)模量產(chǎn)!類TPU架構(gòu)迎爆發(fā)

在TPU以極致能耗比搶占市場(chǎng)的同時(shí),專用領(lǐng)域架構(gòu)(DSA)設(shè)計(jì)思想也體現(xiàn)在GPU的迭代中。

英偉達(dá)在GPGPU中持續(xù)提升DSA的比例,從Volta架構(gòu)首次引入Tensor Core,到Blackwell架構(gòu)進(jìn)一步擴(kuò)大張量核心規(guī)模并加入針對(duì)Transformer的優(yōu)化引擎,體現(xiàn)出向領(lǐng)域定制化演進(jìn)的趨勢(shì)。2025年12月,英偉達(dá)吸納AI推理芯片創(chuàng)企Groq的核心團(tuán)隊(duì),進(jìn)一步加強(qiáng)在大模型推理定制化方面的布局。

國(guó)外巨頭積極布局,體現(xiàn)出DSA(ASIC)+Tile編程范式的興起會(huì)成為未來在算力領(lǐng)域的一種重要生態(tài)和力量,軟硬協(xié)同帶來的效率優(yōu)勢(shì)在AGI時(shí)代具有廣闊市場(chǎng)空間。

DSA與Tile編程范式的結(jié)合,也正是奕行智能產(chǎn)品的重要特點(diǎn)和重點(diǎn)布局卡位的技術(shù)方向。

三、3項(xiàng)核心技術(shù)創(chuàng)新:充分挖掘硬件算力,簡(jiǎn)化軟件復(fù)雜度

奕行智能的解決方案采用業(yè)界首款RISC-V + VISA雙融合類TPU通用AI計(jì)算架構(gòu)EVAMIND,兼顧高性能與高效率,實(shí)現(xiàn)算力密度與吞吐率雙重提升,原生支持卷積指令,契合深度學(xué)習(xí)演進(jìn)趨勢(shì)。

區(qū)別于傳統(tǒng)的GPGPU和NPU架構(gòu),其解決方案擁有3項(xiàng)核心技術(shù)創(chuàng)新

國(guó)內(nèi)首款RISC-V AI算力芯片大規(guī)模量產(chǎn)!類TPU架構(gòu)迎爆發(fā)

1、RISC-V開放計(jì)算標(biāo)準(zhǔn)

奕行智能率先采用RISC-V+RVV(RISC-V向量擴(kuò)展)構(gòu)建AI芯片架構(gòu)。

RISC-V指令集圖靈完備,保障了通用計(jì)算能力,同時(shí)其模塊化設(shè)計(jì)允許廠商自由擴(kuò)展專用AI計(jì)算指令,自定義高效的張量計(jì)算加速、超越函數(shù)、數(shù)據(jù)搬運(yùn)等指令。

RVV原生支持復(fù)雜向量計(jì)算,支持多種數(shù)據(jù)類型的混合精度計(jì)算。

RISC-V有全球生態(tài)基礎(chǔ),支持RVV 1.0全球標(biāo)準(zhǔn)。谷歌從TPUv5開始采用RISC-V指令集,高通、Meta均收購(gòu)高性能RISC-V芯片企業(yè),反映出發(fā)展RISC-V已成為科技巨頭的共識(shí)。

奕行智能團(tuán)隊(duì)認(rèn)為,RISC-V是當(dāng)前最適合構(gòu)建AI處理器的指令集架構(gòu)。其特點(diǎn)包括:

  • 開放的圖靈完備指令:天然支持復(fù)雜控制流,可避免NPU的靈活性短板;
  • RVV向量?jī)?yōu)勢(shì):天然契合AI張量計(jì)算,掩碼操作原生支持稀疏矩陣;
  • 成熟生態(tài)借力:GCC/LLVM主流編譯器已完全支持,主流AI框架正在積極適配;
  • 定制化潛力:允許在標(biāo)準(zhǔn)之上擴(kuò)展專用指令,完美平衡通用性與專用性。

Epoch芯片中的EVAMIND AI內(nèi)核集成多組RISC-V高性能核:

  • RISC-V標(biāo)量計(jì)算引擎負(fù)責(zé)核內(nèi)計(jì)算和控制,支持雙發(fā)射核內(nèi)的VISA指令發(fā)射及調(diào)度運(yùn)行;
  • RISC-V向量加速引擎中,圖靈完備的高性能RVV向量加速RV核,超寬的D-length及I-Length利用RVV擴(kuò)展技術(shù)對(duì)AI常用的超越函數(shù)硬件指令化,大幅提升AI計(jì)算性能。

在SoC頂層,其芯片集成多組片上RISC-V高性能核,擁有芯片級(jí)的調(diào)度和控制,以及專用的通信流加速CPU Cluster。

2、VISA虛擬指令架構(gòu)

奕行智能獨(dú)創(chuàng)的虛擬指令(VISA)技術(shù)在軟件與硬件之間建立中間抽象層,讓上層的算子及AI編譯器軟件建立在VISA之上,硬件實(shí)現(xiàn)了VISA宏指令的順序發(fā)射、亂序執(zhí)行,從而隔離硬件變化對(duì)上層軟件的沖擊,有效解決軟件兼容與適配性挑戰(zhàn),巧妙地兼顧了計(jì)算通用性與效率,滿足了AI計(jì)算所需的抽象。

同時(shí),VISA抽象也降低了AI編譯器與算子的實(shí)現(xiàn)難度,提供額外的性能優(yōu)化空間。

該架構(gòu)可解決三大行業(yè)痼疾:

(1)隔離硬件迭代差異:不同代際芯片存在指令增減、計(jì)算單元大小變化、緩存層次及容量變化,為軟件兼容與適配性帶來挑戰(zhàn)。VISA作為中間抽象層可以讓上層算子及編譯器建立在此抽象上,隔離硬件變化對(duì)上層軟件帶來的沖擊。

(2)計(jì)算的擴(kuò)展能力:軟件算法持續(xù)更新迭代,對(duì)架構(gòu)計(jì)算的可擴(kuò)展能力是很大的挑戰(zhàn)。EVAS架構(gòu)在硬件層面通過RVV的向量定制指令提供硬件擴(kuò)展能力,同時(shí)VSA將細(xì)粒度指令封裝并優(yōu)化成性能高的微內(nèi)核,提供了軟件層面的向量計(jì)算擴(kuò)展能力,這樣一套軟硬結(jié)合的方式解決了通用與效率的兼顧。

3)解決AI編譯的陡降問題:在AI計(jì)算中,將高級(jí)的Tensor操作直接編譯到底層SIMD指令時(shí),由于兩者抽象層級(jí)差距巨大,會(huì)導(dǎo)致嚴(yán)重的編譯困難,性能損失。VISA通過使用軟流水、循環(huán)展開方式進(jìn)行極致優(yōu)化,編譯器及算子實(shí)現(xiàn)只需關(guān)注到這個(gè)層級(jí),簡(jiǎn)化了實(shí)現(xiàn)難度。

3、Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu)

在AI場(chǎng)景下,數(shù)據(jù)大多是比較規(guī)則的,無需太多靈活性。因此,基于Tile的編程模式逐漸興起。

奕行智能獨(dú)創(chuàng)的Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu)由Tile級(jí)虛擬指令集、智能編譯器和硬件調(diào)度器組成,原生適配Tile生態(tài)范式,能夠?qū)崟r(shí)適配硬件行為,充分挖掘并行潛力,突破靜態(tài)優(yōu)化的天花板,編程也更為干凈簡(jiǎn)潔。

該架構(gòu)的自動(dòng)管理指令間依賴、指令順序流水和內(nèi)存切分,大大提高了編程易用性。

國(guó)內(nèi)首款RISC-V AI算力芯片大規(guī)模量產(chǎn)!類TPU架構(gòu)迎爆發(fā)

結(jié)語(yǔ):軟件平臺(tái)兼容主流AI框架,正與Triton社區(qū)推進(jìn)重要RISC-V合作

從技術(shù)路線來看,奕行智能與現(xiàn)有主流AI芯片的設(shè)計(jì)思路,既有與專用AI芯片架構(gòu)的共通之處,又不乏差異點(diǎn)。

最顯著的差異當(dāng)屬采用RISC-V指令集架構(gòu)來設(shè)計(jì)AI芯片,并基于前文所述的3項(xiàng)核心技術(shù)創(chuàng)新以及軟件工具鏈,來探索一種追求極致TCO的新型高性能AI加速方案。

奕行智能正在持續(xù)完善軟件棧及生態(tài)。

其軟件開發(fā)平臺(tái)采用了自研基礎(chǔ)軟件棧ETK+業(yè)界開源AI框架的方式提供的開放兼容解決方案,全面兼容主流AI框架,提供豐富的深度優(yōu)化高性能算子,并通過獨(dú)創(chuàng)的Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu),突破傳統(tǒng)靜態(tài)調(diào)度模式的性能瓶頸,提高編程易用性。

國(guó)內(nèi)首款RISC-V AI算力芯片大規(guī)模量產(chǎn)!類TPU架構(gòu)迎爆發(fā)

生態(tài)方面,奕行智能正在積極與全球開源社區(qū)互動(dòng),也在與Triton國(guó)際社區(qū)構(gòu)建一個(gè)重量級(jí)合作,把Triton編譯導(dǎo)流到RISC-V DSA后端,并將開源其虛擬指令集,合力打造針對(duì)RISC-V DSA的CUDA生態(tài),這對(duì)于RISC-V DSA整個(gè)產(chǎn)業(yè)的發(fā)展具有重要的戰(zhàn)略意義。

以TPU為代表的專用領(lǐng)域AI計(jì)算架構(gòu),以突出的能效比取得了市場(chǎng)成功。奕行智能的Epoch芯片,基于類TPU芯片架構(gòu),在國(guó)內(nèi)AI芯片的激烈競(jìng)爭(zhēng)中,有望在這個(gè)領(lǐng)域中實(shí)現(xiàn)突破。