芯東西(公眾號(hào):aichip001)
編輯 | ?GACS

9月14日~15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳南山圓滿舉行。在首日開(kāi)幕式上,原粒半導(dǎo)體聯(lián)合創(chuàng)始人原鋼分享了題為《AI Chiplet:加速大模型在邊緣端多場(chǎng)景落地的新思路》的主題演講。

由于大模型蒸餾技術(shù)得到了充分發(fā)展,超大模型可以生成一系列適合邊端的小模型,取得接近于大模型的效果。而說(shuō)到大模型邊緣端部署,一定離不開(kāi)芯片的支持。原鋼談道,面對(duì)大模型,當(dāng)下的邊緣端芯片面臨挑戰(zhàn),涉及模型演進(jìn)、存儲(chǔ)容量、帶寬、互連、功耗、方案成本、多變需求、研發(fā)成本、研發(fā)周期等多個(gè)方面。

對(duì)此,原粒半導(dǎo)體的思路是用AI Chiplet的方法應(yīng)對(duì),把SoC算力跟NPU(神經(jīng)網(wǎng)絡(luò)處理器)的AI算力解綁,再靈活組合出邊緣端芯片,以適配邊緣端大模型的推理要求。目前,原粒半導(dǎo)體已研發(fā)出多模態(tài)算力核心CalCore技術(shù),支持企業(yè)將大模型部署在端側(cè);以及自適應(yīng)算力融合CalFusion技術(shù),自動(dòng)分配芯粒以捆綁不同的算力。

以下為原鋼的演講實(shí)錄

大家下午好,我叫原鋼,來(lái)自原粒半導(dǎo)體。今天很感謝主辦方邀請(qǐng)我能來(lái)參加活動(dòng),我們主要是想分享一下大模型在邊緣端側(cè)的一些想法。

我這次主要報(bào)告大概分成三個(gè)部分:一是邊緣端大模型芯片機(jī)遇和挑戰(zhàn),二是如何用Chiplet推動(dòng)邊緣端大模型部署,最后是原粒半導(dǎo)體在AI Chiplet方面所做努力或者想法。

一、大模型奔向邊緣端,AI芯片面臨九大挑戰(zhàn)

第一部分,邊緣大模型AI芯片機(jī)遇和挑戰(zhàn)。就在幾個(gè)月之前,基本上大家談到大模型還是大語(yǔ)言模型,無(wú)論是ChatGPT,還是百度文心一言,以及阿里、騰訊、科大迅飛的(大模型),大家都是在云端做大模型的推理。在云端推理,并不適合每一個(gè)場(chǎng)景,有很多場(chǎng)景需要在邊端推理。

這里總結(jié)了四個(gè)典型問(wèn)題:

第一,在云端推理,當(dāng)你用戶的數(shù)目激增的時(shí)候,基本上云端服務(wù)器的成本,無(wú)論是部署成本還是最后的運(yùn)營(yíng)成本,總成本都會(huì)得到很大的提升。根據(jù)CNBC報(bào)道,微軟在Bing里已經(jīng)集成了ChatGPT的引擎,如果想滿足所有Bing客戶的請(qǐng)求,想得到一個(gè)很好的響應(yīng),大概要部署16萬(wàn)塊A100,投資40億美元,并不是每一個(gè)創(chuàng)業(yè)公司都有能力、有足夠的成本覆蓋這部分的投入。

第二,大模型對(duì)網(wǎng)絡(luò)要求非常強(qiáng)。有很多場(chǎng)景不可能時(shí)時(shí)刻刻有聯(lián)網(wǎng),典型就是車(chē),因?yàn)檐?chē)在城市里開(kāi)問(wèn)題不大,一旦開(kāi)到郊區(qū),開(kāi)到無(wú)人區(qū)或者越野,大概率網(wǎng)絡(luò)會(huì)時(shí)有時(shí)無(wú),甚至山里很可能沒(méi)有網(wǎng)絡(luò)了。無(wú)論是座艙還是自動(dòng)駕駛,如果是高度依賴云端推理,我想在車(chē)領(lǐng)域是很不適合的。

第三,云端無(wú)論是因?yàn)樗懔Φ臐q落還是因?yàn)榫W(wǎng)絡(luò)延遲,總會(huì)造成控制網(wǎng)絡(luò)的延遲。比如谷歌演示的通過(guò)大模型演示機(jī)械手,如果依賴云端的推理,很可能在機(jī)械手操作過(guò)程中出現(xiàn)卡頓,甚至出現(xiàn)更多的錯(cuò)誤,這對(duì)于機(jī)械手來(lái)說(shuō)是絕對(duì)不能接受的。

第四,云端安全問(wèn)題。有很多場(chǎng)景是非常明顯的,像醫(yī)院會(huì)有很多病歷,對(duì)于他們來(lái)說(shuō)都是非常高的精密數(shù)據(jù),他們大概不會(huì)把它傳到云端去做推理。大模型很大的應(yīng)用是對(duì)于已有文檔的推理或者歸納,產(chǎn)生一些新的報(bào)告,比如讓它閱讀以往的文件、產(chǎn)生綜述或者分析以往病歷、推理病的診斷。這個(gè)情況下如果把之前積攢的模型全部放到云端,這對(duì)很多特殊場(chǎng)合肯定是不能接受的。

最近兩三個(gè)月來(lái),可以看到整個(gè)大模型在加速地奔向邊緣端。因?yàn)槟壳按竽P驼麴s技術(shù)得到了充分的發(fā)展,使用原來(lái)預(yù)訓(xùn)練超大模型,通過(guò)對(duì)應(yīng)的辦法,生成一系列適合邊端的小模型,就能取得接近于大模型的效果。

右邊列了比較典型的例子,類似于Meta已經(jīng)推出7B、13B、70B,最早是3B。這種模型,如果進(jìn)行量化,比如量化成INT4之后,它很適合在邊緣端設(shè)備上部署的。

我們也看到最近兩個(gè)月,無(wú)論是高通還是蘋(píng)果,都已經(jīng)嘗試在他們的手機(jī)上部署大模型。左邊結(jié)構(gòu)是我自己iPhone的截圖,它跑的是7B模型,達(dá)到了相對(duì)比較好的結(jié)果。當(dāng)然可能跟云端ChatGPT沒(méi)法比,但是我感覺(jué)如果對(duì)一些垂直領(lǐng)域的應(yīng)用來(lái)說(shuō),可能不需要回答一些哲學(xué)問(wèn)題,只是讓它回答簡(jiǎn)單的問(wèn)題,還是高度可用的。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

既然說(shuō)到大模型要到邊緣端,一定會(huì)有芯片。本身在邊緣端大模型芯片,現(xiàn)在多數(shù)是SoC。如果你為邊緣端推理部署一些芯片,我們大概總結(jié)了一些困境或者一些需要考慮的問(wèn)題:

第一,模型演進(jìn)。整個(gè)大模型的演進(jìn)復(fù)雜度遠(yuǎn)超原來(lái)CNN算法復(fù)雜度,而且算法不斷迭代。包括Transformer本身,很可能不久將來(lái)對(duì)基礎(chǔ)的結(jié)構(gòu)也會(huì)替換掉。這樣就要求當(dāng)我們做芯片設(shè)計(jì),比如AI IP的時(shí)候,就不能說(shuō)針對(duì)某一個(gè)模型做優(yōu)化,很可能當(dāng)你芯片出來(lái)之后就已經(jīng)過(guò)時(shí)了,不能支持最新的算法。

第二,存儲(chǔ)容量。大模型的容量遠(yuǎn)遠(yuǎn)超過(guò)之前傳統(tǒng)CNN的模型。最小的大模型,就算是3B,如果不量化,大概也有3GB容量,已經(jīng)超過(guò)很多經(jīng)典SoC能支撐的容量。

第三,帶寬。如果拿大模型做語(yǔ)音推理,基本上每吐出一個(gè)字/詞就要把整個(gè)模型完整地Round一遍。如果達(dá)到一秒鐘吐出10個(gè)詞,如果用一個(gè)3GB模型,整個(gè)SoC帶寬至少要30GB,才能夠支持這么一個(gè)推理。

第四,互聯(lián)。如果跑很大的模型,很可能一個(gè)芯片不能完成。就像剛才嘉賓講的,他們是用芯粒的方式,可能會(huì)用多個(gè)芯?;蛘叨鄠€(gè)芯片完成一個(gè)大模型的推理。對(duì)于大模型怎么拆分,拆完之后你認(rèn)為怎么分配、算力怎么部署,會(huì)有很復(fù)雜的考量。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

第五,功耗。邊緣端最看重功耗。因?yàn)樵谠贫?,功耗就是成本?wèn)題,無(wú)非是對(duì)各種散熱方法,可以承受。英偉達(dá)最新的H100或更高的卡,可能已經(jīng)到700W功耗,這對(duì)數(shù)據(jù)中心來(lái)說(shuō)不是什么大問(wèn)題,但是作為邊緣端,基本功耗超過(guò)10W就加風(fēng)扇了。加風(fēng)扇,一是有噪音,二是風(fēng)扇可靠性會(huì)有問(wèn)題,所以邊緣端,功耗是非常重要的因素。

第六,整個(gè)方案的成本。比如你要搭配不同的算力,成本是決定大模型在邊緣端能不能真正大批量鋪開(kāi)一個(gè)非常關(guān)鍵的因素。因?yàn)楹芏鄳?yīng)用,大模型本身是做一個(gè)賦能,如果成本太高,去做市場(chǎng)推廣也是很不利的。

第七,多變需求。大模型的尺寸可能既有不到3B,又有超過(guò)10B甚至100B,很可能你需要在不同場(chǎng)景部署不同的尺寸大模型。這樣就要求你,很難用統(tǒng)一的標(biāo)準(zhǔn)或者幾個(gè)標(biāo)準(zhǔn)的規(guī)格SoC去覆蓋這一系列模型,因?yàn)檫@樣對(duì)于成本不是特別劃算。最好的是給每一個(gè)算法或者每一個(gè)模型尺寸專門(mén)去配一個(gè)SoC,這對(duì)于研發(fā)來(lái)說(shuō)成本是不能接受的。

最后兩項(xiàng):一個(gè)是研發(fā)成本,一個(gè)是研發(fā)周期?,F(xiàn)在一個(gè)SoC,如果12納米,基本上在1000萬(wàn)到2000萬(wàn)美元之間,連IP到后端可能才能拿下來(lái),周期基本18個(gè)月,連前端驗(yàn)證+后端+整個(gè)軟件開(kāi)發(fā)。如果你想開(kāi)發(fā)太多規(guī)格的SoC,無(wú)論是周期還是成本,都是很難承受的代價(jià)。

二、AI Chiplet :邊緣端大模型部署新選擇

下面講講我們?nèi)绾稳テ平鈩偛盘岬降膯?wèn)題,我們的思路是用AI Chiplet的方法進(jìn)行應(yīng)對(duì)。

首先拿桌面游戲的PC舉例,因?yàn)槲沂呛芏嗄觌娔X游戲的玩家。我們?cè)趯W(xué)校去配一臺(tái)游戲電腦,CPU沒(méi)什么太多可選的?,F(xiàn)在我們就用一顆i5 13500或者i7 13700,就能滿足絕大部分的要求,主要成本或錢(qián)就花在顯卡上。玩一些網(wǎng)游顯卡需要兩千,主流游戲可能要三千到四千,骨灰級(jí)游戲可能要一萬(wàn)多,就是英偉達(dá)的4090。依此類推,基本上CPU跟主板變化是非常小的。主要對(duì)游戲來(lái)說(shuō),CPU都不是瓶頸,真正瓶頸在顯卡。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

我們拓展到邊緣端是一樣的,現(xiàn)在很多邊緣端應(yīng)用,SoC或者是Arm,它的能力都足夠覆蓋大模型處理需求,真正差別在于NPU本身。我們可以參照PC端情況,我們把SoC和NPU也進(jìn)行解綁。像這邊,也是對(duì)應(yīng)左邊三個(gè)顯卡,也是列出三種NPU Die的組合。

比如我們拿一個(gè)SoC配合輕量級(jí)NPU,它就可以處理一些比較輕量級(jí)的AI任務(wù)。拿SoC配一顆中量級(jí)的NPU Die,就可以處理稍微復(fù)雜的工作。把同樣一個(gè)SoC去配兩顆NPU Die的組合,就可以處理非常重的任務(wù)。這是把算力跟NPU解綁的過(guò)程,可以很靈活各種方案適配邊緣端大模型推理的要求。

我們是用NPU、用芯粒來(lái)解決問(wèn)題,怎么做呢?說(shuō)起來(lái)簡(jiǎn)單,其實(shí)有很多問(wèn)題要考慮,尤其是成本。由成本,又引入了互連、存儲(chǔ)、擴(kuò)展三個(gè)方面。

首先看互連,因?yàn)楝F(xiàn)在NPU基本是基于MR總線或者基于其他的總線,它是很寬的一個(gè)并行接口。如果簡(jiǎn)單把它移到片外,等于你要應(yīng)對(duì)幾千條很高速的連接才能跟CPU進(jìn)行連接。對(duì)于封裝甚至最高級(jí)的封裝是不能接受的,所以必須把接口進(jìn)行轉(zhuǎn)換。但是轉(zhuǎn)換就有很多不同的選項(xiàng),包括USB也有很多不同的選項(xiàng)。不同的選項(xiàng),決定它有不同的成本,包括方案,2D封裝還是2.5D封裝?一個(gè)基板,到底是5美金還是20美金?這個(gè)會(huì)差得非常大。

當(dāng)我們芯粒跟SoC互連,目前的情況主要是,市面上的SoC或者已經(jīng)做好的SoC的設(shè)計(jì)都不會(huì)有專用的die-to-die結(jié)構(gòu),還是用通用的PCIe或者USB接口。如果把NPU從CPU中剝離,如果用專用結(jié)構(gòu),整個(gè)設(shè)計(jì)要重來(lái)。如果已經(jīng)有現(xiàn)成的一顆SoC,不想重來(lái)怎么辦呢?就可以用USB或者PCIe接口,跟主芯片進(jìn)行互連,這樣可以很快地得到一個(gè)全新的設(shè)計(jì)。

然后存儲(chǔ),這主要是說(shuō)AI Chiplet到底是自帶DRAM還是主SoC的DRAM?因?yàn)楝F(xiàn)在多數(shù)主流SoC本身DRAM的位寬不是很寬,最大的也是將將應(yīng)對(duì)大概7B大模型的支持。我們?nèi)绻ミx擇用共享來(lái)做DRAM,它的好處是成本,整個(gè)方案可能只用同一個(gè)DRAM,但是它會(huì)搶主SoC帶寬。尤其同時(shí)顯示,顯示要不斷刷屏。如果用大模型推理,再去搶主SoC帶寬,會(huì)對(duì)原來(lái)功能形成沖擊。這塊要平衡一下,到底R(shí)AM是放在主芯片,通過(guò)總線共享,還是每個(gè)AI芯粒要自帶一個(gè)DRAM?

然后是擴(kuò)展,擴(kuò)展主要指的是到底是從頭為了把AI芯粒拆分出來(lái),重新設(shè)計(jì)一顆?還是盡量借由現(xiàn)有的SoC設(shè)計(jì),只去迭代推出一個(gè)方案?如果是AI Chiplet,面臨多芯?;ヂ?lián)的問(wèn)題,因?yàn)樾玖W畲蟮暮锰幨嵌询B不同數(shù)目的Die、不同種類的Die,來(lái)實(shí)現(xiàn)迅速的新方案,所以互聯(lián)也是它難以避免的話題。

三、原粒AI Chiplet,助力SoC廠商拓展大模型邊緣端應(yīng)用

下面簡(jiǎn)單給大家匯報(bào)一下我們?cè)0雽?dǎo)體在AI方面的進(jìn)展,還有我們一些想法。

首先給大家介紹一下,我們公司成立也不太久,我們所有核心成員都是來(lái)自于國(guó)內(nèi)、國(guó)外頂級(jí)的芯片公司。整個(gè)團(tuán)隊(duì)在AI方面的經(jīng)驗(yàn)有很多年的時(shí)間,一直專注于AI芯粒本身。我們公司的目標(biāo)是專注于AI芯粒本身,配合其他成熟或者現(xiàn)有的廠商,提供做大模型算力的支持。

我們主要提供下面四類產(chǎn)品:第一,標(biāo)準(zhǔn)AI Chiplet產(chǎn)品,翻譯過(guò)來(lái)就是買(mǎi)Die。第二,我們會(huì)把AI Chiplet做封裝,提供給客戶。因?yàn)橛行┛蛻羰菦](méi)有封裝設(shè)備能力,可能它有一個(gè)芯片但是不希望進(jìn)行合封,因?yàn)榉N種原因可能不太適合合封,我們可以把我們的Die封成芯片,在PC板上跟它進(jìn)行連接。第三,我們會(huì)做一些定制化AI Chiplet封裝,主要是兩方面,一是AI Chiplet規(guī)格,比如客戶需要多少算力、需要什么樣的接口,我們可以定制;二是可以通過(guò)客戶所需要的算力,去搭配不同數(shù)目的AI Die,給客戶提供類似的選擇。最后,AI應(yīng)用開(kāi)發(fā)軟件棧,畢竟也是我們一個(gè)異構(gòu)的AI處理器,肯定是需要有一些配套的軟件開(kāi)發(fā)棧完成客戶的設(shè)計(jì)。

這邊主要介紹我們公司兩個(gè)核心技術(shù),一個(gè)是重中之重,多模態(tài)算力核心。無(wú)論是對(duì)于傳統(tǒng)CNN算法,還是對(duì)于目前大模型、未來(lái)多模態(tài)算法,都能提供很好的支持。它為了支持未來(lái)的這些算法,盡量提高兼容性,做了從INT4、INT8、FP8等全精度的支持,便于客戶把它在顯卡上所訓(xùn)練好的模型直接部署到我們芯片中。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

第二個(gè)是跟AI Chiplet結(jié)合很緊的自適應(yīng)算力融合技術(shù),這也是跟芯粒概念息息相關(guān)、緊密捆綁的,必須得做一個(gè)不同拓?fù)浣Y(jié)構(gòu)的支持。我可能會(huì)根據(jù)不同算法要求或者不同應(yīng)用場(chǎng)景,去捆綁不同的算力。同時(shí),不同芯粒之間可能也會(huì)用不同的拓?fù)浞绞?。如果你讓客戶根?jù)拓?fù)浣Y(jié)構(gòu)編程、定制,我想體驗(yàn)會(huì)非常差。我們這邊所有的軟件和硬件是支持拓?fù)渥赃m應(yīng)的連接,無(wú)論芯粒配了多少顆,用什么樣的拓?fù)?,?huì)自動(dòng)把它進(jìn)行分配,包括協(xié)調(diào)芯粒之間的連接。

當(dāng)我們有4個(gè)芯粒組成的系統(tǒng),怎么動(dòng)態(tài)分配它的連接還有算力?左邊是基于Tranformer大模型的一段,比如這個(gè)模型非常大,無(wú)論它的容量還是算力都不足以被一顆算力所支撐,我們會(huì)把它拆成兩段,把它放在兩個(gè)芯粒,甚至拆成更多的段。當(dāng)然,這個(gè)工作都是由編譯器、運(yùn)行時(shí)自動(dòng)完成的。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

如果是右邊的案例,這是稍微比較經(jīng)典的CV視覺(jué)任務(wù)。當(dāng)我們一個(gè)芯粒能處理超過(guò)一個(gè)模型的時(shí)候,會(huì)把我們輸出數(shù)據(jù)最合理地分配到不同的芯粒之間,實(shí)現(xiàn)一個(gè)更高的效果。我們支持通過(guò)分景模型、分景任務(wù),自動(dòng)分配。無(wú)論是對(duì)于模型切分,還是對(duì)于任務(wù)進(jìn)行切分,都是能完成的。

另外強(qiáng)調(diào)一點(diǎn),目前看到的一些新的應(yīng)用或者新的場(chǎng)景,是對(duì)于本地大模型微調(diào)的需求。以后大模型更多是垂直領(lǐng)域,無(wú)論是律所還是醫(yī)院,甚至更加小眾的,他們大概的模式是去下載預(yù)訓(xùn)練大模型,結(jié)合本地一些數(shù)據(jù),然后做微調(diào),去匹配,在本地進(jìn)行更符合本地業(yè)務(wù)的推理,這也是未來(lái)大模型非常典型的應(yīng)用。

傳統(tǒng)的方法怎么做的?我拿大模型,在云端或者在大服務(wù)器上,針對(duì)本地的數(shù)據(jù)進(jìn)行微調(diào)。因?yàn)樾玖VС侄嗑扔?jì)算,我們是支持在邊緣端針對(duì)本地采集的數(shù)據(jù)進(jìn)行微調(diào)。我們把大模型微調(diào)的位置從服務(wù)器或者從客戶中心轉(zhuǎn)移到邊緣端設(shè)備,這未來(lái)一定會(huì)創(chuàng)造很多新的應(yīng)用場(chǎng)景。

基本上每家做芯片都會(huì)有,配合AI Chiplet一定會(huì)有一套軟件。這跟別家不一樣,對(duì)多芯粒之間拓?fù)涞闹С?。無(wú)論你的算力是多少、你的配置多少,一定會(huì)有一個(gè)配置,如果你要求客戶自己根據(jù)硬件連接做特殊編程,一定會(huì)有非常差的體驗(yàn)。我們從供應(yīng)鏈、運(yùn)行時(shí)的角度,能夠根據(jù)你的配置、算力、任務(wù)需求自動(dòng)分配,完全是透明的,用戶看到的就是算力大了很多。比如我們用了4個(gè)芯粒,用戶看到就是算力×4統(tǒng)一的接口,不會(huì)按照4個(gè)NPU的方法去編程。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

為了加快產(chǎn)品落地,也是為了盡量重用市場(chǎng)現(xiàn)有SoC廠商的產(chǎn)品,我們?yōu)橐恍┏墒霺oC產(chǎn)品做優(yōu)化。主要是這幾塊:

第一,我們是會(huì)用標(biāo)準(zhǔn)的接口搭配現(xiàn)在已經(jīng)成熟的SoC,無(wú)論是市場(chǎng)上買(mǎi)到的還是未來(lái)的發(fā)布,大多數(shù)可能具備PCIe或者USB接口。

第二,芯?;ミB,我們采用的是多模態(tài)die-to-die接口。多模態(tài)指的是既支持在同一個(gè)封裝上進(jìn)行多模態(tài)集成,也支持多個(gè)芯片在PCB上進(jìn)行互連。這樣的好處是,用戶可以通過(guò)最大的靈活性滿足要求。因?yàn)槲覀冎刈鲆粋€(gè)封裝至少要6個(gè)月時(shí)間,從設(shè)計(jì)到打樣、量產(chǎn),畢竟還要去調(diào)測(cè)程序,還要做很多事情。但是重做一個(gè)PCB,最快一個(gè)月時(shí)間可以完成一個(gè)生產(chǎn)。為了能夠滿足盡量多樣化配置和規(guī)格需求,也盡量縮短研發(fā)時(shí)間,我們采用了既支持多Die在統(tǒng)一封裝形式,也支持PCB級(jí)擴(kuò)展的模式。

我們放了很多異構(gòu)核心,主要考量我們想盡量降低對(duì)主芯片算力的需求,采用最低端的CPU也可以通過(guò)配合AI芯粒完成大模型的推理。

我們也會(huì)支持一些可選非易失性存儲(chǔ)器接口,主要是考慮當(dāng)配合一些很低端CPU的時(shí)候,可能不具備高速的Flash接口。我們會(huì)在芯粒內(nèi)部會(huì)支持這么一個(gè)加載,其實(shí)也是變相減輕了對(duì)主CPU的需求。我們還是采用2D封裝,盡量滿足成本需求,沒(méi)有采用2.5D封裝。

給大家匯報(bào)一下我們目前的產(chǎn)品規(guī)劃。

這是我們第一代產(chǎn)品規(guī)劃,單芯粒數(shù)+TOPS INT8等效算力,支持多芯粒擴(kuò)展數(shù)十至數(shù)百TOPS INT8等效算力;支持FP32/FP16/BF16/FP8/INT8/INT4等AI精度;我們是支持高效訓(xùn)推一體架構(gòu),支持通用算子及自定義算子。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

在互連方面,我們支持die-to-die方式,也支持通過(guò)PCIe和USB等方式互連。支持不同位寬不同數(shù)目的位置,滿足不同場(chǎng)景的需求。這是我們推出的標(biāo)準(zhǔn)封裝片產(chǎn)品,包括封了1個(gè)Die、2個(gè)Die,還有4個(gè)Die的。

我們列了一些現(xiàn)在主流上能買(mǎi)到的SoC規(guī)格,至少是A53、A55起。我們認(rèn)為這些SoC跑大模型足夠強(qiáng),它們有足夠數(shù)目的視頻接口,也有足夠規(guī)格的硬件接口,是跑編程大模型一個(gè)很完美的CPU配置。只要去搭配原?,F(xiàn)有的AI Chiplet,很快可以實(shí)現(xiàn)邊緣端大模型推理方案。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

最后給大家講一下我們的愿景,我們的愿景是聚焦高性價(jià)比、多模態(tài)通用AI Chiplet研發(fā)。我們目標(biāo)是配合現(xiàn)有SoC廠商,一起合作供應(yīng)推出大模型邊緣端方案。我們的遠(yuǎn)景是做一個(gè)最全面AI算力基礎(chǔ)設(shè)施供應(yīng)商。我的報(bào)告到這里,謝謝大家聆聽(tīng)。

以上是原鋼演講內(nèi)容的完整整理。