亚洲欧美一区二区三区久久国产,97在线观看精品视频

芯東西（公眾號(hào)：aichip001）
編輯 | ?GACS

9月14日~15日，2023全球AI芯片峰會(huì)（GACS 2023）在深圳南山圓滿舉行。在首日開(kāi)幕式上，原粒半導(dǎo)體聯(lián)合創(chuàng)始人原鋼分享了題為《AI Chiplet：加速大模型在邊緣端多場(chǎng)景落地的新思路》的主題演講。

由于大模型蒸餾技術(shù)得到了充分發(fā)展，超大模型可以生成一系列適合邊端的小模型，取得接近于大模型的效果。而說(shuō)到大模型邊緣端部署，一定離不開(kāi)芯片的支持。原鋼談道，面對(duì)大模型，當(dāng)下的邊緣端芯片面臨挑戰(zhàn)，涉及模型演進(jìn)、存儲(chǔ)容量、帶寬、互連、功耗、方案成本、多變需求、研發(fā)成本、研發(fā)周期等多個(gè)方面。

對(duì)此，原粒半導(dǎo)體的思路是用AI Chiplet的方法應(yīng)對(duì)，把SoC算力跟NPU（神經(jīng)網(wǎng)絡(luò)處理器）的AI算力解綁，再靈活組合出邊緣端芯片，以適配邊緣端大模型的推理要求。目前，原粒半導(dǎo)體已研發(fā)出多模態(tài)算力核心CalCore技術(shù)，支持企業(yè)將大模型部署在端側(cè)；以及自適應(yīng)算力融合CalFusion技術(shù)，自動(dòng)分配芯粒以捆綁不同的算力。

以下為原鋼的演講實(shí)錄：

大家下午好，我叫原鋼，來(lái)自原粒半導(dǎo)體。今天很感謝主辦方邀請(qǐng)我能來(lái)參加活動(dòng)，我們主要是想分享一下大模型在邊緣端側(cè)的一些想法。

我這次主要報(bào)告大概分成三個(gè)部分：一是邊緣端大模型芯片機(jī)遇和挑戰(zhàn)，二是如何用Chiplet推動(dòng)邊緣端大模型部署，最后是原粒半導(dǎo)體在AI Chiplet方面所做努力或者想法。

一、大模型奔向邊緣端，AI芯片面臨九大挑戰(zhàn)

第一部分，邊緣大模型AI芯片機(jī)遇和挑戰(zhàn)。就在幾個(gè)月之前，基本上大家談到大模型還是大語(yǔ)言模型，無(wú)論是ChatGPT，還是百度文心一言，以及阿里、騰訊、科大迅飛的（大模型），大家都是在云端做大模型的推理。在云端推理，并不適合每一個(gè)場(chǎng)景，有很多場(chǎng)景需要在邊端推理。

這里總結(jié)了四個(gè)典型問(wèn)題：

第一，在云端推理，當(dāng)你用戶的數(shù)目激增的時(shí)候，基本上云端服務(wù)器的成本，無(wú)論是部署成本還是最后的運(yùn)營(yíng)成本，總成本都會(huì)得到很大的提升。根據(jù)CNBC報(bào)道，微軟在Bing里已經(jīng)集成了ChatGPT的引擎，如果想滿足所有Bing客戶的請(qǐng)求，想得到一個(gè)很好的響應(yīng)，大概要部署16萬(wàn)塊A100，投資40億美元，并不是每一個(gè)創(chuàng)業(yè)公司都有能力、有足夠的成本覆蓋這部分的投入。

第二，大模型對(duì)網(wǎng)絡(luò)要求非常強(qiáng)。有很多場(chǎng)景不可能時(shí)時(shí)刻刻有聯(lián)網(wǎng)，典型就是車(chē)，因?yàn)檐?chē)在城市里開(kāi)問(wèn)題不大，一旦開(kāi)到郊區(qū)，開(kāi)到無(wú)人區(qū)或者越野，大概率網(wǎng)絡(luò)會(huì)時(shí)有時(shí)無(wú)，甚至山里很可能沒(méi)有網(wǎng)絡(luò)了。無(wú)論是座艙還是自動(dòng)駕駛，如果是高度依賴云端推理，我想在車(chē)領(lǐng)域是很不適合的。

第三，云端無(wú)論是因?yàn)樗懔Φ臐q落還是因?yàn)榫W(wǎng)絡(luò)延遲，總會(huì)造成控制網(wǎng)絡(luò)的延遲。比如谷歌演示的通過(guò)大模型演示機(jī)械手，如果依賴云端的推理，很可能在機(jī)械手操作過(guò)程中出現(xiàn)卡頓，甚至出現(xiàn)更多的錯(cuò)誤，這對(duì)于機(jī)械手來(lái)說(shuō)是絕對(duì)不能接受的。

第四，云端安全問(wèn)題。有很多場(chǎng)景是非常明顯的，像醫(yī)院會(huì)有很多病歷，對(duì)于他們來(lái)說(shuō)都是非常高的精密數(shù)據(jù)，他們大概不會(huì)把它傳到云端去做推理。大模型很大的應(yīng)用是對(duì)于已有文檔的推理或者歸納，產(chǎn)生一些新的報(bào)告，比如讓它閱讀以往的文件、產(chǎn)生綜述或者分析以往病歷、推理病的診斷。這個(gè)情況下如果把之前積攢的模型全部放到云端，這對(duì)很多特殊場(chǎng)合肯定是不能接受的。

最近兩三個(gè)月來(lái)，可以看到整個(gè)大模型在加速地奔向邊緣端。因?yàn)槟壳按竽Ｐ驼麴s技術(shù)得到了充分的發(fā)展，使用原來(lái)預(yù)訓(xùn)練超大模型，通過(guò)對(duì)應(yīng)的辦法，生成一系列適合邊端的小模型，就能取得接近于大模型的效果。

右邊列了比較典型的例子，類似于Meta已經(jīng)推出7B、13B、70B，最早是3B。這種模型，如果進(jìn)行量化，比如量化成INT4之后，它很適合在邊緣端設(shè)備上部署的。

我們也看到最近兩個(gè)月，無(wú)論是高通還是蘋(píng)果，都已經(jīng)嘗試在他們的手機(jī)上部署大模型。左邊結(jié)構(gòu)是我自己iPhone的截圖，它跑的是7B模型，達(dá)到了相對(duì)比較好的結(jié)果。當(dāng)然可能跟云端ChatGPT沒(méi)法比，但是我感覺(jué)如果對(duì)一些垂直領(lǐng)域的應(yīng)用來(lái)說(shuō)，可能不需要回答一些哲學(xué)問(wèn)題，只是讓它回答簡(jiǎn)單的問(wèn)題，還是高度可用的。

原粒半導(dǎo)體原鋼：大模型加速奔向邊緣端，AI Chiplet成部署新選擇丨GACS 2023

既然說(shuō)到大模型要到邊緣端，一定會(huì)有芯片。本身在邊緣端大模型芯片，現(xiàn)在多數(shù)是SoC。如果你為邊緣端推理部署一些芯片，我們大概總結(jié)了一些困境或者一些需要考慮的問(wèn)題：

第一，模型演進(jìn)。整個(gè)大模型的演進(jìn)復(fù)雜度遠(yuǎn)超原來(lái)CNN算法復(fù)雜度，而且算法不斷迭代。包括Transformer本身，很可能不久將來(lái)對(duì)基礎(chǔ)的結(jié)構(gòu)也會(huì)替換掉。這樣就要求當(dāng)我們做芯片設(shè)計(jì)，比如AI IP的時(shí)候，就不能說(shuō)針對(duì)某一個(gè)模型做優(yōu)化，很可能當(dāng)你芯片出來(lái)之后就已經(jīng)過(guò)時(shí)了，不能支持最新的算法。

第二，存儲(chǔ)容量。大模型的容量遠(yuǎn)遠(yuǎn)超過(guò)之前傳統(tǒng)CNN的模型。最小的大模型，就算是3B，如果不量化，大概也有3GB容量，已經(jīng)超過(guò)很多經(jīng)典SoC能支撐的容量。

第三，帶寬。如果拿大模型做語(yǔ)音推理，基本上每吐出一個(gè)字/詞就要把整個(gè)模型完整地Round一遍。如果達(dá)到一秒鐘吐出10個(gè)詞，如果用一個(gè)3GB模型，整個(gè)SoC帶寬至少要30GB，才能夠支持這么一個(gè)推理。

第四，互聯(lián)。如果跑很大的模型，很可能一個(gè)芯片不能完成。就像剛才嘉賓講的，他們是用芯粒的方式，可能會(huì)用多個(gè)芯?；蛘叨鄠€(gè)芯片完成一個(gè)大模型的推理。對(duì)于大模型怎么拆分，拆完之后你認(rèn)為怎么分配、算力怎么部署，會(huì)有很復(fù)雜的考量。

原粒半導(dǎo)體原鋼：大模型加速奔向邊緣端，AI Chiplet成部署新選擇丨GACS 2023

第五，功耗。邊緣端最看重功耗。因?yàn)樵谠贫?，功耗就是成本?wèn)題，無(wú)非是對(duì)各種散熱方法，可以承受。英偉達(dá)最新的H100或更高的卡，可能已經(jīng)到700W功耗，這對(duì)數(shù)據(jù)中心來(lái)說(shuō)不是什么大問(wèn)題，但是作為邊緣端，基本功耗超過(guò)10W就加風(fēng)扇了。加風(fēng)扇，一是有噪音，二是風(fēng)扇可靠性會(huì)有問(wèn)題，所以邊緣端，功耗是非常重要的因素。

第六，整個(gè)方案的成本。比如你要搭配不同的算力，成本是決定大模型在邊緣端能不能真正大批量鋪開(kāi)一個(gè)非常關(guān)鍵的因素。因?yàn)楹芏鄳?yīng)用，大模型本身是做一個(gè)賦能，如果成本太高，去做市場(chǎng)推廣也是很不利的。

第七，多變需求。大模型的尺寸可能既有不到3B，又有超過(guò)10B甚至100B，很可能你需要在不同場(chǎng)景部署不同的尺寸大模型。這樣就要求你，很難用統(tǒng)一的標(biāo)準(zhǔn)或者幾個(gè)標(biāo)準(zhǔn)的規(guī)格SoC去覆蓋這一系列模型，因?yàn)檫@樣對(duì)于成本不是特別劃算。最好的是給每一個(gè)算法或者每一個(gè)模型尺寸專門(mén)去配一個(gè)SoC，這對(duì)于研發(fā)來(lái)說(shuō)成本是不能接受的。

最后兩項(xiàng)：一個(gè)是研發(fā)成本，一個(gè)是研發(fā)周期?，F(xiàn)在一個(gè)SoC，如果12納米，基本上在1000萬(wàn)到2000萬(wàn)美元之間，連IP到后端可能才能拿下來(lái)，周期基本18個(gè)月，連前端驗(yàn)證+后端+整個(gè)軟件開(kāi)發(fā)。如果你想開(kāi)發(fā)太多規(guī)格的SoC，無(wú)論是周期還是成本，都是很難承受的代價(jià)。

二、AI Chiplet ：邊緣端大模型部署新選擇

下面講講我們?nèi)绾稳テ平鈩偛盘岬降膯?wèn)題，我們的思路是用AI Chiplet的方法進(jìn)行應(yīng)對(duì)。

首先拿桌面游戲的PC舉例，因?yàn)槲沂呛芏嗄觌娔X游戲的玩家。我們?cè)趯W(xué)校去配一臺(tái)游戲電腦，CPU沒(méi)什么太多可選的?，F(xiàn)在我們就用一顆i5 13500或者i7 13700，就能滿足絕大部分的要求，主要成本或錢(qián)就花在顯卡上。玩一些網(wǎng)游顯卡需要兩千，主流游戲可能要三千到四千，骨灰級(jí)游戲可能要一萬(wàn)多，就是英偉達(dá)的4090。依此類推，基本上CPU跟主板變化是非常小的。主要對(duì)游戲來(lái)說(shuō)，CPU都不是瓶頸，真正瓶頸在顯卡。

原粒半導(dǎo)體原鋼：大模型加速奔向邊緣端，AI Chiplet成部署新選擇丨GACS 2023

我們拓展到邊緣端是一樣的，現(xiàn)在很多邊緣端應(yīng)用，SoC或者是Arm，它的能力都足夠覆蓋大模型處理需求，真正差別在于NPU本身。我們可以參照PC端情況，我們把SoC和NPU也進(jìn)行解綁。像這邊，也是對(duì)應(yīng)左邊三個(gè)顯卡，也是列出三種NPU Die的組合。

比如我們拿一個(gè)SoC配合輕量級(jí)NPU，它就可以處理一些比較輕量級(jí)的AI任務(wù)。拿SoC配一顆中量級(jí)的NPU Die，就可以處理稍微復(fù)雜的工作。把同樣一個(gè)SoC去配兩顆NPU Die的組合，就可以處理非常重的任務(wù)。這是把算力跟NPU解綁的過(guò)程，可以很靈活各種方案適配邊緣端大模型推理的要求。

我們是用NPU、用芯粒來(lái)解決問(wèn)題，怎么做呢？說(shuō)起來(lái)簡(jiǎn)單，其實(shí)有很多問(wèn)題要考慮，尤其是成本。由成本，又引入了互連、存儲(chǔ)、擴(kuò)展三個(gè)方面。

首先看互連，因?yàn)楝F(xiàn)在NPU基本是基于MR總線或者基于其他的總線，它是很寬的一個(gè)并行接口。如果簡(jiǎn)單把它移到片外，等于你要應(yīng)對(duì)幾千條很高速的連接才能跟CPU進(jìn)行連接。對(duì)于封裝甚至最高級(jí)的封裝是不能接受的，所以必須把接口進(jìn)行轉(zhuǎn)換。但是轉(zhuǎn)換就有很多不同的選項(xiàng)，包括USB也有很多不同的選項(xiàng)。不同的選項(xiàng)，決定它有不同的成本，包括方案，2D封裝還是2.5D封裝？一個(gè)基板，到底是5美金還是20美金？這個(gè)會(huì)差得非常大。

當(dāng)我們芯粒跟SoC互連，目前的情況主要是，市面上的SoC或者已經(jīng)做好的SoC的設(shè)計(jì)都不會(huì)有專用的die-to-die結(jié)構(gòu)，還是用通用的PCIe或者USB接口。如果把NPU從CPU中剝離，如果用專用結(jié)構(gòu)，整個(gè)設(shè)計(jì)要重來(lái)。如果已經(jīng)有現(xiàn)成的一顆SoC，不想重來(lái)怎么辦呢？就可以用USB或者PCIe接口，跟主芯片進(jìn)行互連，這樣可以很快地得到一個(gè)全新的設(shè)計(jì)。

然后存儲(chǔ)，這主要是說(shuō)AI Chiplet到底是自帶DRAM還是主SoC的DRAM？因?yàn)楝F(xiàn)在多數(shù)主流SoC本身DRAM的位寬不是很寬，最大的也是將將應(yīng)對(duì)大概7B大模型的支持。我們?nèi)绻ミx擇用共享來(lái)做DRAM，它的好處是成本，整個(gè)方案可能只用同一個(gè)DRAM，但是它會(huì)搶主SoC帶寬。尤其同時(shí)顯示，顯示要不斷刷屏。如果用大模型推理，再去搶主SoC帶寬，會(huì)對(duì)原來(lái)功能形成沖擊。這塊要平衡一下，到底R(shí)AM是放在主芯片，通過(guò)總線共享，還是每個(gè)AI芯粒要自帶一個(gè)DRAM？

然后是擴(kuò)展，擴(kuò)展主要指的是到底是從頭為了把AI芯粒拆分出來(lái)，重新設(shè)計(jì)一顆？還是盡量借由現(xiàn)有的SoC設(shè)計(jì)，只去迭代推出一個(gè)方案？如果是AI Chiplet，面臨多芯?；ヂ?lián)的問(wèn)題，因?yàn)樾玖Ｗ畲蟮暮锰幨嵌询B不同數(shù)目的Die、不同種類的Die，來(lái)實(shí)現(xiàn)迅速的新方案，所以互聯(lián)也是它難以避免的話題。

三、原粒AI Chiplet，助力SoC廠商拓展大模型邊緣端應(yīng)用

下面簡(jiǎn)單給大家匯報(bào)一下我們?cè)０雽?dǎo)體在AI方面的進(jìn)展，還有我們一些想法。

首先給大家介紹一下，我們公司成立也不太久，我們所有核心成員都是來(lái)自于國(guó)內(nèi)、國(guó)外頂級(jí)的芯片公司。整個(gè)團(tuán)隊(duì)在AI方面的經(jīng)驗(yàn)有很多年的時(shí)間，一直專注于AI芯粒本身。我們公司的目標(biāo)是專注于AI芯粒本身，配合其他成熟或者現(xiàn)有的廠商，提供做大模型算力的支持。

我們主要提供下面四類產(chǎn)品：第一，標(biāo)準(zhǔn)AI Chiplet產(chǎn)品，翻譯過(guò)來(lái)就是買(mǎi)Die。第二，我們會(huì)把AI Chiplet做封裝，提供給客戶。因?yàn)橛行┛蛻羰菦](méi)有封裝設(shè)備能力，可能它有一個(gè)芯片但是不希望進(jìn)行合封，因?yàn)榉N種原因可能不太適合合封，我們可以把我們的Die封成芯片，在PC板上跟它進(jìn)行連接。第三，我們會(huì)做一些定制化AI Chiplet封裝，主要是兩方面，一是AI Chiplet規(guī)格，比如客戶需要多少算力、需要什么樣的接口，我們可以定制；二是可以通過(guò)客戶所需要的算力，去搭配不同數(shù)目的AI Die，給客戶提供類似的選擇。最后，AI應(yīng)用開(kāi)發(fā)軟件棧，畢竟也是我們一個(gè)異構(gòu)的AI處理器，肯定是需要有一些配套的軟件開(kāi)發(fā)棧完成客戶的設(shè)計(jì)。

這邊主要介紹我們公司兩個(gè)核心技術(shù)，一個(gè)是重中之重，多模態(tài)算力核心。無(wú)論是對(duì)于傳統(tǒng)CNN算法，還是對(duì)于目前大模型、未來(lái)多模態(tài)算法，都能提供很好的支持。它為了支持未來(lái)的這些算法，盡量提高兼容性，做了從INT4、INT8、FP8等全精度的支持，便于客戶把它在顯卡上所訓(xùn)練好的模型直接部署到我們芯片中。

原粒半導(dǎo)體原鋼：大模型加速奔向邊緣端，AI Chiplet成部署新選擇丨GACS 2023

第二個(gè)是跟AI Chiplet結(jié)合很緊的自適應(yīng)算力融合技術(shù)，這也是跟芯粒概念息息相關(guān)、緊密捆綁的，必須得做一個(gè)不同拓?fù)浣Y(jié)構(gòu)的支持。我可能會(huì)根據(jù)不同算法要求或者不同應(yīng)用場(chǎng)景，去捆綁不同的算力。同時(shí)，不同芯粒之間可能也會(huì)用不同的拓?fù)浞绞?。如果你讓客戶根?jù)拓?fù)浣Y(jié)構(gòu)編程、定制，我想體驗(yàn)會(huì)非常差。我們這邊所有的軟件和硬件是支持拓?fù)渥赃m應(yīng)的連接，無(wú)論芯粒配了多少顆，用什么樣的拓?fù)?，?huì)自動(dòng)把它進(jìn)行分配，包括協(xié)調(diào)芯粒之間的連接。

當(dāng)我們有4個(gè)芯粒組成的系統(tǒng)，怎么動(dòng)態(tài)分配它的連接還有算力？左邊是基于Tranformer大模型的一段，比如這個(gè)模型非常大，無(wú)論它的容量還是算力都不足以被一顆算力所支撐，我們會(huì)把它拆成兩段，把它放在兩個(gè)芯粒，甚至拆成更多的段。當(dāng)然，這個(gè)工作都是由編譯器、運(yùn)行時(shí)自動(dòng)完成的。

原粒半導(dǎo)體原鋼：大模型加速奔向邊緣端，AI Chiplet成部署新選擇丨GACS 2023

如果是右邊的案例，這是稍微比較經(jīng)典的CV視覺(jué)任務(wù)。當(dāng)我們一個(gè)芯粒能處理超過(guò)一個(gè)模型的時(shí)候，會(huì)把我們輸出數(shù)據(jù)最合理地分配到不同的芯粒之間，實(shí)現(xiàn)一個(gè)更高的效果。我們支持通過(guò)分景模型、分景任務(wù)，自動(dòng)分配。無(wú)論是對(duì)于模型切分，還是對(duì)于任務(wù)進(jìn)行切分，都是能完成的。

另外強(qiáng)調(diào)一點(diǎn)，目前看到的一些新的應(yīng)用或者新的場(chǎng)景，是對(duì)于本地大模型微調(diào)的需求。以后大模型更多是垂直領(lǐng)域，無(wú)論是律所還是醫(yī)院，甚至更加小眾的，他們大概的模式是去下載預(yù)訓(xùn)練大模型，結(jié)合本地一些數(shù)據(jù)，然后做微調(diào)，去匹配，在本地進(jìn)行更符合本地業(yè)務(wù)的推理，這也是未來(lái)大模型非常典型的應(yīng)用。

傳統(tǒng)的方法怎么做的？我拿大模型，在云端或者在大服務(wù)器上，針對(duì)本地的數(shù)據(jù)進(jìn)行微調(diào)。因?yàn)樾玖ＶС侄嗑扔?jì)算，我們是支持在邊緣端針對(duì)本地采集的數(shù)據(jù)進(jìn)行微調(diào)。我們把大模型微調(diào)的位置從服務(wù)器或者從客戶中心轉(zhuǎn)移到邊緣端設(shè)備，這未來(lái)一定會(huì)創(chuàng)造很多新的應(yīng)用場(chǎng)景。

基本上每家做芯片都會(huì)有，配合AI Chiplet一定會(huì)有一套軟件。這跟別家不一樣，對(duì)多芯粒之間拓?fù)涞闹С?。無(wú)論你的算力是多少、你的配置多少，一定會(huì)有一個(gè)配置，如果你要求客戶自己根據(jù)硬件連接做特殊編程，一定會(huì)有非常差的體驗(yàn)。我們從供應(yīng)鏈、運(yùn)行時(shí)的角度，能夠根據(jù)你的配置、算力、任務(wù)需求自動(dòng)分配，完全是透明的，用戶看到的就是算力大了很多。比如我們用了4個(gè)芯粒，用戶看到就是算力×4統(tǒng)一的接口，不會(huì)按照4個(gè)NPU的方法去編程。

原粒半導(dǎo)體原鋼：大模型加速奔向邊緣端，AI Chiplet成部署新選擇丨GACS 2023

為了加快產(chǎn)品落地，也是為了盡量重用市場(chǎng)現(xiàn)有SoC廠商的產(chǎn)品，我們?yōu)橐恍┏墒霺oC產(chǎn)品做優(yōu)化。主要是這幾塊：

第一，我們是會(huì)用標(biāo)準(zhǔn)的接口搭配現(xiàn)在已經(jīng)成熟的SoC，無(wú)論是市場(chǎng)上買(mǎi)到的還是未來(lái)的發(fā)布，大多數(shù)可能具備PCIe或者USB接口。

第二，芯?；ミB，我們采用的是多模態(tài)die-to-die接口。多模態(tài)指的是既支持在同一個(gè)封裝上進(jìn)行多模態(tài)集成，也支持多個(gè)芯片在PCB上進(jìn)行互連。這樣的好處是，用戶可以通過(guò)最大的靈活性滿足要求。因?yàn)槲覀冎刈鲆粋€(gè)封裝至少要6個(gè)月時(shí)間，從設(shè)計(jì)到打樣、量產(chǎn)，畢竟還要去調(diào)測(cè)程序，還要做很多事情。但是重做一個(gè)PCB，最快一個(gè)月時(shí)間可以完成一個(gè)生產(chǎn)。為了能夠滿足盡量多樣化配置和規(guī)格需求，也盡量縮短研發(fā)時(shí)間，我們采用了既支持多Die在統(tǒng)一封裝形式，也支持PCB級(jí)擴(kuò)展的模式。

我們放了很多異構(gòu)核心，主要考量我們想盡量降低對(duì)主芯片算力的需求，采用最低端的CPU也可以通過(guò)配合AI芯粒完成大模型的推理。

我們也會(huì)支持一些可選非易失性存儲(chǔ)器接口，主要是考慮當(dāng)配合一些很低端CPU的時(shí)候，可能不具備高速的Flash接口。我們會(huì)在芯粒內(nèi)部會(huì)支持這么一個(gè)加載，其實(shí)也是變相減輕了對(duì)主CPU的需求。我們還是采用2D封裝，盡量滿足成本需求，沒(méi)有采用2.5D封裝。

給大家匯報(bào)一下我們目前的產(chǎn)品規(guī)劃。

這是我們第一代產(chǎn)品規(guī)劃，單芯粒數(shù)+TOPS INT8等效算力，支持多芯粒擴(kuò)展數(shù)十至數(shù)百TOPS INT8等效算力；支持FP32/FP16/BF16/FP8/INT8/INT4等AI精度；我們是支持高效訓(xùn)推一體架構(gòu)，支持通用算子及自定義算子。

原粒半導(dǎo)體原鋼：大模型加速奔向邊緣端，AI Chiplet成部署新選擇丨GACS 2023

在互連方面，我們支持die-to-die方式，也支持通過(guò)PCIe和USB等方式互連。支持不同位寬不同數(shù)目的位置，滿足不同場(chǎng)景的需求。這是我們推出的標(biāo)準(zhǔn)封裝片產(chǎn)品，包括封了1個(gè)Die、2個(gè)Die，還有4個(gè)Die的。

我們列了一些現(xiàn)在主流上能買(mǎi)到的SoC規(guī)格，至少是A53、A55起。我們認(rèn)為這些SoC跑大模型足夠強(qiáng)，它們有足夠數(shù)目的視頻接口，也有足夠規(guī)格的硬件接口，是跑編程大模型一個(gè)很完美的CPU配置。只要去搭配原?，F(xiàn)有的AI Chiplet，很快可以實(shí)現(xiàn)邊緣端大模型推理方案。

原粒半導(dǎo)體原鋼：大模型加速奔向邊緣端，AI Chiplet成部署新選擇丨GACS 2023

最后給大家講一下我們的愿景，我們的愿景是聚焦高性價(jià)比、多模態(tài)通用AI Chiplet研發(fā)。我們目標(biāo)是配合現(xiàn)有SoC廠商，一起合作供應(yīng)推出大模型邊緣端方案。我們的遠(yuǎn)景是做一個(gè)最全面AI算力基礎(chǔ)設(shè)施供應(yīng)商。我的報(bào)告到這里，謝謝大家聆聽(tīng)。

以上是原鋼演講內(nèi)容的完整整理。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、大模型奔向邊緣端，AI芯片面臨九大挑戰(zhàn)

二、AI Chiplet ：邊緣端大模型部署新選擇

三、原粒AI Chiplet，助力SoC廠商拓展大模型邊緣端應(yīng)用

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、大模型奔向邊緣端，AI芯片面臨九大挑戰(zhàn)

二、AI Chiplet ：邊緣端大模型部署新選擇

三、原粒AI Chiplet，助力SoC廠商拓展大模型邊緣端應(yīng)用

相關(guān)推薦

一、大模型奔向邊緣端，AI芯片面臨九大挑戰(zhàn)

二、AI Chiplet ：邊緣端大模型部署新選擇

三、原粒AI Chiplet，助力SoC廠商拓展大模型邊緣端應(yīng)用