芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6-7日在北京舉行,大會由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識分享社區(qū)智猩猩發(fā)起舉辦。在7號下午舉行的邊緣/端側(cè)AI芯片專場,后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭以《存算一體,解鎖AI大模型的邊端側(cè)潛力》為題發(fā)表演講。

在演講中,信曉旭首先分析了AI技術(shù)發(fā)展的兩大趨勢:模型參數(shù)的不斷擴(kuò)展和小模型的興起。后者在端側(cè)和邊緣側(cè)展現(xiàn)出巨大潛力。因?yàn)槎藗?cè)和邊緣側(cè)的應(yīng)用更接近實(shí)際場景,能夠利用豐富的數(shù)據(jù)資源,為AI技術(shù)提供發(fā)展土壤。由此,信曉旭強(qiáng)調(diào)了端側(cè)和邊緣側(cè)在AI創(chuàng)新中的潛力。

信曉旭還梳理了AI芯片發(fā)展的兩個(gè)階段,提到內(nèi)存訪問效率已成為新的瓶頸。在業(yè)界正在探索的幾種技術(shù)路徑中,存算一體技術(shù)通過將存儲和計(jì)算功能集成在同一芯片上,實(shí)現(xiàn)了低成本、低功耗和低延遲的優(yōu)勢,與端側(cè)AI芯片的需求高度契合。

最后,信曉旭介紹了這兩年后摩智能陸續(xù)推出的兩種芯片,它們都展現(xiàn)了超過同行2倍的能效優(yōu)勢,還特別實(shí)現(xiàn)了對邊緣計(jì)算場景的定制化優(yōu)化。此外,據(jù)信曉旭透露,基于新架構(gòu)的M50芯片正在研發(fā),在新架構(gòu)中,AI核心的性能將總體提升20%。

后摩智能信曉旭:存算一體解鎖AI大模型的邊端側(cè)潛力 | GACS 2024

▲后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭

以下為信曉旭的演講實(shí)錄:

一、相比參數(shù)不斷增長的大模型,端側(cè)小模型的發(fā)展將更有生命力

任何一次里程技術(shù)的創(chuàng)新,都是0到1的質(zhì)變,1后面添加多少個(gè)0要看底層的技術(shù),賦能多少應(yīng)用,解決多少問題。所以談到這樣一次技術(shù)革命,最終爆發(fā)了多大能量有多大影響力,將完全取決于最后創(chuàng)新。

IT行業(yè)發(fā)展歷程中最有影響力的技術(shù)革命分別有兩次,一次是計(jì)算機(jī)技術(shù)的革命,一次是通信技術(shù)的革命。

先說計(jì)算機(jī)技術(shù)的革命,計(jì)算機(jī)出來的時(shí)候是計(jì)算導(dǎo)彈的飛行軌跡,如果沒有用到個(gè)人電腦上,沒有更多的應(yīng)用,像播放器等等,它還是實(shí)驗(yàn)室的實(shí)驗(yàn)工具。通信技術(shù)最開始做的最高效的通信,無時(shí)無刻不在的通信。大家可以看到現(xiàn)在整個(gè)移動互聯(lián)網(wǎng)以及APP應(yīng)用完全離不開了。

任何一次的技術(shù)革命都會經(jīng)歷幾個(gè)不同的階段:前期技術(shù)非常非常炫酷,然后找到應(yīng)用、應(yīng)用場景去解決一些問題,最后實(shí)現(xiàn)商業(yè)閉環(huán)這樣一個(gè)過程。大模型發(fā)展的當(dāng)下,最最重要的事情就是找到應(yīng)用、對應(yīng)的應(yīng)用場景。那么,下一個(gè)殺手級應(yīng)用到底是什么?

再說到AI的技術(shù)發(fā)展,從AlphaGO到ChatGPT,這個(gè)過程中一直是沿著兩個(gè)路徑走。一個(gè)是越做越大的模型參數(shù),實(shí)際上是探索了當(dāng)前這個(gè)技術(shù)路線的邊界。技術(shù)發(fā)展到現(xiàn)在,我們很欣喜的發(fā)現(xiàn)了另外一條路徑——一些小模型的出現(xiàn)。大家開始嘗試把AI能力用在更多的場景中,以更簡單的方式、更少的成本部署到各個(gè)終端里。

這種模型正在陸陸續(xù)續(xù)推出,它們也展示了非常好的能力。像Llama,是在端側(cè)和邊緣側(cè)對于應(yīng)用創(chuàng)新中的一大步。這些端側(cè)和邊緣側(cè)的應(yīng)用不僅更接近實(shí)際場景,而且能夠利用豐富的數(shù)據(jù)資源,為AI技術(shù)的發(fā)展提供肥沃的土壤。

從過往的歷史可以看出,大部分技術(shù)革命都產(chǎn)生在端側(cè),比如移動互聯(lián)網(wǎng)時(shí)代的手機(jī)等等。AI發(fā)展到現(xiàn)在,端側(cè)展現(xiàn)出更多的生命力。應(yīng)用創(chuàng)新還會繼續(xù)發(fā)生在端側(cè)和邊緣側(cè)。

二、存算一體技術(shù)與端側(cè)AI芯片的需求高度契合

AI芯片的發(fā)展經(jīng)歷了兩個(gè)階段。

第一階段缺乏專門處理矩陣和張量計(jì)算的處理器,AI芯片面臨著計(jì)算效率低下的挑戰(zhàn)。為了解決這一問題,業(yè)界推出了如英偉達(dá)的Tensor Core和華為昇騰的CUBE等技術(shù),顯著提升了計(jì)算能力。

然而,隨著計(jì)算能力的提升,內(nèi)存訪問效率成為了新的瓶頸,尤其是在處理大模型時(shí),內(nèi)存訪問的需求更為迫切。這種現(xiàn)象被稱為“Memory Wall”(存儲墻),它已成為當(dāng)前AI芯片設(shè)計(jì)中亟待解決的關(guān)鍵問題。我參加過兩次峰會,第一次參加峰會的時(shí)候,我好像是所有參會嘉賓中唯一一個(gè)講存算一體的。而這次峰會上有很多人都提到了這個(gè)事情,說明大家都關(guān)注到了這樣一個(gè)痛點(diǎn),我們當(dāng)下就需要解決這樣一個(gè)問題。

其實(shí)解決這個(gè)“Memory Wall”的問題,大家都在嘗試不同的路徑。有兩個(gè)技術(shù)路線。其中一種方法是通過封裝技術(shù)將計(jì)算單元與存儲單元更緊密地集成,如HBM技術(shù)的成功應(yīng)用。然而,盡管這種技術(shù)在云端應(yīng)用中表現(xiàn)出色,但其高昂的成本使得端側(cè)應(yīng)用難以承受。邊端側(cè)的AI芯片相對于云端來說有它特殊的需求,對功耗、對成本更敏感。我們其實(shí)需要摸索出一個(gè)更符合它需求的路徑。

存算一體其實(shí)是很多廠家都在嘗試走的技術(shù)路線。存算一體體現(xiàn)出來三個(gè)優(yōu)勢,低成本、低功耗、低延遲。這些特點(diǎn)非常符合邊端側(cè)AI低功耗、低成本的需求。

三、后摩智能存算一體芯片能效比優(yōu)勢顯著,特別針對邊緣計(jì)算場景優(yōu)化

在創(chuàng)業(yè)之初,存算一體不是太多人知道,只有學(xué)術(shù)界知道?,F(xiàn)在,存算一體開始在產(chǎn)業(yè)界落地。能走到這一步還是很欣慰,越來越多志同道合的朋友開始在這個(gè)領(lǐng)域里深耕。

我們公司做存算一體相對比較早。在過去四年中,我們一直在探索存算一體技術(shù)在端側(cè)AI、邊緣測AI的技術(shù)路徑和產(chǎn)品化。

我們陸續(xù)推出了兩款芯片。2023年推出了第一款后摩鴻途??H30的芯片,整體算力超過了我們原本的預(yù)期。今年推出了第二款芯片——后摩漫界??M30,算力達(dá)到了100TOPS,功耗12W左右。

我們的H30和M30芯片在能效比方面表現(xiàn)出色。它們每瓦特的計(jì)算效率基本上達(dá)到了7-8TOPS,我們的友商在3TOPS左右。這是超過2倍的能效優(yōu)勢。這樣一個(gè)數(shù)據(jù),更堅(jiān)定了我們的信心:我們用存算一體的架構(gòu),在可以擁有更好的產(chǎn)品的同時(shí),還可以實(shí)實(shí)在在解決計(jì)算效率的問題。

我們的芯片針對邊緣計(jì)算場景進(jìn)行了優(yōu)化。這些優(yōu)化措施包括采用量化技術(shù)來降低模型的計(jì)算和存儲需求,這對于成本敏感的邊緣設(shè)備市場至關(guān)重要。量化技術(shù)通過減少模型參數(shù)的精度,從而減少模型大小和計(jì)算量,使得大模型可以在不影響性能的前提下部署到邊端設(shè)備中。

我們把行業(yè)非常主流的大模型部署在了存算一體的芯片上,都可以順利運(yùn)行,結(jié)合上下文、硬件以及其他配置等因素,整體運(yùn)行性能在15Tokens到20Tokens之間。

除了芯片之外,我們還提供了多種產(chǎn)品形態(tài)以滿足不同場景的需求,包括標(biāo)準(zhǔn)的PCIe加速卡、M.2計(jì)算模組以及Som計(jì)算模組。

結(jié)語:下一代M50芯片正在研發(fā),AI核心的性能將總體提升20%

我們的H30和M30芯片是基于第一代天樞架構(gòu)設(shè)計(jì)的。而現(xiàn)在,新一代的天璇架構(gòu)已經(jīng)完成,它在天樞架構(gòu)的基礎(chǔ)上進(jìn)行了改進(jìn)和優(yōu)化。在新的天璇架構(gòu)中,AI核心的性能總體而言提升了20%。

基于天璇架構(gòu)會推出M50的芯片,現(xiàn)在在開發(fā)階段,下一次演講可能就是揭開面紗的時(shí)候。