智東西(公眾號(hào):zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)第一天的主會(huì)場大模型專場上,安謀科技產(chǎn)品總監(jiān)楊磊以《大模型端側(cè)部署提速,NPU賦能終端算力革新》為題發(fā)表演講。

從GPT-3.5到GPT-4.0,從多模態(tài)交互到插件支持,從閉源到開源,AI任務(wù)處理正加速從云側(cè)向端側(cè)遷移,NPU及其生態(tài)迎來全新的發(fā)展階段。安謀科技產(chǎn)品總監(jiān)楊磊談道,生成式AI正逐步成為客戶端設(shè)備上的人機(jī)交互界面,而具備100億參數(shù)級(jí)別的大模型已成為現(xiàn)有終端設(shè)備的最佳匹配規(guī)格。

然而,在終端部署這類AI大模型時(shí),仍面臨成本、功耗及軟件生態(tài)等多重挑戰(zhàn)。在當(dāng)前大模型發(fā)展的硬件驅(qū)動(dòng)方面,楊磊認(rèn)為異構(gòu)計(jì)算才是本地部署端側(cè)大模型的理想選擇,它能最大限度地提升SoC的性能、能效以及面積利用率。其中,NPU作為端側(cè)AI應(yīng)用的關(guān)鍵算力資源,將為大模型的分布式落地演進(jìn)提供核心動(dòng)力。

當(dāng)前,隨著大模型持續(xù)向邊緣側(cè)和端側(cè)滲透,AI計(jì)算和推理工作逐步由云端遷移至手機(jī)、PC、智能汽車等終端產(chǎn)品上運(yùn)行。在這一過程中,NPU能夠以其更簡單的控制流、更高的效率以及更低的功耗,處理AI工作負(fù)載。安謀科技自研“周易”NPU面向大模型場景做了架構(gòu)、內(nèi)存墻等多方面改進(jìn),正在研發(fā)的下一代“周易”NPU將采用多核設(shè)計(jì),能夠同時(shí)支持卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer架構(gòu),將會(huì)適配國內(nèi)外多個(gè)主流大模型。

一、生成式AI革新人機(jī)交互界面,端側(cè)大模型應(yīng)用有望迎來爆發(fā)

近年來,大模型不僅在對(duì)話式文本方面取得巨大成功,也在圖像處理、音視頻生成等多模態(tài)領(lǐng)域展現(xiàn)出強(qiáng)大的潛能。隨著生成式AI在人們?nèi)粘9ぷ骷吧钪斜粡V泛應(yīng)用,數(shù)據(jù)處理和存儲(chǔ)需求急劇增加,使得智能計(jì)算體系結(jié)構(gòu)發(fā)生根本性轉(zhuǎn)變。

大模型對(duì)人機(jī)交互界面產(chǎn)生了深刻的影響,生成式AI已成為人與終端設(shè)備的最新交互界面。在生成式AI加持下,從寫作、編程、繪畫到視頻創(chuàng)作,多種模態(tài)的內(nèi)容創(chuàng)作門檻正被前所未有地降低,人機(jī)交互的流程也被大大簡化。

在楊磊看來,端側(cè)設(shè)備的核心交互問題關(guān)乎入口,這是爭奪用戶時(shí)間、持續(xù)時(shí)長、資金投入的關(guān)鍵所在,也是業(yè)內(nèi)競爭的焦點(diǎn)。以典型的端側(cè)設(shè)備——手機(jī)為例,在本地設(shè)備上運(yùn)行大模型已是兵家必爭之地,各家手機(jī)大廠都在想方設(shè)法占據(jù)這一入口。

在此過程中,一方面,多模態(tài)模型正成為大勢所趨;另一方面,針對(duì)不同的應(yīng)用場景、設(shè)備或成本考量,眾多廠商都推出了不同參數(shù)規(guī)模的模型。以智能手機(jī)為例,旗艦手機(jī)芯片算力可達(dá)40~50TOPS,中檔手機(jī)的算力在10~20TOPS的范圍內(nèi),而入門級(jí)手機(jī)目前尚未專門配備AI能力,更多地依賴于CPU的通用計(jì)算能力。

安謀科技楊磊:搶占端側(cè)大模型部署制高點(diǎn),NPU將為端側(cè)提供關(guān)鍵動(dòng)力丨GenAICon 2024

據(jù)楊磊預(yù)測,隨著半導(dǎo)體技術(shù)的持續(xù)演進(jìn),旗艦手機(jī)的算力水平有望達(dá)到100TOPS,入門級(jí)手機(jī)也將從當(dāng)前的無算力水平提升至5~10TOPS范圍。預(yù)計(jì)兩年后,不論是高價(jià)位段的手機(jī),還是性價(jià)比優(yōu)良的千元機(jī),都有望具備本地部署AI大模型的硬件計(jì)算能力。

此外,在楊磊看來,除智能手機(jī)和PC等終端設(shè)備外,如今智能化水平不斷提速的新能源汽車以及目前炙手可熱的人形機(jī)器人也是大模型落地的硬件載體之一。在大會(huì)現(xiàn)場,楊磊列舉了一些數(shù)字:目前智能汽車的算力已經(jīng)能達(dá)到500TOPS左右,一些機(jī)器人方案也在按照這一算力規(guī)模進(jìn)行相應(yīng)的技術(shù)規(guī)劃。

盡管AI大模型的應(yīng)用日趨普及,比如手機(jī)上安裝了Kimi、豆包、文心一言等諸多應(yīng)用,但這些應(yīng)用尚未達(dá)到殺手級(jí)應(yīng)用的水平,實(shí)際上很多端側(cè)硬件的計(jì)算能力已經(jīng)領(lǐng)先于相關(guān)應(yīng)用的發(fā)展。很多用戶更多是出于獵奇心理來試用這類應(yīng)用,并沒有產(chǎn)生持續(xù)、頻繁且高度黏性的使用需求。

我們目前仍處于硬件先行、應(yīng)用后發(fā)的階段。安謀科技則希望結(jié)合自身獨(dú)特的技術(shù)優(yōu)勢,打造軟硬一體且極具競爭力的解決方案,推動(dòng)AI大模型在端側(cè)設(shè)備加速落地?!睏罾谡劦?。

二、端側(cè)大模型部署面臨三重考驗(yàn),異構(gòu)計(jì)算將是最優(yōu)解

目前,AI PC、AI手機(jī)、“大模型上車”等細(xì)分領(lǐng)域已成為終端設(shè)備廠商以及半導(dǎo)體行業(yè)爭相入局的熱門賽道,那多大參數(shù)規(guī)模的大模型適合在端側(cè)部署呢?楊磊將端側(cè)大模型的主流參數(shù)范圍總結(jié)在3億到100億,許多業(yè)內(nèi)廠商也都在關(guān)注百億參數(shù)這一規(guī)格。

兵馬未動(dòng),糧草先行。盡管大模型應(yīng)用還未全面爆發(fā),但端側(cè)大模型高效落地必然需要一個(gè)可靠的硬件載體,其應(yīng)用需求涵蓋了多個(gè)方面,比如大語言模型用于交互、多模態(tài)模型用于識(shí)別和理解、對(duì)實(shí)時(shí)計(jì)算的響應(yīng)需求等,使得算法能輕松部署在不同硬件平臺(tái)上,并確保在端側(cè)的運(yùn)行速度足夠快,而不是僅僅能在云端運(yùn)行。

在楊磊看來,目前端側(cè)大模型部署面臨著三重難關(guān):

安謀科技楊磊:搶占端側(cè)大模型部署制高點(diǎn),NPU將為端側(cè)提供關(guān)鍵動(dòng)力丨GenAICon 2024

首先是成本。端側(cè)設(shè)備由于使用范圍廣且頻次更高,因而對(duì)于成本也更加敏感。不能單純?yōu)榱嗽黾覣I能力而導(dǎo)致手機(jī)或PC的售價(jià)上漲太多,由此帶來的現(xiàn)實(shí)要求則對(duì)芯片面積、存儲(chǔ)帶寬、能效和計(jì)算資源這類與成本強(qiáng)相關(guān)的因素多加考量和平衡。

其次是功耗。無論是PC、平板電腦、手機(jī)還是智能眼鏡,其大部分的使用模式都由電池供電,功耗和電池容量決定了設(shè)備的續(xù)航時(shí)長。一張高性能的GPU動(dòng)輒功耗數(shù)百瓦,更適合在云端使用,而非手持設(shè)備。相比之下,一般手機(jī)的功耗則不超過10瓦,這就要求芯片在兼具算力的同時(shí),也要盡可能降低功耗,以保證設(shè)備的使用時(shí)長和控制發(fā)熱。

第三是軟件生態(tài)。硬件平臺(tái)需要支持不同的應(yīng)用場景,讓來自不同企業(yè)的不同類型算法都能被輕松部署,并且計(jì)算效率和速度符合預(yù)期,這就涉及到一些軟件生態(tài)和投入。由此,選擇軟件適配度高、開發(fā)工具和資源更為豐富的技術(shù)生態(tài)也非常重要。而Arm技術(shù)已成為全球應(yīng)用最廣泛的計(jì)算平臺(tái)之一,具有顯著的軟件生態(tài)優(yōu)勢。

對(duì)此,楊磊認(rèn)為,在硬件成本、功耗和軟件生態(tài)三重難關(guān)之下,即使在端側(cè)設(shè)備,單純依靠傳統(tǒng)的CPU或者GPU等通用計(jì)算單元也難以滿足當(dāng)前以Transformer架構(gòu)為主的大模型計(jì)算要求。因此,結(jié)合各種算力單元特性的異構(gòu)計(jì)算將是端側(cè)大模型部署的最優(yōu)解決方案。

安謀科技楊磊:搶占端側(cè)大模型部署制高點(diǎn),NPU將為端側(cè)提供關(guān)鍵動(dòng)力丨GenAICon 2024

三、搶占端側(cè)部署大模型制高點(diǎn),安謀科技打造高性能異構(gòu)計(jì)算IP平臺(tái)

異構(gòu)計(jì)算其實(shí)是近年來業(yè)界比較熱議的話題。其核心在于多種計(jì)算單元在SoC上的異構(gòu)組合,即在硬件方案中協(xié)同使用CPU、GPU、NPU等多種不同類型的計(jì)算單元,實(shí)現(xiàn)更高效的計(jì)算能力,以平衡成本、功耗、計(jì)算性能等。

對(duì)此,楊磊在大會(huì)現(xiàn)場進(jìn)一步闡述異構(gòu)計(jì)算為何更適合端側(cè)大模型部署的背后原理。舉例來看,要在手機(jī)上部署一個(gè)“壓縮版”的ChatGPT或Llama大語言模型,其實(shí)最大的難點(diǎn)不在于計(jì)算量,更為棘手的是數(shù)據(jù)訪問量,即內(nèi)存墻。楊磊解釋說,目前AI大模型除了對(duì)話式的語言類應(yīng)用場景以外,還涵蓋了文生圖、文生視頻等場景,這類應(yīng)用所涉及的大量AI計(jì)算任務(wù)對(duì)于端側(cè)設(shè)備里原有的CPU或GPU來說就比較吃力,更適合調(diào)用專為AI設(shè)計(jì)的計(jì)算單元NPU來進(jìn)行計(jì)算。

對(duì)此,安謀科技將全球領(lǐng)先的Arm CPU、GPU等通用計(jì)算單元,與本土自研的NPU、SPU、VPU等專用計(jì)算單元相結(jié)合,打造一體化、高質(zhì)量的異構(gòu)計(jì)算IP平臺(tái),持續(xù)助力本土芯片創(chuàng)新。

其中,正如前面提到的,NPU作為面向AI計(jì)算場景應(yīng)運(yùn)而生的計(jì)算單元,自然也是加速端側(cè)AI應(yīng)用的關(guān)鍵算力資源。對(duì)此,楊磊重點(diǎn)介紹了安謀科技針對(duì)深度學(xué)習(xí)而自研的人工智能處理器——“周易”NPU

目前,“周易”NPU已迭代了Z系列和X系列的多款產(chǎn)品,滿足多樣化計(jì)算需求。其中,Z系列主要面向AIoT市場,為物聯(lián)網(wǎng)設(shè)備提供AI算力支持;X系列則主要面向車載、邊緣計(jì)算等高算力應(yīng)用場景,進(jìn)一步提升計(jì)算效率。以安謀科技最新發(fā)布的“周易”NPU為例,該產(chǎn)品采用第三代“周易”架構(gòu),在算力、精度、靈活性等方面均有大幅提升,支持多核Cluster,最高可達(dá)320TOPS子系統(tǒng),為新興領(lǐng)域不斷迭代的計(jì)算需求提供更為完善的解決方案。

據(jù)楊磊補(bǔ)充,“周易”NPU將針對(duì)端側(cè)大模型場景進(jìn)行專門的升級(jí)優(yōu)化,包括微架構(gòu)改進(jìn)、內(nèi)存優(yōu)化、并行結(jié)構(gòu)升級(jí)等多個(gè)方面,并透露正在研發(fā)的下一代“周易”NPU將會(huì)適配國內(nèi)外多個(gè)主流的開源大模型方案,覆蓋硬件及其配套的軟件工具。

安謀科技楊磊:搶占端側(cè)大模型部署制高點(diǎn),NPU將為端側(cè)提供關(guān)鍵動(dòng)力丨GenAICon 2024

微架構(gòu)方面,“周易”NPU架構(gòu)將面向Transformer結(jié)構(gòu)進(jìn)行專門的加速改進(jìn);在內(nèi)存方面,“周易”NPU也會(huì)針對(duì)存儲(chǔ)限制做進(jìn)一步優(yōu)化,包括常見的低比特量化技術(shù)等;而在并行計(jì)算方面,下一代“周易”NPU則重點(diǎn)考慮滿足并行計(jì)算的需求,能夠同時(shí)支持卷積神經(jīng)網(wǎng)絡(luò)和Transformer架構(gòu),更好地滿足當(dāng)前應(yīng)用端的不同場景需求。

此外,據(jù)楊磊介紹,安謀科技的下一代“周易”NPU將采用多核架構(gòu),能夠根據(jù)不同場景需求來配置不同的算力,例如AI PC等高算力場景可配置多個(gè)NPU核心,而AR眼鏡等更需平衡性能和功耗的場景則可以考慮配置單核,多核架構(gòu)可以更好地滿足算力從小到大的靈活擴(kuò)展。

結(jié)語:端側(cè)大模型爆發(fā)將至,安謀科技提供底層核心技術(shù)支撐

技術(shù)進(jìn)步為大模型在云邊端的部署提供了廣泛的可能,大至在成百上千張卡的大型集群上做訓(xùn)練,小至在手持設(shè)備上部署,大模型正通過越來越多元的硬件載體,走進(jìn)千家萬戶和千行百業(yè)。

在云端,國內(nèi)外已有很多GPU和AI芯片企業(yè)在開展相關(guān)工作。但在邊緣端側(cè),目前還沒有一個(gè)成熟、統(tǒng)一的硬件平臺(tái),能夠支撐大模型部署到手機(jī)、PC或機(jī)器人等設(shè)備上,因此市場潛力巨大。

“端側(cè)設(shè)備已成為大模型部署的兵家必爭之地”,楊磊如此形容端側(cè)大模型的競爭態(tài)勢。綜合來看,搶占入口的不止是硬件設(shè)備制造商,還有眾多算法開發(fā)者,以及像安謀科技這類專注于芯片底層技術(shù)創(chuàng)新的企業(yè),大家不約而同地看到了其中蘊(yùn)藏的市場機(jī)會(huì)。

楊磊最后談到:“AI大模型不僅僅部署到云上,未來在端側(cè)也將迎來爆發(fā)式增長,我們非常期待與產(chǎn)業(yè)鏈上下游的伙伴們加強(qiáng)溝通與合作,攜手共贏生成式AI未來。”