芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西9月10日報道,今日,Arm在上海發(fā)布全新Arm Lumex計算子系統(tǒng)(CSS)平臺,專為旗艦級智能手機(jī)及下一代PC加速AI體驗(yàn)而打造,可實(shí)現(xiàn)兩位數(shù)的性能增長。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

這套先進(jìn)計算平臺集成了搭載第二代可伸縮矩陣擴(kuò)展(SME2)技術(shù)的最高性能Arm CPU、GPU及系統(tǒng)IP,為桌面級移動游戲、實(shí)時翻譯、智能助手、個性化應(yīng)用等各種實(shí)時端側(cè)AI用例帶來更流暢、更快速的體驗(yàn)。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

搭載SME2的Arm C1 CPU集群實(shí)現(xiàn)了顯著的AI性能提升,包括AI性能提升高達(dá)5倍,語音類工作負(fù)載延遲優(yōu)化至4.7倍,經(jīng)典大語言模型任務(wù)性能提升多達(dá)4.7倍,音頻生成速度提升多達(dá)2.8倍。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

Lumex能夠在設(shè)備端本地實(shí)現(xiàn)更快、更安全且隨時可用的智能體驗(yàn)。SME2已被阿里巴巴、支付寶、三星System LSI、騰訊、vivo等業(yè)界領(lǐng)先的生態(tài)伙伴采用。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

Arm的每個計算子系統(tǒng)(CSS)都針對細(xì)分市場的獨(dú)特需求進(jìn)行了調(diào)整,通過縮短設(shè)計用時和降低開發(fā)風(fēng)險來加快開發(fā),已獲得超過16次授權(quán),其中超過一半都是去年完成的。

Arm還將發(fā)布面向PC、物聯(lián)網(wǎng)和邊緣計算的CSS平臺。

一、Lumex:多款CPU與GPU按需組合,針對3nm優(yōu)化

針對旗艦級設(shè)備,Arm Lumex CSS平臺連續(xù)6年實(shí)現(xiàn)兩位數(shù)的每時鐘周期指令數(shù)(IPC)性能提升。

全新Arm Lumex平臺包含以下核心組件:

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

(1)新一代搭載SME2技術(shù)的Armv9.3 CPU:包括Arm C1-Ultra和Arm C1-Pro,為旗艦設(shè)備提供支持,設(shè)備端性能可提升多達(dá)5倍、能效提升多達(dá)3倍。

(2)Arm C1-Premium:專為次旗艦市場打造,可提供一流的面積效率。

(3)Arm Mali G1-Ultra GPU:配備新一代光線追蹤技術(shù),在實(shí)現(xiàn)先進(jìn)的圖形和游戲體驗(yàn)同時,還可提升整體AI性能。

(4)Arm C1-DSU:Arm迄今為止最靈活、高能效且具多種電源模式的DynamIQ Shared Unit(DSU)。

(5)針對3nm工藝節(jié)點(diǎn)優(yōu)化的物理實(shí)現(xiàn)。

(6)跨軟件棧的深度集成,為使用KleidiAI軟件庫的開發(fā)者提供無縫的AI加速體驗(yàn)。

相比Cortex-X925,C1-Ultra CPU的單線程性能提高25% ;相比Cortex-A725,C1-Pro的持續(xù)能效提升12%;相比Immortalis-G925,Mali G1-Ultra的性能提升20%,能效提升9%。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

合作伙伴可靈活選擇使用Arm Lumex的方式,來打造SoC芯片。

例如,可以直接采用Arm交付的平臺,并借助為其需求定制的先進(jìn)物理實(shí)現(xiàn)方案,從而獲得縮短產(chǎn)品上市時間和快速兌現(xiàn)性能價值等雙重優(yōu)勢;也可以根據(jù)目標(biāo)市場,對平臺寄存器傳輸級(RTL)設(shè)計進(jìn)行配置,并自行完成核心模塊的硬化工作。

Arm Lumex為合作伙伴提供了充分的自由度,使其能從高端智能手機(jī)、PC到新興AI優(yōu)先設(shè)備的各類產(chǎn)品中,實(shí)現(xiàn)峰值性能、持續(xù)能效與芯片面積之間的靈活平衡。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

二、將AI加速集成到CPU中,用SME2大幅提升AI性能 ?

新款CPU的一大核心技術(shù)是SME2。該技術(shù)能加快設(shè)備端CPU直接運(yùn)行模型及AI工具的速度。

Arm高級副總裁兼終端事業(yè)部總經(jīng)理Chris Bergey說,AI已成為下一代移動與消費(fèi)技術(shù)的支撐底座,依托Arm Lumex平臺,Arm持續(xù)提升端側(cè)AI體驗(yàn),正積極將SME2技術(shù)擴(kuò)展至每一個CPU平臺。

在實(shí)際場景中,SME2技術(shù)將響應(yīng)速度與運(yùn)行效率提升至新水平。

SME2是最新CPU集群的一項(xiàng)關(guān)鍵特性,為高效執(zhí)行單側(cè)AI而生,就是給CPU配備了一個新的矩陣加速器,讓復(fù)雜計算變得更快更省電,同時支持SME2的新硬件與CPU、GPU等其他計算單元分工協(xié)作,實(shí)現(xiàn)更高效的端側(cè)AI異構(gòu)計算。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

例如,得益于SME2技術(shù),“智能瑜伽教練”演示應(yīng)用的文本轉(zhuǎn)語音生成速度提升多達(dá)2.4倍

此外,Arm、支付寶與vivo的三方合作,將大語言模型的交互響應(yīng)時間縮短了多達(dá)40%,證明了SME2可為終端設(shè)備帶來更快速的實(shí)時生成式AI體驗(yàn)。

據(jù)vivo高級副總裁、CTO施玉堅分享,vivo藍(lán)晶芯片技術(shù)棧新增對SME2的支持,vivo計算加速平臺VCAP已全面支持SME2指令集,對視覺、語音、文本等AI計算任務(wù)實(shí)現(xiàn)了顯著的性能加速,例如在全局離線翻譯場景,開啟SME2硬件,能實(shí)現(xiàn)額外20%的性能收益。

再比如,在搭載SME2的單個核心上運(yùn)行神經(jīng)攝像頭降噪功能,可在1080P分辨率下實(shí)現(xiàn)幀率超120幀/秒(fps),或在4K分辨率下實(shí)現(xiàn)幀率達(dá)30fps。這意味著智能手機(jī)用戶即使身處光線最暗的場景,也能捕捉到更銳利、清晰的圖像。

Arm預(yù)計到2030年,SME與SME2技術(shù)將為超過30億臺設(shè)備新增超100億TOPS的計算能力,為端側(cè)AI性能帶來指數(shù)級躍升。

三、全新Mali G1-Ultra GPU:AI性能提升20%,光追性能翻倍

Arm GPU的芯片累計出貨量已突破120億顆。

全新Mali G1-Ultra GPU專為游戲玩家設(shè)計,擁有14個核心,可將AI推理性能提升最高20%,顯著增強(qiáng)各類實(shí)時應(yīng)用的響應(yīng)速度;在各類圖形基準(zhǔn)測試中實(shí)現(xiàn)了20%的性能提升。

其第二代光線追蹤(Ray Tracing Unit v2, RTUv2)技術(shù)顯著提升光照、陰影與反射效果,使光線追蹤性能提升至前代的2倍,并實(shí)現(xiàn)每幀功耗降低9%為手游玩家?guī)砀弑U?、主機(jī)級畫質(zhì)。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

同時,Mali G1-Premium(6~9核心)與Mali G1-Pro(1~5核心)兩款GPU,也為硬件資源受限的設(shè)備提供了更出色的性能與能效表現(xiàn)。

四、跨平臺易遷移,滿足生態(tài)系統(tǒng)AI開發(fā)需求

Lumex具備靈活性和可定制性,并提供全新的可遷移性:
  • Gmail、YouTube、Google Photos等谷歌應(yīng)用現(xiàn)已全面支持SME2 ,搭載Lumex的設(shè)備一經(jīng)上市即可無縫運(yùn)行;
  • 跨平臺可遷移性意味著針對安卓構(gòu)建的優(yōu)化功能可無縫擴(kuò)展至采用Arm架構(gòu)的Windows及其他操作系統(tǒng);
  • 支付寶等合作伙伴已成功驗(yàn)證:依托SME2技術(shù),終端設(shè)備上的大語言模型可實(shí)現(xiàn)高效運(yùn)行。

蘋果、三星、聯(lián)發(fā)科等芯片巨頭正積極集成AI加速功能,推動端側(cè)AI向更快速、更高效的方向發(fā)展。

阿里巴巴淘天集團(tuán)業(yè)務(wù)技術(shù)MNN負(fù)責(zé)人姜霄棠說,通過與 SME2的深度集成,MNN現(xiàn)已能在智能手機(jī)端,為通義千問等十億參數(shù)級大模型提供低延遲的量化推理能力。

支付寶終端技術(shù)負(fù)責(zé)人翁欣旦談道,在Arm、支付寶與vivo的三方密切協(xié)作下,支付寶已在vivo新一代旗艦智能手機(jī)上完成了基于Arm SME2技術(shù)的大語言模型推理驗(yàn)證。結(jié)果顯示,在預(yù)填充與解碼階段,其性能分別實(shí)現(xiàn)了超過40%和25%的提升。

據(jù)騰訊機(jī)器學(xué)習(xí)平臺專家楊曉峰分享,SME2技術(shù)通過突破關(guān)鍵性能瓶頸,高效助力大語言模型在移動端落地部署,如騰訊混元大模型,為端側(cè)大語言模型提供強(qiáng)勁加速,最終帶來更優(yōu)質(zhì)的用戶體驗(yàn)。

開發(fā)者可在Arm Lumex平臺上獲取開機(jī)即用的AI開發(fā)體驗(yàn),借助KleidiAI調(diào)用SME2技術(shù)帶來的性能優(yōu)勢。

KleidiAI已集成至所有主流移動操作系統(tǒng)及AI框架中,包括PyTorch ExecuTorch、谷歌LiteRT、阿里巴巴MNN、微軟ONNX Runtime等。開發(fā)者無需修改任何代碼,就能自動取得SME2的加速能力。

Arm把手機(jī)AI芯片開發(fā)變簡單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說好

結(jié)語:為端側(cè)AI加速提供定制芯片套餐

Arm Lumex是Arm面向消費(fèi)計算市場的最先進(jìn)CSS平臺,也被Arm視作開啟新時代智能體驗(yàn)的基石。

面向OEM廠商及開發(fā)者,Lumex可提供所需工具,助力其在關(guān)鍵端側(cè)場景實(shí)現(xiàn)兼具個性化、隱私保障與高性能的AI體驗(yàn)。

這標(biāo)志著Arm戰(zhàn)略的重大轉(zhuǎn)變,從提供半導(dǎo)體IP到提供全面的AI平臺解決方案,以加速客戶芯片設(shè)計及開發(fā)流程,滿足日益增長的設(shè)備端實(shí)時、保障安全隱私、始終可用的AI應(yīng)用需求。