芯東西(公眾號:aichip001)
作者 | 云鵬
編輯 | 漠影

今天,一場橫跨各個產(chǎn)業(yè)的算力革命正在AI新時代爆發(fā),隨著以DeepSeek為代表的國產(chǎn)大模型加速走向產(chǎn)業(yè),AI從云端走向端邊,大模型和AI應用的落地熱潮勢不可擋。

在這樣的趨勢下,AI推理算力需求的暴漲給產(chǎn)業(yè)同時帶來了機遇和挑戰(zhàn),根據(jù)公開數(shù)據(jù)預測,未來3年,推理算力年復合增速將達到訓練算力的近4倍。如何把百億級參數(shù)模型落地智能終端、實現(xiàn)云級推理能力走向端邊,同時兼顧高性能、高能效、高隱私安全,成為業(yè)內關注的核心焦點在。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

在昨日剛剛盛大開幕的2025世界人工智能大會(WAIC 2025)上,我們看到數(shù)十家國內AI龍頭鏈主企業(yè)亮出了3000多項前沿技術和產(chǎn)品,包括40多個大模型、50多個AI終端產(chǎn)品和60多個機器人,大家對終端產(chǎn)品上各類亮眼的端側AI應用體驗興趣盎然。

作為這場AI算力革命核心玩家的芯片企業(yè)們,也紛紛在這場盛會上亮出自己的看家本領。比如國內AI芯片創(chuàng)企后摩智能就發(fā)布了面向端邊大模型場景的AI芯片后摩漫界M50,并在展區(qū)展示了自家的硬件全家桶和基于存算一體技術的端邊大模型落地案例。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

后摩漫界M50以及基于其打造的算力卡,有著極致能效比、高面效比、低功耗實現(xiàn)的突出能力,讓產(chǎn)業(yè)看到了解開端邊大模型落地“算力不足、功耗過高、隱私泄露”三大“癥結”的破局之道。

繼2023年推出首款存算一體AI芯片后,這無疑是后摩智能向端邊大模型領域再次邁出的關鍵一步。

一、端邊大模型落地:高算力、高能效、低功耗、大帶寬、強隱私缺一不可

當下,行業(yè)正迫切需要解開端邊大模型落地三大死結:算力不夠用、功耗降不下來、隱私保不住。用戶對于高算力、高能效、低功耗、大帶寬、高隱私的需求成為AI推理時代的突出特點。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

在大模型從云端走向端邊設備的過程中,首先要突破算力的瓶頸,端側設備算力先天遠低于云端,目前即使是旗艦消費級PC處理器的NPU算力通常也只有數(shù)十TOPS。

結合相比云端大幅削減的內存帶寬,百億參數(shù)模型端側推理速度可能只有10tokens/s左右,完全無法滿足實時交互的需求。與此同時,邊緣節(jié)點往往需要同時處理海量并發(fā)推理需求,GPU資源利用率較低,響應時間過長,這些都對實際用戶體驗有較大影響。

此外,端側先天受制于“功耗枷鎖”,絕大部分端側移動設備電池容量有限,同時受到整機功耗墻限制,不可能以大幅犧牲續(xù)航體驗來換取AI體驗的提升。

根據(jù)三方實測,手機端運行7B模型的CPU功耗甚至可以達到8W,這對續(xù)航影響十分顯著。

最后,在數(shù)據(jù)隱私安全方面,需求側的挑戰(zhàn)也越來越明顯。端側AI的發(fā)展越來越快,尤其在AI agent浪潮下,數(shù)據(jù)成為關鍵——無數(shù)據(jù)不個性化。

多模態(tài)大模型成為主流,照片、截圖、語音、文字、視頻,甚至是金融信息、醫(yī)療信息、用戶使用習慣、用戶深度畫像都會成為大模型的數(shù)據(jù)來源。數(shù)據(jù)安全被提到前所未有的高度,對企業(yè)來說尤其如此。

落地側需求的涌現(xiàn)也不斷激勵芯片產(chǎn)業(yè)尋找和探索新的解決方案,比如通過芯片硬件架構的創(chuàng)新、資源調度算法的優(yōu)化、各類硬件級加密方式的升級,去提升性能、能效和安全性。

從硬件層技術創(chuàng)新來看,存算一體技術路徑已經(jīng)被后摩智能證明行之有效,此次新品M50的落地進一步鞏固了這一技術路線,讓產(chǎn)業(yè)看到了其實際落地能帶來的產(chǎn)業(yè)價值。

二、后摩秀出存算一體王炸升級,解密背后核心軟硬件技術創(chuàng)新細節(jié)

此次M50芯片實現(xiàn)的性能突破可以說相當亮眼,同時還兼顧了能效和安全,其最突出的三個特點就是極致能效比、高面效比和低功耗實現(xiàn)。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

單個M50芯片的典型功耗僅有10W,但INT8算力卻直接達到了160 TOPS,同時有著48GB的大內存,這使其可以支持百億級參數(shù)模型的本地推理。

根據(jù)官方實測數(shù)據(jù),M50單芯片就可以實現(xiàn)70億參數(shù)大模型25+tokens/s的推理速度,可用性大幅提升。

值得一提的是,M50還支持更豐富的混合數(shù)據(jù)類型,其在Tensor上同樣支持浮點運算,與此同時,M50支持通過芯片互聯(lián)提供更高算力、擴展更多邊端場景。

在這樣顛覆式升級的背后,存算一體架構的技術創(chuàng)新發(fā)揮著關鍵作用,基于非馮·諾依曼架構,存算一體架構可以打破芯片設計的“存儲墻”及“功耗墻”,實現(xiàn)計算單元與存儲單元的集成,在存儲單元內完成部分或全部的運算,進而解決芯片性能瓶頸、提升能效比。

具體來看,IP創(chuàng)新是關鍵一環(huán),后摩智能自主研發(fā)了存算一體創(chuàng)新IP,其可以滿足多精度、高能效比、高帶寬、低功耗等需求。

M50用上了后摩智能自研的第二代存算一體IP,支持雙端口的加載和計算的并行,并且解決了大量測試和可靠性難題。此前業(yè)內幾乎沒人做過存算一體芯片在這方面的測試,后摩智能是真正腳踏實地一點點摸索出來的。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

此外,在極小芯片面積內實現(xiàn)大算力的同時兼顧電源穩(wěn)定性也是一大挑戰(zhàn),后摩智能團隊在這方面積累了不少技術專利。

在有了高效存算一體IP后,如何高效利用并落地實現(xiàn)交付給客戶,還要考驗AI處理器的設計能力,后摩智能針對大模型應用專門設計了新的IPU架構,包括對自適應計算或者彈性加速的支持,以及在存算上直接進行浮點運算。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

從創(chuàng)始人兼CEO吳強博士在演講中提到,團隊從2023年就開始研究大模型和存算一體的結合,投入很多資源,在過去兩年陸續(xù)發(fā)表了30多篇國際頂刊論文。

此外,后摩智能還自主研發(fā)了易于使用的軟件工具鏈,適配存算架構的算子庫,可以高效利用存算IP所帶來的性能、功耗優(yōu)勢,簡化部署流程的同時,提升部署能效。

可以看到,在存算一體這條技術路線上,后摩智能做了海量的扎實研發(fā),填補了諸多技術空白,并一步一個腳印地探索出了一條切實可行的落地路徑,從學術論文到落地應用,讓產(chǎn)品真正“work”,是才最難的,而這些都是表面上所看不到的艱辛。

三、“一片口香糖”尺寸解決百億參數(shù)大模型落地,多場景端邊設備智能體驗“質變”

在M50過硬的芯片硬實力基礎上,后摩智能推出了豐富產(chǎn)品形態(tài),幫助企業(yè)在端邊多場景完成大模型在設備端的落地。這些產(chǎn)品已經(jīng)可以實現(xiàn)消費終端、智能辦公、智能工業(yè)等諸多場景的覆蓋,給這些端邊設備的AI體驗帶來顯著改善。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

當下,AI手機和AI PC是端側AI落地走的最快的兩種產(chǎn)品形態(tài),而PC相比手機,同時兼顧消費端和產(chǎn)業(yè)端應用,適用性更為廣泛,AI PC也是后摩智能M50芯片以及相關產(chǎn)品表現(xiàn)頗為亮眼的領域。

其中力擎LQ50 M.2卡基于標準M.2 2280規(guī)格,將M50芯片的算力濃縮至“單片口香糖”尺寸,可以“即插即用”,使用十分便捷,這對于緊湊型移動設備非常重要。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

LQ50 M.2卡基于采用存算一體創(chuàng)新架構,搭配了48GB LPDDR5內存,內存帶寬153.6 GB/s,可以直接本地運行百億級參數(shù)大模型,7B/8B模型推理速度據(jù)稱可超過25tokens/s,小尺寸低功耗也令LQ50 M.2卡兼顧了無風扇設計,適用性更加廣泛。

值得一提的是,在軟件兼容和開發(fā)生態(tài)方面,LQ50 M.2卡兼容Windows 11/Linux/Android等主流操作系統(tǒng),通過后摩大道平臺支持全棧開發(fā),可以靈活部署在AI PC、AI Stick(AI計算棒)等移動終端設備中,在消費、辦公、工業(yè)等場景中提供本地大模型推理加速能力,同時保障數(shù)據(jù)隱私與低延遲響應。

在場景適配能力方面,M50支持多芯互聯(lián)技術,可以動態(tài)擴展算力適配未來模型升級,這對更廣泛場景的擴展覆蓋十分關鍵。

比如力擎LQ50 Duo M.2卡基于OCP Dual M.2標準設計,集成了兩顆 M50芯片,通過高速互聯(lián)技術實現(xiàn)320 TOP的算力釋放,同時其配備了96GB內存,帶寬307GB/s,這樣的豪華規(guī)格使其可以直接突破14B/32B大模型的端側部署瓶頸。

在邊緣復雜場景中,雙芯架構既能驅動智能會議系統(tǒng)完成多語種實時翻譯和聲紋識別會議紀要,也可以支持百億參數(shù)大模型私有化部署,還能本地運行多模態(tài)AI Agent。

基于這些產(chǎn)品和解決方案我們可以看到,M50系列產(chǎn)品在AI PC、智能終端、工業(yè)邊緣設備等場景都具有極高的性能適配性。

在消費領域,M50系列可以很好地賦能平板、PC、AI Stick等移動終端設備;智能辦公場景中,智能會議系統(tǒng)在斷網(wǎng)環(huán)境下也能實現(xiàn)多語種翻譯、紀要生成,會議內容不上云、不泄露;智能工業(yè)領域,產(chǎn)線質檢與車路云協(xié)同通過本地算力完成實時分析決策,生產(chǎn)數(shù)據(jù)與運營信息在設備端閉環(huán)處理,避免云端傳輸隱患。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

可以看到,“存算一體+端邊大模型”的技術路徑是高效可行的。

這一模式真正給解決有限硬件資源上的高效數(shù)據(jù)處理的難題提供了行之有效的路徑。對比傳統(tǒng)芯片方案,基于存算一體技術的端邊設備在智能體驗上是有“質變”的,給AI超級應用未來的爆發(fā)打牢了端側算力基礎。

可以說,后摩智能存算一體技術和產(chǎn)品,將AIGC等大模型能力融入AI PC、智能終端等場景,也令后摩智能成為推動端邊設備從“功能型”向“智能體”的范式升級的核心玩家之一。

結語:從移動終端、智能辦公到智能工業(yè),存算一體打破端側AI落地“不可能三角”

成立五年來,后摩智能長期專注深耕存算一體技術,從M30到M50,其已經(jīng)實現(xiàn)了端邊AI芯片的良性迭代落地閉環(huán),在諸多場景中實現(xiàn)了對企業(yè)的賦能加速,成為推動AI普惠落地的關鍵芯片玩家。

在今年的WAIC 2025大會上,國內AI芯片玩家作為中國智算產(chǎn)業(yè)的核心力量,無疑成為業(yè)內關注的焦點,結合當下“算力即國力”的大背景,夯實智算底座也成為國內不少省份在AI領域的重要布局方向之一。

沿著這一大趨勢方向,后摩智能無疑在端邊大模型AI芯片領域跑在了技術力的第一梯隊,用硬核技術創(chuàng)新給解決行業(yè)頑疾帶來新的解法。隨著技術的快速迭代,我們相信后摩智能會給產(chǎn)業(yè)帶來更多有價值的技術創(chuàng)新和優(yōu)秀產(chǎn)品。