芯東西(公眾號(hào):aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西1月27日?qǐng)?bào)道,今日,微軟宣布推出自研AI推理芯片Maia 200,并稱(chēng)該芯片是“目前所有超大規(guī)模數(shù)據(jù)中心中性能最高的自研芯片”,旨在顯著提升AI token生成的經(jīng)濟(jì)效益。

Maia 200采用臺(tái)積電3nm工藝制造,擁有超過(guò)1400億顆晶體管,配備原生FP8/FP4張量核心,重新設(shè)計(jì)的內(nèi)存子系統(tǒng)包含216GB HBM3e(讀寫(xiě)速度高達(dá)7TB/s)和272MB片上SRAM,以及能確保海量模型快速高效運(yùn)行的數(shù)據(jù)傳輸引擎。

Maia 200專(zhuān)為使用低精度計(jì)算的最新模型而設(shè)計(jì),每塊芯片在FP4精度下可提供超過(guò)10PFLOPS的性能,在FP8精度下可提供超過(guò)5PFLOPS的性能,所有這些都控制在750W的SoC TDP范圍內(nèi)。

其FP4性能是亞馬遜自研AI芯片AWS Trainium3的3倍多,F(xiàn)P8性能超過(guò)了谷歌TPU v7。

微軟甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

▲Azure Maia 200、AWS Trainium3、谷歌TPU v7的峰值規(guī)格對(duì)比

Maia 200重新設(shè)計(jì)的內(nèi)存子系統(tǒng)以窄精度數(shù)據(jù)類(lèi)型、專(zhuān)用DMA引擎、片上SRAM和用于高帶寬數(shù)據(jù)傳輸?shù)膶?zhuān)用片上網(wǎng)絡(luò)(NoC)架構(gòu)為核心,從而提高token吞吐量。

互連方面,Maia 200提供2.8TB/s雙向?qū)S脭U(kuò)展帶寬,高于AWS Trainium3的2.56TB/s和谷歌TPU v7的1.2TB/s。

Maia 200也是微軟迄今為止部署的最高效推理系統(tǒng),每美元性能比微軟目前部署的最新一代硬件提升了30%。

一、能運(yùn)行當(dāng)前最大模型,將支持GPT-5.2

根據(jù)微軟博客文章,Maia 200可輕松運(yùn)行當(dāng)今最大的模型,并為未來(lái)更大的模型預(yù)留了充足的性能空間。

作為微軟異構(gòu)AI基礎(chǔ)設(shè)施的一部分,Maia 200將支持多種模型,包括OpenAI最新的GPT-5.2模型,從而為Microsoft Foundry和Microsoft 365 Copilot帶來(lái)更高的性價(jià)比。

微軟甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

▲Maia 200芯片

Maia 200與微軟Azure無(wú)縫集成。微軟正在預(yù)覽Maia軟件開(kāi)發(fā)工具包(SDK),其中包含一套完整的工具,用于構(gòu)建和優(yōu)化Maia 200模型。

它包含全套功能,包括PyTorch集成、Triton編譯器和優(yōu)化的內(nèi)核庫(kù),以及對(duì)Maia底層編程語(yǔ)言的訪問(wèn)。這使開(kāi)發(fā)者能夠在需要時(shí)進(jìn)行細(xì)粒度控制,同時(shí)實(shí)現(xiàn)跨異構(gòu)硬件加速器的輕松模型移植。

微軟超級(jí)智能團(tuán)隊(duì)將利用Maia 200進(jìn)行合成數(shù)據(jù)生成強(qiáng)化學(xué)習(xí),以改進(jìn)下一代內(nèi)部模型。

在合成數(shù)據(jù)管道用例方面,Maia 200的獨(dú)特設(shè)計(jì)有助于加快高質(zhì)量、特定領(lǐng)域數(shù)據(jù)的生成和篩選速度,為下游訓(xùn)練提供更新、更具針對(duì)性的信號(hào)。

Maia 200已部署在微軟位于愛(ài)荷華州得梅因附近的美國(guó)中部數(shù)據(jù)中心區(qū)域,接下來(lái)將部署位于亞利桑那州鳳凰城附近的美國(guó)西部3數(shù)據(jù)中心區(qū)域,未來(lái)還將部署更多區(qū)域。

二、支持2.8TB/s雙向帶寬、6144塊芯片互連

在系統(tǒng)層面,Maia 200引入了一種基于標(biāo)準(zhǔn)以太網(wǎng)的新型雙層可擴(kuò)展網(wǎng)絡(luò)設(shè)計(jì)。定制的傳輸層和緊密集成的網(wǎng)卡無(wú)需依賴專(zhuān)有架構(gòu),即可實(shí)現(xiàn)卓越的性能、強(qiáng)大的可靠性和顯著的成本優(yōu)勢(shì)。

每塊芯片提供2.8TB/s雙向?qū)S脭U(kuò)展帶寬,以及在多達(dá)6144塊芯片的集群上公開(kāi)可預(yù)測(cè)的高性能集體操作。

微軟甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

▲Maia 200刀片服務(wù)器的俯視圖

每個(gè)托架內(nèi),4塊Maia芯片通過(guò)直接的非交換鏈路完全連接,實(shí)現(xiàn)高帶寬的本地通信,以獲得最佳推理效率。

機(jī)架內(nèi)和機(jī)架間聯(lián)網(wǎng)均采用相同的通信協(xié)議,即Maia AI傳輸協(xié)議,能夠以最小的網(wǎng)絡(luò)跳數(shù)實(shí)現(xiàn)跨節(jié)點(diǎn)、機(jī)架和加速器集群的無(wú)縫擴(kuò)展。

這種統(tǒng)一的架構(gòu)簡(jiǎn)化了編程,提高了工作負(fù)載的靈活性,并減少了閑置容量,同時(shí)在云規(guī)模下保持了一致的性能和成本效益。

該架構(gòu)可為密集推理集群提供可擴(kuò)展的性能,同時(shí)降低Azure全球集群的功耗和總擁有成本。

三、將芯片部署時(shí)間縮短一半,提升每美元和每瓦性能

Maia 200芯片首批封裝件到貨后數(shù)日內(nèi),AI模型就能在其上運(yùn)行,從首批芯片到首個(gè)數(shù)據(jù)中心機(jī)架部署的時(shí)間可縮短至同類(lèi)AI基礎(chǔ)設(shè)施項(xiàng)目的一半以上。

這種從芯片到軟件再到數(shù)據(jù)中心的端到端解決方案,直接轉(zhuǎn)化為更高的資源利用率、更快的生產(chǎn)交付速度,以及在云規(guī)模下持續(xù)提升的每美元和每瓦性能。

微軟甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

▲Maia 200機(jī)架和HXU冷卻單元的視圖

這歸因于,微軟芯片開(kāi)發(fā)計(jì)劃的核心原則是在最終芯片上市之前,盡可能多地驗(yàn)證端到端系統(tǒng)。

從架構(gòu)的早期階段開(kāi)始,一套精密的芯片前開(kāi)發(fā)環(huán)境就指導(dǎo)著Maia 200的開(kāi)發(fā),它能夠高保真地模擬大語(yǔ)言模型的計(jì)算和通信模式。

這種早期協(xié)同開(kāi)發(fā)環(huán)境使微軟能夠在首塊芯片問(wèn)世之前,將芯片、網(wǎng)絡(luò)和系統(tǒng)軟件作為一個(gè)整體進(jìn)行優(yōu)化。

微軟從設(shè)計(jì)之初就將Maia 200定位為數(shù)據(jù)中心內(nèi)快速、無(wú)縫的可用性解決方案,并對(duì)包括后端網(wǎng)絡(luò)和第二代閉環(huán)液冷熱交換器單元在內(nèi)的一些最復(fù)雜的系統(tǒng)組件進(jìn)行了早期驗(yàn)證。

與Azure控制平面的原生集成,可在芯片和機(jī)架級(jí)別提供安全、遙測(cè)、診斷和管理功能,從而最大限度地提高生產(chǎn)關(guān)鍵型AI工作負(fù)載的可靠性和正常運(yùn)行時(shí)間。

結(jié)語(yǔ):在全球基礎(chǔ)設(shè)施部署,為未來(lái)幾代AI系統(tǒng)托舉

大規(guī)模AI時(shí)代才剛剛開(kāi)始,基礎(chǔ)設(shè)施將決定其發(fā)展的可能性。

隨著微軟在全球基礎(chǔ)設(shè)施中部署Maia 200,微軟已在為未來(lái)幾代AI系統(tǒng)進(jìn)行設(shè)計(jì),并期望每一代系統(tǒng)都能不斷樹(shù)立新的標(biāo)桿,為重要的AI工作負(fù)載帶來(lái)更出色的性能和效率。

微軟誠(chéng)邀開(kāi)發(fā)者、AI創(chuàng)企和學(xué)術(shù)界人士使用全新Maia 200 SDK開(kāi)始探索早期模型和工作負(fù)載優(yōu)化。

該SDK包含Triton編譯器、PyTorch支持、NPL底層編程以及Maia模擬器和成本計(jì)算器,可在代碼生命周期的早期階段優(yōu)化效率。