智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西圣何塞6月12日?qǐng)?bào)道,今日,年度AI盛會(huì)AMD Advancing AI大會(huì)火熱開幕。作為全球第二大AI芯片供應(yīng)商,AMD今日發(fā)布其迄今最強(qiáng)AI產(chǎn)品陣容——旗艦數(shù)據(jù)中心GPU新一代AI軟件棧全新AI機(jī)架級(jí)基礎(chǔ)設(shè)施AI網(wǎng)絡(luò),全面展露與英偉達(dá)掰手腕的雄心宏圖。智東西從大會(huì)前排發(fā)來(lái)一手報(bào)道。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

xAI技術(shù)團(tuán)隊(duì)成員Xiao Sun、Meta工程副總裁Yee Jiun Song、甲骨文云基礎(chǔ)設(shè)施執(zhí)行副總裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相繼登臺(tái),與AMD董事會(huì)主席及首席執(zhí)行官蘇姿豐(Lisa Su)博士對(duì)談。

OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman作為驚喜嘉賓壓軸登場(chǎng),透露OpenAI團(tuán)隊(duì)在MI300X和MI450上開展了一些工作。他評(píng)價(jià)說(shuō),MI450的內(nèi)存架構(gòu)已為推理做好準(zhǔn)備,相信它也會(huì)成為出色的訓(xùn)練選擇。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

此次AMD最新發(fā)布或預(yù)覽的重點(diǎn)產(chǎn)品包括:

1、數(shù)據(jù)中心AI芯片AMD Instinct MI350系列:采用3nm制程,集成了1850億顆晶體管,基于AMD CDNA 4架構(gòu),搭載288GB HBM3e內(nèi)存,內(nèi)存帶寬達(dá)到8TB/s,單GPU可運(yùn)行5200億個(gè)參數(shù)的大模型,F(xiàn)P4/FP6精度下峰值算力達(dá)到20PFLOPS,達(dá)到上一代MI300X的4倍,推理性能達(dá)到上一代的35倍;跑DeepSeek R1模型時(shí),推理吞吐量超過(guò)英偉達(dá)B200。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

2、數(shù)據(jù)中心AI芯片AMD Instinct MI400系列(明年推出):專為大規(guī)模訓(xùn)練和分布式推理而設(shè)計(jì),將FP4精度下峰值算力翻倍提升至40PFLOPS,F(xiàn)P8峰值性能達(dá)到20PFLOPS,搭載432GB HBM4內(nèi)存,內(nèi)存帶寬達(dá)到19.6TB/s,每GPU橫向擴(kuò)展帶寬達(dá)到300GB/s,可實(shí)現(xiàn)跨機(jī)架和集群的高帶寬互連,旨在訓(xùn)練和運(yùn)行擁有數(shù)千億和萬(wàn)億級(jí)參數(shù)的大模型。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

相比MI355X,MI400系列的性能提升高達(dá)10倍

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸
▲相比MI355X,MI400系列的AI計(jì)算性能猛躥新高

3、全新AI軟件棧ROCm 7.0:相比上一代,推理性能提升至4倍以上,訓(xùn)練性能可提升至3倍,實(shí)現(xiàn)對(duì)GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等許多主流模型的Day 0級(jí)支持,可在筆記本電腦和工作站上開發(fā),首度支持Windows系統(tǒng)。AMD還首次推出開發(fā)者云。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

4、下一代“Helios”AI機(jī)架級(jí)基礎(chǔ)設(shè)施(明年推出):AMD首個(gè)AI機(jī)架級(jí)解決方案,進(jìn)一步提升AI計(jì)算密度和可擴(kuò)展性,支持多達(dá)72塊MI400系列GPU緊密耦合,支持260TB/s的擴(kuò)展帶寬,支持UALink,F(xiàn)P4峰值算力達(dá)2.9EFLOPS

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

蘇姿豐博士稱Helios是“世界上最好的AI機(jī)架級(jí)解決方案”。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

與采用英偉達(dá)下一代Vera Rubin芯片的Oberon機(jī)架相比,Helios AI機(jī)架擁有同等的GPU域、縱向擴(kuò)展帶寬,F(xiàn)P4和FP8精度下的性能也大致相同,HBM4內(nèi)存容量、內(nèi)存帶寬、橫向擴(kuò)展帶寬分別提升50%

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

Helios集成了AMD EPYC “Venice” CPU、MI400系列GPU和Pensando “Vulcano” NIC網(wǎng)卡。

其中AMD EPYC “Venice”服務(wù)器CPU將采用2nm制程,基于Zen 6架構(gòu),最多256,CPU-to-GPU帶寬翻倍,代際性能提升70%,內(nèi)存帶寬達(dá)到1.6TB/s。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

蘇姿豐博士還劇透了將于2027年推出的AMD下一代機(jī)架級(jí)解決方案。該方案將集成EPYC “Verano” CPU、MI500系列GPU、Pensando “Vulcano” NIC。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

AMD有三大AI戰(zhàn)略支柱:領(lǐng)先的計(jì)算引擎,開放的生態(tài)系統(tǒng),全棧解決方案?,F(xiàn)場(chǎng),蘇姿豐博士展示了AMD端到端AI計(jì)算硬件產(chǎn)品組合。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

全新Instinct MI350系列、ROCm 7軟件、AMD開發(fā)云、AMD Threadripper和Radeon AI解決方案,都將在今年問(wèn)世。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

蘇姿豐博士談道,AMD相信開放的生態(tài)系統(tǒng)對(duì)AI未來(lái)至關(guān)重要,并且是唯一一家致力于硬件、軟件和解決方案開放的公司。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

一、MI350系列:內(nèi)存容量比B200多60%,8卡峰值A(chǔ)I算力達(dá)161PFLOPS

據(jù)蘇姿豐博士分享,數(shù)據(jù)中心AI加速器TAM市場(chǎng)將每年增長(zhǎng)60%以上,到2028年達(dá)到5000億美元,預(yù)計(jì)推理將在未來(lái)幾年內(nèi)每年增長(zhǎng)80%以上,成為AI計(jì)算的最大驅(qū)動(dòng)力。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

AMD履行Instinct GPU路線圖承諾,繼2023年發(fā)布MI300A/X、2024年推出MI325后,MI350系列今年第三季度上市,下一代MI400系列將在明年推出。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

目前全球10大AI公司中,有7家正大規(guī)模部署AMD Instinct GPU。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

MI350系列GPU是AMD當(dāng)前最先進(jìn)的生成式AI平臺(tái)。MI350X和MI355X采用相同的計(jì)算機(jī)體系結(jié)構(gòu)和內(nèi)存,MI350X更適用于典型板卡功耗(TBP)較低的風(fēng)冷,MI355X的訓(xùn)練吞吐量、效率、功耗更高,更適用于液冷。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

和英偉達(dá)B200/GB200相比,MI355X的紙面性能同樣能打,內(nèi)存容量多出60%,F(xiàn)P64/FP32、FP6精度下的峰值性能翻倍提升,F(xiàn)P16、FP8、FP4精度下峰值性能相當(dāng)

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

相比上一代MI300系列,MI355X重點(diǎn)對(duì)低精度數(shù)據(jù)類型進(jìn)行了優(yōu)化。FP16/BF16數(shù)據(jù)類型吞吐量提高到4k FLOPs/clock/CU,F(xiàn)P8數(shù)據(jù)類型吞吐量增加到8k FLOPs/clock/CU,F(xiàn)P6/FP4數(shù)值格式支持2倍的每CPU FP8速率。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

從表格中可以看到,MI355X的向量FP64峰值性能會(huì)比MI300X略低,矩陣FP64峰值性能幾乎只有MI300X的一半。

8卡MI355X總共有2.3TB HBM3e內(nèi)存、64TB/s內(nèi)存帶寬,F(xiàn)P4/FP6精度下峰值算力可達(dá)到161PFLOPS。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

MI350系列GPU采用UBB8版型。每個(gè)節(jié)點(diǎn)搭載8塊GPU,通過(guò)153.6GB/s的Infinity Fabric雙向鏈路進(jìn)行通信。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

風(fēng)冷機(jī)架最多可配備64個(gè)MI350系列GPU、18TB HBM3e。直接液冷機(jī)架最多可配備128個(gè)MI350系列GPU、36TB HBM3E,可提供高達(dá)2.6EFLOPS的FP4性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

二、1850億顆晶體管,多種先進(jìn)封裝混搭

MI350系列采用增強(qiáng)的模塊化Chiplet封裝,晶體管數(shù)量從上一代的1530億顆增加到1850億顆,但核心總數(shù)減少。

和前代相似,MI350系列GPU采用了多種3D和2.5D先進(jìn)封裝技術(shù)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

采用臺(tái)積電N3P工藝的8個(gè)加速器Complex die(XCD)堆疊在2個(gè)采用N6工藝的I/O base die(IOD)上。每個(gè)XCD有32個(gè)CU(計(jì)算單元)、4MB L2緩存。AMD還給每個(gè)XCD預(yù)留了4個(gè)CU,這些CU會(huì)根據(jù)需要被禁用。IOD包含128個(gè)HBM3e通道、256MB Infinity Cache、第四代Infinity Fabric Link。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

中間Infinity Fabric先進(jìn)封裝對(duì)分帶寬提升到5.5TB/s,通過(guò)Chiplet集成和統(tǒng)一內(nèi)存架構(gòu)實(shí)現(xiàn)更高的靈活性和擴(kuò)展性,并通過(guò)降低總線頻率和電壓來(lái)降低非核心功耗。GPU與其它芯片通信用的4代Infinity Fabric總線帶寬達(dá)到1075GB/s。

相比上一代,MI350系列增加了更多內(nèi)存容量和內(nèi)存帶寬。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

通過(guò)矩陣核心增強(qiáng)和靈活的量化控制,與MI300X相比,MI350X的每CU峰值HBM讀帶寬提升多達(dá)50%。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

三、跑DeepSeek R1提速高達(dá)3倍,推理成本遠(yuǎn)低于B200

推理方面,當(dāng)運(yùn)行Llama 3.1 405B大模型,執(zhí)行AI Agent與聊天機(jī)器人、內(nèi)容生成、摘要總結(jié)、對(duì)話式AI等廣泛AI用例時(shí),相比上一代MI300X,MI355X能實(shí)現(xiàn)2.6倍~4.2倍的推理性能提升。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

無(wú)論是運(yùn)行DeepSeek R1、Llama 3 70B還是Llama 4 Maverick,MI355X都能實(shí)現(xiàn)3倍于MI300X的推理性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

在采用相同GPU數(shù)量、以FP4精度運(yùn)行DeepSeek R1和Llama 3.1 405B模型時(shí),相比英偉達(dá)B200使用自研TensorRT-LLM推理引擎,MI355X使用SGLang、vLLM等開源推理框架的推理性能可提升20%~30%。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

運(yùn)行Llama 3.1 405B模型時(shí),MI355X使用vLLM的推理性能,與GB200使用TensorRT-LLM的性能相媲美。

與B200相比,MI355X每美元可提供多出40%的token,相應(yīng)也就能提供更低的推理成本。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

訓(xùn)練方面,與上一代MI300X相比,在FP8精度下進(jìn)行Llama 3 70B模型預(yù)訓(xùn)練,MI355X可提供3.5倍的吞吐量;在微調(diào)Llama 2 70B時(shí),MI355X可實(shí)現(xiàn)多達(dá)2.9倍的加速。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

與英偉達(dá)B200、GB200相比,MI355X也能取得同等甚至更高的預(yù)訓(xùn)練或微調(diào)性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

這意味著理論上MI355X能實(shí)現(xiàn)更快的訓(xùn)練和推理,縮短從模型開發(fā)到部署的時(shí)間。

四、ROCm 7:超3.5倍推理性能提升,支持桌面端與Windows

AMD的開源軟件戰(zhàn)略正在取得成效。在開源社區(qū)幫助下,AMD軟件生態(tài)系統(tǒng)發(fā)展突飛猛進(jìn)。

ROCm軟件棧是AMD為前沿模型訓(xùn)練和大規(guī)模推理而設(shè)計(jì)的統(tǒng)一架構(gòu),在計(jì)算密度、內(nèi)存、帶寬、擴(kuò)展、互連方面提供領(lǐng)先優(yōu)勢(shì)。

AMD ROCm軟件生態(tài)系統(tǒng)持續(xù)優(yōu)化推理和訓(xùn)練性能,對(duì)Llama、DeepSeek等主流模型實(shí)現(xiàn)Day 0級(jí)支持,將發(fā)布節(jié)奏從每季度加快到每?jī)芍?,持續(xù)改善開發(fā)者的開箱即用體驗(yàn)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

AMD還增加了捐贈(zèng)開源社區(qū)的GPU數(shù)量。PyTorch、VLLM、SGLang、Hugging Face等公司或組織將免費(fèi)獲得GPU,這樣就能持續(xù)集成測(cè)試,確保他們研發(fā)的軟件棧和新功能都能在AMD硬件上開箱即用。

通過(guò)頻繁的更新、先進(jìn)的數(shù)據(jù)類型(如FP4)和新算法(如FAv3),ROCm正在實(shí)現(xiàn)下一代AI性能,同時(shí)推動(dòng)開源框架(如vLLM和SGLang)比封閉替代方案更快地向前發(fā)展。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

ROCm 7將于2025年第三季度普遍可用,支持MI350系列GPU。AMD將在6月12日發(fā)布一個(gè)公開預(yù)覽版,官方版本將于8月發(fā)布。亮點(diǎn)包括:

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

1、性能提升:與上一代ROCm 6版本相比,ROCm 7擁有超過(guò)3.5倍的推理能力和3倍的訓(xùn)練能力。這源于可用性、性能和對(duì)低精度數(shù)據(jù)類型(如FP4和FP6)支持等方面的進(jìn)步。通信棧的進(jìn)一步增強(qiáng)優(yōu)化了GPU利用率和數(shù)據(jù)移動(dòng)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

▲ROCm的新推理功能

推理方面,與上一代ROCm 6對(duì)比,ROCm 7在相同硬件上運(yùn)行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型,可實(shí)現(xiàn)3.2~3.8倍的推理和訓(xùn)練性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

AMD在訓(xùn)練方面同樣擁抱開源,有自研的開源模型。AMD組建了一個(gè)AI科學(xué)家團(tuán)隊(duì),該團(tuán)隊(duì)用AMD的軟件和硬件來(lái)研發(fā)模型(包括文本模型、文生圖模型、歐洲模型、多模態(tài)模型、游戲Agent等),試圖實(shí)現(xiàn)最佳性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

▲新訓(xùn)練功能

這里補(bǔ)充個(gè)插曲,歐洲模型源自AMD之前收購(gòu)的芬蘭silo AI。silo AI一直致力于構(gòu)建支持多種歐洲語(yǔ)言的模型,他們也跟法國(guó)明星大模型獨(dú)角獸Mistral AI合作。

相比ROCm 6,ROCm 7在相同硬件上訓(xùn)練Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等開源模型,可實(shí)現(xiàn)3~3.1倍的性能提升。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

2、分布式推理:ROCm 7引入了一種健壯的分布式推理方法,利用與開源生態(tài)系統(tǒng)的協(xié)作,包括SGLang、vLLM、llm-d等開源推理框架。通過(guò)采用開放策略,ROCm 7與這些合作伙伴一起構(gòu)建、共同開發(fā)共享接口和原語(yǔ),從而在AMD平臺(tái)上實(shí)現(xiàn)高效的分布式推理。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

英偉達(dá)TensorRT-LLM工具不支持DeepSeek R1 FP8精度,但vLLM、SGLang等開源推理框架均可支持。由于AMD與這些開源軟件緊密合作,MI355X能取得更好的推理結(jié)果,吞吐量比B200高出30%

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

3、企業(yè)AI解決方案:ROCm企業(yè)級(jí)AI軟件棧作為一個(gè)全棧MLOps平臺(tái)首次亮相,專為企業(yè)環(huán)境中的無(wú)縫AI操作而設(shè)計(jì),通過(guò)交鑰匙工具實(shí)現(xiàn)安全、可擴(kuò)展的AI,用于微調(diào)、合規(guī)性、部署和集成。它包括針對(duì)行業(yè)特定數(shù)據(jù)進(jìn)行模型微調(diào)的工具,以及與結(jié)構(gòu)化和非結(jié)構(gòu)化工作流的集成,通過(guò)AMD生態(tài)系統(tǒng)內(nèi)的合作伙伴關(guān)系來(lái)開發(fā)參考應(yīng)用,如聊天機(jī)器人和文檔摘要。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

4、支持在Ryzen筆記本電腦和工作站上的開發(fā):可執(zhí)行AI輔助代碼、定制自動(dòng)化、先進(jìn)推理、模型微調(diào)等任務(wù),將ROCm體驗(yàn)擴(kuò)展到端側(cè)。

AMD Ryzen AI 300筆記本電腦可本地運(yùn)行240億個(gè)參數(shù)的AI模型。更專業(yè)的Ryzen AI Max筆記本電腦,本地可跑700億個(gè)參數(shù)的模型。Threadripper + Radeon AI工作站,本地可跑1280億個(gè)參數(shù)的模型。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

ROCm將支持In-Box Linux,并首度支持Windows操作系統(tǒng)。預(yù)計(jì)從2025年下半年開始,ROCm將出現(xiàn)在主要的發(fā)行版中,將Windows定位為一流的、得到全面支持的操作系統(tǒng),確保家庭和企業(yè)設(shè)置的可移植性和效率。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

AMD還首次推出開發(fā)者云,讓開發(fā)者能夠即時(shí)、無(wú)障礙地訪問(wèn)ROCm和AMD GPU,實(shí)現(xiàn)無(wú)縫的AI開發(fā)和部署。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

這個(gè)完全托管的環(huán)境提供了對(duì)MI300X GPU的即時(shí)訪問(wèn),無(wú)需硬件投資或本地設(shè)置,只需Github或電子郵件地址即可輕松設(shè)置。Docker容器預(yù)裝了流行的AI軟件,最大限度地減少了安裝時(shí)間,同時(shí)給開發(fā)人員定制代碼的靈活性。

其可擴(kuò)展的計(jì)算選項(xiàng)包括:

  • 小型,1x MI300X GPU (192GB GPU內(nèi)存);
  • 大型,8x MI300X GPU (1536GB GPU內(nèi)存)。

率先注冊(cè)的開發(fā)者可獲得25小時(shí)的免費(fèi)積分,通過(guò)ROCm Star開發(fā)者證書等計(jì)劃可獲得最多50個(gè)小時(shí)的額外時(shí)間。

五、“Helios”AI機(jī)架明年問(wèn)世,搭載下一代3nm AI網(wǎng)卡

MI350系列機(jī)架基礎(chǔ)設(shè)施完全基于開放標(biāo)準(zhǔn),可采用x86 CPU(5代EPYC)、Instinct GPU(MI350系列)、UEC Scale-Out NIC(AMD Pensando “Pollara” NIC)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

明年,AMD將推出下一代AI機(jī)架基礎(chǔ)設(shè)施解決方案——Helios AI機(jī)架,將集成EPYC “Venice” CPU、MI400系列GPU、Pensando “Vulcano” NIC。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

該架構(gòu)橫向擴(kuò)展基于超以太網(wǎng)(Ultra Ethernet),縱向擴(kuò)展基于UALink(Ultra Accelerator Link),并提供Fabric Manager作為ROCm生命周期管理的一部分,以支持基礎(chǔ)設(shè)施自動(dòng)化。

網(wǎng)絡(luò)對(duì)于構(gòu)建機(jī)架級(jí)規(guī)模的AI系統(tǒng)至關(guān)重要。為了擴(kuò)大網(wǎng)絡(luò)規(guī)模,AMD去年推出了Pensando Pollara 400 AI NIC。該NIC現(xiàn)可在MI350系統(tǒng)里大規(guī)模部署。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

相比英偉達(dá)ConnectX7、博通Thor2,AMD Pollara可實(shí)現(xiàn)高出10%~20%的RDMA性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

AMD使用UEC標(biāo)準(zhǔn)來(lái)推動(dòng)創(chuàng)新。由于先進(jìn)UEC功能運(yùn)行在Pollara內(nèi)部,AMD可將客戶的fabric成本降低16%,這個(gè)分析是基于8k GPU集群。當(dāng)將這些集群擴(kuò)展到32k、64k、128k時(shí),成本和節(jié)省幅度會(huì)快速增加。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

作為MI400系列的一部分,下一代AMD Pensando “Vulcano” AI NIC將在2026年作為默認(rèn)配置發(fā)貨。

Vulcano采用3nm制程,提供800G網(wǎng)絡(luò)吞吐量,每GPU的橫向擴(kuò)展帶寬是上一代的8倍,支持UAL和PCIe Gen6,相比PCIe Gen6提供了2倍的帶寬,可擴(kuò)展到100萬(wàn)塊GPU,并具有完整的軟件向前和向后兼容。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

這些優(yōu)勢(shì)將直接轉(zhuǎn)化為更快的模型訓(xùn)練和更好的推理性能,為客戶帶來(lái)巨大的經(jīng)濟(jì)優(yōu)勢(shì)。

六、AI網(wǎng)絡(luò):UALink支持1024塊GPU互連,今年Q3推出全新DPU

AI模型尺寸每三年增長(zhǎng)1000倍,不僅需要更多的計(jì)算、內(nèi)存,還需要更多的網(wǎng)絡(luò)帶寬來(lái)進(jìn)行訓(xùn)練和分布式推理。如今訓(xùn)練數(shù)據(jù)集每8個(gè)月翻一番。這些需求都超過(guò)了芯片的發(fā)展速度,芯片晶體管密度每?jī)赡瓴欧环?/p>

唯一的方法是構(gòu)建分布式系統(tǒng)創(chuàng)新,實(shí)現(xiàn)AI芯片的數(shù)據(jù)中心級(jí)擴(kuò)展。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

為了支持大量GPU一起工作,AMD與100多家公司一起成立了超以太網(wǎng)聯(lián)盟(Ultra Ethernet)。超以太網(wǎng)技術(shù)是以太網(wǎng)的進(jìn)化,能擴(kuò)展至英偉達(dá)Infiniband的20倍、經(jīng)典以太網(wǎng)的10倍。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

去年成立的UALink(Ultra Accelerator Link)聯(lián)盟旨在擴(kuò)展將AI芯片網(wǎng)絡(luò)規(guī)模,提供更高的帶寬、更低的延時(shí)。與英偉達(dá)NVLink相比,UALink完全開放,由100多個(gè)聯(lián)盟成員支持,意味著客戶可以使用任何GPU、任何CPU和任何交換機(jī)來(lái)擴(kuò)展他們的架構(gòu)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

UALink支持多達(dá)1024個(gè)GPU連接在一起的能力,是英偉達(dá)NVLink支持GPU規(guī)模的2倍。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

在GPU系統(tǒng)連接的前端網(wǎng)絡(luò)方面,AMD宣布Salina 400 DPU將在今年第三季度推出,目標(biāo)成為“目前市場(chǎng)上性能最好、最安全、可擴(kuò)展的AI前端網(wǎng)絡(luò)基礎(chǔ)設(shè)施”。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

Salina 400 DPU的性能達(dá)到上一代的2倍,相比英偉達(dá)Bluefield 3 DPU性能提升40%。該DPU可安全橋接AI服務(wù)器到企業(yè),提高AI服務(wù)器性能與網(wǎng)絡(luò)、安全性、存儲(chǔ)卸載,引擎對(duì)網(wǎng)絡(luò)功能的加速可達(dá)到CPU的40倍

自動(dòng)化同樣不可或缺。ROCm AI生命周期管理軟件,可將客戶的部署時(shí)間從幾個(gè)月減少到幾天。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

ROCm將在2026年推出Fabric Manager,確保用戶可自動(dòng)部署機(jī)架級(jí)規(guī)模的應(yīng)用,并自帶可靠性、可用性和可維護(hù)性。

七、AMD設(shè)定2030年新目標(biāo):將機(jī)架級(jí)能效提高20倍

能效長(zhǎng)期是與AMD的路線圖和產(chǎn)品戰(zhàn)略相一致的指導(dǎo)核心設(shè)計(jì)原則。

在2020年,AMD通過(guò)在短短六年內(nèi)將AMD移動(dòng)處理器的能效提高25倍,超額完成了25×20的目標(biāo)。

如今AMD已超越其30×25的目標(biāo)(與2020年相比,將加速計(jì)算節(jié)點(diǎn)的能源效率提高30倍),在AI訓(xùn)練和高性能計(jì)算方面,使用當(dāng)前配置的4個(gè)MI355X GPU和一個(gè)EPYC第五代CPU,實(shí)現(xiàn)了38倍的節(jié)點(diǎn)級(jí)能效提升,與5年前的系統(tǒng)相比,在相同的性能下,能耗降低了97%。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

現(xiàn)在,AMD又設(shè)定了一個(gè)新的2030年目標(biāo),即在2024年的基礎(chǔ)上,將機(jī)架規(guī)模的能源效率提高20倍(幾乎是之前行業(yè)效率的3倍),使目前需要超過(guò)275個(gè)機(jī)架的典型AI模型到2030年能夠在一個(gè)機(jī)架內(nèi)進(jìn)行訓(xùn)練,同時(shí)減少95%的運(yùn)營(yíng)用電量,將模型訓(xùn)練的碳排放量從約3000公噸減少到100公噸。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現(xiàn)場(chǎng)夸

這些預(yù)測(cè)是基于AMD芯片和系統(tǒng)設(shè)計(jì)路線圖以及經(jīng)能效專家Jonathan Koomey博士驗(yàn)證的測(cè)量方法。

結(jié)合軟件和算法的進(jìn)步,新目標(biāo)可以使整體能源效率提高100倍

到2030年機(jī)架規(guī)模的20倍目標(biāo)反映了下一個(gè)前沿領(lǐng)域:不僅關(guān)注芯片,還關(guān)注更智能、更高效的系統(tǒng),從芯片到全機(jī)架集成,以滿足數(shù)據(jù)中心級(jí)的功率需求。

結(jié)語(yǔ):全棧布局,豪賭AI計(jì)算未來(lái)

AI基礎(chǔ)設(shè)施如今已是數(shù)據(jù)中心AI芯片兵家必爭(zhēng)之地。從今日釋放信息來(lái)看,AMD面向整個(gè)機(jī)架級(jí)基礎(chǔ)設(shè)施的布局已趨于完整,覆蓋從CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ)、軟硬件協(xié)同設(shè)計(jì)到系統(tǒng)的性能與能效優(yōu)化。

隨著頂尖大模型性能增長(zhǎng)放緩,產(chǎn)學(xué)界不再一味煉大模型,而是更多探索圍繞可持續(xù)、更經(jīng)濟(jì)地?cái)U(kuò)展AI計(jì)算的相關(guān)創(chuàng)新,這正推動(dòng)AI模型的訓(xùn)練和部署效率持續(xù)提升。

除了提升硬件性能與配置外,AI軟件棧和AI機(jī)架級(jí)基礎(chǔ)設(shè)施的優(yōu)化,都成為AMD面向未來(lái)增強(qiáng)AI競(jìng)爭(zhēng)力的重點(diǎn)投入方向。與英偉達(dá)不同的是,AMD認(rèn)定開源才能推動(dòng)AI以最快速度進(jìn)步,正堅(jiān)定擁抱開源,構(gòu)建一個(gè)完全開放的軟件生態(tài)系統(tǒng)。

在演講尾聲,蘇姿豐博士強(qiáng)調(diào):“AI的未來(lái)不會(huì)由任何一家公司或在一個(gè)封閉的生態(tài)系統(tǒng)中建立,它將由整個(gè)行業(yè)的開放合作來(lái)塑造成型?!?/p>

作為全球數(shù)據(jù)中心AI芯片市場(chǎng)的第二名,AMD比第一名的包袱更輕,比后位者吞食市場(chǎng)份額的機(jī)會(huì)更大。而蓄勢(shì)待出的MI400系列和“Helios” AI機(jī)架級(jí)基礎(chǔ)設(shè)施,將蘊(yùn)藏著AMD押注下一股AI浪潮、釋放生成式AI和高性能計(jì)算的機(jī)遇與潛力。