国产AAAAAA一级毛片,我想看男人操女人的逼逼

智東西（公眾號(hào)：zhidxcom）
作者 | ZeR0
編輯 | 漠影

智東西圣何塞6月12日?qǐng)?bào)道，今日，年度AI盛會(huì)AMD Advancing AI大會(huì)火熱開幕。作為全球第二大AI芯片供應(yīng)商，AMD今日發(fā)布其迄今最強(qiáng)AI產(chǎn)品陣容——旗艦數(shù)據(jù)中心GPU、新一代AI軟件棧、全新AI機(jī)架級(jí)基礎(chǔ)設(shè)施、AI網(wǎng)絡(luò)，全面展露與英偉達(dá)掰手腕的雄心宏圖。智東西從大會(huì)前排發(fā)來(lái)一手報(bào)道。

xAI技術(shù)團(tuán)隊(duì)成員Xiao Sun、Meta工程副總裁Yee Jiun Song、甲骨文云基礎(chǔ)設(shè)施執(zhí)行副總裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相繼登臺(tái)，與AMD董事會(huì)主席及首席執(zhí)行官蘇姿豐（Lisa Su）博士對(duì)談。

OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman作為驚喜嘉賓壓軸登場(chǎng)，透露OpenAI團(tuán)隊(duì)在MI300X和MI450上開展了一些工作。他評(píng)價(jià)說(shuō)，MI450的內(nèi)存架構(gòu)已為推理做好準(zhǔn)備，相信它也會(huì)成為出色的訓(xùn)練選擇。

此次AMD最新發(fā)布或預(yù)覽的重點(diǎn)產(chǎn)品包括：

1、數(shù)據(jù)中心AI芯片AMD Instinct MI350系列：采用3nm制程，集成了1850億顆晶體管，基于AMD CDNA 4架構(gòu)，搭載288GB HBM3e內(nèi)存，內(nèi)存帶寬達(dá)到8TB/s，單GPU可運(yùn)行5200億個(gè)參數(shù)的大模型，F(xiàn)P4/FP6精度下峰值算力達(dá)到20PFLOPS，達(dá)到上一代MI300X的4倍，推理性能達(dá)到上一代的35倍；跑DeepSeek R1模型時(shí)，推理吞吐量超過(guò)英偉達(dá)B200。

2、數(shù)據(jù)中心AI芯片AMD Instinct MI400系列（明年推出）：專為大規(guī)模訓(xùn)練和分布式推理而設(shè)計(jì)，將FP4精度下峰值算力翻倍提升至40PFLOPS，F(xiàn)P8峰值性能達(dá)到20PFLOPS，搭載432GB HBM4內(nèi)存，內(nèi)存帶寬達(dá)到19.6TB/s，每GPU橫向擴(kuò)展帶寬達(dá)到300GB/s，可實(shí)現(xiàn)跨機(jī)架和集群的高帶寬互連，旨在訓(xùn)練和運(yùn)行擁有數(shù)千億和萬(wàn)億級(jí)參數(shù)的大模型。

相比MI355X，MI400系列的性能提升高達(dá)10倍。

▲相比MI355X，MI400系列的AI計(jì)算性能猛躥新高

3、全新AI軟件棧ROCm 7.0：相比上一代，推理性能提升至4倍以上，訓(xùn)練性能可提升至3倍，實(shí)現(xiàn)對(duì)GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等許多主流模型的Day 0級(jí)支持，可在筆記本電腦和工作站上開發(fā)，首度支持Windows系統(tǒng)。AMD還首次推出開發(fā)者云。

4、下一代“Helios”AI機(jī)架級(jí)基礎(chǔ)設(shè)施（明年推出）：AMD首個(gè)AI機(jī)架級(jí)解決方案，進(jìn)一步提升AI計(jì)算密度和可擴(kuò)展性，支持多達(dá)72塊MI400系列GPU緊密耦合，支持260TB/s的擴(kuò)展帶寬，支持UALink，F(xiàn)P4峰值算力達(dá)2.9EFLOPS。

蘇姿豐博士稱Helios是“世界上最好的AI機(jī)架級(jí)解決方案”。

與采用英偉達(dá)下一代Vera Rubin芯片的Oberon機(jī)架相比，Helios AI機(jī)架擁有同等的GPU域、縱向擴(kuò)展帶寬，F(xiàn)P4和FP8精度下的性能也大致相同，HBM4內(nèi)存容量、內(nèi)存帶寬、橫向擴(kuò)展帶寬分別提升50%。

Helios集成了AMD EPYC “Venice” CPU、MI400系列GPU和Pensando “Vulcano” NIC網(wǎng)卡。

其中AMD EPYC “Venice”服務(wù)器CPU將采用2nm制程，基于Zen 6架構(gòu)，最多256核，CPU-to-GPU帶寬翻倍，代際性能提升70%，內(nèi)存帶寬達(dá)到1.6TB/s。

蘇姿豐博士還劇透了將于2027年推出的AMD下一代機(jī)架級(jí)解決方案。該方案將集成EPYC “Verano” CPU、MI500系列GPU、Pensando “Vulcano” NIC。

AMD有三大AI戰(zhàn)略支柱：領(lǐng)先的計(jì)算引擎，開放的生態(tài)系統(tǒng)，全棧解決方案?，F(xiàn)場(chǎng)，蘇姿豐博士展示了AMD端到端AI計(jì)算硬件產(chǎn)品組合。

全新Instinct MI350系列、ROCm 7軟件、AMD開發(fā)云、AMD Threadripper和Radeon AI解決方案，都將在今年問(wèn)世。

蘇姿豐博士談道，AMD相信開放的生態(tài)系統(tǒng)對(duì)AI未來(lái)至關(guān)重要，并且是唯一一家致力于硬件、軟件和解決方案開放的公司。

一、MI350系列：內(nèi)存容量比B200多60%，8卡峰值A(chǔ)I算力達(dá)161PFLOPS

據(jù)蘇姿豐博士分享，數(shù)據(jù)中心AI加速器TAM市場(chǎng)將每年增長(zhǎng)60%以上，到2028年達(dá)到5000億美元，預(yù)計(jì)推理將在未來(lái)幾年內(nèi)每年增長(zhǎng)80%以上，成為AI計(jì)算的最大驅(qū)動(dòng)力。

AMD履行Instinct GPU路線圖承諾，繼2023年發(fā)布MI300A/X、2024年推出MI325后，MI350系列今年第三季度上市，下一代MI400系列將在明年推出。

目前全球10大AI公司中，有7家正大規(guī)模部署AMD Instinct GPU。

MI350系列GPU是AMD當(dāng)前最先進(jìn)的生成式AI平臺(tái)。MI350X和MI355X采用相同的計(jì)算機(jī)體系結(jié)構(gòu)和內(nèi)存，MI350X更適用于典型板卡功耗（TBP）較低的風(fēng)冷，MI355X的訓(xùn)練吞吐量、效率、功耗更高，更適用于液冷。

和英偉達(dá)B200/GB200相比，MI355X的紙面性能同樣能打，內(nèi)存容量多出60%，F(xiàn)P64/FP32、FP6精度下的峰值性能翻倍提升，F(xiàn)P16、FP8、FP4精度下峰值性能相當(dāng)。

相比上一代MI300系列，MI355X重點(diǎn)對(duì)低精度數(shù)據(jù)類型進(jìn)行了優(yōu)化。FP16/BF16數(shù)據(jù)類型吞吐量提高到4k FLOPs/clock/CU，F(xiàn)P8數(shù)據(jù)類型吞吐量增加到8k FLOPs/clock/CU，F(xiàn)P6/FP4數(shù)值格式支持2倍的每CPU FP8速率。

從表格中可以看到，MI355X的向量FP64峰值性能會(huì)比MI300X略低，矩陣FP64峰值性能幾乎只有MI300X的一半。

8卡MI355X總共有2.3TB HBM3e內(nèi)存、64TB/s內(nèi)存帶寬，F(xiàn)P4/FP6精度下峰值算力可達(dá)到161PFLOPS。

MI350系列GPU采用UBB8版型。每個(gè)節(jié)點(diǎn)搭載8塊GPU，通過(guò)153.6GB/s的Infinity Fabric雙向鏈路進(jìn)行通信。

風(fēng)冷機(jī)架最多可配備64個(gè)MI350系列GPU、18TB HBM3e。直接液冷機(jī)架最多可配備128個(gè)MI350系列GPU、36TB HBM3E，可提供高達(dá)2.6EFLOPS的FP4性能。

二、1850億顆晶體管，多種先進(jìn)封裝混搭

MI350系列采用增強(qiáng)的模塊化Chiplet封裝，晶體管數(shù)量從上一代的1530億顆增加到1850億顆，但核心總數(shù)減少。

和前代相似，MI350系列GPU采用了多種3D和2.5D先進(jìn)封裝技術(shù)。

采用臺(tái)積電N3P工藝的8個(gè)加速器Complex die（XCD）堆疊在2個(gè)采用N6工藝的I/O base die（IOD）上。每個(gè)XCD有32個(gè)CU（計(jì)算單元）、4MB L2緩存。AMD還給每個(gè)XCD預(yù)留了4個(gè)CU，這些CU會(huì)根據(jù)需要被禁用。IOD包含128個(gè)HBM3e通道、256MB Infinity Cache、第四代Infinity Fabric Link。

中間Infinity Fabric先進(jìn)封裝對(duì)分帶寬提升到5.5TB/s，通過(guò)Chiplet集成和統(tǒng)一內(nèi)存架構(gòu)實(shí)現(xiàn)更高的靈活性和擴(kuò)展性，并通過(guò)降低總線頻率和電壓來(lái)降低非核心功耗。GPU與其它芯片通信用的4代Infinity Fabric總線帶寬達(dá)到1075GB/s。

相比上一代，MI350系列增加了更多內(nèi)存容量和內(nèi)存帶寬。

通過(guò)矩陣核心增強(qiáng)和靈活的量化控制，與MI300X相比，MI350X的每CU峰值HBM讀帶寬提升多達(dá)50%。

三、跑DeepSeek R1提速高達(dá)3倍，推理成本遠(yuǎn)低于B200

推理方面，當(dāng)運(yùn)行Llama 3.1 405B大模型，執(zhí)行AI Agent與聊天機(jī)器人、內(nèi)容生成、摘要總結(jié)、對(duì)話式AI等廣泛AI用例時(shí)，相比上一代MI300X，MI355X能實(shí)現(xiàn)2.6倍~4.2倍的推理性能提升。

無(wú)論是運(yùn)行DeepSeek R1、Llama 3 70B還是Llama 4 Maverick，MI355X都能實(shí)現(xiàn)3倍于MI300X的推理性能。

在采用相同GPU數(shù)量、以FP4精度運(yùn)行DeepSeek R1和Llama 3.1 405B模型時(shí)，相比英偉達(dá)B200使用自研TensorRT-LLM推理引擎，MI355X使用SGLang、vLLM等開源推理框架的推理性能可提升20%~30%。

運(yùn)行Llama 3.1 405B模型時(shí)，MI355X使用vLLM的推理性能，與GB200使用TensorRT-LLM的性能相媲美。

與B200相比，MI355X每美元可提供多出40%的token，相應(yīng)也就能提供更低的推理成本。

訓(xùn)練方面，與上一代MI300X相比，在FP8精度下進(jìn)行Llama 3 70B模型預(yù)訓(xùn)練，MI355X可提供3.5倍的吞吐量；在微調(diào)Llama 2 70B時(shí)，MI355X可實(shí)現(xiàn)多達(dá)2.9倍的加速。

與英偉達(dá)B200、GB200相比，MI355X也能取得同等甚至更高的預(yù)訓(xùn)練或微調(diào)性能。

這意味著理論上MI355X能實(shí)現(xiàn)更快的訓(xùn)練和推理，縮短從模型開發(fā)到部署的時(shí)間。

四、ROCm 7：超3.5倍推理性能提升，支持桌面端與Windows

AMD的開源軟件戰(zhàn)略正在取得成效。在開源社區(qū)幫助下，AMD軟件生態(tài)系統(tǒng)發(fā)展突飛猛進(jìn)。

ROCm軟件棧是AMD為前沿模型訓(xùn)練和大規(guī)模推理而設(shè)計(jì)的統(tǒng)一架構(gòu)，在計(jì)算密度、內(nèi)存、帶寬、擴(kuò)展、互連方面提供領(lǐng)先優(yōu)勢(shì)。

AMD ROCm軟件生態(tài)系統(tǒng)持續(xù)優(yōu)化推理和訓(xùn)練性能，對(duì)Llama、DeepSeek等主流模型實(shí)現(xiàn)Day 0級(jí)支持，將發(fā)布節(jié)奏從每季度加快到每?jī)芍?，持續(xù)改善開發(fā)者的開箱即用體驗(yàn)。

AMD還增加了捐贈(zèng)開源社區(qū)的GPU數(shù)量。PyTorch、VLLM、SGLang、Hugging Face等公司或組織將免費(fèi)獲得GPU，這樣就能持續(xù)集成測(cè)試，確保他們研發(fā)的軟件棧和新功能都能在AMD硬件上開箱即用。

通過(guò)頻繁的更新、先進(jìn)的數(shù)據(jù)類型（如FP4）和新算法（如FAv3），ROCm正在實(shí)現(xiàn)下一代AI性能，同時(shí)推動(dòng)開源框架（如vLLM和SGLang）比封閉替代方案更快地向前發(fā)展。

ROCm 7將于2025年第三季度普遍可用，支持MI350系列GPU。AMD將在6月12日發(fā)布一個(gè)公開預(yù)覽版，官方版本將于8月發(fā)布。亮點(diǎn)包括：

1、性能提升：與上一代ROCm 6版本相比，ROCm 7擁有超過(guò)3.5倍的推理能力和3倍的訓(xùn)練能力。這源于可用性、性能和對(duì)低精度數(shù)據(jù)類型（如FP4和FP6）支持等方面的進(jìn)步。通信棧的進(jìn)一步增強(qiáng)優(yōu)化了GPU利用率和數(shù)據(jù)移動(dòng)。

▲ROCm的新推理功能

推理方面，與上一代ROCm 6對(duì)比，ROCm 7在相同硬件上運(yùn)行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型，可實(shí)現(xiàn)3.2~3.8倍的推理和訓(xùn)練性能。

AMD在訓(xùn)練方面同樣擁抱開源，有自研的開源模型。AMD組建了一個(gè)AI科學(xué)家團(tuán)隊(duì)，該團(tuán)隊(duì)用AMD的軟件和硬件來(lái)研發(fā)模型（包括文本模型、文生圖模型、歐洲模型、多模態(tài)模型、游戲Agent等），試圖實(shí)現(xiàn)最佳性能。

▲新訓(xùn)練功能

這里補(bǔ)充個(gè)插曲，歐洲模型源自AMD之前收購(gòu)的芬蘭silo AI。silo AI一直致力于構(gòu)建支持多種歐洲語(yǔ)言的模型，他們也跟法國(guó)明星大模型獨(dú)角獸Mistral AI合作。

相比ROCm 6，ROCm 7在相同硬件上訓(xùn)練Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等開源模型，可實(shí)現(xiàn)3~3.1倍的性能提升。

2、分布式推理：ROCm 7引入了一種健壯的分布式推理方法，利用與開源生態(tài)系統(tǒng)的協(xié)作，包括SGLang、vLLM、llm-d等開源推理框架。通過(guò)采用開放策略，ROCm 7與這些合作伙伴一起構(gòu)建、共同開發(fā)共享接口和原語(yǔ)，從而在AMD平臺(tái)上實(shí)現(xiàn)高效的分布式推理。

英偉達(dá)TensorRT-LLM工具不支持DeepSeek R1 FP8精度，但vLLM、SGLang等開源推理框架均可支持。由于AMD與這些開源軟件緊密合作，MI355X能取得更好的推理結(jié)果，吞吐量比B200高出30%。

3、企業(yè)AI解決方案：ROCm企業(yè)級(jí)AI軟件棧作為一個(gè)全棧MLOps平臺(tái)首次亮相，專為企業(yè)環(huán)境中的無(wú)縫AI操作而設(shè)計(jì)，通過(guò)交鑰匙工具實(shí)現(xiàn)安全、可擴(kuò)展的AI，用于微調(diào)、合規(guī)性、部署和集成。它包括針對(duì)行業(yè)特定數(shù)據(jù)進(jìn)行模型微調(diào)的工具，以及與結(jié)構(gòu)化和非結(jié)構(gòu)化工作流的集成，通過(guò)AMD生態(tài)系統(tǒng)內(nèi)的合作伙伴關(guān)系來(lái)開發(fā)參考應(yīng)用，如聊天機(jī)器人和文檔摘要。

4、支持在Ryzen筆記本電腦和工作站上的開發(fā)：可執(zhí)行AI輔助代碼、定制自動(dòng)化、先進(jìn)推理、模型微調(diào)等任務(wù)，將ROCm體驗(yàn)擴(kuò)展到端側(cè)。

AMD Ryzen AI 300筆記本電腦可本地運(yùn)行240億個(gè)參數(shù)的AI模型。更專業(yè)的Ryzen AI Max筆記本電腦，本地可跑700億個(gè)參數(shù)的模型。Threadripper + Radeon AI工作站，本地可跑1280億個(gè)參數(shù)的模型。

ROCm將支持In-Box Linux，并首度支持Windows操作系統(tǒng)。預(yù)計(jì)從2025年下半年開始，ROCm將出現(xiàn)在主要的發(fā)行版中，將Windows定位為一流的、得到全面支持的操作系統(tǒng)，確保家庭和企業(yè)設(shè)置的可移植性和效率。

AMD還首次推出開發(fā)者云，讓開發(fā)者能夠即時(shí)、無(wú)障礙地訪問(wèn)ROCm和AMD GPU，實(shí)現(xiàn)無(wú)縫的AI開發(fā)和部署。

這個(gè)完全托管的環(huán)境提供了對(duì)MI300X GPU的即時(shí)訪問(wèn)，無(wú)需硬件投資或本地設(shè)置，只需Github或電子郵件地址即可輕松設(shè)置。Docker容器預(yù)裝了流行的AI軟件，最大限度地減少了安裝時(shí)間，同時(shí)給開發(fā)人員定制代碼的靈活性。

其可擴(kuò)展的計(jì)算選項(xiàng)包括：

小型，1x MI300X GPU （192GB GPU內(nèi)存）；
大型，8x MI300X GPU （1536GB GPU內(nèi)存）。

率先注冊(cè)的開發(fā)者可獲得25小時(shí)的免費(fèi)積分，通過(guò)ROCm Star開發(fā)者證書等計(jì)劃可獲得最多50個(gè)小時(shí)的額外時(shí)間。

五、“Helios”AI機(jī)架明年問(wèn)世，搭載下一代3nm AI網(wǎng)卡

MI350系列機(jī)架基礎(chǔ)設(shè)施完全基于開放標(biāo)準(zhǔn)，可采用x86 CPU（5代EPYC）、Instinct GPU（MI350系列）、UEC Scale-Out NIC（AMD Pensando “Pollara” NIC）。

明年，AMD將推出下一代AI機(jī)架基礎(chǔ)設(shè)施解決方案——Helios AI機(jī)架，將集成EPYC “Venice” CPU、MI400系列GPU、Pensando “Vulcano” NIC。

該架構(gòu)橫向擴(kuò)展基于超以太網(wǎng)（Ultra Ethernet），縱向擴(kuò)展基于UALink（Ultra Accelerator Link），并提供Fabric Manager作為ROCm生命周期管理的一部分，以支持基礎(chǔ)設(shè)施自動(dòng)化。

網(wǎng)絡(luò)對(duì)于構(gòu)建機(jī)架級(jí)規(guī)模的AI系統(tǒng)至關(guān)重要。為了擴(kuò)大網(wǎng)絡(luò)規(guī)模，AMD去年推出了Pensando Pollara 400 AI NIC。該NIC現(xiàn)可在MI350系統(tǒng)里大規(guī)模部署。

相比英偉達(dá)ConnectX7、博通Thor2，AMD Pollara可實(shí)現(xiàn)高出10%~20%的RDMA性能。

AMD使用UEC標(biāo)準(zhǔn)來(lái)推動(dòng)創(chuàng)新。由于先進(jìn)UEC功能運(yùn)行在Pollara內(nèi)部，AMD可將客戶的fabric成本降低16%，這個(gè)分析是基于8k GPU集群。當(dāng)將這些集群擴(kuò)展到32k、64k、128k時(shí)，成本和節(jié)省幅度會(huì)快速增加。

作為MI400系列的一部分，下一代AMD Pensando “Vulcano” AI NIC將在2026年作為默認(rèn)配置發(fā)貨。

Vulcano采用3nm制程，提供800G網(wǎng)絡(luò)吞吐量，每GPU的橫向擴(kuò)展帶寬是上一代的8倍，支持UAL和PCIe Gen6，相比PCIe Gen6提供了2倍的帶寬，可擴(kuò)展到100萬(wàn)塊GPU，并具有完整的軟件向前和向后兼容。

這些優(yōu)勢(shì)將直接轉(zhuǎn)化為更快的模型訓(xùn)練和更好的推理性能，為客戶帶來(lái)巨大的經(jīng)濟(jì)優(yōu)勢(shì)。

六、AI網(wǎng)絡(luò)：UALink支持1024塊GPU互連，今年Q3推出全新DPU

AI模型尺寸每三年增長(zhǎng)1000倍，不僅需要更多的計(jì)算、內(nèi)存，還需要更多的網(wǎng)絡(luò)帶寬來(lái)進(jìn)行訓(xùn)練和分布式推理。如今訓(xùn)練數(shù)據(jù)集每8個(gè)月翻一番。這些需求都超過(guò)了芯片的發(fā)展速度，芯片晶體管密度每?jī)赡瓴欧环?/p>

唯一的方法是構(gòu)建分布式系統(tǒng)創(chuàng)新，實(shí)現(xiàn)AI芯片的數(shù)據(jù)中心級(jí)擴(kuò)展。

為了支持大量GPU一起工作，AMD與100多家公司一起成立了超以太網(wǎng)聯(lián)盟（Ultra Ethernet）。超以太網(wǎng)技術(shù)是以太網(wǎng)的進(jìn)化，能擴(kuò)展至英偉達(dá)Infiniband的20倍、經(jīng)典以太網(wǎng)的10倍。

去年成立的UALink（Ultra Accelerator Link）聯(lián)盟旨在擴(kuò)展將AI芯片網(wǎng)絡(luò)規(guī)模，提供更高的帶寬、更低的延時(shí)。與英偉達(dá)NVLink相比，UALink完全開放，由100多個(gè)聯(lián)盟成員支持，意味著客戶可以使用任何GPU、任何CPU和任何交換機(jī)來(lái)擴(kuò)展他們的架構(gòu)。

UALink支持多達(dá)1024個(gè)GPU連接在一起的能力，是英偉達(dá)NVLink支持GPU規(guī)模的2倍。

在GPU系統(tǒng)連接的前端網(wǎng)絡(luò)方面，AMD宣布Salina 400 DPU將在今年第三季度推出，目標(biāo)成為“目前市場(chǎng)上性能最好、最安全、可擴(kuò)展的AI前端網(wǎng)絡(luò)基礎(chǔ)設(shè)施”。

Salina 400 DPU的性能達(dá)到上一代的2倍，相比英偉達(dá)Bluefield 3 DPU性能提升40%。該DPU可安全橋接AI服務(wù)器到企業(yè)，提高AI服務(wù)器性能與網(wǎng)絡(luò)、安全性、存儲(chǔ)卸載，引擎對(duì)網(wǎng)絡(luò)功能的加速可達(dá)到CPU的40倍。

自動(dòng)化同樣不可或缺。ROCm AI生命周期管理軟件，可將客戶的部署時(shí)間從幾個(gè)月減少到幾天。

ROCm將在2026年推出Fabric Manager，確保用戶可自動(dòng)部署機(jī)架級(jí)規(guī)模的應(yīng)用，并自帶可靠性、可用性和可維護(hù)性。

七、AMD設(shè)定2030年新目標(biāo)：將機(jī)架級(jí)能效提高20倍

能效長(zhǎng)期是與AMD的路線圖和產(chǎn)品戰(zhàn)略相一致的指導(dǎo)核心設(shè)計(jì)原則。

在2020年，AMD通過(guò)在短短六年內(nèi)將AMD移動(dòng)處理器的能效提高25倍，超額完成了25×20的目標(biāo)。

如今AMD已超越其30×25的目標(biāo)（與2020年相比，將加速計(jì)算節(jié)點(diǎn)的能源效率提高30倍），在AI訓(xùn)練和高性能計(jì)算方面，使用當(dāng)前配置的4個(gè)MI355X GPU和一個(gè)EPYC第五代CPU，實(shí)現(xiàn)了38倍的節(jié)點(diǎn)級(jí)能效提升，與5年前的系統(tǒng)相比，在相同的性能下，能耗降低了97%。

現(xiàn)在，AMD又設(shè)定了一個(gè)新的2030年目標(biāo)，即在2024年的基礎(chǔ)上，將機(jī)架規(guī)模的能源效率提高20倍（幾乎是之前行業(yè)效率的3倍），使目前需要超過(guò)275個(gè)機(jī)架的典型AI模型到2030年能夠在一個(gè)機(jī)架內(nèi)進(jìn)行訓(xùn)練，同時(shí)減少95%的運(yùn)營(yíng)用電量，將模型訓(xùn)練的碳排放量從約3000公噸減少到100公噸。

這些預(yù)測(cè)是基于AMD芯片和系統(tǒng)設(shè)計(jì)路線圖以及經(jīng)能效專家Jonathan Koomey博士驗(yàn)證的測(cè)量方法。

結(jié)合軟件和算法的進(jìn)步，新目標(biāo)可以使整體能源效率提高100倍。

到2030年機(jī)架規(guī)模的20倍目標(biāo)反映了下一個(gè)前沿領(lǐng)域：不僅關(guān)注芯片，還關(guān)注更智能、更高效的系統(tǒng)，從芯片到全機(jī)架集成，以滿足數(shù)據(jù)中心級(jí)的功率需求。

結(jié)語(yǔ)：全棧布局，豪賭AI計(jì)算未來(lái)

AI基礎(chǔ)設(shè)施如今已是數(shù)據(jù)中心AI芯片兵家必爭(zhēng)之地。從今日釋放信息來(lái)看，AMD面向整個(gè)機(jī)架級(jí)基礎(chǔ)設(shè)施的布局已趨于完整，覆蓋從CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ)、軟硬件協(xié)同設(shè)計(jì)到系統(tǒng)的性能與能效優(yōu)化。

隨著頂尖大模型性能增長(zhǎng)放緩，產(chǎn)學(xué)界不再一味煉大模型，而是更多探索圍繞可持續(xù)、更經(jīng)濟(jì)地?cái)U(kuò)展AI計(jì)算的相關(guān)創(chuàng)新，這正推動(dòng)AI模型的訓(xùn)練和部署效率持續(xù)提升。

除了提升硬件性能與配置外，AI軟件棧和AI機(jī)架級(jí)基礎(chǔ)設(shè)施的優(yōu)化，都成為AMD面向未來(lái)增強(qiáng)AI競(jìng)爭(zhēng)力的重點(diǎn)投入方向。與英偉達(dá)不同的是，AMD認(rèn)定開源才能推動(dòng)AI以最快速度進(jìn)步，正堅(jiān)定擁抱開源，構(gòu)建一個(gè)完全開放的軟件生態(tài)系統(tǒng)。

在演講尾聲，蘇姿豐博士強(qiáng)調(diào)：“AI的未來(lái)不會(huì)由任何一家公司或在一個(gè)封閉的生態(tài)系統(tǒng)中建立，它將由整個(gè)行業(yè)的開放合作來(lái)塑造成型?！?/p>

作為全球數(shù)據(jù)中心AI芯片市場(chǎng)的第二名，AMD比第一名的包袱更輕，比后位者吞食市場(chǎng)份額的機(jī)會(huì)更大。而蓄勢(shì)待出的MI400系列和“Helios” AI機(jī)架級(jí)基礎(chǔ)設(shè)施，將蘊(yùn)藏著AMD押注下一股AI浪潮、釋放生成式AI和高性能計(jì)算的機(jī)遇與潛力。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、MI350系列：內(nèi)存容量比B200多60%，8卡峰值A(chǔ)I算力達(dá)161PFLOPS

二、1850億顆晶體管，多種先進(jìn)封裝混搭

三、跑DeepSeek R1提速高達(dá)3倍，推理成本遠(yuǎn)低于B200

四、ROCm 7：超3.5倍推理性能提升，支持桌面端與Windows

五、“Helios”AI機(jī)架明年問(wèn)世，搭載下一代3nm AI網(wǎng)卡

六、AI網(wǎng)絡(luò)：UALink支持1024塊GPU互連，今年Q3推出全新DPU

七、AMD設(shè)定2030年新目標(biāo)：將機(jī)架級(jí)能效提高20倍

結(jié)語(yǔ)：全棧布局，豪賭AI計(jì)算未來(lái)

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、MI350系列：內(nèi)存容量比B200多60%，8卡峰值A(chǔ)I算力達(dá)161PFLOPS

二、1850億顆晶體管，多種先進(jìn)封裝混搭

三、跑DeepSeek R1提速高達(dá)3倍，推理成本遠(yuǎn)低于B200

四、ROCm 7：超3.5倍推理性能提升，支持桌面端與Windows

五、“Helios”AI機(jī)架明年問(wèn)世，搭載下一代3nm AI網(wǎng)卡

六、AI網(wǎng)絡(luò)：UALink支持1024塊GPU互連，今年Q3推出全新DPU

七、AMD設(shè)定2030年新目標(biāo)：將機(jī)架級(jí)能效提高20倍

結(jié)語(yǔ)：全棧布局，豪賭AI計(jì)算未來(lái)

相關(guān)推薦

一、MI350系列：內(nèi)存容量比B200多60%，8卡峰值A(chǔ)I算力達(dá)161PFLOPS

二、1850億顆晶體管，多種先進(jìn)封裝混搭

三、跑DeepSeek R1提速高達(dá)3倍，推理成本遠(yuǎn)低于B200

四、ROCm 7：超3.5倍推理性能提升，支持桌面端與Windows

五、“Helios”AI機(jī)架明年問(wèn)世，搭載下一代3nm AI網(wǎng)卡

六、AI網(wǎng)絡(luò)：UALink支持1024塊GPU互連，今年Q3推出全新DPU

七、AMD設(shè)定2030年新目標(biāo)：將機(jī)架級(jí)能效提高20倍

結(jié)語(yǔ)：全棧布局，豪賭AI計(jì)算未來(lái)