芯東西(公眾號:aichip001)
作者 |? 陳駿達
編輯 |? 心緣

芯東西2月2日報道,1月29日,AMD CTO兼執(zhí)行副總裁Mark Papermaster接受了播客More Than Moore的深度訪談,勾勒出AMD的未來的路線圖:AMD是臺積電2nm工藝的首個流片客戶,與臺積電進行了極其深度的協(xié)同優(yōu)化。2026年,隨著下一代Instinct GPU與Helios機架的交付,AMD將從目前的數(shù)千節(jié)點訓練能力躍升至支持數(shù)十萬卡集群的AI基礎設施,正式向大規(guī)模AI訓推市場發(fā)起總攻。

在2011年AMD瀕臨絕境之際,Papermaster加入AMD,比AMD現(xiàn)任CEO蘇姿豐還要早2-3個月。蘇姿豐主要負責業(yè)務,而Papermaster負責工程。

過去十五年時間里,Papermaster深度參與了AMD早期向Zen架構(gòu)的轉(zhuǎn)型,推進了Infinity Fabric、3D V-Cache、Instinct顯卡以及近期的機架級AI平臺等項目,還見證了AMD工程文化和路線圖規(guī)劃的演變。在這場訪談中,Papermaster結(jié)合自己的經(jīng)歷,分享了不少關(guān)鍵洞察:

AMD是怎么逆襲的?CTO攤牌了!詳解15年方法論

▲Mark Papermaster(右)與節(jié)目主持人Ian Cutress(左)(圖源:More Than Moore)

1、技術(shù)節(jié)點的收益遞減并不等于創(chuàng)新停滯。AMD正通過深度協(xié)同優(yōu)化獲取密度增益,以推進總體擁有成本(TCO)的下降。

2、2025年AMD大舉收購了十幾家公司,接納數(shù)千名員工,收購重點是AI模型開發(fā)和光學,并通過ZT Systems的收購讓AMD真正具備了機架級設計能力。

3、架構(gòu)設計的關(guān)鍵在于平衡計算、內(nèi)存與I/O,而非單純堆砌核心數(shù)。CPU計算范式正在轉(zhuǎn)變,未來行業(yè)不僅要追求每瓦每平方毫米的性能,更要將推理能力融入CPU,并確保與GPU形成高效的異構(gòu)計算協(xié)同。

4、AMD倡導“良性爭論(healthy contention)”,鼓勵團隊對不同方案進行專業(yè)辯論以優(yōu)化決策。

5、摩爾定律還沒死,每當有人告訴你“我們完蛋了”、“遇到壁壘了”或者“摩爾定律已死”,恰恰就是創(chuàng)新這一制勝法則發(fā)揮作用的機會。

6、AMD推行AI原生的芯片設計方法,將AI視為得力助手,就像不會不帶手機出門一樣,讓AI成為不可或缺的工具。

7、AMD目前已經(jīng)在出貨750瓦功耗的GPU,未來,他們將向千瓦和兩千瓦級別的設計邁進。

8、隨著供應鏈成熟,光互連將在未來三年內(nèi)從大規(guī)模集群逐步滲透到更高密度的縱向擴展領(lǐng)域,但銅互連不會消失。

以下是Mark Papermaster最新訪談核心內(nèi)容的梳理:

一、AMD是臺積電2nm工藝首個流片客戶,能效提升不如以往但密度仍有優(yōu)化空間

訪談伊始,Papermaster把時光撥回10年前,他回憶道:“幾乎沒人相信我們能成為行業(yè)的一員?!?/span>

當時AMD的CPU架構(gòu)Zen尚未發(fā)布,服務器級CPU EPYC仍在路線圖上。很難想象到10年后,AMD會同時參與到CPU、GPU和AI基礎設施的前沿競爭。

這種轉(zhuǎn)變并非在單一產(chǎn)品周期內(nèi)完成。它需要長期基礎設施投資、多代執(zhí)行紀律,以及提前多年承擔風險的意愿,才能看到明顯成果。

2016年時,行業(yè)判斷元宇宙可能是前景更廣闊的方向,但卻沒預料到AI的顛覆性影響會來得這么快。Papermaster稱,在那段時間人們都沒意識到,要打造一個能夠驅(qū)動AI時代的芯片基礎設施,仍需要大量建設。

關(guān)于Zen架構(gòu)初期的戰(zhàn)略定位,Papermaster將2017年推出的前兩代產(chǎn)品視為“驗證期”而非“煙幕彈”。這一時期旨在回答市場關(guān)鍵質(zhì)疑:AMD是否具備真正的持續(xù)創(chuàng)新能力,抑或只是曇花一現(xiàn)。

面臨外界疑慮,AMD始終“將油門踩到底”,將公司翻身全盤押注于打造具有領(lǐng)導地位的處理器。技術(shù)路線上,第一代Zen實現(xiàn)了42%的IPC躍升,此后每代保持15%-20%的兩位數(shù)增長;直至第三代才達到技術(shù)能力的“曲線拐點”,此時市場方才確信AMD已脫胎換骨,市場份額隨之真正起飛。

Papermaster解釋,選擇先攻CPU源于x86生態(tài)的無縫遷移優(yōu)勢,同時外界當時并未察覺AMD正并行推進GPU業(yè)務、Radeon游戲顯卡及AI計算布局,這為后續(xù)發(fā)展埋下了關(guān)鍵伏筆。

關(guān)于單核性能是否存在物理極限的問題,Papermaster對工程師創(chuàng)新能力仍有堅定信心,強調(diào)技術(shù)節(jié)點的收益遞減并不等于創(chuàng)新停滯。

他透露,AMD作為臺積電2nm工藝的首個客戶(首個流片),盡管能效提升已不如以往,AMD正通過深度協(xié)同優(yōu)化獲取密度增益,以推進總體擁有成本(TCO)的下降。面向未來,他認為架構(gòu)設計的關(guān)鍵在于平衡計算、內(nèi)存與I/O,而非單純堆砌核心數(shù)。

值得注意的是,Papermaster詳細闡述了AMD在AI時代的CPU路線圖:當前AVX引擎已支持原生512位寬和VNNI指令,具備良好的推理能力;而Zen 7及后續(xù)架構(gòu)將引入ACE引擎,提供更先進的靈活推理能力。

這標志著CPU計算范式正在轉(zhuǎn)變,未來不僅追求每瓦每平方毫米的性能,更要將推理能力無縫融入CPU,并確保與GPU形成高效的異構(gòu)計算協(xié)同,以應對AI無處不在且傳統(tǒng)工作負載長期并存的混合需求。

二、AMD鼓勵內(nèi)部“良性爭論”,CTO堅信摩爾定律還沒死

回顧AMD過去做的關(guān)鍵重要決策,Papermaster談到了Infinity Fabric。

這是AMD在Zen架構(gòu)之前就開始投資的芯片互聯(lián)技術(shù),現(xiàn)已發(fā)展到第五代。盡管當年引發(fā)爭議甚至導致高管離職,但這一決策成為AMD實現(xiàn)CPU/GPU無縫擴展、避免瓶頸的關(guān)鍵。此外,Chiplet技術(shù)是AMD在企業(yè)級市場的重大賭注,帶來巨大回報。

憑借對3D堆疊技術(shù)的長期投入,AMD目前仍是唯一大規(guī)模量產(chǎn)3D V-Cache的廠商,在游戲芯片領(lǐng)域保持四年技術(shù)領(lǐng)先。

那么,AMD是如何做出上述正確決定的呢?Papermaster稱,AMD倡導“良性爭論(healthy contention)”,鼓勵團隊對不同方案進行專業(yè)辯論以優(yōu)化決策。

AMD還建立了容錯機制,從未出現(xiàn)需要推翻的微架構(gòu)路線失誤,若發(fā)現(xiàn)晚期漏洞,可通過診斷和可替代性設計實現(xiàn)生產(chǎn)級補丁,確保用戶端功能不受影響。他們還重視韌性設計,內(nèi)置了可靠性、可用性和可維護性架構(gòu),配備大量診斷功能。

訪談中,Papermaster也回顧了自己在IBM 26年的職業(yè)生涯。

80年代初他畢業(yè)并加入IBM時,起步于一支小規(guī)模但特立獨行的團隊,任務是打造IBM首款NMOS芯片,兩年后轉(zhuǎn)而打造IBM的CMOS專用集成電路(ASIC)。

Papermaster最初是做模擬電路的,后來迅速轉(zhuǎn)向數(shù)字電路和微處理器設計,并主導了Power微處理器的研發(fā)。模擬電路的背景教會他,永遠不能忽視物理本質(zhì)。即便擁有最先進的分析工具,最終還是要回歸到:這符合物理規(guī)律嗎?背后的科學原理扎實嗎?

他認為,這些八九十年代的經(jīng)驗教訓,如今依然有效:“每當有人告訴你‘我們完蛋了’、‘遇到壁壘了’或者‘摩爾定律已死’,恰恰就是創(chuàng)新這一制勝法則發(fā)揮作用的機會。我們總會找到繞過障礙的方法,為終端客戶創(chuàng)造價值。”Papermaster堅定的認為,摩爾定律還沒死。

三、AMD已推行AI原生芯片設計方法,將繼續(xù)堅持通用方案

談及AMD未來的規(guī)劃與目標,Papermaster透露,AMD正對其流片策略進行調(diào)整。GPU層面,AMD幾乎每代A0步進(首輪流片)即達到商用標準,這是因為GPU可編程性強、容錯性高。

CPU層面,AMD傳統(tǒng)上預留兩次流片機會,但因掩膜組成本(數(shù)百萬美元)和測試樣本費用越來越高,現(xiàn)在正轉(zhuǎn)向“首輪流片即成功”的目標。

AMD還將AI應用于芯片設計,重點領(lǐng)域是物理設計和設計驗證,他們利用AI提升覆蓋率、提前發(fā)現(xiàn)漏洞。AMD推行的是AI原生的芯片設計方法,將AI視為得力助手,就像不會不帶手機出門一樣,讓AI成為不可或缺的工具。

Papermaster認為,如今進行芯片設計的方式將徹底改變,我們將能夠?qū)崿F(xiàn)芯片與算法更緊密的融合。但AMD仍然堅持通用CPU、GPU路線,因為算法在不斷變化,我們始終需要通用計算能力。

他相信,算力的這個舞臺足夠廣闊,既需要量身定制的專用解決方案,同時也需要通用的可編程性。AMD提供了FPGA,客戶可以用它進行原型設計并適配最新算法。對于需要定制芯片的大型客戶,AMD也很樂意提供這類服務。

2025年,AMD進行了多筆收購,大約有十幾家公司,數(shù)千名員工,其中大部分融入了AMD的組織架構(gòu),不過Papermaster不認為這會讓AMD的工程師團隊變得臃腫,因為其收購的目標十分明確。

AMD的主要人才收購集中在AI模型開發(fā)領(lǐng)域和光子學,而去年最大的一筆收購是ZT Systems,它讓AMD真正具備了機架級設計能力。

ZT Systems已經(jīng)參與了AMD的Helios機架設計,2026年這一機架將會正式上市,使AMD能提供從芯片到整機架的參考設計。

產(chǎn)品方面,AMD目前已經(jīng)在出貨750瓦功耗的GPU,未來,他們將向千瓦和兩千瓦級別的設計邁進。最近,Papermaster在與一些初創(chuàng)公司會面,探討與散熱技術(shù)相關(guān)的前沿研究,不過,他認為短期內(nèi)高度集成的液冷將成為高密度機架的事實標準。

Papermaster強調(diào),與八九十年代IBM大型機那種單一整體的設計不同,今天的機架級系統(tǒng)呈現(xiàn)出高度模塊化特征,這正是AMD的重要戰(zhàn)略。

通過將CPU、GPU等計算核心設計為可跨數(shù)據(jù)中心、企業(yè)、邊緣計算乃至PC端復用的模塊化架構(gòu),AMD既能滿足垂直優(yōu)化的機架級高密度需求,又能實現(xiàn)橫向的快速市場衍生。

機架級優(yōu)化團隊與橫向擴展團隊之間的設計博弈,讓AMD能在保持垂直性能的同時,將技術(shù)快速下放到包括AI PC在內(nèi)的更廣闊市場,使千億參數(shù)模型得以在消費端運行。

在互連技術(shù)層面,Papermaster對光學與銅互連采取了務實的漸進策略。他認為,當前銅互連在72個GPU的節(jié)點(如Helios設計)內(nèi)仍具備成本與可靠性優(yōu)勢,光互連目前主要流行于數(shù)千節(jié)點的大規(guī)模橫向擴展場景。

隨著供應鏈成熟,光互連將在未來三年內(nèi)從最大規(guī)模集群開始逐步滲透到更高密度的縱向擴展領(lǐng)域,但銅互連不會消失,因為市場需要覆蓋從基礎模型訓練到企業(yè)級應用的廣泛解決方案。

AMD希望在架構(gòu)中保留對兩種互連方式的靈活性,并通過開放生態(tài)支持Celestial.ai等創(chuàng)新方案,避免專有的封閉式系統(tǒng)。

結(jié)語:研究團隊規(guī)模翻倍,全面進軍大規(guī)模AI訓推

面對AI驅(qū)動的年度產(chǎn)品更新壓力,Papermaster透露AMD已建立了從長期研究(五年以上)、中期路徑探索(三到五年)到當前產(chǎn)品開發(fā)的梯隊式創(chuàng)新體系。

收購賽靈思后,AMD研究團隊規(guī)模翻倍,與產(chǎn)品開發(fā)團隊深度合作,確保在前期設計階段就具備競爭力,同時通過嚴格的路線圖流程平衡創(chuàng)新敏捷性與商業(yè)交付的嚴謹性。

展望2026年,Papermaster最為期待的是下一代Instinct GPU以及Helios機架。有了這些產(chǎn)品,AMD將全面進軍大規(guī)模AI訓練和推理領(lǐng)域。AMD如今雖支持訓練,但只到數(shù)千節(jié)點,未來會有能力支持數(shù)十萬卡的訓練。