芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識分享社區(qū)智猩猩發(fā)起舉辦。在大會第一天的主會場開幕式上,AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng)以《推進(jìn)大模型從云到端部署,打造變革性未來》為題發(fā)表演講。

AMD在端到端的AI基礎(chǔ)設(shè)施領(lǐng)域打造了全面的產(chǎn)品線,覆蓋從數(shù)據(jù)中心服務(wù)器、AI PC到智能嵌入式和邊緣設(shè)備,并提供領(lǐng)先的AI開源軟件及開放的生態(tài)系統(tǒng)。AMD基于先進(jìn)ZEN4架構(gòu)設(shè)計的CPU處理器平臺、基于CDNA3架構(gòu)面向AI推理&訓(xùn)練的MI系列加速器,已被微軟等巨頭采用。

據(jù)AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng)分享,AMD還在推動數(shù)據(jù)中心高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施(UALink,Ultra Ethernet),這對AI網(wǎng)絡(luò)結(jié)構(gòu)需要支持快速切換和極低延遲、擴(kuò)展AI數(shù)據(jù)中心性能至關(guān)重要。AMD即將發(fā)布下一代高性能AI PC芯片,其基于第二代XDNA架構(gòu)的Ryzen AI NPU,可提供50TOPS算力,將能效比提高至通用架構(gòu)的35倍。

在AI PC對隱私、安全和數(shù)據(jù)自主性的推動下,重要的AI工作負(fù)載開始部署在PC上。作為全球領(lǐng)先的AI基礎(chǔ)設(shè)施提供商之一,AMD愿意攜手廣大客戶與開發(fā)者共建變革性未來。

目前,為了推進(jìn)AI從云到端部署,AMD重點(diǎn)主要集中在提供豐富多樣的高性能和自適應(yīng)硬件和軟件解決方案組合、建設(shè)開放式生態(tài)系統(tǒng)、將復(fù)雜的工作負(fù)載簡化為引人入勝的用戶體驗(yàn)這三大關(guān)鍵領(lǐng)域。

AMD王宏強(qiáng):全產(chǎn)品線推動大模型從云到端落地,解讀下一代AI PC平臺丨GACS 2024

▲AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng)

以下為王宏強(qiáng)的演講實(shí)錄:

自去年以來,人工智能(AI)領(lǐng)域?qū)崿F(xiàn)了顯著的發(fā)展,尤其是在大模型和生成式AI方面。AMD在這些技術(shù)產(chǎn)品方面逐步推出了從硬件平臺到軟件,從端到端的解決方案。

AMD擁有非常全的產(chǎn)品線,從數(shù)據(jù)中心服務(wù)器,到邊緣側(cè)的Edge&Embedded,還有AI PC,都有非常全面的硬件AI平臺。

AMD公司真正做到針對不同數(shù)據(jù)中心業(yè)務(wù)需求進(jìn)行優(yōu)化,以滿足各種工作負(fù)載。這包括使用CPU處理器進(jìn)行輕量級AI推理,或者利用MI加速器處理大規(guī)模任務(wù),尤其是當(dāng)前生成式AI大模型的推理和訓(xùn)練。

同時,我們知道在數(shù)據(jù)中心,除了推理和訓(xùn)練,特別是在訓(xùn)練里面,我們需要有Scaling Out(橫向擴(kuò)展)和Scaling Up(縱向擴(kuò)展)。在同一個節(jié)點(diǎn)里面有多卡互聯(lián),在不同節(jié)點(diǎn)之間則是需要有Scaling Out擴(kuò)大整個處理的能力。

針對這方面,我們集中發(fā)展開放的高速互聯(lián),如UALink和Ultra Ethernet,我們在計算和跨節(jié)點(diǎn)互聯(lián)方面都提供了重要的技術(shù)支持。AI網(wǎng)絡(luò)有一個很重要的需求,就是需要一個極低的延時和響應(yīng)的時間,AMD找的是開放的UALink和Ultra Ethemet,更好地與業(yè)界其他客戶一起構(gòu)建我們整個的計算加速平臺。

一、加速器輕松處理上萬億參數(shù)模型

AMD的EPYC系列新一代CPU擁有多達(dá)192個核心和384個線程,這是基于我們最新的ZEN5架構(gòu)設(shè)計的,它相比上一代也有非常大的性能提升,不僅是從Instruction Bandwidth(指令帶寬),還有數(shù)據(jù)的Bandwidch(帶寬),比如L2到L1的,還有L1到浮點(diǎn)數(shù)據(jù)的帶寬都有提升2倍。

同時,我們的AVX-512技術(shù)是完整的,它在數(shù)據(jù)的buffer(緩沖區(qū))也有帶寬,從而能夠更有效地支持AI推理服務(wù)。

自去年12月以來,我們在數(shù)據(jù)中心也推出了一系列新的MI加速器,這些產(chǎn)品已經(jīng)被包括微軟在內(nèi)的大型互聯(lián)網(wǎng)公司采用。

我們加速的板卡已經(jīng)被服務(wù)器制造商,包括OEM(原始設(shè)備制造商)和ODM(原始設(shè)計制造商)集成到他們的服務(wù)器中。

對于用戶而言,只要購買了這些服務(wù)器,就可以獲得內(nèi)置我們的CPU和MI加速器的系統(tǒng),并用于執(zhí)行AI推理和訓(xùn)練任務(wù)。

目前,在大模型生成式AI領(lǐng)域,ADM也是一直在提升我們的架構(gòu)。我們原來是Llama3的架構(gòu),對此我們也將繼續(xù)演進(jìn)。

在存儲容量和存儲帶寬方面,我們也取得了快速的發(fā)展。預(yù)計到今年年底,大家將會看到一些相關(guān)的更新產(chǎn)品的發(fā)布。

我們將更有效地支持當(dāng)前在大模型的推理,例如Llama和GPT等。讓所有的這些模型都能輕松地在我們的加速器上運(yùn)行。更為重要的是,我們的加速器甚至能夠處理具有上萬億參數(shù)的模型。

二、GPU設(shè)計完全開源,人人都可對代碼進(jìn)行修改

在GPU軟件設(shè)計上,我們有ROCm,它是一個開源的加速器軟件。我們不僅設(shè)計是開源的,而且整個架構(gòu)也是模塊化的,對用戶完全開放、開源

用戶和社區(qū)成員都可以訪問這些開源代碼,你甚至可以對代碼進(jìn)行修改。我們鼓勵更多地去把AI整個社區(qū)的貢獻(xiàn)集成在我們整個ROCm平臺里面。

我們針對當(dāng)下最熱的生成式AI也做了很多創(chuàng)新,比如像對RADEON這個開源推理引擎的支持。此外,我們還積極支持了像SGlang這樣的新型開源推理引擎。

SGlang和RADEON之間存在一些差異,特別是在調(diào)度上。與CUDA這個相對閉源的環(huán)境不同,我們支持不同的開源推理引擎,使用戶、社區(qū),整個生態(tài)處在一個環(huán)境里面。

為了支持生成式AI的大模型,我們對FlashAttention-2和FlashAttention-3進(jìn)行了優(yōu)化,包括對FP8這些算子的支持。這些都是用在推理里面非常典型的數(shù)據(jù)類型,在訓(xùn)練里面,我們也能夠支持BF16的數(shù)據(jù)類型。

除了提供算子支持,我們還支持通信,包括RCCL優(yōu)化和虛擬化技術(shù)的支持等。

三、AI發(fā)展不僅在于硬件,軟件和基礎(chǔ)設(shè)施投入同樣重要

我們堅持在AI的軟件及基礎(chǔ)設(shè)施上的投入。除了加大自己內(nèi)部的投入,我們還會收購一些業(yè)界比較有名的公司。

最近我們收購了SILO.ai,這是一家擁有眾多杰出AI案例的公司。

通過收購SILO.ai,我們不僅能夠進(jìn)一步提供AI優(yōu)化技術(shù),還獲得了他們在AI開源領(lǐng)域積累的豐富專業(yè)知識。

我們也收購了ZT Systems。作為行業(yè)領(lǐng)先的數(shù)據(jù)中心,ZT Systems專注于AI基礎(chǔ)設(shè)施。

我們不僅從軟件、硬件平臺,還從整個機(jī)框、機(jī)架這一整套來提供AI加速的能力。

開源加速的發(fā)展速度在不斷加快,每天都有新的開源算子和框架被推出。

AMD本著開源開放的戰(zhàn)略,積極在開源社區(qū)進(jìn)行部署和推廣新模型。我們借助整個生態(tài)系統(tǒng)的力量,迅速推動AI技術(shù)的發(fā)展,這與相對封閉的CUDA環(huán)境完全不一樣。

我們與HuggingFace的合作也是非常緊密的。HuggingFace上有70多萬個模型,每天我們都會進(jìn)行一些測試,保證它的這些模型都是可以直接運(yùn)行在我們加速器的平臺上,包括在數(shù)據(jù)中心里面,還有在個人筆記本Ryzen平臺上。

我們還與OpenAI Triton合作,它提供了更高層次的AI語言抽象,使我們能夠在更高層次的語言抽象上更容易地實(shí)現(xiàn)功能。此外,我們很早就開始支持像PyTorch這樣的推理框架。

四、XDNA2架構(gòu)下的NPU,算力與存儲提升

剛剛介紹了我們在數(shù)據(jù)中心的投入,實(shí)際上我們在AI PC的投入也非常大。

我們一直在RyzenAI平臺引領(lǐng)AI PC。

現(xiàn)在越來越多的應(yīng)用可以跑在個人筆記本電腦里面,比如一些實(shí)時的協(xié)同都可以在個人電腦里面跑一些大模型,通過這些大模型作為基座,去開發(fā)各種應(yīng)用,這就使得各種應(yīng)用真的可以落地到端側(cè)。

我們AMD要發(fā)布的下一代高性能AI PC芯片,它也是基于我們Zen5 CPU的架構(gòu),加上了第2代XDNA,Ryzen是升級到3.5的版本,能夠提供50TOPS的算力。

在AI PC領(lǐng)域,用戶越來越重視隱私保護(hù)、數(shù)據(jù)安全和數(shù)據(jù)自主性。隨著重要的AI工作流程逐步在個人電腦端部署,對專用處理器的需求也隨之增加。

在PC部署上,大家對PC機(jī)的耗電需求非常大,因此非常需要NPU的處理器。NPU在性能功耗比具有非常大的優(yōu)勢,相比通用的處理器,它能夠擴(kuò)大35倍以上的能效,所以我們在AI PC里面有集成這個NPU。

NPU是基于我們XDNA2最新的架構(gòu),它的底層是AI處理引擎,相比之前,從算力,包括存儲都有一點(diǎn)幾倍的提升。

我們在數(shù)據(jù)類型上也進(jìn)行了很多創(chuàng)新,例如對Block FP16的支持。與第一代XDNA相比,我們實(shí)現(xiàn)了更高的能效比,計算能力提升了5倍,功耗效率也提高了2倍。

關(guān)于關(guān)鍵數(shù)據(jù)類型的創(chuàng)新,就是塊狀浮點(diǎn)的支持。塊狀浮點(diǎn)的優(yōu)勢在于它結(jié)合了8-bit數(shù)據(jù)類型的高性能和16-bit精度的優(yōu)點(diǎn),從而在數(shù)據(jù)位寬、精度以及存儲需求之間實(shí)現(xiàn)了理想的平衡。它在性能上與8-bit相近,同時在模型大小上僅需9-bit表征。此外,它在精度上非常接近16-bit,能夠達(dá)到與16-bit數(shù)據(jù)類型幾乎相同的99.9%的準(zhǔn)確度。

另外一個在AI PC上的應(yīng)用就是RAG推薦系統(tǒng)。它包括前處理步驟,其中一些處理在CPU上執(zhí)行,而核心計算則在NPU,這種設(shè)計使得整個系統(tǒng)能夠?qū)崟r處理RAG推薦系統(tǒng)的任務(wù)。

剛剛介紹的這些功能都是通過AMD的Ryzen軟件達(dá)到的,RyzenAI的軟件架構(gòu)包括從浮點(diǎn)模型開始,通過內(nèi)置的量化器進(jìn)行優(yōu)化,最后通過ONNX的表示執(zhí)行到NPU里面。

我們也支持通用架構(gòu),并正在開發(fā)Unified AI software stack(軟件棧)。這一軟件棧能夠智能地識別系統(tǒng)中的CPU、NPU和iGPU這三種加速引擎,并自動分配最適合的引擎來處理相應(yīng)的工作流程,從而實(shí)現(xiàn)最優(yōu)性能。

我將很快分享一下AMD基于Edge&Embedded,在嵌入式和邊緣的應(yīng)用。

在AMD,這個平臺是真正的一個異構(gòu)計算平臺,它不僅包括可編程邏輯,也包括XDNA和ARM CPU。它能夠處理AI中的關(guān)鍵模塊,包括前處理,如LiDAR數(shù)據(jù)處理,這些都可以由可編程模塊來執(zhí)行。

AI的Inference可以在XDNA架構(gòu)中進(jìn)行,而一些后處理、決策和Dedision Making則可以在后處理器,如CPU里面去進(jìn)行。

我介紹一個Demo,它是基于AI的立體攝像頭實(shí)現(xiàn)的,沒有用雷達(dá),也沒有用地圖,可以看到只是用了立體攝像頭做AI相應(yīng)的處理,就能實(shí)現(xiàn)自動駕駛的功能。

最后我總結(jié)一下我們的優(yōu)勢,我們能夠定義新的AI時代端到端的基礎(chǔ)設(shè)施,我們整個產(chǎn)品的線路是最全的,從數(shù)據(jù)中心、從邊緣,到端側(cè),都有一整套的硬件。

我們在AI軟件上一直有非常大的投入,包括對軟件的支持,我們一直走的是開源開放的生態(tài),讓所有的AI開發(fā)者、客戶、用戶,包括整個社區(qū),大家都可以在我們開放的軟件平臺上貢獻(xiàn),去推進(jìn)整個AI軟件的快速發(fā)展,去支持在不同平臺上的各種新的模型。

我們正處在一個AI推動的社會變革中,AI的影響已經(jīng)深入到我們的日常生活之中。AMD會繼續(xù)推進(jìn)大模型,從云邊端的部署,以真正幫助到用戶,基于AI技術(shù)去打造一個更加方便、更加便捷的生活。