芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西12月18日報道,在12月15日舉行的2023英特爾新品發(fā)布會暨AI技術創(chuàng)新派對上,英特爾正式推出第五代英特爾至強可擴展處理器(代號Emerald Rapids)。這也是第五代英特爾至強可擴展處理器首次在中國亮相。

第五代英特爾至強可擴展處理器在每個核心中內(nèi)置了人工智能(AI)加速器,在提高AI、科學計算、網(wǎng)絡、存儲、數(shù)據(jù)庫、安全等關鍵工作負載的每瓦性能以及降低總體擁有成本(TCO)方面具有出色表現(xiàn)。英特爾執(zhí)行副總裁兼數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理Sandra Rivera稱該處理器為AI加速而生,旨在為在云、網(wǎng)絡和邊緣環(huán)境中部署AI的客戶提供更高的性能。

英特爾與生態(tài)伙伴分享了這款全新處理器在京東云、百度智能云、阿里云、火山引擎的成功實踐及其應用價值。會后,英特爾數(shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立、阿里云服務器研發(fā)事業(yè)部高級總監(jiān)王偉、火山引擎IAAS產(chǎn)品負責人李越淵接受芯東西等媒體的采訪,從云計算廠商的視角分享了生成式AI所需的關鍵芯片能力。

超過20家中國OEM/ODM合作伙伴已研發(fā)并將提供基于第五代英特爾至強可擴展處理器的系列服務器產(chǎn)品,超過7家中國云服務提供商已驗證并將提供基于第五代英特爾至強的云服務實例。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求

一、每個內(nèi)核內(nèi)置AI加速功能,可微調(diào)200億個參數(shù)的大模型

第五代英特爾至強可擴展處理器每個內(nèi)核均具備AI加速功能,無需添加獨立加速器,即可處理要求嚴苛的端到端AI工作負載,能夠微調(diào)多達200億個參數(shù)量的大語言模型,推理性能相較上一代提高42%,延遲低于100毫秒。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求

該處理器擁有多達64核,L3緩存是上一代產(chǎn)品的近3倍;具備8條DDR5通道,內(nèi)存帶寬高達5600MT/s,且采用英特爾超級通道互聯(lián)(英特爾UPI)2.0以增加跨插槽內(nèi)帶寬,提供高達20GT/s的傳輸。

阿里云服務器研發(fā)事業(yè)部高級總監(jiān)王偉認為,大模型是顯存帶寬密集型、顯存容量密集型的,有時對于算力的“饑渴度”并不是非常高,因此在支撐生成式AI應用場景方面,建議未來通用處理器應更多關注內(nèi)存帶寬和內(nèi)存容量的提升。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求

得益于L3緩存、內(nèi)存帶寬及一些加速引擎的提升,基于第五代至強的阿里云第八代實例g8i實現(xiàn)了更好的性能表現(xiàn),AI推理性能提升25%,QAT加解密性能提升20%,數(shù)據(jù)庫性能提升25%,音視頻性能提升15%。第八代實例g8i已經(jīng)能夠為用戶實現(xiàn)快速的通義千問模型部署。

相較上一代產(chǎn)品,在相同的熱設計功率范圍內(nèi),第五代英特爾至強可擴展處理器可在進行通用計算時將整體性能提升高達21%,并在一系列客戶工作負載中將每瓦性能提升高達36%。對于遵循典型的五年更新周期并從更前一代處理器進行升級的客戶而言,其TCO最多可降低77%。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求▲第五代英特爾至強可擴展處理器Emerald Rapids

由于該處理器與上一代產(chǎn)品的軟件和平臺兼容,客戶能夠升級并大幅增加基礎設施的使用壽命,同時降低成本和碳排放。

王偉說,同架構帶來的好處是后續(xù)不需要再重新研發(fā),云廠商更多考慮將自身較有優(yōu)勢的基礎軟件棧與第五代至強的算力提升、加速引擎相結合,給云上客戶提供更簡潔易用的云端算力、更好的應用推薦。

火山引擎IAAS產(chǎn)品負責人李越淵分享了類似看法,火山引擎更多關注的是如何讓云上客戶非常容易地從上一代過渡到新版本上,其策略是在第三代實例上進行算力的迭代和升級,以便其客戶能夠更平滑、更友好、更低門檻地將第五代至強用起來。在遷移過程中,火山引擎和英特爾進行了很多深度交流和定制方面的互動,確保針對不同場景、不同應用的情況下,其CPU最后的產(chǎn)出是最符合客戶需求的。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求

李越淵認為,云上彈性非常關鍵,很多服務器天然會閑置,以確保能撐住大的應用需求量。有了彈性能力后,需要考慮性能和成本的性價比,在閑置集群上其實對成本的容忍度會很高,就像今天業(yè)界很成熟的搶占式實例模式,價格根據(jù)供需變化而浮動,客戶能獲得一個比較低廉的價格,在這樣的情況下CPU也能獲得較高性價比。

他談道,目前一些大客戶上已經(jīng)跑通了這樣的模式,火山引擎與一些大客戶已經(jīng)在用CPU做一些比較大規(guī)模的推理了,隨著CPU在AI能力上越來越強、性能越來越好,這個性價比會更高。

他還強調(diào)了互連技術的重要性,生成式AI不僅對CPU的算力、內(nèi)存、帶寬提出了更高要求,隨著模型變大,單芯片甚至但服務器的能力未必能夠滿足生成式AI的訴求,因此互聯(lián)互通的能力也非常重要。

王偉補充說,今天在一個大模型訓練中,通信時長大概占整個時長的20%,需要通過大規(guī)模網(wǎng)絡互連來降低這部分的時長,獲得更好的收益?;ミB網(wǎng)絡拓撲會隨著選擇的芯片與每家企業(yè)的技術方向有一定區(qū)別,物理帶寬可以有效減少在訓練過程中因為模型被拆分導致CPU或AI芯片之間通信量對整個訓練時長的影響。

“未來效率提升是軟件+硬件來做組合,進一步提升算力利用率?!蓖鮽ヌ岬酱竽P瓦€在初期階段,業(yè)界正在嘗試通過框架、引擎去做軟件優(yōu)化,或通過一些算子優(yōu)化,來提升模型訓練或推理的效率。

二、CPU已經(jīng)能跑大規(guī)模生成式AI推理,未來AI應用對算力需求會逐漸下降

CPU是當前AI推理市場的主流芯片。據(jù)王偉分享,GPU適合高并發(fā)、單指令多數(shù)據(jù)處理模式,如果單看AI訓練或推理場景的數(shù)據(jù)處理,GPU架構比CPU有更大優(yōu)勢,這也是為什么英特爾要在CPU中內(nèi)置英特爾AMX加速器;而CPU強大在對分支預測和串行和高頻處理上有更好的表現(xiàn),以通用計算為主的芯片在推理上更多側(cè)重于發(fā)揮SoC內(nèi)部集成的向量執(zhí)行單元、高并發(fā)執(zhí)行單元來做AI處理過程中的一部分數(shù)據(jù)并行加速。

“任何訓練和推理過程都不是說數(shù)據(jù)在那里一放,CPU就去處理了?!蓖鮽フf,“無論是數(shù)據(jù)預處理還是數(shù)據(jù)后加工,都有CPU必須要去承擔的角色,所以它是沒有辦法完全拆開的?!?/p>

“我們發(fā)現(xiàn)目前生成式AI對于CPU已經(jīng)不算挑戰(zhàn)了,你可以輕松在CPU上跑各種生成式AI的模型?!彼劦?,阿里云已經(jīng)嘗試用CPU跑一些較大規(guī)模的推理,如12B、70B、72B的模型,目前都已經(jīng)可以在單臺通用服務器上運行。

據(jù)英特爾數(shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立分享,做芯片需要兩三年,根據(jù)客戶反饋進行修改的工作需要提早進行,多年來,英特爾一直在與客戶持續(xù)溝通,針對每個客戶的反饋做一些針對性的解決方案,以更好地提供服務來滿足客戶的需求。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求

在第五代至強的助力下,火山引擎第三代彈性計算實例算力全新升級,整機算力、內(nèi)存帶寬都進一步優(yōu)化,在AI、視頻處理、Java應用、HPC應用等主流應用上性能最高提升43%。李越淵透露道,在最新實例上,火山引擎計劃推出多種基于英特爾硬件原生加速的能力,將給其內(nèi)外部客戶的各項業(yè)務帶來顯著的性能提升。

京東云研發(fā)并上線了基于第五代英特爾至強可擴展處理器的新一代金融云服務器,同時通過散熱和供電等技術創(chuàng)新實現(xiàn)了整體性能提升,例如在大語言模型Llama 2 13B的推理性能測試中比上一代整體提升了51%。

百度采用4臺基于第五代英特爾至強可擴展處理器的服務器,通100G的高速網(wǎng)絡實現(xiàn)多機分布式推理來運行Llama 2 70B大模型,相比單臺服務器實現(xiàn)2.85倍加速比,將時延降低至87ms。

陳葆立說,英特爾一直致力于生態(tài)系統(tǒng)建設,有著龐大的國內(nèi)合作伙伴體系,為用戶提供廣泛且經(jīng)過驗證的解決方案。目前英特爾已與許多國內(nèi)合作伙伴一起完成了基于第五代英特爾至強可擴展處理器的驗證,從國產(chǎn)操作系統(tǒng)的支持到超融合一體機、一些代表性的AI應用場景均已在第五代至強上做解決方案并實現(xiàn)了顯著的性能提升。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求

陳葆立判斷,未來應用爆發(fā)時,在云邊端的推理業(yè)務量均會增長。王偉亦給出類似的預測,短期來看,模型發(fā)展還未收斂,對算力的需求量是巨大的,需要基于異構計算的算力來做好訓練,其中對GPU算力需求更高一些;但如果只有訓練,沒看到更好的推理應用,產(chǎn)業(yè)是不健康的,長遠來看,未來更多AI應用場景會傾向于推理,對算力的需求會逐漸降下來。

在王偉看來,需要高算力來做AI推理的場景不太有利于AI在應用端快速發(fā)展,所以阿里云會更多關注如何通過降低算力的訴求,來更好孵化大模型在推理側(cè)應用,希望使用不同的處理器架構來做推理,以滿足更多應用場景的需求。

李越淵亦談道,做AI推理需要講究性價比,對于一些場景來說,基于一個合理的參數(shù)量去喂很精準的數(shù)據(jù)、對模型調(diào)優(yōu),也許是可行之路。

三、云上數(shù)據(jù)安全是重中之重

李越淵說,安全是云廠商非常關注的芯片能力,模型是每個公司最重要的資產(chǎn)之一,很天然的,客戶會關注自身的數(shù)據(jù)安全、模型安全。他看到英特爾在這上面做了很多努力和嘗試,包括TDX能更加透明、低門檻的讓客戶實現(xiàn)端到端安全,火山引擎的AI客戶對這些非常關注。

英特爾可信域拓展(英特爾TDX)提供虛擬機(VM)層面的隔離和保密性,能增強隱私性和對數(shù)據(jù)的管理。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求

在基于英特爾TDX的機密虛擬機中,客戶機操作系統(tǒng)和虛擬機應用被隔離開來,不會被云端主機、虛擬機管理程序和平臺的其他虛擬機訪問。

今年年初發(fā)布的第四代英特爾至強已集成英特爾TDX,且特定CSP已經(jīng)能夠應用該功能,隨著新一代至強的推出,所有OEM和CSP解決方案提供商均可啟用該功能。

據(jù)王偉分享,阿里云一向非常重視客戶在云上的數(shù)據(jù)安全,集合英特爾TDX技術的阿里云g8i機密計算實例可以保障用戶在整個AI推理過程中模型和數(shù)據(jù)全流程的數(shù)據(jù)安全。

生成式AI需要怎樣的數(shù)據(jù)中心CPU?阿里云火山引擎解讀云端芯片需求

面向金融服務,平安科技同樣采用英特爾TDX技術來為大模型和用戶數(shù)據(jù)提供更強保護,使其聯(lián)邦大模型能夠平滑地部署在第五代至強上,訓練與推理過程都在加密的虛擬機內(nèi)存中執(zhí)行,且節(jié)點之間的通信也能通過加密及身份認證確保安全,由此構建一個可信的數(shù)據(jù)空間,實現(xiàn)數(shù)據(jù)共享,并全方位保護數(shù)據(jù)安全與數(shù)據(jù)隱私。

結語:2024年,生成式AI應用創(chuàng)新與落地的關鍵一年

英特爾在發(fā)布數(shù)據(jù)中心CPU上的節(jié)奏似乎越來越密集:今年1月和12月,英特爾分別推出第四代和第五代至強可擴展處理器。具備多達288個核心的能效核(E-core)處理器Sierra Forest將于明年上半年推出,性能核(P-core)處理器Granite Rapids也將緊隨其后發(fā)布。這正為市場帶來更加多元化的選擇。

應對AI計算需求的爆發(fā),陳葆立認為,早期做溝通、早期做修正、以客戶為優(yōu)先擁抱市場,是英特爾多年以來的優(yōu)勢,再加上英特爾如期推進先進制程與先進封裝的演進,英特爾對自身的產(chǎn)品競爭力很有信心。他相信接下來一定更多新的生成式AI應用出現(xiàn),英特爾會做好本業(yè),繼續(xù)推進在算力、網(wǎng)絡、內(nèi)存、安全等方面的關注。

英特爾正與合作伙伴和廣泛的生態(tài)系統(tǒng)攜手合作,不斷解鎖AI帶來的新增長機遇。陳葆立說:“英特爾始終致力于通過全面的產(chǎn)品組合、優(yōu)化的軟件、多樣化工具和廣泛的生態(tài),使更多客戶能夠為云計算、網(wǎng)絡、邊緣和大規(guī)模訪問業(yè)務設計、交付和部署創(chuàng)新的解決方案?!?/p>

據(jù)他透露,英特爾將在2024年發(fā)力與開發(fā)者的互動,在數(shù)據(jù)中心端,做生態(tài)做得最成熟的只有英特爾,英特爾希望通過一個成熟的開發(fā)者社區(qū)合作方式,能夠讓更多人參與AI開發(fā)。