4月1日-2日,以“大拐點 新征程”為主題的2025中國生成式AI大會(北京站)隆重舉行。

在這場匯聚了50余位產(chǎn)學(xué)研嘉賓、1500名觀眾的盛會上,GMI Cloud?亞太區(qū)總裁?King Cui發(fā)表了主題為《AI推理的全球算力革命:從單點爆發(fā)到全球擴容》的演講。

其提到,GMI Cloud的核心價值在于:通過頂級生態(tài)協(xié)作獲取高端硬件資源,依托自研Cluster Engine云平臺和Inference Engine推理引擎云平臺實現(xiàn)算力的全球化智能調(diào)度、擴容與極致性能釋放。

在目前這個AI推理的時代,重構(gòu)AI算力的成本效益模型,為AI應(yīng)用的研發(fā)提供“隨需而變”的全球化算力底座,助力企業(yè)在用戶激增、競爭激烈的全球市場中,以算力優(yōu)勢構(gòu)筑商業(yè)壁壘,推動“全球AGI”從技術(shù)可能邁向商業(yè)必然。

隨著DeepSeek等國產(chǎn)大模型改寫全球商業(yè)競爭格局,AI應(yīng)用出海浪潮席卷全球。King?在演講中分享了一個數(shù)據(jù):“中國AI應(yīng)用下載量年增速超100%,但算力穩(wěn)定性與成本效率仍是核心瓶頸?!痹谌駻I應(yīng)用爆發(fā)式增長的產(chǎn)業(yè)變革期,算力已成為驅(qū)動技術(shù)落地與商業(yè)擴張的核心生產(chǎn)要素。

作為NVIDIA全球TOP10?NCP,GMI?Cloud?目前已在北美、歐洲、亞太部署12座數(shù)據(jù)中心,幫助企業(yè)實現(xiàn)全球算力調(diào)度與擴容。GMI Cloud深耕AI全球化的算力基礎(chǔ)設(shè)施領(lǐng)域,以“技術(shù)縱深+全球布局”雙輪驅(qū)動,構(gòu)建起覆蓋硬件適配、彈性調(diào)度、性能優(yōu)化與穩(wěn)定保障的全棧解決方案,破解企業(yè)出海面臨的算力部署難題。

以下為King Cui的演講實錄精華

大家下午好!我是來自GMI Cloud的King Cui,今天為大家分享的主題是《AI推理的全球算力革命:從單點爆發(fā)到全球擴容》。從GMI?Cloud的角度出發(fā),我們探討如何幫助企業(yè)實現(xiàn)全球化的推理云服務(wù)。

一、GMI?Cloud從GPU硬件架構(gòu)到頂層應(yīng)用,建立全棧AI基礎(chǔ)設(shè)施平臺

在今天正式演講之前,我首先快速地和大家再介紹一下GMI?Cloud,我們是一家AI Native Cloud公司,致力于為全球化AI應(yīng)用提供英偉達最新的GPU云服務(wù)。作為NVIDIA全球TOP 10的NVIDIA Cloud Partner(NCP),GMI Cloud與NVIDIA保持密切合作,定期進行技術(shù)交流,以幫助我們將AI應(yīng)用做的更完善。同時,得益于投資者的支持,GMI?Cloud在亞太地區(qū)擁有最新的GPU分配權(quán),能夠快速獲取最新、最強的GPU云服務(wù)。

我們推出了“Cluster Engine自研云平臺”,專注于為從事大語言模型、文生圖、文生視頻模型的公司提供訓(xùn)練云平臺的支持。同時,因為GMI Cloud相信,未來的AI應(yīng)用將快速遍布全球,未來將是一個全新的“推理世界”,Token changes?the world,因此GMI Cloud面向全球打造了AI推理引擎平臺“Inference?Engine”。

GMI Cloud King Cui:AI應(yīng)用落地全球化加速,AI推理從單點爆發(fā)到全球擴容丨GenAICon 2025

(上圖)從技術(shù)架構(gòu)來看,GMI Cloud提供從底層GPU硬件到支持應(yīng)用層的全棧服務(wù):

第一,底層提供NVIDIA生態(tài)體系內(nèi)最新、最強的GPU云資源,同時也提供適合AI存儲的云服務(wù),支持NVMe高速存儲和普通存儲,適配不同場景的存儲介質(zhì),提供不同的云服務(wù)。在網(wǎng)絡(luò)層面,我們提供高速帶寬的數(shù)據(jù)通道,確保AI應(yīng)用的高效運行。再往上就是MaaS( Model as a Service)模型的推理,同時我們集成了大量已經(jīng)開源的大模型,并且基于自己的技術(shù)自研了Inference Engine推理引擎平臺。

第二,GMI Cloud研發(fā)了一套計算存儲網(wǎng)絡(luò),具備laaS能力。在計算資源方面,提供裸金屬服務(wù)器、云主機、K8s云服務(wù)等多種計算形態(tài)。

第三,MaaS(Model as a Service)層集成了大量開源大模型,并基于Inference Engine自研推理引擎平臺,將英偉達H100、H200或更先進的B200進行適配,以提升模型的token吞吐速度。同時,我們具備端到端的監(jiān)控能力,幫助企業(yè)快速發(fā)現(xiàn)、定位和解決問題。

第四,應(yīng)用層得益于各行業(yè)企業(yè)的實踐。特別強調(diào)的是,IaaS層和MaaS層均為GMI Cloud自主研發(fā),MaaS層還支持所有B2B服務(wù)企業(yè)接入,以MarketPlace的方式為企業(yè)提供更好的MaaS服務(wù)。

二、AI 應(yīng)用全球化服務(wù)趨勢下,推理服務(wù)的及時性、擴展性、穩(wěn)定性是核心挑戰(zhàn)

自2022年底OpenAI發(fā)布ChatGPT以來,AI產(chǎn)業(yè)在算力和模型方面投入巨大,每隔三到六個月,大模型能力便提升一個臺階。

如今,多模態(tài)大模型的生成內(nèi)容質(zhì)量更高,同時,如今的大模型對物理世界的理解及生成質(zhì)量的可控性也更強,而且許多公司都已經(jīng)具備這些能力,在產(chǎn)業(yè)層面,這為應(yīng)用層的爆發(fā)提供了很大基礎(chǔ)。可以說,AI的應(yīng)用爆發(fā)具備了技術(shù)條件。

2024年,全球AI應(yīng)用產(chǎn)品已有1890個,其中中國相關(guān)產(chǎn)品有356個,出海產(chǎn)品有143個。從訪問量來看,2024年初為30多億,年底已超過140億,增速超過300%。AI下載的應(yīng)用數(shù)量也比以前有所增加,中國AI應(yīng)用出海在大規(guī)模高速增長。

所以如果大家要做出海,就需要了解在就近國家是否有相應(yīng)的應(yīng)用算力提供服務(wù)。我們摘取了中國頭部應(yīng)用出海的下載量情況(如圖):

GMI Cloud King Cui:AI應(yīng)用落地全球化加速,AI推理從單點爆發(fā)到全球擴容丨GenAICon 2025

中國AI應(yīng)用出海主要集中在美國、印度、亞太、德國和歐洲等地區(qū)。收入方面,美國付費意愿較強,亞太地區(qū)則以東北亞和東南亞部分地區(qū)為主。

中國頭部出海AI產(chǎn)品的下載主要集中在印度、亞太、德國和歐洲地區(qū)。從收入角度來看,美國的付費意愿相對較強。

從全球化角度分析,中國的AI應(yīng)用已經(jīng)得到了全世界的廣泛認可,大家的出海在商業(yè)化層面已經(jīng)邁出了一大步。這里有幾個例子,首先是Manus,前段時間非?;鸨l(fā)布7天之內(nèi)達到了200萬的等待清單,原因是后端的算力和Web Service不足以支撐那么多用戶的請求。Deepseek在春節(jié)前也非?;鸨K鼊?chuàng)造了全球所有應(yīng)用獲取用戶從0~1億的最快速度,7天達到1億。當(dāng)時大家用時發(fā)現(xiàn)很多服務(wù)不被響應(yīng),這也是因為后端算力不足以支撐這么多請求量。當(dāng)大量用戶涌入時,如果后端的推理云服務(wù)算力能夠及時跟上,整個服務(wù)的穩(wěn)定性和響應(yīng)及時性將顯著提升,從而幫助提高用戶留存率。

從這兩個案例中,我們發(fā)現(xiàn)在AI全球化服務(wù)浪潮下,推理服務(wù)的及時性、可擴展性和穩(wěn)定性是提高用戶留存的核心。

總結(jié)一下就是,當(dāng)AI應(yīng)用選擇出海,它將會分布在歐洲、美洲、東南亞、東北亞以及拉美等各個地區(qū),因此大家需要找到在不同地區(qū)提供就近的推理算力服務(wù)商,以響應(yīng)AI應(yīng)用請求。當(dāng)用戶增長爆發(fā)時,推理相關(guān)的算力彈性還需要提高才能滿足客戶需求,這意味著云廠商的推理服務(wù)需要具備自動擴容能力。

在具備大規(guī)模用戶在線時,我們要考慮如何保障AI應(yīng)用的穩(wěn)定性和可靠性。

GMI Cloud King Cui:AI應(yīng)用落地全球化加速,AI推理從單點爆發(fā)到全球擴容丨GenAICon 2025

三、Inference Engine四大核心能力破解AI應(yīng)用全球化難題

GMI Cloud推出的推理服務(wù)能夠有效應(yīng)對上述挑戰(zhàn)。在英偉達技術(shù)峰會GTC上,我們發(fā)布了GMI Cloud?Inference Engine。這套Inference Engine部署在我們自己研發(fā)的Cluster Engine上,Cluster Engine專注于做云管平臺,目前整個中間態(tài)部分,這是一套自己研發(fā)GM I云推理引擎的全球調(diào)度策略,能夠幫助企業(yè)客戶在全球范圍內(nèi)就近調(diào)度所需要的GPU云服務(wù)。

GMI Cloud King Cui:AI應(yīng)用落地全球化加速,AI推理從單點爆發(fā)到全球擴容丨GenAICon 2025

為了應(yīng)對AI應(yīng)用的推理需求,Inference Engine主要包括四個特性:

01?彈性伸縮,跨集群自動擴容

AI應(yīng)用的全球用戶分布廣泛,資源靠近用戶可顯著降低延遲,而在推理過程中,資源越遠,用戶推理請求的延時就越高。當(dāng)用戶量快速增長時,系統(tǒng)需快速彈性擴容,提供大量GPU云服務(wù)。在CPU云時代,大家都知道ECS的CPU云服務(wù)速度非??欤糠昼娍梢哉?wù)搸资f核,而在GPU時代,對資源的可控性和調(diào)度準確性要求非常高。

根據(jù)不同客戶的需求,我們的服務(wù)節(jié)點主要分布在歐洲、美洲和亞洲(尤其是東北亞和東南亞地區(qū)),Inference Engine能夠動態(tài)感知用戶網(wǎng)絡(luò)壓力負載,根據(jù)負載變化調(diào)整負載均衡;基于不同IP請求調(diào)度到不同地區(qū),并且利用不同地區(qū)的資源提供inference服務(wù)。同時,我們的調(diào)度服務(wù)也支持與企業(yè)內(nèi)部自建的GPU集群之間進行打通,實現(xiàn)統(tǒng)一調(diào)度。

GMI Cloud King Cui:AI應(yīng)用落地全球化加速,AI推理從單點爆發(fā)到全球擴容丨GenAICon 2025

02?可視化部署工作流,快速高效部署

對于AI應(yīng)來說,部署分布式推理集群雖然不難,但整個流程較為復(fù)雜。首先需準備對應(yīng)資源,然后下載模型服務(wù),進行資源配置,最后進行軟硬件調(diào)優(yōu)。這整個流程耗費企業(yè)的Inference團隊人力資源。

針對熱門開源模型(如DeepSeek、通義千問和Llama等),GMI?Cloud已完成高端GPU云資源的適配,企業(yè)可直接在Marketplace上部署;針對自研模型,Inference?Engine提供可視化工作臺,支持從部署鏡像構(gòu)建到推理服務(wù)上線的全流程可視化操作、零代碼操作。

GMI Cloud King Cui:AI應(yīng)用落地全球化加速,AI推理從單點爆發(fā)到全球擴容丨GenAICon 2025

03?集成最先進的高性能GPU,提供高效推理性能

Inference Engine已集成英偉達最先進的高性能GPU服務(wù)。根據(jù)英偉達提供的DeepSeek-FP4版本報告,優(yōu)化后的H200的token吞吐量是H100的6倍,B200的token吞吐量更是達到H100的25倍。從效率和經(jīng)濟成本來看,使用更先進、更高性能的GPU,實際上綜合成本會下降。黃教主說,”The More You Buy,The More You Save“。

04 主動監(jiān)控自動容錯+故障診斷+極速恢復(fù)

大家都知道提供目前的云服務(wù)不可能是SLA?Service 100%,但GMI Cloud盡可能提供主動監(jiān)控功能,幫助所有企業(yè)用戶及時發(fā)現(xiàn)問題。

GMI?Cloud擁有一個可視化的云推理監(jiān)控服務(wù)平臺,可以看到整個IP請求從進來到落到每臺服務(wù)器上,以及整個網(wǎng)絡(luò)鏈路上出現(xiàn)擁塞。我們可以精準定位問題、找到問題原因并以最短的停機時間快速修復(fù)。所有流程都可以在Inference?Engine控制臺上實現(xiàn)可視化。同時GMI?Cloud可以將API暴露給所有企業(yè),幫助企業(yè)提升自己的監(jiān)控管理平臺。

GMI Cloud King Cui:AI應(yīng)用落地全球化加速,AI推理從單點爆發(fā)到全球擴容丨GenAICon 2025

結(jié)語:一朵云+引擎,高效穩(wěn)定的服務(wù)架構(gòu)

GMI Cloud致力于提供全棧AI基礎(chǔ)設(shè)施,包括一朵云和兩個引擎(Cluster Engine和Inference Engine),Cluster Engine為企業(yè)客戶提供高穩(wěn)定性的模型訓(xùn)練服務(wù),Inference Engine則為企業(yè)客戶提供走向全球化應(yīng)用的AI推理服務(wù)。

GMI Cloud King Cui:AI應(yīng)用落地全球化加速,AI推理從單點爆發(fā)到全球擴容丨GenAICon 2025

感謝大家的關(guān)注,希望大家的AI應(yīng)用出海越來越順利!