智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 漠影

2025年,以DeepSeek、QwQ等為代表的推理大模型火爆全球,并在復(fù)雜任務(wù)上展現(xiàn)出強(qiáng)大實(shí)力。這也讓不少企業(yè)考慮,如何能利用此輪推理大模型的技術(shù)進(jìn)步,來優(yōu)化自身的決策、提升企業(yè)運(yùn)行效率并促進(jìn)創(chuàng)新。

然而,傳統(tǒng)的CPU服務(wù)器在處理當(dāng)前的AI推理需求時(shí)顯得力不從心,而GPU推理服務(wù)器動(dòng)輒上百萬的高昂成本又將許多中小企業(yè)擋在門外。

在這樣的背景下,市場(chǎng)亟需一種既能控制成本又能保證性能的服務(wù)器解決方案,以滿足企業(yè)對(duì)便捷、高性價(jià)比AI推理服務(wù)的需求。

隨著AI技術(shù)的快速發(fā)展,CPU服務(wù)器也在不斷進(jìn)化。近日,浪潮信息發(fā)布的元腦CPU推理服務(wù)器,能高效運(yùn)行DeepSeek-R1 32B和QwQ-32B等適合企業(yè)日常需求的推理模型,還能與企業(yè)原有的業(yè)務(wù)兼容,具備性價(jià)比高、運(yùn)維簡(jiǎn)單等優(yōu)勢(shì)。

▲元腦CPU推理服務(wù)器,基于QwQ-32B模型生成猜數(shù)字游戲

在GPU服務(wù)器之外,新一代CPU推理服務(wù)器為企業(yè)提供了快速、易獲取且低成本的算力供給,正成為更多企業(yè)的理想選擇。

一、跑大模型GPU并非唯一解,CPU推理服務(wù)器成中小企業(yè)理想新選擇

當(dāng)談及部署大模型時(shí),不少企業(yè)的第一反應(yīng)都是“買卡”。的確,在大模型訓(xùn)練、推理的場(chǎng)景中,GPU加速卡憑借強(qiáng)大的浮點(diǎn)運(yùn)算能力和大規(guī)模并行處理架構(gòu),在高吞吐量的AI推理任務(wù)上展現(xiàn)出明顯優(yōu)勢(shì)。

但GPU并不是唯一解。

CPU更擅長處理復(fù)雜的邏輯運(yùn)算和通用計(jì)算任務(wù),雖然在高并行計(jì)算任務(wù)上不如GPU,但在處理多樣化工作負(fù)載(如數(shù)據(jù)庫查詢、業(yè)務(wù)邏輯處理)時(shí)性能表現(xiàn)優(yōu)秀。而且,隨著技術(shù)的不斷迭代,具備AI計(jì)算能力的CPU服務(wù)器也開始在AI推理場(chǎng)景中展現(xiàn)獨(dú)到優(yōu)勢(shì)。

在大模型推理過程中,不少模型采用KV Cache(鍵值緩存),用于存儲(chǔ)解碼過程中生成的中間結(jié)果,以減少重復(fù)計(jì)算,提升推理效率。隨著模型規(guī)模的增大,KV Cache的存儲(chǔ)需求也隨之增加。

與GPU服務(wù)器相比,CPU推理服務(wù)器以更低的硬件投入,支持更大容量的系統(tǒng)內(nèi)存,能夠輕松存儲(chǔ)更大規(guī)模的KV Cache,避免頻繁的數(shù)據(jù)交換,從而提升推理效率。CPU推理服務(wù)器還可通過多通道內(nèi)存系統(tǒng),進(jìn)一步支持大規(guī)模KV Cache的高效訪問。

當(dāng)CPU推理服務(wù)器與高效的中等尺寸推理模型結(jié)合后,能夠形成顯著的協(xié)同效應(yīng),在保證性能的同時(shí)進(jìn)一步壓縮成本。

以業(yè)界多款32B推理模型為例,這些模型通過采用更高效的注意力機(jī)制、模型量化與壓縮技術(shù)以及KV Cache優(yōu)化,顯著降低了計(jì)算和存儲(chǔ)需求。例如,DeepSeek-R1 32B在知識(shí)問答、智能寫作和內(nèi)容生成等方面表現(xiàn)優(yōu)異,而QwQ-32B則在數(shù)學(xué)推理、編程任務(wù)和長文本處理等領(lǐng)域展現(xiàn)出強(qiáng)大的性能。

此外,DeepSeek-R1 32B和QwQ-32B的訓(xùn)練數(shù)據(jù)中包含了海量的高質(zhì)量中文語料庫,使其更加適合國內(nèi)企業(yè)的應(yīng)用需求。

在企業(yè)知識(shí)庫問答、文檔寫作、會(huì)議紀(jì)要整理等場(chǎng)景中,32B參數(shù)級(jí)別的模型往往是最佳選擇,既能提供強(qiáng)大的能力支持,又能保持合理的硬件投入,僅基于CPU推理服務(wù)器,企業(yè)用戶即可實(shí)現(xiàn)本地化部署,滿足對(duì)性能、成本和易用性的多重需求。

從成本角度來看,相比GPU服務(wù)器高昂的硬件成本,更嚴(yán)格的電源、散熱和機(jī)架空間,CPU服務(wù)器對(duì)環(huán)境的要求較為寬松,對(duì)于輕量使用和預(yù)算有限的企業(yè)而言,更具性價(jià)比。

二、軟硬件協(xié)同優(yōu)化成效顯著,解碼速度翻番、效率提升至4倍

浪潮信息本次推出的元腦CPU推理服務(wù)器,正是這樣一款支持中等尺寸模型推理,能為中小企業(yè)提供高效AI推理服務(wù)的CPU推理服務(wù)器。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發(fā)布全新方案,更懂中小企業(yè)的AI服務(wù)器來了

在實(shí)際測(cè)試中,單臺(tái)元腦CPU推理服務(wù)器在使用DeepSeek-R1 32B進(jìn)行帶思維鏈深度思考的短輸入長輸出的問答場(chǎng)景下,解碼性能超過20tokens/s,20個(gè)并發(fā)用戶下,總token數(shù)達(dá)到255.2tokens/s。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發(fā)布全新方案,更懂中小企業(yè)的AI服務(wù)器來了

▲基于DeepSeek-R1 32B 并發(fā)性能測(cè)試數(shù)據(jù)

在使用QwQ-32B進(jìn)行模型推理時(shí),20個(gè)并發(fā)用戶數(shù)下總token數(shù)達(dá)到224.3tokens/s,可以提供流暢穩(wěn)定的用戶體驗(yàn)。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發(fā)布全新方案,更懂中小企業(yè)的AI服務(wù)器來了

▲基于QwQ-32B 并發(fā)性能測(cè)試數(shù)據(jù)

元腦CPU推理服務(wù)器的性能,得益于浪潮信息的軟硬件協(xié)同優(yōu)化。

算力方面,元腦CPU推理服務(wù)器采用4顆32核心的英特爾至強(qiáng)處理器6448H,具有AMX(高級(jí)矩陣擴(kuò)展)AI加速功能,支持張量并行計(jì)算。與傳統(tǒng)雙路服務(wù)器方案的有限內(nèi)存不同,元腦CPU推理服務(wù)器的多通道內(nèi)存系統(tǒng)設(shè)計(jì)可支持32組DDR5內(nèi)存。

在這些硬件的加持下,元腦CPU推理服務(wù)器單機(jī)具備BF16精度AI推理能力、最大16T內(nèi)存容量和1.2TB/s內(nèi)存帶寬,可以更好滿足模型權(quán)重、KV Cache等計(jì)算和存儲(chǔ)需求,快速讀取和存儲(chǔ)數(shù)據(jù),大幅提升大模型推理性能。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發(fā)布全新方案,更懂中小企業(yè)的AI服務(wù)器來了

▲元腦CPU推理服務(wù)器NF8260G7配置

在算法方面,元腦CPU推理服務(wù)器對(duì)業(yè)界主流的企業(yè)級(jí)大模型推理服務(wù)框架vLLM進(jìn)行深度定制優(yōu)化,通過張量并行和內(nèi)存綁定技術(shù),充分釋放服務(wù)器CPU算力和內(nèi)存帶寬潛能,實(shí)現(xiàn)多處理器并行計(jì)算,效率最高提升至4倍。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發(fā)布全新方案,更懂中小企業(yè)的AI服務(wù)器來了

面對(duì)內(nèi)存帶寬的挑戰(zhàn),元腦CPU推理服務(wù)器為進(jìn)一步提升解碼性能,采用了AWQ(Activation-aware Weight Quantization激活感知權(quán)重量化)技術(shù)。

AWQ技術(shù)能確定模型中對(duì)性能影響最大的少部分重要權(quán)重,并通過保護(hù)這些權(quán)重來減少量化帶來的誤差。AWQ還避免了混合精度計(jì)算帶來的硬件效率損失。

采用了AWQ的元腦CPU推理服務(wù)器在解碼任務(wù)中的性能提升了一倍,讓大模型在保持高性能的同時(shí),跑得更快、更省資源。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發(fā)布全新方案,更懂中小企業(yè)的AI服務(wù)器來了

元腦CPU推理服務(wù)器還通過浪潮信息打造的AI Station平臺(tái),支持用戶靈活選擇適配的大模型算法,包括DeepSeek全系模型、QwQ和Yuan等不同參數(shù)量的模型。

三、更懂中小企業(yè)需求,通用性、成本效益突出

在智東西與浪潮信息副總經(jīng)理趙帥的溝通中,我們了解到,元腦CPU推理服務(wù)器僅推出1周,便吸引了多家來自大模型、金融、教育等行業(yè)的客戶咨詢和測(cè)試,這款CPU推理服務(wù)器精準(zhǔn)地填補(bǔ)了中小企業(yè)市場(chǎng)中的一個(gè)關(guān)鍵空白。

目前,許多企業(yè)對(duì)將私有數(shù)據(jù)上云仍持保留態(tài)度,更傾向于在本地完成AI推理任務(wù)。然而,如果企業(yè)選擇使用GPU服務(wù)器來部署高性能AI模型,往往需要承擔(dān)高昂的初始投資成本。對(duì)于中小企業(yè)而言,這種投資的性價(jià)比并不高——它們通常不需要極致的AI性能或超高的并發(fā)處理能力,而是更關(guān)注易于部署、易于管理、易于使用的入門級(jí)AI推理服務(wù)。

在這種情況下,生態(tài)更為成熟、開發(fā)工具更為健全的CPU推理服務(wù)器展現(xiàn)出了顯著的優(yōu)勢(shì)。CPU推理服務(wù)器不僅能夠更好地融入企業(yè)現(xiàn)有的IT基礎(chǔ)設(shè)施,還因其通用性而具備更高的靈活性。

與專用AI硬件(如GPU服務(wù)器)不同,CPU推理服務(wù)器在AI推理需求空閑期,還可以兼顧企業(yè)的其他通用計(jì)算需求,如數(shù)據(jù)庫管理、ERP系統(tǒng)運(yùn)行等,從而最大化硬件資源的利用率。

在部署便捷性方面,元腦CPU推理服務(wù)器功耗2000W左右,降低了對(duì)供電設(shè)備的要求,還使得服務(wù)器的冷卻需求大幅減少,僅需家用級(jí)空調(diào)即可滿足散熱要求。這意味著元腦CPU推理服務(wù)器能夠輕松適應(yīng)大部分企業(yè)自建的小型機(jī)房環(huán)境,無需額外投資高成本的冷卻設(shè)施或?qū)ΜF(xiàn)有機(jī)房進(jìn)行大規(guī)模改造。

元腦CPU推理服務(wù)器還具備高可靠性的特點(diǎn),平均無故障時(shí)間可達(dá)200000小時(shí),能夠保障關(guān)鍵應(yīng)用和AI推理任務(wù)的持續(xù)穩(wěn)定運(yùn)行。這一特性對(duì)于企業(yè)來說尤為重要,尤其是在金融、醫(yī)療、制造等對(duì)系統(tǒng)穩(wěn)定性要求極高的行業(yè)中,高可靠性意味著更低的業(yè)務(wù)中斷風(fēng)險(xiǎn)和更高的運(yùn)營效率。

談及未來,趙帥分享,浪潮信息還將進(jìn)一步提升元腦CPU推理服務(wù)器的能力。依托于融合架構(gòu)開發(fā)的經(jīng)驗(yàn)積累,他們已在開發(fā)內(nèi)存資源池化的新技術(shù),結(jié)合長文本等算法特征進(jìn)行軟件優(yōu)化,更好地支持企業(yè)的使用需求。

結(jié)語:CPU推理服務(wù)器有望推動(dòng)AI普惠

隨著AI技術(shù)往行業(yè)深水區(qū)發(fā)展,大模型推理需求正從大型企業(yè)逐步向中小企業(yè)滲透,從少部分企業(yè)所享有的“奢侈品”轉(zhuǎn)化為大部分企業(yè)的“必需品”。

在這一進(jìn)程中,如元腦CPU推理服務(wù)器這樣的高性價(jià)比AI推理解決方案,有望成為中小企業(yè)實(shí)現(xiàn)AI普及化和行業(yè)智能化的重要工具。