智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 李水青

智東西2月11日報道,今日,科大訊飛基于全國產(chǎn)算力訓(xùn)練的星火X2大模型正式發(fā)布。

星火X2通用能力實現(xiàn)提升,在其公布的數(shù)學(xué)、推理、語言理解、智能體等能力測評上可以媲美GPT-5.2、Gemini-3-Pro等模型。星火X1.5于2025年11月6日發(fā)布,僅三個月后星火系列新旗艦?zāi)P途蜕暇€了。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

科大訊飛官方公眾號顯示,星火X2通過量化單臺昇騰服務(wù)器即可運行,其采用293B MoE稀疏架構(gòu),結(jié)合權(quán)重量化、低精度KVCache、VTP(Virtual Tensor Parallel)、分層通信等多種工程化創(chuàng)新,實現(xiàn)了國產(chǎn)大EP并行部署,推理性能相比X1.5提升50%。

除通用能力升級外,星火X2還在醫(yī)療、教育、汽車、智能體等領(lǐng)域針對訊飛的產(chǎn)品實現(xiàn)了升級。

目前,星火X2的最新能力可直接在訊飛星火網(wǎng)頁版和APP體驗,全新API也已上線訊飛開放平臺。

一、能解超難推理題,多項測試可媲美GPT-5.2、Gemini-3-Pro

智東西實測了一波星火X2發(fā)現(xiàn),新模型在回答數(shù)學(xué)、推理難題時,拆解問題、規(guī)劃步驟的思路清晰。

首先,智東西上傳了一道設(shè)計概率難題,提示詞為“某工廠生產(chǎn)的產(chǎn)品次品率為5%,隨機抽取200件產(chǎn)品進行檢驗。求恰好有10件次品的概率,若要保證95%的把握認(rèn)為次品率不超過5%,至少需要抽取多少件產(chǎn)品?”

星火X2先拆解了一共有幾個問題以及要選擇哪一種方式求解,最后給出了恰好有10件次品的概率為12.8%,至少需要抽取59件產(chǎn)品,才能有95%的把握認(rèn)為次品率不超過5%。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

然后,智東西上傳了一道推理難題,提示詞為“有兩座城:真城人永遠說真話,假城人永遠說假話。一個人來自其中一城,你只能問一個問題,讓他回答是 / 否,就能判斷他來自真城還是假城。你該問什么問題?”

星火X2在回答時分析了問題可以利用的條件,并列出了幾種可能的情況,然后一步步找到最清晰、簡潔的問法。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

在訊飛公布的多項基準(zhǔn)測試成績中,星火X2在語言理解、邏輯推理、數(shù)學(xué)、翻譯、多語言等方面,均超過了DeepSeek V3.2和Qwen3 Max,且與GPT-5.2和Gemini 3 Pro相比得分差距較小。

外部公開高難任務(wù)效果對比上,星火X2在數(shù)學(xué)領(lǐng)域整體表現(xiàn)較好,僅次于GPT-5.2,在綜合知識和復(fù)雜問答上,星火X2與GPT-5.2、Gemini-3-Pro、Qwen3-Max差距不大。星火X2的代碼和推理能比,相比GPT-5.2、Gemini-3-Pro有一定差距。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

二、訊飛曉醫(yī)解答率均超80%,能同時對比兩張檢查單

面向垂直領(lǐng)域,星火行業(yè)大模型在教育、醫(yī)療、司法、汽車交互、企業(yè)智能體應(yīng)用等場景的效果也實現(xiàn)了升級。

在醫(yī)療領(lǐng)域,星火醫(yī)療大模型X2在智能健康分析、智能報告解讀、運動飲食建議、輔助診療、智能用藥審核等關(guān)鍵任務(wù)上,表現(xiàn)均超越DeepSeek V3.2、GPT-5.2和Qwen3-Max。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

在此基礎(chǔ)上,訊飛曉醫(yī)App在多輪主動問診、多輪咨詢問答、問用藥、檢查檢驗單解讀、體檢報告單解讀等健康咨詢?nèi)蝿?wù)上的表現(xiàn)升級,解答率均超過80%。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

科大訊飛官方放出了訊飛曉醫(yī)解讀檢驗單的案例,其上傳了兩份患兒不同時期的血常規(guī)結(jié)果,訊飛曉醫(yī)會進行聯(lián)合解讀,動態(tài)分析關(guān)鍵指標(biāo)的變化趨勢,結(jié)合患兒年齡對檢驗報告中的不正常數(shù)據(jù)進行解讀。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

不過當(dāng)智東西更新了訊飛曉醫(yī)App后,發(fā)現(xiàn)其下方顯示的是“深度思考(X1)”。

三、教育汽車智能體平臺均升級

基于星火X2的汽車智能座艙交互系統(tǒng)、科大訊飛AI學(xué)習(xí)機、星辰Agent平臺均實現(xiàn)了升級。

在教育領(lǐng)域,星火教育大模型X2數(shù)學(xué)步驟級批改、錯因定位等能力升級。面向?qū)W生自主學(xué)習(xí)場景,科大訊飛AI學(xué)習(xí)機在1對1精準(zhǔn)學(xué)、答疑輔導(dǎo)和互動課等效果持續(xù)提升。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

基于星火X2,在汽車領(lǐng)域的2B、7B、30B-A3等多尺寸中小模型同步升級,使得汽車智能座艙交互系統(tǒng)在人人/人機對話判斷、模糊意圖理解、高情商回復(fù)等方面交互體驗顯著提升。

單臺昇騰服務(wù)器可跑!國產(chǎn)算力加持大模型升級,推理性能提升50%

星辰Agent平臺進一步強化了“會思考能執(zhí)行”的精品智能體構(gòu)建能力。當(dāng)前該平臺的智能體數(shù)量已經(jīng)超過130萬,已整合語音交互、語音識別、圖像理解等百余種精品開放平臺能力。

四、4大技術(shù)升級,涵蓋算法、數(shù)據(jù)集、專業(yè)思維鏈強化學(xué)習(xí)

星火X2的升級得益于其背后的四項工程級技術(shù):

訓(xùn)推采樣校準(zhǔn)強化學(xué)習(xí)算法:針對MoE大模型RL訓(xùn)練中的訓(xùn)推分布不一致問題,提出訓(xùn)練與推理概率重采樣自適應(yīng)校準(zhǔn)算法,提升強化學(xué)習(xí)訓(xùn)練準(zhǔn)確率和穩(wěn)定性。

遞歸式高難數(shù)據(jù)合成方法:針對高難任務(wù)數(shù)據(jù)稀缺問題,設(shè)計多輪迭代式推導(dǎo)的數(shù)據(jù)合成方案,實現(xiàn)推理錯誤逐步糾正與收斂,持續(xù)構(gòu)建稀缺型高質(zhì)量數(shù)據(jù),提升模型深度推理準(zhǔn)確率。

多階段RL高吞吐采樣方法:設(shè)計P/D(Prefill/Decoder)兩階段分離的多階段推理采樣方案,解決國產(chǎn)化平臺強化學(xué)習(xí)高吞吐采樣情況下的效率干擾問題,訓(xùn)練效率提升10%。

服務(wù)高性能部署優(yōu)化算法:通過模型輕量化壓縮,完成國產(chǎn)機器的單機大EP并行部署,推理性能相比星火X1.5提升50%。

結(jié)語:行業(yè)高專業(yè)場景需求凸顯,大模型解決方案逐漸成熟

此次科大訊飛星火X2及其多個行業(yè)大模型升級,是面向關(guān)鍵行業(yè)落地的實用化升級,其面向教育、醫(yī)療、汽車、智能體等高專業(yè)性、高體驗性場景的升級,或意味著,可以為行業(yè)剛需問題提供可行的技術(shù)方案。

從長遠和產(chǎn)業(yè)發(fā)展的宏觀視角來看,如何讓大模型深度嵌入千行百業(yè),切實解決行業(yè)痛點、賦能業(yè)務(wù)流程,才是決定其真正價值與發(fā)展?jié)摿Φ暮诵拿}??拼笥嶏w此前的技術(shù)積累以及與產(chǎn)業(yè)客戶的結(jié)合,或稱為率先兌現(xiàn)AI紅利的關(guān)鍵。