智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 漠影

推理模型潮真的來了!

自O(shè)penAI的o1深度推理模型發(fā)布以來,國內(nèi)外已有不少企業(yè)陸續(xù)發(fā)布“類o1”模型,僅在國內(nèi)便有Kimi-k1、GLM-Zero、DeepSeek-r1等數(shù)款模型。

去年年底,OpenAI在罕見的12天連續(xù)發(fā)布中帶來了o3模型,推理能力大幅提升,給擔(dān)憂大模型發(fā)展放緩的業(yè)界人士打了一劑強(qiáng)心針,并將這一賽道的熱度推向新的高點(diǎn)。

英偉達(dá)CEO黃仁勛也在上周的CES主旨演講中談到,在傳統(tǒng)意義的大算力、大數(shù)據(jù)、大模型Scale路徑之外,業(yè)界還可依靠后訓(xùn)練(如強(qiáng)化訓(xùn)練)和模型的測(cè)試時(shí)計(jì)算(即“推理”)來提升模型的性能。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

今天上午,作為“AI國家隊(duì)”、同時(shí)也是“大模型標(biāo)王”的科大訊飛也發(fā)布了訊飛星火深度推理模型X1。

依托訊飛在行業(yè)、企業(yè)落地方面的積累,星火X1成為國內(nèi)唯一采用全國產(chǎn)算力平臺(tái)、率先落地到真實(shí)應(yīng)用場(chǎng)景的深度推理模型,并在教育、醫(yī)療等領(lǐng)域展現(xiàn)出優(yōu)勢(shì)。

星火X1發(fā)布后,智東西在第一時(shí)間進(jìn)行了上手實(shí)測(cè),星火X1能勝任全學(xué)段的大部分?jǐn)?shù)學(xué)問題,模型推理速度也比較理想。在全國產(chǎn)算力的基礎(chǔ)之上,這一效果更顯得難能可貴。下面就讓我們來看看這款模型的具體表現(xiàn)吧。

一、難倒一眾大模型的數(shù)學(xué)題,星火X1輕松搞定

數(shù)學(xué),一直是許多不具備深度推理、思考能力的大模型繞不過去的一道坎,對(duì)星火X1的測(cè)試也從這里開始。

在開始測(cè)試之前,我們可以先看看其它模型在數(shù)學(xué)問題上的表現(xiàn)。

最簡(jiǎn)單的比大小問題,其實(shí)已經(jīng)能難倒部分參數(shù)規(guī)模較小的模型。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

▲左側(cè)為Anthropic Claude 3 Haiku,右側(cè)為微軟Phi-4

在高中競(jìng)賽題面前,即便是最新的旗艦?zāi)P鸵埠茈y保證高正確率。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

▲國內(nèi)兩款旗艦?zāi)P突卮鸶咧懈?jìng)賽數(shù)學(xué)題,回答均錯(cuò)誤

參數(shù)在幾十億、幾百億不等的模型在困難數(shù)學(xué)問題上落敗其實(shí)并不讓人感到意外,但為何參數(shù)達(dá)到上千億的旗艦?zāi)P鸵矡o法破解此類難題呢?

其實(shí),模型能力并非影響大模型復(fù)雜問題求解效果的唯一因素,是否具備規(guī)劃、反思、迭代等深度推理能力才是關(guān)鍵。

不具備上述能力的模型在回答問題時(shí),更像是“單次生成”的,模型更多地是憑借自己在預(yù)訓(xùn)練階段培養(yǎng)出的“直覺”、“印象”在回答問題,也不會(huì)對(duì)前序生成的內(nèi)容進(jìn)行判斷、驗(yàn)證或是修改。這種方式的優(yōu)點(diǎn)在于速度快、效率高,但其實(shí)與人類在解決復(fù)雜問題時(shí)的思考模式有很大差異。

而具備深度推理能力的模型則會(huì)通過思維鏈(Chain-of-Thought)等方式將復(fù)雜問題分步拆解簡(jiǎn)化,在生成回答的過程中進(jìn)行反思、驗(yàn)證。這類模型在訓(xùn)練過程中,還會(huì)使用上述推理時(shí)產(chǎn)生的數(shù)據(jù)進(jìn)行強(qiáng)化訓(xùn)練。

深度推理能力讓星火X1能以較高的正確率,解答困難數(shù)學(xué)問題。在面對(duì)這道高考數(shù)學(xué)多選題壓軸題時(shí),星火X1順利完成了從理解題目到解題再到驗(yàn)證的全流程,答案完全正確。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

星火X1在畫面右側(cè)呈現(xiàn)了其思考過程,在對(duì)話框里撰寫主要的解題過程,這種呈現(xiàn)方式對(duì)用戶的使用體驗(yàn)來說也更為友好。在閱讀思考過程中,可以發(fā)現(xiàn)星火X1的反思、迭代機(jī)制確實(shí)發(fā)揮了作用:它自己糾正了計(jì)算過程中的一個(gè)錯(cuò)誤。

國內(nèi)某款同類推理模型雖然用時(shí)稍短,但最終的結(jié)果有誤。雖然它進(jìn)行了驗(yàn)算,但并未發(fā)現(xiàn)其中的問題。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

科大訊飛作為一家人工智能企業(yè),布局智慧教育領(lǐng)域已有20余年,目前常態(tài)化使用訊飛智慧教育產(chǎn)品的學(xué)校數(shù)量已超5萬所。

具體到數(shù)學(xué)上,2023年,當(dāng)大部分模型還處于重理輕文的狀態(tài)時(shí),訊飛星火就已經(jīng)憑借比平均得分超出20%的成績,在《MIT科技評(píng)論(中國版)》進(jìn)行的一場(chǎng)測(cè)試中成為數(shù)學(xué)專項(xiàng)的絕對(duì)領(lǐng)先者。

在2024年的科大訊飛1024開發(fā)者節(jié)上,全新升級(jí)的星火4.0 Turbo的數(shù)學(xué)能力超越GPT-4o,效率相對(duì)提升50%。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

去年,科大訊飛聯(lián)合中國教育科學(xué)研究院發(fā)布了基于“問題鏈”的高中數(shù)學(xué)智能教師助手。今天發(fā)布的X1或?qū)⒔o訊飛旗下的數(shù)學(xué)類產(chǎn)品帶來更強(qiáng)大的能力。

訊飛介紹,星火X1已參加了從小高初數(shù)學(xué)(含競(jìng)賽)到AIME邀請(qǐng)賽等覆蓋全學(xué)段的多項(xiàng)考試,得分水平處于業(yè)界第一梯隊(duì),其中多項(xiàng)指標(biāo)國內(nèi)第一。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

二、大模型年度標(biāo)王背后:深度理解行業(yè)是關(guān)鍵

盡管AI模型在推理、思考等能力上取得了顯著進(jìn)展,但這僅僅是基礎(chǔ)。AI的真正價(jià)值不僅在于其技術(shù)本身有多先進(jìn),還在于能否深度理解行業(yè)場(chǎng)景并解決實(shí)際問題。

當(dāng)AI進(jìn)入行業(yè)深水區(qū),通用大模型在領(lǐng)域知識(shí)上的相對(duì)匱乏、對(duì)行業(yè)需求的理解不足,以及高昂的使用成本,使得大模型的能力難以直接轉(zhuǎn)化為實(shí)際生產(chǎn)力。正因如此,通用基礎(chǔ)模型與行業(yè)特定需求相結(jié)合的行業(yè)大模型解決方案應(yīng)運(yùn)而生。

過去一年,國內(nèi)行業(yè)大模型的發(fā)展勢(shì)頭迅猛。中科院自動(dòng)化所和中鐵建設(shè)集團(tuán)聯(lián)合發(fā)布面向建筑領(lǐng)域的多模態(tài)行業(yè)大模型;中國農(nóng)業(yè)大學(xué)發(fā)布了一系列面向種植、養(yǎng)殖等細(xì)分行業(yè)的大模型;科大訊飛去年則與央國企及20多個(gè)行業(yè)的頭部企業(yè)一起發(fā)布行業(yè)大模型,覆蓋通信、金融、能源、教育、政務(wù)、醫(yī)療等300多個(gè)應(yīng)用場(chǎng)景。

招投標(biāo)數(shù)據(jù)是評(píng)估行業(yè)大模型趨勢(shì)和成效的重要參考依據(jù)之一。根據(jù)智能超參數(shù)的統(tǒng)計(jì),2024年可謂是大模型落地元年。2023年,市場(chǎng)公開披露的大模型中標(biāo)項(xiàng)目及金額分別為92個(gè)、7.89億元。2024年,這兩個(gè)數(shù)字飆升至1520個(gè)、64.67億元,同比增長15.5倍和7.2倍。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

▲2024年1-12月中國大模型中標(biāo)項(xiàng)目監(jiān)測(cè)報(bào)告(圖源:智能超參數(shù))

過去一年,科大訊飛是大模型招投標(biāo)領(lǐng)域表現(xiàn)最為突出的企業(yè),中標(biāo)項(xiàng)目達(dá)91個(gè),中標(biāo)金額高達(dá)約8.48億元,兩項(xiàng)指標(biāo)均位居行業(yè)第一,且遠(yuǎn)超其他廠商,成為行業(yè)大模型的領(lǐng)跑者和年度“標(biāo)王”。

“標(biāo)王”科大訊飛發(fā)布推理模型!算力全國產(chǎn),數(shù)學(xué)能力國內(nèi)第一,驚艷一線教師

▲2024年Top6通用大模型廠商中標(biāo)排行榜(圖源:智能超參數(shù))

與部分大模型企業(yè)先從C端突破,再到B端尋求商業(yè)化的路徑不同,訊飛在2022年底——也就是生成式AI浪潮興起之際——便瞄準(zhǔn)行業(yè)和企業(yè)市場(chǎng),啟動(dòng)了“1+N”戰(zhàn)略。

在這一戰(zhàn)略中,“1”代表通用認(rèn)知智能大模型算法研發(fā)及高效訓(xùn)練底座平臺(tái),而“N”則代表應(yīng)用于教育、醫(yī)療、辦公等多個(gè)領(lǐng)域的專用大模型版本。

這一布局使訊飛能夠快速將大模型技術(shù)落地到具體行業(yè)場(chǎng)景中,推動(dòng)智能化轉(zhuǎn)型。此番發(fā)布的星火X1也成為業(yè)內(nèi)率先成功落地具體場(chǎng)景的深度推理模型

教育方面,這款深度推理模型已經(jīng)走進(jìn)了北京、合肥等地的學(xué)校,輔助一線老師的教學(xué)工作。來自合肥七中的米老師分享,對(duì)于難度中上的題目,星火X1能輔助老師快速理清講解思路;對(duì)學(xué)生來說,星火X1的詳細(xì)解答可以引導(dǎo)學(xué)生理解解題步驟,進(jìn)而系統(tǒng)地理解和掌握知識(shí)點(diǎn)

醫(yī)療方面,基于知識(shí)反思和思維鏈技術(shù),結(jié)合醫(yī)療循證推理技術(shù),星火X1具備了醫(yī)療復(fù)雜推理能力,在??戚o助診斷和復(fù)雜病例內(nèi)涵質(zhì)控上的準(zhǔn)確率目前都達(dá)到了90%。2025年上半年,基于星火X1的訊飛醫(yī)療大模型升級(jí)版將會(huì)正式發(fā)布。

三、芯片層層封鎖之下,世界需要第二種選擇

我們已經(jīng)看到,國內(nèi)大模型在行業(yè)應(yīng)用中的落地取得了顯著進(jìn)展,但其背后仍存在隱憂。無論是模型的訓(xùn)練還是推理,都需要高性能的算力平臺(tái)作為基礎(chǔ)。過去很長一段時(shí)間里,國內(nèi)企業(yè)在高端算力供應(yīng)上長期依賴進(jìn)口,尤其是英偉達(dá)等國際巨頭的GPU產(chǎn)品。

當(dāng)前,全球算力格局正發(fā)生深刻變化。隨著近期美國《人工智能擴(kuò)散出口管制框架》的出臺(tái),高端算力的獲取渠道進(jìn)一步收窄,國內(nèi)許多AI企業(yè)的研發(fā)和商業(yè)化落地都面臨巨大挑戰(zhàn)。美國對(duì)高端算力的出口限制,不僅暴露了國內(nèi)企業(yè)在算力供應(yīng)鏈上的脆弱性,更凸顯了國產(chǎn)算力自主化的緊迫性。

國產(chǎn)算力的崛起,已不僅僅是一個(gè)技術(shù)問題,而是關(guān)乎中國AI產(chǎn)業(yè)能否在全球競(jìng)爭(zhēng)中掌握主動(dòng)權(quán)、實(shí)現(xiàn)可持續(xù)發(fā)展的戰(zhàn)略命題。我們需要一個(gè)靠得住的“第二種選擇”。

今天訊飛發(fā)布的星火X1,是國內(nèi)首個(gè)完全依托全國產(chǎn)算力平臺(tái)的深度推理大模型,其背后的“飛星一號(hào)”是國內(nèi)首個(gè)全國產(chǎn)萬卡算力集群,具備常態(tài)化支持萬億參數(shù)大模型訓(xùn)練的能力。

這一由科大訊飛與華為聯(lián)合研發(fā)的算力平臺(tái),實(shí)現(xiàn)了軟硬件的全棧國產(chǎn)化,標(biāo)志著國產(chǎn)算力在性能上邁出了重要一步。

針對(duì)國產(chǎn)算力生態(tài)方面的短板,訊飛與華為攜手推進(jìn)國產(chǎn)化算子的開發(fā)與優(yōu)化。目前,雙方已識(shí)別并聯(lián)合研發(fā)了超過100個(gè)大模型專用訓(xùn)練/推理算子,其中50多個(gè)算子已完成深度優(yōu)化。

此外,針對(duì)行業(yè)普遍面臨的訓(xùn)練中斷問題,訊飛構(gòu)建了自動(dòng)化故障處理體系,實(shí)現(xiàn)了80多種常見故障在10分鐘內(nèi)自愈的能力,并支持4000+卡任務(wù)連續(xù)運(yùn)行超過20天,顯著提升了算力平臺(tái)的穩(wěn)定性和可靠性

2024年底,科大訊飛還聯(lián)合華為等企業(yè)推出新一代國產(chǎn)超大規(guī)模智算平臺(tái)“飛星二號(hào)”。該平臺(tái)采用靈活的系統(tǒng)架構(gòu),能夠快速適配新模型與新算法,并為科研、教育、醫(yī)療等行業(yè)提供高效、精準(zhǔn)的智能服務(wù),進(jìn)一步推動(dòng)國產(chǎn)算力生態(tài)的完善與應(yīng)用落地。

結(jié)語:探索深度推理模型的中國道路

推理模型作為下一階段大模型能力提升的重要突破口之一,正成為大模型企業(yè)間競(jìng)爭(zhēng)的核心焦點(diǎn),同時(shí)也是國家間AI實(shí)力比拼的關(guān)鍵領(lǐng)域。推理能力解鎖了模型在復(fù)雜問題上的解決能力,也推動(dòng)AI技術(shù)在實(shí)際場(chǎng)景中的高效落地。

科大訊飛憑借過往在應(yīng)用領(lǐng)域的積累和全國產(chǎn)算力平臺(tái)支撐,已在數(shù)學(xué)、醫(yī)學(xué)等傳統(tǒng)優(yōu)勢(shì)領(lǐng)域發(fā)揮出推理模型的優(yōu)勢(shì),有望逐漸探索出一條深度推理模型的中國道路。