智東西(公眾號(hào):zhidxcom)
作者 | 程茜
編輯 | 李水青

智東西1月20日?qǐng)?bào)道,今日下午,階躍星辰開源多模態(tài)模型Step3-VL-10B。該模型參數(shù)量為10B,在視覺(jué)感知、邏輯推理、數(shù)學(xué)競(jìng)賽以及通用對(duì)話等一系列基準(zhǔn)測(cè)試中均達(dá)到同規(guī)模SOTA水平

階躍星辰的多項(xiàng)測(cè)評(píng)顯示,Step3-VL-10B的性能可以媲美甚至超越規(guī)模大10-20倍的開源模型,如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及閉源旗艦?zāi)P?,如Gemini 2.5 Pro、Seed-1.5-VL。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

這一輕量級(jí)模型的性能表現(xiàn),也意味著手機(jī)、電腦、工業(yè)嵌入式設(shè)備也可以運(yùn)行GUI操作、復(fù)雜文檔解析、高精度計(jì)數(shù)等復(fù)雜多模態(tài)推理任務(wù)。

從技術(shù)層面看,Step3-VL-10B的性能突破得益于三個(gè)關(guān)鍵設(shè)計(jì),分別是高質(zhì)量多模態(tài)語(yǔ)料庫(kù)上進(jìn)行統(tǒng)一預(yù)訓(xùn)練、縮放多模態(tài)強(qiáng)化學(xué)習(xí)并行協(xié)調(diào)推理機(jī)制。

目前,階躍星辰已開源Step3-VL-10B系列的Base模型和Thinking模型。

Hugging Face開源地址:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope開源地址:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

體驗(yàn)地址:https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

技術(shù)報(bào)告鏈接:https://arxiv.org/pdf/2601.09668

一、從GUI感知到視覺(jué)識(shí)別和推理,Step3-VL-10B思路清晰

階躍星辰在官方公眾號(hào)里放出了Step3-VL-10B在多模推理能力方面的真實(shí)案例。

首先是關(guān)于摩爾斯編碼的推理,可以看到模型的思考過(guò)程思路清晰,先拆解字母再逐個(gè)查表,最后拼接,流程正確,并且對(duì)大部分字母如S、T、E、F、U、N的定位和編碼描述準(zhǔn)確。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

其次是GUI感知能力,模型需要識(shí)別標(biāo)簽頁(yè)中以章節(jié)開頭.tex結(jié)尾的文件標(biāo)簽,可以看到其思考過(guò)程采用了識(shí)別標(biāo)簽、排除非目標(biāo)、統(tǒng)計(jì)數(shù)量的步驟進(jìn)行了準(zhǔn)確分析,并有效規(guī)避了干擾選項(xiàng)。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

第三個(gè)是關(guān)于圖推理的案例,模型需要在連線非常復(fù)雜的圖片中準(zhǔn)確識(shí)別中長(zhǎng)度最短的圖有幾條,從思考過(guò)程可以看到,其先確認(rèn)了最小權(quán)重的邊長(zhǎng)度是1,然后再統(tǒng)計(jì)所有權(quán)重為1的邊。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

二、拿下開源SOTA,數(shù)學(xué)競(jìng)賽測(cè)試題超94分

Step3-VL-10B具備三大核心亮點(diǎn):

視覺(jué)感知精度更高在同參數(shù)量級(jí)中展現(xiàn)出頂尖的識(shí)別與感知精度,研究人員為其引入PaCoRe(并行協(xié)調(diào)推理)機(jī)制,模型在復(fù)雜計(jì)數(shù)、高精度OCR及空間拓?fù)淅斫獾雀唠y度任務(wù)上的可靠性提升。

深層邏輯推演與長(zhǎng)程推理得益于規(guī)?;瘡?qiáng)化學(xué)習(xí)(RL)的持續(xù)迭代,Step3-VL-10B在10B規(guī)模上能應(yīng)對(duì)競(jìng)賽級(jí)數(shù)學(xué)難題、真實(shí)編程環(huán)境、視覺(jué)邏輯謎題。

端側(cè)Agent交互基于海量GUI(圖形用戶界面)專用預(yù)訓(xùn)練數(shù)據(jù),模型能夠精準(zhǔn)識(shí)別并操作復(fù)雜界面。

階躍星辰公開的多模態(tài)基準(zhǔn)測(cè)試結(jié)果顯示,Step3-VL-10B是10B參數(shù)類別中最強(qiáng)大的開源模型。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

具體來(lái)看,在多模態(tài)推理能力上,Step3-VL-10B在部分測(cè)試集上超越了GLM-4.6V、Qwen3-VL等模型,其性能優(yōu)于10倍至20倍大的模型。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

數(shù)學(xué)能力方面,該模型在AIME 25/24等數(shù)學(xué)競(jìng)賽測(cè)試題上得分超過(guò)94分,這意味著其在邏輯嚴(yán)密性上甚至優(yōu)于許多千億級(jí)模型。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

2D、3D空間推理能力上,模型在BLINK上表現(xiàn)出66.79%的涌現(xiàn)式空間意識(shí),在All-Angles-Bench上達(dá)到57.21%,意味著該模型在具身智能應(yīng)用方面具有強(qiáng)大的潛力。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

最后是編程能力,在真實(shí)、動(dòng)態(tài)編程環(huán)境下,Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無(wú)霸

此外,該模型的開源主頁(yè)顯示,研究人員在Qwen3VL-8B相關(guān)的基準(zhǔn)測(cè)試中出現(xiàn)了不準(zhǔn)確數(shù)據(jù),例如AIME、HMMT、LCB,目前正在修復(fù)。這些錯(cuò)誤是由于其在大規(guī)模評(píng)估過(guò)程中max_tokens設(shè)置錯(cuò)誤造成,他們將重新運(yùn)行測(cè)試,并在下一版技術(shù)報(bào)告中提供修正后的數(shù)據(jù)。

三、從感知到推理雙提升,三大關(guān)鍵設(shè)計(jì)加持

該模型的論文提到,Step3-VL-10B的性能突破得益于三個(gè)關(guān)鍵設(shè)計(jì):

一是在高質(zhì)量多模態(tài)語(yǔ)料庫(kù)上進(jìn)行統(tǒng)一預(yù)訓(xùn)練:研究人員采用單階段、完全解凍的訓(xùn)練策略,在1.2T token的多模態(tài)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,重點(diǎn)關(guān)注兩大基礎(chǔ)能力:推理和感知,例如通用知識(shí)和教育中心任務(wù)等推理能力,定位、計(jì)數(shù)、OCR和GUI交互等感知能力。

通過(guò)聯(lián)合優(yōu)化感知編碼器和Qwen3-8B解碼器,STEP3-VL-10B建立了內(nèi)在的視覺(jué)-語(yǔ)言協(xié)同效應(yīng)。

二是縮放多模態(tài)強(qiáng)化學(xué)習(xí):通過(guò)一個(gè)嚴(yán)格的后訓(xùn)練流程解鎖了前沿能力,該流程包括兩階段監(jiān)督微調(diào)(SFT)以及超過(guò)1400次的強(qiáng)化學(xué)習(xí)迭代,結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)和人類反饋(RLHF)。

三是并行協(xié)調(diào)推理機(jī)制:研究人員采用并行協(xié)調(diào)推理(PaCoRe),支持推理階段的動(dòng)態(tài)算力擴(kuò)展。通過(guò)并行探索多個(gè)感知假設(shè)并進(jìn)行多維證據(jù)聚合,該機(jī)制顯著提升了模型在競(jìng)賽級(jí)數(shù)學(xué)、復(fù)雜OCR識(shí)別、精準(zhǔn)物體計(jì)數(shù)及空間拓?fù)渫评碇械臏?zhǔn)確度。

階躍星辰的官方公眾號(hào)提到,得益于“三位一體”架構(gòu),Step3-VL-10B證明智能水平并不完全取決于參數(shù)規(guī)模。這也意味著:世界一流的多模態(tài)能力有望以更低成本、更少算力獲得;與此同時(shí),過(guò)去主要集中在云端超級(jí)智能將逐步向端側(cè)下沉,推動(dòng)終端走向“主動(dòng)理解與可執(zhí)行交互”。

結(jié)語(yǔ):Step3-VL-10B或成端側(cè)AI新選擇

從Step3-VL-10B的實(shí)測(cè)可以看出,該模型憑借10B輕量化參數(shù)體量,通過(guò)高質(zhì)量多模態(tài)語(yǔ)料統(tǒng)一預(yù)訓(xùn)練、千余次強(qiáng)化學(xué)習(xí)迭代及并行協(xié)調(diào)推理機(jī)制,實(shí)現(xiàn)了對(duì)超大規(guī)模模型的跨級(jí)性能追趕。

并且具體到GUI交互、精準(zhǔn)計(jì)數(shù)、競(jìng)賽級(jí)數(shù)學(xué)推理等任務(wù),該模型也展現(xiàn)出較大應(yīng)用潛力,未來(lái)有望降低在工業(yè)質(zhì)檢、本地文檔分析、基層醫(yī)療輔助等場(chǎng)景的部署門檻。