智東西(公眾號(hào):zhidxcom)
作者 | 江宇
編輯 | 漠影

智東西11月11日?qǐng)?bào)道,昨晚,商湯正式發(fā)布并開(kāi)源SenseNova-SI系列空間智能大模型,涵蓋2B與8B兩個(gè)版本。

該系列模型在多個(gè)空間智能基準(zhǔn)測(cè)試中均表現(xiàn)突出,其中SenseNova-SI-8B模型在VSI-Bench、MMSI-Bench、MindCube-Tiny與ViewSpatial四個(gè)核心任務(wù)上獲得60.99的平均成績(jī),不僅大幅領(lǐng)先Qwen3-VL-8B(40.16)、BAGEL-7B(35.01)等同級(jí)別開(kāi)源通用模型,以及SpatialMLLM(35.05)、ViLaSR-7B(36.41)等專(zhuān)注空間理解的模型。

值得注意的是,在保持8B參數(shù)規(guī)模的前提下,該模型的均成績(jī)已領(lǐng)先GPT-5(49.68)與Gemini-2.5-Pro(48.81)

開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

▲SenseNova-SI系列模型在多個(gè)空間智能基準(zhǔn)測(cè)試(VSI、MMSI、MindCube、ViewSpatial)中的評(píng)測(cè)成績(jī)

此次性能躍升,得益于商湯在訓(xùn)練機(jī)制上的系統(tǒng)性設(shè)計(jì),其研究團(tuán)隊(duì)構(gòu)建了“空間能力分類(lèi)體系”,并擴(kuò)充空間理解數(shù)據(jù)規(guī)模,首次在該領(lǐng)域驗(yàn)證了“尺度效應(yīng)”的存在。

這一技術(shù)突破也回應(yīng)了當(dāng)前多模態(tài)大模型面臨的核心挑戰(zhàn)之一空間智能短板仍未補(bǔ)齊。盡管當(dāng)前大模型在語(yǔ)言、代碼、邏輯推理等任務(wù)上已展現(xiàn)出較強(qiáng)性能,但在需要空間理解能力的場(chǎng)景中,仍容易“栽跟頭”。

例如,GPT-5可以正確解出復(fù)雜圖形邏輯題,但面對(duì)判斷立方體俯視圖這類(lèi)空間題時(shí),卻出現(xiàn)了明顯錯(cuò)誤。這類(lèi)題對(duì)人類(lèi)兒童來(lái)說(shuō)往往是直覺(jué)判斷,卻仍難住了頂級(jí)模型。

開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

SenseNova-SI的構(gòu)建與訓(xùn)練聚焦空間理解,其開(kāi)源也為大模型在空間智能方向上的能力優(yōu)化,提供了新的樣本。

GitHub:https://github.com/OpenSenseNova/SenseNova-SI

Hugging?Face:https://huggingface.co/collections/sensenova/sensenova-si

一、空間智能也有“Scaling Law”?商湯團(tuán)隊(duì)首次驗(yàn)證

SenseNova-SI的性能提升并非單點(diǎn)優(yōu)化,而是建立在系統(tǒng)訓(xùn)練范式上的整體進(jìn)化。商湯基于自研的空間能力分類(lèi)體系,將空間智能劃分為六大核心維度空間測(cè)量、空間重構(gòu)、空間關(guān)系、視角轉(zhuǎn)換、空間形變與空間推理。

在訓(xùn)練數(shù)據(jù)層面,商湯團(tuán)隊(duì)整合多模態(tài)感知、視覺(jué)模型等方向的積累,系統(tǒng)擴(kuò)展空間理解數(shù)據(jù)規(guī)模,并首次在空間智能領(lǐng)域驗(yàn)證了“尺度效應(yīng)”——即隨著數(shù)據(jù)量與質(zhì)量的持續(xù)增長(zhǎng),模型的空間認(rèn)知能力將同步增強(qiáng)。

這一方法具備通用性,能支持多種基座模型(如InternVL)進(jìn)行空間能力的增強(qiáng)遷移。商湯團(tuán)隊(duì)稱(chēng),后續(xù)將發(fā)布完整的技術(shù)報(bào)告,進(jìn)一步闡述具體的技術(shù)方案。

二、面對(duì)空間題,GPT-5“犯難”,SenseNova-SI表現(xiàn)更穩(wěn)定

在SITE-Bench和MindCube兩大空間智能基準(zhǔn)測(cè)試中,商湯研究團(tuán)隊(duì)選取了六道典型題目,涉及俯視圖判斷、視角轉(zhuǎn)換、物體方位與移動(dòng)方向推理等任務(wù),分別對(duì)GPT-5與SenseNova-SI-8B進(jìn)行了測(cè)試。

從結(jié)果來(lái)看,GPT-5在多項(xiàng)題目中出現(xiàn)了誤判,而SenseNova-SI-8B則連續(xù)給出正確答案,呈現(xiàn)出更穩(wěn)定的空間理解能力:

1、俯視圖選擇題:在立方體組合圖形中,要求選擇正確俯視圖。GPT-5選擇了錯(cuò)誤的D選項(xiàng),SenseNova-SI-8B選擇了正確的B選項(xiàng)。

開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

2、相對(duì)方位判斷題:模擬從相機(jī)操作者視角判斷摩托車(chē)在左側(cè)還是右側(cè)。GPT-5誤判為左側(cè)(A),SenseNova-SI-8B正確判斷為右側(cè)(B)。

開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

3、交通行為預(yù)測(cè)題:在多車(chē)道道路場(chǎng)景中預(yù)測(cè)黃色汽車(chē)的后續(xù)動(dòng)作。GPT-5判斷為靜止(C),SenseNova-SI-8B判斷為右轉(zhuǎn)(D),正確答案為D。?開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

4、視角變換下的方向判斷題(戶外):通過(guò)兩張場(chǎng)景圖判斷觀察者的移動(dòng)方向。GPT-5選擇了C,SenseNova-SI-8B選擇了正確答案D,即向左前方移動(dòng)。

開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

5、視角變換下的方向判斷題(室內(nèi)):在白板、椅子、沙發(fā)等室內(nèi)場(chǎng)景中,判斷物體位置變化所代表的觀察者移動(dòng)方向。GPT-5選擇D,SenseNova-SI-8B選中正確答案A(向左前方移動(dòng))。

開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

6、物體相對(duì)位置識(shí)別題:要求從正面視角圖中判斷桌子右側(cè)的物體。GPT-5選B,SenseNova-SI-8B選C,正確答案為C,即門(mén)的位置。

開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

這組題覆蓋了空間智能的多個(gè)關(guān)鍵維度,從結(jié)果來(lái)看,SenseNova-SI在空間理解與推理上的表現(xiàn)更具穩(wěn)定性。

三、空間智能走向落地,SenseNova-SI接入“悟能”平臺(tái)

SenseNova-SI的推出,也是商湯整體空間智能戰(zhàn)略的一部分。

今年7月,商湯發(fā)布“悟能”具身智能平臺(tái),提出以“開(kāi)悟”世界模型為核心,推動(dòng)機(jī)器人在物理世界中的自主理解與適應(yīng)能力。SenseNova-SI作為空間能力組件,將補(bǔ)強(qiáng)模型在三維結(jié)構(gòu)認(rèn)知方面的基礎(chǔ)能力。

與此同時(shí),商湯還同步開(kāi)源了空間智能測(cè)評(píng)平臺(tái)EASI及其“英雄榜”,為統(tǒng)一測(cè)評(píng)口徑、展示模型進(jìn)展和推動(dòng)開(kāi)源生態(tài)合作。

開(kāi)源又贏閉源!商湯8B模型空間智能碾壓GPT-5,AI看懂世界又進(jìn)了一步

結(jié)語(yǔ):讓AI真正“看懂”物理世界

當(dāng)前AI在語(yǔ)言、知識(shí)與邏輯推理方面已有扎實(shí)積累,但三維空間的理解、感知與推理能力仍是其通向物理世界的重要挑戰(zhàn)。

空間智能作為支撐具身智能與世界模型發(fā)展的核心能力,正成為衡量下一階段AI模型“真實(shí)世界理解力”的一大指標(biāo)。相關(guān)能力的持續(xù)構(gòu)建,將為自動(dòng)駕駛、機(jī)器人等落地應(yīng)用提供更堅(jiān)實(shí)的基礎(chǔ)。