智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 云鵬

智東西1月30日報道,1月29日,商湯正式開源多模態(tài)自主推理模型SenseNova-MARS-8B和SenseNova-MARS-32B。該系列模型在多模態(tài)搜索與推理的核心基準測試中性能超越Gemini 3 Pro、GPT-5.2。

商湯指出,SenseNova-MARS是首個支持動態(tài)視覺推理和圖文搜索深度融合的Agentic?VLM模型。

該框架能夠在多輪推理過程中主動運用圖像搜索、文本搜索和圖像裁剪工具,如通過放大、裁剪圖片尋找細節(jié),然后調用文本、圖片搜索工具查詢背景信息,且這一過程無需人工干預。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準測試中,SenseNova-MARS取得開源模型中的SOTA成績。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

商湯日日新SenseNova-MARS模型、代碼、數據集全開源。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

GitHub地址:

https://github.com/OpenSenseNova/SenseNova-MARS

一、自動放大圖片看細節(jié),調用外部工具進行文字、圖片搜索

盡管視覺語言模型(VLM)能夠通過智能推理解決復雜任務,但其主要局限于面向文本的思維鏈或孤立的工具調用。尤其是在需要協(xié)調外部工具(例如搜索和圖像裁剪)的知識密集型和視覺復雜場景中,它們無法展現(xiàn)出人類所需的熟練程度,無法將動態(tài)工具操作與連續(xù)推理無縫銜接。

基于此,商湯研究團隊推出了SenseNova-MARS。SenseNova-MARS能在生活和工作的場景,解決需要“多步驟推理+多工具協(xié)作”的問題,如可以通過裁剪放大圖片的細節(jié)、進行圖像搜索、進行文本搜索。

下方模型需要完成識別賽車服微小Logo、查詢公司成立年份、匹配車手出生年月、計算差值的復雜任務,SenseNova-MARS可自主調用圖像裁剪、文本/圖像搜索工具,無需人工干預完成解答。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

其還能從產品和行業(yè)峰會的照片中,如根據下面的汽車圖片識別出汽車品牌的標志、確認車型,然后結合文本和圖像搜索給出答案。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

SenseNova-MARS能從賽事照片中識別畫面中的Logo、人物等信息,追溯比賽或人員背景信息,快速補充重要細節(jié)。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

該模型還能處理超長步驟的多模態(tài)推理,和超過三種工具調用,自動裁剪分析細節(jié)、搜索相關研究數據,快速驗證假設,得出關鍵判斷。例如根據下方圖片,其能快速抓取精準信息,包括公司成立年份、人物出生年月等。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

二、搜索能力超Gemini-3-Pro、GPT-5.2,跨任務調用工具強過Qwen3-VL-8B

為了全面評估智能視覺學習模型(VLM)在復雜視覺任務上的性能,研究團隊引入了HR-MMSearch基準測試。

作為評估VLM智能體細粒度感知和搜索推理能力的基準測試。該數據集包含305張4K分辨率的圖像,這些圖像來自8個不同的、具有高影響力的領域,涵蓋體育、休閑文化以及科學技術等。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

▲HR-MMSearch測試集的數據包含情況

實驗表明,SenseNova-MARS在開源搜索和細粒度圖像理解基準測試中均表現(xiàn)較優(yōu)。在面向搜索的基準測試中,SenseNova-MARS-32B在MMSearch和HR-MMSearch上的得分分別為74.3和54.4,超越了Gemini-3-Pro和GPT-5.2等專有模型。

在知識密集型MMSearch基準測試中,SenseNova-MARS主要依賴圖像和文本搜索工具來獲取外部信息,對基于裁剪的感知依賴性極低。相比之下,在既需要高分辨率感知,也需要復雜的推理的HR-MMSearch測試中,SenseNova-MARS展現(xiàn)出更為均衡的工具使用,表明其能夠有效地整合局部視覺線索和外部知識。

與Qwen3-VL-8B相比,SenseNova-MARS-8B通過動態(tài)地為每種任務場景選擇最有效的工具,展現(xiàn)出更強的跨任務適應性。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

▲SenseNova-MARS-8B的自適應工具使用行為

SenseNova-MARS-32B在六項基準測試中與其他模型的整體性能對比顯示,MMSearch、HR-MMSearch和FVQA等搜索導向型基準測試中,該模型超越了Gemini-3-Pro和GPT-5.2等專有模型。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

面向視覺理解,在V Bench和HR-Bench等高分辨率感知基準測試中,SenseNova-MARS-32B性能優(yōu)于Qwen3-VL-235B-A22B等模型。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

三、系統(tǒng)框架+強化學習,采用雙階段流水線并行訓練策略

SenseNova-MARS基于Qwen2.5-VL-7B-Instruct,采用兩階段流水線進行訓練,先進行系統(tǒng)框架訓練(SFT),再進行強化學習(RL)訓練。

第一階段,其針對跨模態(tài)搜索推理訓練數據稀缺的痛點,的提出了基于多模智能體的自動化數據合成引擎,采用細粒度視覺錨點與多跳深度關聯(lián)檢索的機制,動態(tài)挖掘并關聯(lián)跨網頁實體的邏輯,自動化構建高復雜度的多跳推理鏈路,同時引入閉環(huán)自洽性校驗來去除幻覺數據,構造出具備嚴密邏輯鏈條與高知識密度的多跳搜索問答數據。

其篩選的高難度案例中,每個案例都標注了“該用什么工具、步驟是什么”,讓AI先學會基本的解題邏輯,確保AI一開始就接觸真實復雜場景。

第二階段訓練采用強化學習,AI每做對一次決策,比如選對工具、步驟合理就會獲得獎勵,做錯了就調整策略。

此外,為了避免AI“學偏”,研究團隊還引入了BN-GSPO算法,讓模型在處理簡單題和復雜題時都能保持穩(wěn)定進步,不會出現(xiàn)“偏科”。

國產開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

這種基于雙階段歸一化的機制可以平滑動態(tài)工具調用返回分布多樣性帶來的優(yōu)化波動并確保學習信號分布的一致性,從而解決跨模態(tài)多步多工具智能體訓練過程中的收斂性難題。

經過這樣的訓練,AI不僅學會了用工具,還能知道在什么情況下應該使用哪些工具,以及如何將不同工具的結果有機結合起來。

結語:多模態(tài)AI能自主解題,或加速產業(yè)端AI應用

商湯提出了新型的多模態(tài)智能推理與搜索模型,該模型能夠在多輪推理過程中主動運用圖像搜索、文本搜索和圖像裁剪工具,提升了AI從被動響應指令到主動規(guī)劃步驟、調用工具解決復雜問題的能力。

聚焦到真實的業(yè)務場景,在工業(yè)質檢、金融風控、傳媒內容分析、賽事數據挖掘、科研輔助等領域,模型此前受限于看不清細節(jié)、不會查背景、無法處理復雜多步驟任務的落地痛點。SenseNova-MARS無需人工干預的閉環(huán)解題能力,或大幅提升產業(yè)端的AI應用效率。