智東西(公眾號(hào):zhidxcom
作者?| 程茜
編輯?|?漠影

智東西7月9日消息,今日,昆侖萬維重磅開源多模態(tài)推理模型Skywork-R1V 3.0,這是其迄今最強(qiáng)多模態(tài)推理模型,參數(shù)規(guī)模為38B,在多個(gè)多模態(tài)推理基準(zhǔn)測(cè)試中取得了開源最佳(SOTA)性能。

Skywork-R1V 3.0在不到15秒的時(shí)間里,深入分析了下面這道高考物理選擇題并給出正確答案。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

面對(duì)這道題,模型需要綜合調(diào)用物理基礎(chǔ)概念、多模態(tài)理解能力,最后的結(jié)果顯示,Skywork-R1V 3.0推理速度相比上一代提升6倍,解題思維鏈從4000 token降低至700 token。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

從基準(zhǔn)測(cè)試來看,Skywork-R1V 3.0在權(quán)威基準(zhǔn)測(cè)試MMMU中的表現(xiàn)已經(jīng)接近人類專家水平,并超過超過Claude-3.7-Sonnet 和GPT-4.5等閉源模型。

這一多模態(tài)推理模型的核心亮點(diǎn)可以用跨模態(tài)推理、跨學(xué)科泛化兩個(gè)關(guān)鍵詞概括,既能解數(shù)學(xué)、物理題,還能完成地理、歷史、人文領(lǐng)域任務(wù),同時(shí)完成從文本到視覺的推理。

其作為昆侖萬維多模態(tài)模型體系的關(guān)鍵節(jié)點(diǎn)與核心基石,正是昆侖萬維探索通用人工智能邁出的重要一步。

昆侖萬維已全面開源Skywork-R1V 3.0的所有資源。

Hugging Facehttps://huggingface.co/Skywork/Skywork-R1V3-38B

GitHub:https://github.com/SkyworkAI/Skywork-R1V

技術(shù)報(bào)告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

一、專業(yè)術(shù)語秒懂,還能結(jié)合圖表對(duì)應(yīng)分析,輔助診斷、看梗圖樣樣全能

作為多模態(tài)推理模型,Skywork-R1V 3.0不僅可以勝任數(shù)學(xué)、物理等傳統(tǒng)理工科推理任務(wù),還能應(yīng)對(duì)地理、歷史、人文、設(shè)計(jì)等跨學(xué)科任務(wù)。

話不多說,先來一睹Skywork-R1V 3.0在各項(xiàng)實(shí)操任務(wù)中的真實(shí)水平。

第一大難關(guān)是解物理、數(shù)學(xué)難題??梢钥吹较旅娴奈锢眍}目中,模型不僅需要對(duì)英文題目進(jìn)行分析,還要識(shí)別“unit ramp”等專業(yè)術(shù)語,并結(jié)合圖表上給出的信息進(jìn)行解答,綜合調(diào)用多項(xiàng)能力才能得出答案,值得一提的是,即使推理鏈路很長,模型也沒有丟失圖表中的關(guān)鍵信息。

題目:Consider applying a unit ramp voltage source to a series RL circuit as shown in <image 1>. Compute the voltages?$$v_R (t$$?with zero initial condition for L = 0.1H;

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0識(shí)別出了圖表中unit ramp代表線性上升的輸入電壓,調(diào)用物理公式等進(jìn)行推導(dǎo),并在得出結(jié)論后進(jìn)行了反向推理驗(yàn)證,確認(rèn)結(jié)果滿足電路平衡關(guān)系。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

第二大難關(guān)是跨學(xué)科能力,從醫(yī)學(xué)相關(guān)的實(shí)例證明,Skywork-R1V 3.0能根據(jù)患者的醫(yī)療影像提取關(guān)鍵信息,輔助診斷。

題目:這位64歲的男性有20年的肝硬化病史,圖像顯示的是增強(qiáng)后的動(dòng)脈期影像,最可能的診斷是?

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0綜合分析了20年肝硬化病史64歲男性患者的病史、動(dòng)脈影像特點(diǎn)以及肝細(xì)胞癌的表現(xiàn),在列出可能鑒別診斷的情況下,還針對(duì)影像特征進(jìn)行了具體解釋。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

多模態(tài)推理還有一大更為直觀的應(yīng)用場(chǎng)景,如逛博物館等,用戶想要了解某一件展品需要專業(yè)解說、在網(wǎng)上查閱大量資料。

題目:請(qǐng)仔細(xì)觀察下方圖上的音樂家俑,并結(jié)合歷史背景和視覺細(xì)節(jié),使用中文回答以下問題:

1)圖中這位女性音樂家在做什么?演奏的是什么樂器?

2)結(jié)合其服飾(如條紋長裙、高腰褶皺、雙髻發(fā)髻)、妝容(白粉面龐、細(xì)眉等)及跪坐姿態(tài),她可能屬于哪個(gè)朝代,來自什么社會(huì)階層或擔(dān)任何種職能?

3)請(qǐng)聯(lián)系“墓葬明器”的概念,分析為何墓主要將這些音樂家俑陪葬?

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0在看到下圖中“音樂家俑”后,就可以快速給出他們?cè)谧鍪裁?、術(shù)語說明朝代、來自什么社會(huì)階層、為什么要陪葬等信息。這些內(nèi)容需要模型細(xì)致分析圖片上的隱藏信息,并結(jié)合對(duì)特定歷史朝代、社會(huì)制度的深入了解,才能得出正確結(jié)論。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

第三大難關(guān)是真實(shí)世界中的復(fù)雜推理難題。用戶日常生活面對(duì)的場(chǎng)景往往都包含多元化的復(fù)雜信息,如對(duì)各地地理特征、人文等需要極度熟悉的“地理定位挑戰(zhàn)”,Skywork-R1V 3.0可以憑借下方圖片的信息,準(zhǔn)確給出其所處位置。

你正在參加一個(gè)地理定位挑戰(zhàn)。根據(jù)提供的圖像:

仔細(xì)分析圖像中的線索(包括建筑風(fēng)格、標(biāo)識(shí)牌、植被、地形等);按照步驟思考這個(gè)地點(diǎn)最可能位于哪個(gè)大洲、國家以及城市,并說明原因;根據(jù)你的分析估計(jì)大致的緯度和經(jīng)度。

請(qǐng)務(wù)必認(rèn)真推理并給出證據(jù), 你的最終答案中必須包含以下五行信息: continent: [大洲名稱], country: [國家名稱], city: [城市名稱], lat: [小數(shù)形式的緯度], lng: [小數(shù)形式的經(jīng)度]

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

從模型的分析過程可以看出,Skywork-R1V 3.0識(shí)別了圖片中商鋪的文字、建筑風(fēng)格、地形、人流密度等,綜合調(diào)用了語言理解、空間記憶和知識(shí)推理多個(gè)能力模塊,最終鎖定目標(biāo)。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

最后,Skywork-R1V 3.0還能理解網(wǎng)絡(luò)上的熱梗,結(jié)合圖片內(nèi)容分析梗圖中詞語的雙關(guān)含義給出解釋。

題目:解釋這個(gè)meme
昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維Skywork-R1V研發(fā)團(tuán)隊(duì)提到,Skywork-R1V 3.0在跨模態(tài)、跨學(xué)科方面的能力,使其在醫(yī)療、教育領(lǐng)域都展現(xiàn)出更為廣泛的應(yīng)用潛力。如醫(yī)療領(lǐng)域,其能綜合醫(yī)學(xué)影像、病歷文本、病人對(duì)話進(jìn)行更準(zhǔn)確的診斷建議,教育領(lǐng)域的個(gè)性化學(xué)習(xí)和智能輔導(dǎo)等。

二、多項(xiàng)評(píng)測(cè)表現(xiàn)超Claude、GPT,加速實(shí)現(xiàn)大模型學(xué)習(xí)最終目標(biāo)

從基準(zhǔn)測(cè)試結(jié)果來看,Skywork-R1V 3.0的表現(xiàn)也毫不遜色,已經(jīng)在多個(gè)維度超過同類開源模型和主流閉源模型。

在2025年高考數(shù)學(xué)新一卷上,Skywork-R1V 3.0取得了142分的成績,接近Gemini 2.5 Pro等多款閉源模型,成績?nèi)缦拢?/section>

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

多學(xué)科基準(zhǔn)測(cè)試中,Skywork-R1V 3.0表現(xiàn)逼近人類專家水平。

大規(guī)模多學(xué)科多模態(tài)理解和推理基準(zhǔn)測(cè)試MMMU中,Skywork-R1V 3.0的基準(zhǔn)測(cè)試成績?yōu)?6.0分,人類專家平均分?jǐn)?shù)為76.2分,其表現(xiàn)超過Claude-3.7-Sonnet 和GPT-4.5等閉源模型。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

視覺推理相關(guān)的EMMA-Mini(CoT)、中小學(xué)知識(shí)點(diǎn)測(cè)評(píng)集MMK12中,該模型表現(xiàn)均超過規(guī)模參數(shù)更大的Qwen2.5-VL-72B-Instruct、InternVL3-78B等開源模型。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

尤其在物理和邏輯推理領(lǐng)域,Skywork-R1V 3.0相比于上一代模型性能顯著提升。多模態(tài)大模型物理推理能力測(cè)試PhyX、數(shù)學(xué)能力數(shù)據(jù)集MMK12中,其均超過Claude 3.7 Sonnet、GPT-4.5、Gemini 2 Flash等主流閉源模型,Qwen 2.5等開源模型。

在理解物理基礎(chǔ)概念和圖文結(jié)合的復(fù)雜物理問題方面,該模型在多模態(tài)大模型物理推理能力測(cè)試集PhyX-MC-Text-Minimal和SeePhys,表現(xiàn)超谷歌、OpenAI旗下模型。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

邏輯推理能力上,其多模態(tài)邏輯一致性、條件推理和跨模態(tài)因果建模方面優(yōu)勢(shì)顯著。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

綜合來看,Skywork-R1V 3.0已經(jīng)基于文本推理遷移融合視覺推理,實(shí)現(xiàn)跨模態(tài)推理、跨學(xué)科泛化,而這正是昆侖萬維加速實(shí)現(xiàn)大模型表征學(xué)習(xí)最終目標(biāo)的關(guān)鍵一步。

當(dāng)下關(guān)于AI表征有一大討論,人類觀測(cè)到的圖像、文本等多模態(tài)數(shù)據(jù)是同一客觀真實(shí)Z的不同投射,而大模型表征學(xué)習(xí)目標(biāo),就是逼近對(duì)“Z”的統(tǒng)一、深層理解。昆侖萬維Skywork-R1V研發(fā)團(tuán)隊(duì)通過一個(gè)簡單的例子進(jìn)行了說明,以我們看到“蘋果”為例,其包含顏色、形狀視覺投影,光滑度、重量等觸覺投影,甜、酸等味覺投影,綜合所有模態(tài)數(shù)據(jù),才能幫助用戶理解“蘋果”的整體概念,而不是僅停留在單一的“視覺”或“味覺”認(rèn)知上。

在此基礎(chǔ)上,模型對(duì)于多模態(tài)信息的深入理解、推理就至關(guān)重要,其對(duì)于模型完整理解客觀世界的關(guān)鍵作用也不言而喻。

三、冷啟動(dòng)+GRPO強(qiáng)化學(xué)習(xí),低成本、高效率激發(fā)推理潛能

與此同時(shí),突破模型在單一維度的局限性,構(gòu)建更全面、更貼近人類認(rèn)知推理過程的多模態(tài)推理模型,也對(duì)昆侖萬維的研究團(tuán)隊(duì)提出了更大挑戰(zhàn)。

昆侖萬維Skywork-R1V研發(fā)團(tuán)隊(duì)提到,Skywork-R1V 3.0在跨模態(tài)推理、跨學(xué)科泛化能力提升的背后有兩大關(guān)鍵,一是其跨模態(tài)融合機(jī)制更加精巧、有效,二是依靠強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)了泛化推理能力媲美甚至超越部分閉源巨型模型。

具體來看,昆侖萬維研發(fā)團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)GRPO策略、關(guān)鍵熵驅(qū)動(dòng)的模型判別機(jī)制、連接器微調(diào)與多學(xué)科知識(shí)矯正的綜合作用下,實(shí)現(xiàn)了模型推理性能、推理效率的雙重提升。

Skywork-R1V 3.0基于其上一代模型Skywork-R1V 2.0蒸餾數(shù)據(jù)進(jìn)行“冷啟動(dòng)”,隨后引入強(qiáng)化學(xué)習(xí)算法GRPO深度激發(fā)模型的推理潛能,實(shí)現(xiàn)推理能力在圖像和文本模態(tài)之間的遷移,提升其跨模態(tài)、多學(xué)科場(chǎng)景下的理解與分析表現(xiàn)。最后,其通過約1.2萬條監(jiān)督微調(diào)樣本和1.3萬條強(qiáng)化學(xué)習(xí)樣本就進(jìn)行了訓(xùn)練。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

為了增強(qiáng)模型推理能力的泛化性,研究人員采用了關(guān)鍵熵驅(qū)動(dòng)的模型判別機(jī)制,通過監(jiān)測(cè)模型在進(jìn)入推理關(guān)鍵節(jié)點(diǎn)(例如“Wait…”、“Alternatively…”)時(shí)輸出熵的變化。

這背后的考量在于,研究人員發(fā)現(xiàn)具備推理能力的模型會(huì)在這些位置輸出更高不確定性,僅模仿推理語氣的模型則輸出低熵、確定性內(nèi)容,基于此其提出確定性檢查點(diǎn),篩選出了具備推理能力的權(quán)重版本。

Skywork-R1V 3.0的能力層層深入,其通過基于1萬條高質(zhì)量、多學(xué)科、多模態(tài)樣本對(duì)連接器定向再訓(xùn)練,優(yōu)化不同領(lǐng)域知識(shí)的融合,具備了跨學(xué)科推理能力。

與此同時(shí),昆侖萬維還針對(duì)跨模態(tài)連接器進(jìn)行專門精細(xì)微調(diào),使視覺模態(tài)提供的細(xì)節(jié)信息能夠在整個(gè)推理鏈條中持續(xù)保持清晰且穩(wěn)定的貢獻(xiàn),保證保持了Skywork-R1V 3.0在深度推理場(chǎng)景下視覺感知的準(zhǔn)確性和穩(wěn)定性,以應(yīng)對(duì)多模態(tài)模型推理鏈條過長時(shí),視覺信息被淡化出現(xiàn)幻覺的風(fēng)險(xiǎn)。

不同于從頭大規(guī)模預(yù)訓(xùn)練增強(qiáng)多模態(tài)推理能力的技術(shù)路線,昆侖萬維將重點(diǎn)放到了模型的后訓(xùn)練階段,其通過精巧的強(qiáng)化學(xué)習(xí)策略以低成本激發(fā)模型本身潛在的推理能力,實(shí)現(xiàn)性能飛躍。研發(fā)團(tuán)隊(duì)提到,后訓(xùn)練階段的強(qiáng)化學(xué)習(xí)可以針對(duì)性地激活和深化大規(guī)模預(yù)訓(xùn)練的潛在能力,同時(shí)這種小規(guī)模、高質(zhì)量數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)更經(jīng)濟(jì)高效,可更適合快速迭代并精準(zhǔn)地調(diào)控模型能力。

Skywork-R1V 3.0正是昆侖萬維在探索AGI過程中,提出的一條更低成本、更高效率地激發(fā)多模態(tài)模型推理潛能的有效路徑。

結(jié)語:以推理能力為主線,挖掘多模態(tài)模型應(yīng)用潛力

多模態(tài)推理模型的應(yīng)用潛力顯現(xiàn),其可以同時(shí)接收文本、圖像、音頻等多種模態(tài)輸入,并將其轉(zhuǎn)化為統(tǒng)一的語義表示,能挖掘不同模態(tài)數(shù)據(jù)間的潛在聯(lián)系,結(jié)合多源信息進(jìn)行動(dòng)態(tài)決策等,都使其成為當(dāng)下AI行業(yè)探索通用人工智能的一個(gè)關(guān)鍵里程碑。

率先看到這一技術(shù)發(fā)展趨勢(shì)的昆侖萬維,自2025年起就已經(jīng)陸續(xù)開源涵蓋推理、獎(jiǎng)勵(lì)模型、SWE、空間智能、視頻生成等多個(gè)SOTA模型,到最新的R1V 3.0,如今其圍繞著多模態(tài)模型推理的技術(shù)體系已經(jīng)成型,其技術(shù)探索正通過開源開放的策略進(jìn)一步加速AI理解復(fù)雜人類意圖、實(shí)現(xiàn)應(yīng)用的規(guī)模化落地。

昆侖萬維開源最強(qiáng)多模態(tài)推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

關(guān)于更多昆侖萬維開源模型,可查看其HuggingFace主頁:
https://huggingface.co/Skywork