智東西(公眾號(hào):zhidxcom)
作者 |? 陳駿達(dá) 江宇
編輯 |? 云鵬

智東西8月11日?qǐng)?bào)道,今晚,智譜開(kāi)源了其最新一代視覺(jué)理解模型GLM-4.5V。這一模型基于智譜新一代文本基座模型GLM-4.5-Air訓(xùn)練而來(lái),延續(xù)上一代視覺(jué)推理模型GLM-4.1V-Thinking的技術(shù)路線,擁有1060億參數(shù),120億激活參數(shù)。GLM-4.5V還新增了思考模式的開(kāi)關(guān)功能,用戶可自主控制模型是否進(jìn)行思考。

這一模型的視覺(jué)能力解鎖了一些有趣的玩法。例如,模型現(xiàn)在可以看懂麥當(dāng)勞和肯德基炸雞翅的區(qū)別了,還從炸雞的色澤、外皮質(zhì)感等角度,進(jìn)行了全面分析。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

GLM-4.5V還可以看圖猜地點(diǎn),智譜稱,GLM-4.5V和人類玩家一起參與了拍圖猜地點(diǎn)積分賽,加入比賽7天后,GLM-4.5V的積分直接排到了賽事網(wǎng)站的第66名,超越了99%的人類用戶。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

智東西還讓這一模型根據(jù)網(wǎng)頁(yè)截圖,打造了小紅書的同款網(wǎng)頁(yè),實(shí)現(xiàn)了十之八九的相似度。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

智譜分享了GLM-4.5V在42個(gè)基準(zhǔn)測(cè)試中的成績(jī),這些測(cè)試覆蓋圖像、視頻、文檔理解以及圖形界面智能體操作等常見(jiàn)任務(wù)。GLM-4.5V在其中41個(gè)測(cè)試中,得分超過(guò)同尺寸模型,如Step-3、Qwen2.5-VL等。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

目前,這一模型已經(jīng)在開(kāi)源平臺(tái)Hugging Face、魔搭、GitHub發(fā)布,并且額外提供了FP8量化版本。智譜還為其打造了一個(gè)體驗(yàn)App,不過(guò)目前僅有Mac端可用(且必須為非Intel芯片)。

用戶還可在z.ai選擇GLM-4.5V模型,上傳圖片或視頻進(jìn)行體驗(yàn),或在智譜清言APP/網(wǎng)頁(yè)版,上傳圖片,開(kāi)啟“推理模式”進(jìn)行體驗(yàn)。

為幫助開(kāi)發(fā)者體驗(yàn)GLM-4.5V的模型能力,智譜同步開(kāi)源了一款桌面助手應(yīng)用。該桌面應(yīng)用可實(shí)時(shí)截屏、錄屏獲取屏幕信息,并依托GLM-4.5V處理多種視覺(jué)推理任務(wù),日常處理如代碼輔助、視頻內(nèi)容分析、游戲解答、文檔解讀等多類視覺(jué)任務(wù)。

GLM-4.5V API現(xiàn)已上線智譜開(kāi)放平臺(tái)BigModel.cn,并提供了2000萬(wàn) tokens的免費(fèi)資源包。其API最低價(jià)為每百萬(wàn)輸入tokens/2元、每百萬(wàn)輸出tokens/6元,支持圖像、視頻、文件和文本輸入。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

模型上線后,智東西第一時(shí)間對(duì)其能力進(jìn)行了體驗(yàn),并梳理了這款模型背后的部分技術(shù)創(chuàng)新。

模型開(kāi)源地址:

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

桌面助手開(kāi)源地址:

https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

一、實(shí)測(cè)看圖報(bào)坐標(biāo)略有翻車,網(wǎng)頁(yè)復(fù)現(xiàn)相似度較高

智東西在搭載GLM-4.5V的桌面助手應(yīng)用中體驗(yàn)了模型的部分功能。這一應(yīng)用中提供了思考開(kāi)關(guān)等設(shè)置,用戶還可自定義提示詞、模型設(shè)置等,提供了較大的自由度。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

要使用模型,用戶需要提供GLM-4.5V的API密鑰,可在智譜的開(kāi)放平臺(tái)獲得。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

測(cè)試中,智東西首先使用了官方提供的一張照片,模型能夠準(zhǔn)確猜出地點(diǎn),并按照要求精確到經(jīng)緯度。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

隨后,我們上傳了自己的測(cè)試圖,選用了一張“靈隱寺一角”的照片,這張圖難度不小——畫面中雖有黃色墻體、深色屋頂?shù)墓沤ㄖ?、高大?shù)木與游客,但沒(méi)有明顯的地標(biāo)性信息。右下角的路燈上雖印有“靈隱寺”字樣,但因使用的并非簡(jiǎn)體字,未被系統(tǒng)識(shí)別出來(lái)。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

系統(tǒng)在分析中誤將路燈上的“靈隱寺”識(shí)別為“寶原青”,并將圖片上的“感恩”識(shí)別成“威勝”,同時(shí)捕捉到另一處“包容”字樣。結(jié)合這些文字與環(huán)境特征,系統(tǒng)最終將結(jié)果推斷為四川都江堰的青城山。雖然未能準(zhǔn)確匹配真實(shí)地點(diǎn),但推理過(guò)程細(xì)節(jié)豐富,結(jié)果具備一定參考價(jià)值。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

這一模型具備一定的GUI(圖形用戶界面)能力,這對(duì)理解、操作網(wǎng)頁(yè)或App等Agent場(chǎng)景至關(guān)重要。官方Demo中,GLM-4.5V可以幫助用戶在眼花繚亂的購(gòu)物網(wǎng)站截圖中,計(jì)算出折扣信息,還對(duì)生成結(jié)果進(jìn)行反思和確認(rèn)。智譜的思考與執(zhí)行智能體AutoGLM最新版,就將使用GLM-4.5V。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

生產(chǎn)力方面,GLM-4.5V現(xiàn)在可以根據(jù)網(wǎng)頁(yè)錄屏、截圖等復(fù)現(xiàn)前端代碼,分析畫面中內(nèi)容、樣式、布局等元素,推測(cè)背后的代碼,然后對(duì)交互邏輯進(jìn)行建模與實(shí)現(xiàn)。

智東西體驗(yàn)了App端提供的“網(wǎng)頁(yè)錄屏/截圖,復(fù)現(xiàn)特定功能”能力。用戶可在頁(yè)面上直接點(diǎn)擊截屏或局部錄屏按鈕,將錄制的視頻上傳至系統(tǒng),由系統(tǒng)進(jìn)行壓縮處理后,推理分析生成對(duì)應(yīng)的HTML代碼,渲染可交互的前端。

在實(shí)際測(cè)試中,因訪問(wèn)量可能過(guò)大,系統(tǒng)在近50分鐘內(nèi)未返回結(jié)果。隨后,我們將相同任務(wù)提交至智譜官方平臺(tái),并以截圖形式交給GLM-4.5V,不到10分鐘便生成了網(wǎng)頁(yè)復(fù)刻版本。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

▲智東西實(shí)測(cè)結(jié)果(結(jié)果鏈接:https://chat.z.ai/space/f00sx6s4jgp1-art)

生成的頁(yè)面在信息呈現(xiàn)上比小紅書網(wǎng)頁(yè)端更豐富——除點(diǎn)贊數(shù)外,還額外顯示評(píng)論數(shù)據(jù),并增加了下方功能欄和右上角的通知按鈕。

但在瀑布流對(duì)齊效果上未能還原,缺少小紅書“精髓”的布局感。此外,該版本并未實(shí)現(xiàn)交互功能,可能是截圖內(nèi)容無(wú)法體現(xiàn)動(dòng)態(tài)操作所致,上傳視頻或許可以改善。

智譜官方Demo展示的案例中,工作人員上傳了一小段知乎網(wǎng)頁(yè)版的操作錄像,最終GLM-4.5V交付了一個(gè)相對(duì)完整的網(wǎng)頁(yè),點(diǎn)擊、跳轉(zhuǎn)、輸入等功能都正常運(yùn)行。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

如果對(duì)網(wǎng)頁(yè)局部位置不滿意,又不知道該如何在代碼中定位問(wèn)題,用戶可以直接在網(wǎng)頁(yè)截圖中圈出不滿意的位置,模型能直接對(duì)背后代碼進(jìn)行修改。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

在PPT、PDF場(chǎng)景,GLM-4.5V可閱讀含有大量圖表的復(fù)雜長(zhǎng)文本,能夠?qū)ξ谋具M(jìn)行總結(jié)、翻譯、圖表提取等操作。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

模型并不是通過(guò)OCR實(shí)現(xiàn)圖像信息提取的,而是直接用視覺(jué)方式讀取圖片,能在一定程度上避免了信息提取過(guò)程中的錯(cuò)誤傳遞,對(duì)于圖表、表格等視覺(jué)化、結(jié)構(gòu)化信息的保留和解讀準(zhǔn)確性得到提升。

博客介紹,GLM-4.5V在視覺(jué)定位這種傳統(tǒng)CV領(lǐng)域表現(xiàn)不錯(cuò),可以根據(jù)用戶提問(wèn),精準(zhǔn)識(shí)別、分析、定位目標(biāo)物體并輸出其坐標(biāo)框。

這一能力可運(yùn)用于安全與質(zhì)量檢查、高空遙感監(jiān)測(cè)分析。相較于傳統(tǒng)的基于視覺(jué)模型的物體識(shí)別,GLM-4.5V 憑借更豐富的世界知識(shí)與更強(qiáng)大的語(yǔ)義理解能力,能夠通過(guò)推理理解更復(fù)雜的定位指令。

二、支持64K多模態(tài)上下文,STEM、多模態(tài)定位、Agent獲針對(duì)性提升

GLM-4.5V由視覺(jué)編碼器、MLP適配器和語(yǔ)言解碼器三部分組成,支持64K多模態(tài)長(zhǎng)上下文,支持圖像與視頻輸入,并通過(guò)三維卷積提升視頻處理效率。

剛剛,智譜開(kāi)源千億參數(shù)視覺(jué)大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

模型采用雙三次插值機(jī)制,有效增強(qiáng)了模型對(duì)高分辨率及極端寬高比圖像的處理能力與穩(wěn)健性;同時(shí),引入三維旋轉(zhuǎn)位置編碼(3D-RoPE),顯著強(qiáng)化了模型對(duì)多模態(tài)信息的三維空間關(guān)系的感知與推理能力。

GLM-4.5V 采用三階段策略:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。

其中,在預(yù)訓(xùn)練階段,智譜結(jié)合大規(guī)模圖文交錯(cuò)多模態(tài)語(yǔ)料和長(zhǎng)上下文內(nèi)容,強(qiáng)化了模型對(duì)復(fù)雜圖文及視頻的處理能力。

在SFT階段,智譜引入了顯式“思維鏈”格式訓(xùn)練樣本,增強(qiáng)了GLM-4.5V的因果推理與多模態(tài)理解能力。

最后,RL階段,模型經(jīng)歷了全領(lǐng)域多模態(tài)課程強(qiáng)化學(xué)習(xí),通過(guò)構(gòu)建多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng)(Reward System),結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)與基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),優(yōu)化了其在STEM問(wèn)題、多模態(tài)定位、Agent任務(wù)等方面的能力。

結(jié)語(yǔ):視覺(jué)理解已成Agent關(guān)鍵能力

視覺(jué)理解一直被認(rèn)為是Agent與電腦、現(xiàn)實(shí)世界等交互的重要能力之一,在純文本模態(tài)之外,Agent還需要理解圖像、視頻等信息,才能補(bǔ)齊它與人類認(rèn)知方式之間的差距。

智譜本次開(kāi)源的GLM-4.5V擁有一定視覺(jué)理解能力,并在GUI等場(chǎng)景展現(xiàn)出了應(yīng)用價(jià)值,其后續(xù)與Agent應(yīng)用的結(jié)合,值得期待。