91精品在线播放蜜桃,亚洲中文字幕伦理在线

智東西（公眾號(hào)：zhidxcom）
作者 |? 陳駿達(dá) 江宇
編輯 |? 云鵬

智東西8月11日?qǐng)?bào)道，今晚，智譜開(kāi)源了其最新一代視覺(jué)理解模型GLM-4.5V。這一模型基于智譜新一代文本基座模型GLM-4.5-Air訓(xùn)練而來(lái)，延續(xù)上一代視覺(jué)推理模型GLM-4.1V-Thinking的技術(shù)路線，擁有1060億參數(shù)，120億激活參數(shù)。GLM-4.5V還新增了思考模式的開(kāi)關(guān)功能，用戶可自主控制模型是否進(jìn)行思考。

這一模型的視覺(jué)能力解鎖了一些有趣的玩法。例如，模型現(xiàn)在可以看懂麥當(dāng)勞和肯德基炸雞翅的區(qū)別了，還從炸雞的色澤、外皮質(zhì)感等角度，進(jìn)行了全面分析。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

GLM-4.5V還可以看圖猜地點(diǎn)，智譜稱，GLM-4.5V和人類玩家一起參與了拍圖猜地點(diǎn)積分賽，加入比賽7天后，GLM-4.5V的積分直接排到了賽事網(wǎng)站的第66名，超越了99%的人類用戶。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

智東西還讓這一模型根據(jù)網(wǎng)頁(yè)截圖，打造了小紅書的同款網(wǎng)頁(yè)，實(shí)現(xiàn)了十之八九的相似度。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

智譜分享了GLM-4.5V在42個(gè)基準(zhǔn)測(cè)試中的成績(jī)，這些測(cè)試覆蓋圖像、視頻、文檔理解以及圖形界面智能體操作等常見(jiàn)任務(wù)。GLM-4.5V在其中41個(gè)測(cè)試中，得分超過(guò)同尺寸模型，如Step-3、Qwen2.5-VL等。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

目前，這一模型已經(jīng)在開(kāi)源平臺(tái)Hugging Face、魔搭、GitHub發(fā)布，并且額外提供了FP8量化版本。智譜還為其打造了一個(gè)體驗(yàn)App，不過(guò)目前僅有Mac端可用（且必須為非Intel芯片）。

用戶還可在z.ai選擇GLM-4.5V模型，上傳圖片或視頻進(jìn)行體驗(yàn)，或在智譜清言APP/網(wǎng)頁(yè)版，上傳圖片，開(kāi)啟“推理模式”進(jìn)行體驗(yàn)。

為幫助開(kāi)發(fā)者體驗(yàn)GLM-4.5V的模型能力，智譜同步開(kāi)源了一款桌面助手應(yīng)用。該桌面應(yīng)用可實(shí)時(shí)截屏、錄屏獲取屏幕信息，并依托GLM-4.5V處理多種視覺(jué)推理任務(wù)，日常處理如代碼輔助、視頻內(nèi)容分析、游戲解答、文檔解讀等多類視覺(jué)任務(wù)。

GLM-4.5V API現(xiàn)已上線智譜開(kāi)放平臺(tái)BigModel.cn，并提供了2000萬(wàn) tokens的免費(fèi)資源包。其API最低價(jià)為每百萬(wàn)輸入tokens/2元、每百萬(wàn)輸出tokens/6元，支持圖像、視頻、文件和文本輸入。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

模型上線后，智東西第一時(shí)間對(duì)其能力進(jìn)行了體驗(yàn)，并梳理了這款模型背后的部分技術(shù)創(chuàng)新。

模型開(kāi)源地址：

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

桌面助手開(kāi)源地址：

https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

一、實(shí)測(cè)看圖報(bào)坐標(biāo)略有翻車，網(wǎng)頁(yè)復(fù)現(xiàn)相似度較高

智東西在搭載GLM-4.5V的桌面助手應(yīng)用中體驗(yàn)了模型的部分功能。這一應(yīng)用中提供了思考開(kāi)關(guān)等設(shè)置，用戶還可自定義提示詞、模型設(shè)置等，提供了較大的自由度。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

要使用模型，用戶需要提供GLM-4.5V的API密鑰，可在智譜的開(kāi)放平臺(tái)獲得。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

測(cè)試中，智東西首先使用了官方提供的一張照片，模型能夠準(zhǔn)確猜出地點(diǎn)，并按照要求精確到經(jīng)緯度。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

隨后，我們上傳了自己的測(cè)試圖，選用了一張“靈隱寺一角”的照片，這張圖難度不小——畫面中雖有黃色墻體、深色屋頂?shù)墓沤ㄖ?、高大?shù)木與游客，但沒(méi)有明顯的地標(biāo)性信息。右下角的路燈上雖印有“靈隱寺”字樣，但因使用的并非簡(jiǎn)體字，未被系統(tǒng)識(shí)別出來(lái)。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

系統(tǒng)在分析中誤將路燈上的“靈隱寺”識(shí)別為“寶原青”，并將圖片上的“感恩”識(shí)別成“威勝”，同時(shí)捕捉到另一處“包容”字樣。結(jié)合這些文字與環(huán)境特征，系統(tǒng)最終將結(jié)果推斷為四川都江堰的青城山。雖然未能準(zhǔn)確匹配真實(shí)地點(diǎn)，但推理過(guò)程細(xì)節(jié)豐富，結(jié)果具備一定參考價(jià)值。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

這一模型具備一定的GUI（圖形用戶界面）能力，這對(duì)理解、操作網(wǎng)頁(yè)或App等Agent場(chǎng)景至關(guān)重要。官方Demo中，GLM-4.5V可以幫助用戶在眼花繚亂的購(gòu)物網(wǎng)站截圖中，計(jì)算出折扣信息，還對(duì)生成結(jié)果進(jìn)行反思和確認(rèn)。智譜的思考與執(zhí)行智能體AutoGLM最新版，就將使用GLM-4.5V。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

生產(chǎn)力方面，GLM-4.5V現(xiàn)在可以根據(jù)網(wǎng)頁(yè)錄屏、截圖等復(fù)現(xiàn)前端代碼，分析畫面中內(nèi)容、樣式、布局等元素，推測(cè)背后的代碼，然后對(duì)交互邏輯進(jìn)行建模與實(shí)現(xiàn)。

智東西體驗(yàn)了App端提供的“網(wǎng)頁(yè)錄屏/截圖，復(fù)現(xiàn)特定功能”能力。用戶可在頁(yè)面上直接點(diǎn)擊截屏或局部錄屏按鈕，將錄制的視頻上傳至系統(tǒng)，由系統(tǒng)進(jìn)行壓縮處理后，推理分析生成對(duì)應(yīng)的HTML代碼，渲染可交互的前端。

在實(shí)際測(cè)試中，因訪問(wèn)量可能過(guò)大，系統(tǒng)在近50分鐘內(nèi)未返回結(jié)果。隨后，我們將相同任務(wù)提交至智譜官方平臺(tái)，并以截圖形式交給GLM-4.5V，不到10分鐘便生成了網(wǎng)頁(yè)復(fù)刻版本。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

▲智東西實(shí)測(cè)結(jié)果（結(jié)果鏈接：https://chat.z.ai/space/f00sx6s4jgp1-art）

生成的頁(yè)面在信息呈現(xiàn)上比小紅書網(wǎng)頁(yè)端更豐富——除點(diǎn)贊數(shù)外，還額外顯示評(píng)論數(shù)據(jù)，并增加了下方功能欄和右上角的通知按鈕。

但在瀑布流對(duì)齊效果上未能還原，缺少小紅書“精髓”的布局感。此外，該版本并未實(shí)現(xiàn)交互功能，可能是截圖內(nèi)容無(wú)法體現(xiàn)動(dòng)態(tài)操作所致，上傳視頻或許可以改善。

智譜官方Demo展示的案例中，工作人員上傳了一小段知乎網(wǎng)頁(yè)版的操作錄像，最終GLM-4.5V交付了一個(gè)相對(duì)完整的網(wǎng)頁(yè)，點(diǎn)擊、跳轉(zhuǎn)、輸入等功能都正常運(yùn)行。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

如果對(duì)網(wǎng)頁(yè)局部位置不滿意，又不知道該如何在代碼中定位問(wèn)題，用戶可以直接在網(wǎng)頁(yè)截圖中圈出不滿意的位置，模型能直接對(duì)背后代碼進(jìn)行修改。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

在PPT、PDF場(chǎng)景，GLM-4.5V可閱讀含有大量圖表的復(fù)雜長(zhǎng)文本，能夠?qū)ξ谋具M(jìn)行總結(jié)、翻譯、圖表提取等操作。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

模型并不是通過(guò)OCR實(shí)現(xiàn)圖像信息提取的，而是直接用視覺(jué)方式讀取圖片，能在一定程度上避免了信息提取過(guò)程中的錯(cuò)誤傳遞，對(duì)于圖表、表格等視覺(jué)化、結(jié)構(gòu)化信息的保留和解讀準(zhǔn)確性得到提升。

博客介紹，GLM-4.5V在視覺(jué)定位這種傳統(tǒng)CV領(lǐng)域表現(xiàn)不錯(cuò)，可以根據(jù)用戶提問(wèn)，精準(zhǔn)識(shí)別、分析、定位目標(biāo)物體并輸出其坐標(biāo)框。

這一能力可運(yùn)用于安全與質(zhì)量檢查、高空遙感監(jiān)測(cè)分析。相較于傳統(tǒng)的基于視覺(jué)模型的物體識(shí)別，GLM-4.5V 憑借更豐富的世界知識(shí)與更強(qiáng)大的語(yǔ)義理解能力，能夠通過(guò)推理理解更復(fù)雜的定位指令。

二、支持64K多模態(tài)上下文，STEM、多模態(tài)定位、Agent獲針對(duì)性提升

GLM-4.5V由視覺(jué)編碼器、MLP適配器和語(yǔ)言解碼器三部分組成，支持64K多模態(tài)長(zhǎng)上下文，支持圖像與視頻輸入，并通過(guò)三維卷積提升視頻處理效率。

剛剛，智譜開(kāi)源千億參數(shù)視覺(jué)大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

模型采用雙三次插值機(jī)制，有效增強(qiáng)了模型對(duì)高分辨率及極端寬高比圖像的處理能力與穩(wěn)健性；同時(shí)，引入三維旋轉(zhuǎn)位置編碼（3D-RoPE），顯著強(qiáng)化了模型對(duì)多模態(tài)信息的三維空間關(guān)系的感知與推理能力。

GLM-4.5V 采用三階段策略：預(yù)訓(xùn)練、監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）。

其中，在預(yù)訓(xùn)練階段，智譜結(jié)合大規(guī)模圖文交錯(cuò)多模態(tài)語(yǔ)料和長(zhǎng)上下文內(nèi)容，強(qiáng)化了模型對(duì)復(fù)雜圖文及視頻的處理能力。

在SFT階段，智譜引入了顯式“思維鏈”格式訓(xùn)練樣本，增強(qiáng)了GLM-4.5V的因果推理與多模態(tài)理解能力。

最后，RL階段，模型經(jīng)歷了全領(lǐng)域多模態(tài)課程強(qiáng)化學(xué)習(xí)，通過(guò)構(gòu)建多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng)（Reward System），結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）與基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），優(yōu)化了其在STEM問(wèn)題、多模態(tài)定位、Agent任務(wù)等方面的能力。

結(jié)語(yǔ)：視覺(jué)理解已成Agent關(guān)鍵能力

視覺(jué)理解一直被認(rèn)為是Agent與電腦、現(xiàn)實(shí)世界等交互的重要能力之一，在純文本模態(tài)之外，Agent還需要理解圖像、視頻等信息，才能補(bǔ)齊它與人類認(rèn)知方式之間的差距。

智譜本次開(kāi)源的GLM-4.5V擁有一定視覺(jué)理解能力，并在GUI等場(chǎng)景展現(xiàn)出了應(yīng)用價(jià)值，其后續(xù)與Agent應(yīng)用的結(jié)合，值得期待。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、實(shí)測(cè)看圖報(bào)坐標(biāo)略有翻車，網(wǎng)頁(yè)復(fù)現(xiàn)相似度較高

二、支持64K多模態(tài)上下文，STEM、多模態(tài)定位、Agent獲針對(duì)性提升

結(jié)語(yǔ)：視覺(jué)理解已成Agent關(guān)鍵能力

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、實(shí)測(cè)看圖報(bào)坐標(biāo)略有翻車，網(wǎng)頁(yè)復(fù)現(xiàn)相似度較高

二、支持64K多模態(tài)上下文，STEM、多模態(tài)定位、Agent獲針對(duì)性提升

結(jié)語(yǔ)：視覺(jué)理解已成Agent關(guān)鍵能力

相關(guān)推薦

一、實(shí)測(cè)看圖報(bào)坐標(biāo)略有翻車，網(wǎng)頁(yè)復(fù)現(xiàn)相似度較高

二、支持64K多模態(tài)上下文，STEM、多模態(tài)定位、Agent獲針對(duì)性提升