智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西1月14日報道,今天,首個在國產(chǎn)芯片上完成全程訓練的SOTA(最佳水平)多模態(tài)模型開源。

這是智譜聯(lián)合華為開源的圖像生成模型GLM-Image。從數(shù)據(jù)到訓練的全流程,該模型完全基于昇騰Atlas 800T A2設備和昇思MindSpore AI框架完成構建。

截至今日午間休市,智譜股價漲16.83%

在聚焦文字渲染的CVTG-2K、LongText-Bench榜單上,GLM-Image的得分超越了以谷歌Nano Banana Pro為代表的認知型生成模型。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲GLM-Image在文字渲染的CVTG-2K、LongText-Bench榜單中達到開源SOTA水平

GLM-Image實現(xiàn)了圖像生成與語言模型的聯(lián)合,核心亮點如下:

1、架構革新,面向「認知型生成」的技術探索:采用創(chuàng)新的「自回歸 + 擴散編碼器」混合架構,兼顧全局指令理解與局部細節(jié)刻畫,克服了海報、PPT、科普圖等知識密集型場景生成難題。

2、首個在國產(chǎn)芯片完成全程訓練的SOTA模型:模型自回歸結構基座基于昇騰Atlas 800T A2設備與昇思MindSpore AI框架,驗證了在國產(chǎn)全棧算力底座上訓練前沿模型的可行性。

3、文字渲染開源SOTA:在CVTG-2K(復雜視覺文本生成)和LongText-Bench(長文本渲染)榜單獲得開源第一,尤其擅長漢字生成任務。

4、高性價比與速度優(yōu)化:API調(diào)用模式下,生成一張圖片僅需0.1元,速度優(yōu)化版本即將更新。

智東西第一時間對GLM-Image進行了體驗,發(fā)現(xiàn)模型在漢字生成上準確度很高,優(yōu)于谷歌Nano Banana以及多款頭部國內(nèi)模型;能夠較準確理解深層語義和知識概念,并將其轉化為正確的視覺元素;能夠在保證全局構圖的同時較精準刻畫局部細節(jié)。

同時,GLM-Image也存在字體風格呈現(xiàn)不準、生成需要等待時間、一些科學概念理解不足等問題;且相比于一些免費選擇,其仍需要收取少量費用。

體驗地址:
https://bigmodel.cn/trialcenter/modeltrial/image
GitHub地址:
https://github.com/zai-org/GLM-Image
技術報告地址:
https://z.ai/blog/glm-image

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲GLM-Image體驗界面

一、從數(shù)據(jù)到訓練,首個國產(chǎn)芯片訓練出的SOTA模型

GLM-Image自回歸結構基座從早期的數(shù)據(jù)預處理,到最終的大規(guī)模預訓練,全流程均在昇騰Atlas 800T A2設備上完成。

依托昇騰NPU和昇思MindSpore AI框架,使用動態(tài)圖多級流水下發(fā)、高性能融合算子、多流并行等特性,智譜自研了模型訓練套件,全面優(yōu)化數(shù)據(jù)預處理、預訓練、SFT和RL的端到端流程。

具體來說,通過動態(tài)圖的多級流水優(yōu)化機制,團隊將Host側算子下發(fā)的關鍵階段流水化并高度重疊,消除下發(fā)瓶頸;通過多流并行策略,通信和計算互掩,團隊打破文本梯度同步、圖像特征廣播等操作的通信墻,極致優(yōu)化性能;使用AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子,團隊同步提升訓練的穩(wěn)定性和性能。

作為首個在國產(chǎn)芯片上完成全流程訓練的SOTA多模態(tài)模型,GLM-Image驗證了在國產(chǎn)全棧算力底座上訓練高性能多模態(tài)生成模型的可行性。

二、文字渲染達開源SOTA,實測漢字生成超Nano Banana

GLM-Image在文字渲染的權威榜單中達到開源SOTA水平。

CVTG-2K(復雜視覺文字生成)榜單核心考察模型在圖像中同時生成多處文字的準確性。在多區(qū)域文字生成準確率上,GLM-Image憑借0.9116的Word Accuracy(文字準確率)成績,位列開源模型第一。在NED(歸一化編輯距離)指標上,GLM-Image同樣以0.9557領先,表明其生成的文字與目標文字高度一致,錯字、漏字情況更少。

LongText-Bench(長文本渲染)榜單考察模型渲染長文本、多行文字的準確性,覆蓋招牌、海報、PPT、對話框等8種文字密集場景,并分設中英雙語測試,GLM-Image以英文0.952、中文0.979的成績位列開源模型第一。

智東西對GLM-Image的實測體驗側重文字渲染能力,對比谷歌Nano Banana及Pro、豆包、阿里通義萬相2.6幾款常見同類模型,GLM-Image在文字渲染準確度和細節(jié)刻畫上表現(xiàn)較好,但也存在字體風格不準確、科學概念理解不足等問題,不過后面這幾個問題Nano Banana也難幸免。

提示詞1:
設計一個“新中式奶茶店”的商標(Logo)和店鋪外觀概念圖。
Logo部分:需要包含“茶悅”二字,設計要融合傳統(tǒng)書法韻味和現(xiàn)代簡約風格。
店鋪外觀:是一個現(xiàn)代玻璃櫥窗小店,但門頭、招牌或裝飾中要巧妙運用竹元素或山水紋樣。
整體感覺:干凈、雅致、有文化氣息,同時吸引年輕人。
生成建議:“茶悅”二字可以嘗試用細筆觸的行書,搭配一個抽象的茶杯或茶葉形狀。店鋪外觀可以是淺木色和留白為主,用竹格柵做裝飾,玻璃上若有若無地映出山水畫痕跡。

如下圖所示,GLM-Image在漢字生成上比較準確,但未采用“行書”;對文字描述的設計細節(jié)呈現(xiàn)準確,抽象的茶杯設計較傳神;對中國文化元素(書法、竹、山水)的理解和現(xiàn)代轉譯能力較強;室內(nèi)陳設格局清晰,符合商業(yè)設計場景要求。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲GLM-Image生成的圖片

谷歌Nano Banana沒有能夠準確生成漢字,但對于畫面的呈現(xiàn)也比較準確,室內(nèi)的陳設清晰且細節(jié)豐富,實拍感較強。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲Nano Banana生成的圖片

豆包沒有準確生成“茶悅”二字,沒有按要求生成“一個抽象的茶杯或茶葉形狀”,但在門頭、招牌或裝飾中要巧妙運用了竹元素或山水紋樣,設計比較獨特。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲豆包生成的圖片

阿里通義萬相2.6準確生成了“茶悅”二字,也按要求生成了一個抽象的茶杯或茶葉形狀,但字體同樣沒有采用“行書”,店面的內(nèi)部構造生成細節(jié)相對不多。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲阿里通義萬相2.6生成的圖片

提示詞2:

畫一張給小學生看的“光合作用示意圖”。圖中需要包含一棵有笑臉的植物、一個大太陽、代表二氧化碳(CO?)的箭頭從空氣指向葉子、代表氧氣(O?)的箭頭從葉子中冒出。在圖片下方,用清晰易懂的字體標注解釋:“植物利用陽光、水和二氧化碳,制造出氧氣和養(yǎng)分”。整體風格需生動可愛,兼具科學性和趣味性。

如下圖所示,GLM-Image保證了全局構圖風格可愛、場景完整,對“光合作用”這一科學概念有一定的理解能力,但氧氣的箭頭打反了,釋放氧氣應該是箭頭向外。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲GLM-Image生成的圖片

不過,Nano Banana也沒有做對這道題,氧氣的箭頭也畫反了,且漢字生成上一塌糊涂,全都亂碼了。Nano?Banana?Pro能夠準確輸出漢字渲染,理解科學原理,并輸出正確的視覺符號。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲Nano Banana及Pro生成的圖片

豆包在這道題上完成度較高,不僅準確生成了漢字,還理解了光合作用概念,將抽象概念轉卻轉化為了具象的視覺符號。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲豆包生成的圖片

阿里通義萬相2.6也能夠準確生成文字,并且用視覺符號呈現(xiàn)了“光合作用”吸收二氧化碳、釋放氧氣的過程,但仍有一個二氧化碳的箭頭向外打,可能將“呼吸作用”也考慮進來了;比其他模型多表現(xiàn)了根系吸收水分這一部分原理。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲阿里通義萬相2.6生成的圖片

三、自回歸 + 擴散編碼器架構創(chuàng)新:讀懂指令,寫對文字

當下,以Nano Banana Pro為代表的閉源圖像生成模型,正在推動圖像生成與大語言模型的深度融合。模型在海報、PPT、科普圖等知識密集型場景及高保真細節(jié)上的表現(xiàn),展現(xiàn)了認知型生成模型的技術優(yōu)勢。

GLM-Image是首個開源的工業(yè)表現(xiàn)級離散自回歸圖像生成模型,是智譜面向認知型生成技術范式的一次重要探索。

創(chuàng)新架構,讓模型能夠讀懂寫對。面對傳統(tǒng)模型在“理解復雜指令”與“精準繪制文字”上難以兼顧的問題,GLM-Image 引入了「自回歸+擴散解碼器」混合架構,創(chuàng)新地融合了9B大小的自回歸模型與7B大小的DiT擴散解碼器。

前者利用其語言模型的底座優(yōu)勢,專注于提升對指令的語義理解和畫面的全局構圖;后者配合Glyph Encoder的文本編碼器,專注于還原圖像的高頻細節(jié)和文字筆畫,以此改善模型“提筆忘字”的現(xiàn)象。

GLM-Image還具備多分辨率自適應能力。通過改進Tokenizer策略,GLM-Image能夠自適應處理多種分辨率,原生支持從1024×1024到2048×2048尺寸的任意比例圖像的生成任務,無需重新訓練。

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲通用pipeline

國產(chǎn)Nano Banana開源!用華為AI芯片訓練,1張圖只要1毛錢

▲解碼器結構示意圖

結語:純血國產(chǎn)大模型進擊,從“可用”到“好用”

GLM-Image的誕生,標志著國產(chǎn)大模型探索進入了從“可用”到“好用”的關鍵階段。它以“自回歸+擴散”的混合架構破解了“圖文協(xié)同”的生成難題,同時憑借在國產(chǎn)昇騰算力上完成全流程訓練的實踐,證明了自主技術棧支撐前沿AI創(chuàng)新的可行性。

作為一款在文字渲染任務上達到開源SOTA的模型,它為海報設計、知識科普等需要精準圖文融合的場景提供了高性價比的新選擇,同時有望為整個AI產(chǎn)業(yè)生態(tài)的自主化與多元化打基礎。