智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 李水青

字節(jié)的圖像生成模型剛發(fā)不到半天,阿里的新模型也來了!

智東西2月10日報道,今天,阿里巴巴發(fā)布了新一代圖像生成基礎(chǔ)模型Qwen-Image 2.0,這一模型支持長達一千個token的超長指令、2k分辨率,并采用了更輕量的模型架構(gòu),模型尺寸遠小于Qwen-Image 1.0的20B,帶來更快的推理速度。

智東西第一時間對阿里Qwen-Image 2.0、字節(jié)Seedream 5.0 Preview以及谷歌Nano Banana Pro三款模型進行了橫向體驗比較,發(fā)現(xiàn)Qwen-Image 2.0在長指令遵循、長文本渲染方面確實具有優(yōu)勢,但在圖像生成的真實感上仍稍遜于Nano Banana Pro。

Qwen-Image 2.0的升級重點是文字渲染。在下方關(guān)于AB測試的官方案例中,文字的字體、排版、格式等都是由一則888個token(包含近千個中英文字詞)的超長提示詞精確定義的,而Qwen-Image 2.0可以做到不錯的還原。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

Qwen-Image 2.0還能用毛筆字渲染《蘭亭集序》的全文,并且確保文字和畫面的相對協(xié)調(diào),文字沒有遮擋畫面的山水景色和人物。細看文字部分,雖然仍然可以找到一些渲染失敗的文字,但是占比已經(jīng)很低了。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

Qwen-Image 2.0還支持一次性渲染屬數(shù)十個子圖,并保持其中主體的一致性。比如,下圖就是Qwen-Image 2.0一次性生成的漫畫,一共有24個畫面,其中的人物、畫風(fēng)都較為連貫。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

針對AI生圖常見的“油膩感”問題,Qwen-Image 2.0也做了優(yōu)化。與前一代模型相比,Qwen-Image 2.0的色彩不會過于飽和,觀感更像實拍,AI味淡了一些。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

▲從左到右:原圖、Qwen-Image-2512、Qwen-Image 2.0

阿里在AI盲測平臺AI Arena上對Qwen-Image 2.0進行了測試,數(shù)據(jù)顯示,Qwen-Image 2.0在文生圖和圖生圖基準(zhǔn)中分別排名第三和第二,不過距離谷歌的Nano Banana Pro(圖中為Gemini-3-Pro-Image-Preview)還有一定差距。此外,這一模型暫時還沒有和剛發(fā)布的Seedream 5.0 Preview進行對比。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

千問視覺生成負責(zé)人吳晨飛在采訪中談道,Qwen-Image項目2025年5月份項目才立項,去年8月份發(fā)布首款模型,此后主要圍繞生圖和編輯兩個支線迭代模型,而Qwen-Image 2.0則把生圖和編輯兩個能力整合到了一個模型中。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

目前,Qwen-Image 2.0已在阿里云百煉上已開通API邀測,用戶也可通過Qwen Chat(chat.qwen.ai)免費體驗新模型。千問App產(chǎn)品經(jīng)理劉巍透露,這一模型后續(xù)將在千問App里上線。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

會后,我們還與吳晨飛和千問大模型高級解決方案架構(gòu)師熊撼天進行了溝通。

當(dāng)我們問及Qwen-Image系列模型的未來規(guī)劃時,吳晨飛稱,如果用一個詞作為Qwen-Image 2.0升級的核心,那就是“信息圖”,而在未來一年,Qwen-Image團隊會繼續(xù)研究如PPT、多圖海報、漫畫等復(fù)雜“父圖”的生成,進一步減少幻覺和錯誤。

此外,該團隊還計劃在此前發(fā)布的分層模型基礎(chǔ)上,進一步強化模型的分層編輯能力,目標(biāo)是讓生成模型真正成為生產(chǎn)力工具。通過AI分圖層,設(shè)計師可以靈活結(jié)合AI生成(如千問編輯特定層)與傳統(tǒng)手段,或融合不同模型的專長,實現(xiàn)“分而治之”的復(fù)雜編輯流程。

一、阿里、字節(jié)、谷歌三款模型對決,Qwen-Image 2.0文字渲染能力突出

在超長提示詞任務(wù)上,我們對Qwen-Image 2.0的官方超長提示詞進行了微調(diào),調(diào)整了部分元素的位置,看看Qwen-Image 2.0能否交付同樣質(zhì)量的生成結(jié)果。

提示詞內(nèi)容:

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

Qwen-Image 2.0的生成結(jié)果如下??梢钥吹侥P瓦€原了我們對圖片布局、字體顏色的要求,內(nèi)容也得到準(zhǔn)確呈現(xiàn),基本沒有遺漏。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

而Nano Banana Pro的生成結(jié)果明顯有更多的圖像和圖標(biāo),設(shè)計風(fēng)格和我們要求的一樣,大部分文字也都成功渲染。美中不足的是,可以看到部分文字出現(xiàn)了模糊的問題,已經(jīng)難以辨別。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

Seedream 5.0 Preview的生成結(jié)果較我們的提示詞出現(xiàn)了一些偏差,并沒有準(zhǔn)確還原文字內(nèi)容,這在PPT等場景可能是較為嚴(yán)重的問題。但是拋開這一問題之外,完成度還是不錯的。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

而在多子圖生成任務(wù)上,我們讓上述三款模型生成一副具有20個分鏡的漫畫,提示詞依舊較長。

在經(jīng)過三次嘗試后,Qwen-Image 2.0未能完全按照我們的要求生成這張圖像。我們也對提示詞本身進行了優(yōu)化,標(biāo)注了更為清晰的序號,但是沒能讓模型生成更準(zhǔn)確的結(jié)果。

此外,畫面中也有一些不符合常理的現(xiàn)象,比如外賣員的手機竟然安在電動車車頭上,手機屏幕面向外側(cè),。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

▲Qwen-Image 2.0的三個生成結(jié)果

在這一任務(wù)中,Nano Banana Pro(左)和Seedream 5.0 Preview(右)拿到提示詞后都陷入了長時間的推理過程,最終未能成功生成。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

文字渲染之外,我們也考察了這兩款模型在圖像生成方面的表現(xiàn)。發(fā)布會中提到,超現(xiàn)實場景其實對圖像生成模型來說是一大挑戰(zhàn),如何在滿足提示詞要求的情況下保證真實感,很考驗?zāi)P偷墓αΑ?/p>

我們向模型發(fā)送了如下提示詞:

無邊無際的海面上漂浮著一座倒置的城市,城市建筑如水晶般透明,內(nèi)部流動著星空與光點。天空呈現(xiàn)撕裂般的云層結(jié)構(gòu),巨大的月亮貼近海平面,月光化為實體的光帶纏繞在城市周圍。一名渺小的人站在水面之上,腳下泛起漣漪,現(xiàn)實與夢境在此交匯,畫面安靜而震撼。

Qwen-Image 2.0生成的畫面其實與提示詞有一些差距,圖中的城市與其說是倒置,不如說是鏡像。同時,左右兩側(cè)云層的形狀是完全對稱的,在美感上較有視覺沖擊力,在真實性上稍顯欠缺。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

Nano Banana Pro的生成結(jié)果則更符合我們的提示詞,還原了城市的“倒置”、云層的“撕裂感”等關(guān)鍵描述。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

Seedream5.0 Preview提供了四個版本,可以看到它并沒有遵循我們提示詞中“像水晶般透明”的要求,不過其余內(nèi)容基本得到了還原。其畫風(fēng)更為科幻感一些。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

二、生成、編輯融合效果1+1>2,新模型尺寸遠小于1.0版本

發(fā)布會結(jié)束后,千問視覺生成負責(zé)人吳晨飛、千問大模型高級解決方案架構(gòu)師熊撼天與智東西等媒體進行了溝通。

當(dāng)談及1.0版本與2.0版本相比,最大的提升在哪些領(lǐng)域,吳晨飛稱Qwen-Image 2.0主要實現(xiàn)了“多”和“真”兩個特性的融合。

“多”指的是其更強的文字渲染能力。Qwen-Image 2.0能在一個畫面中穩(wěn)定生成大量、復(fù)雜的文字(如完整的PPT、信息圖),錯誤率極低,基本達到“可用”狀態(tài),而之前的模型生成結(jié)果依然是不可用的。

“真”指圖像的真實感。1.0主要聚焦文字準(zhǔn)確性,2.0在保證文字精準(zhǔn)的同時,提升了圖像(如材質(zhì)、光影)的真實感。尤其當(dāng)文字與圖像結(jié)合時,生成結(jié)果更具真實感和代入感,減少了以往AI生圖在文字區(qū)域的模糊和虛假感。

談及融合圖像生成與編輯的選擇時,吳晨飛透露,經(jīng)過探索,他們發(fā)現(xiàn)二合一模型能實現(xiàn)能力相互促進,達到1+1>2的效果,而非功能妥協(xié)。

文生圖中訓(xùn)練出的能力(如文字生成、圖像質(zhì)感)可以遷移到編輯任務(wù)上。例如,上傳照片“題詩”的功能,就是文生圖能力在編輯任務(wù)上的體現(xiàn)。

編輯任務(wù)訓(xùn)練能迫使基礎(chǔ)模型更好地理解語義變化和遵循指令,從而反哺文生圖,使其對提示詞更敏感、遵循更精確。這也是實現(xiàn)“理解-生成”一體化統(tǒng)一范式的重要一步。

此外,Qwen-Image 2.0的模型尺寸比1.0(約200億參數(shù))顯著減小,但能力更強,且生成速度更快。

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

▲千問視覺生成負責(zé)人吳晨飛

當(dāng)被問及如何解決文字生成崩潰的難點時,吳晨飛回應(yīng)道,目前大部分生圖模型都需要用到VAE(變分自編碼器)負責(zé)圖像壓縮,小文字信息密集,壓縮難度大,因此容易出現(xiàn)文字崩壞。其團隊提升了VAE的重構(gòu)能力,為清晰小字生成奠定基礎(chǔ)。

Qwen-Image 2.0對密集、細小文字的建模和生成能力也得到了增強。兩者結(jié)合,使得小文字也能清晰渲染、準(zhǔn)確顯示。

熊撼天則分享了與模型落地場景相關(guān)的話題。他認(rèn)為,模型能力的提升(尤其是可控性、穩(wěn)定性)使其能真正滲透到各行各業(yè)。

在電商領(lǐng)域,圖像生成模型可用于海量商品的主圖、詳情圖、廣告素材圖生成。例如,服裝行業(yè)的模特換裝、商品屬性修改、多圖融合,以及利用“信息圖”能力生成商品詳情長圖。

在醫(yī)療等專業(yè)領(lǐng)域,圖像生成模型可以將復(fù)雜的流程(如就診流程、診斷報告)通過信息圖、流程圖等形式可視化,便于理解。

他認(rèn)為,中國AIGC市場在應(yīng)用落地和產(chǎn)業(yè)迭代速度上具有優(yōu)勢。國內(nèi)有強大的應(yīng)用土壤和快速落地的能力。當(dāng)技術(shù)追平后,豐富的應(yīng)用場景能催生出新的產(chǎn)業(yè)鏈(如短?。?,并快速反哺模型迭代。

Qwen-Image系列將與WPS等國民級應(yīng)用進行合作,獲取真實用戶反饋和需求,并融入下一代模型開發(fā),形成從應(yīng)用到技術(shù)的閉環(huán)迭代。

結(jié)語:從玩具到生產(chǎn)力,圖像生成模型探索真實場景落地

從近期的發(fā)布情況來看,圖像生成領(lǐng)域的多家頭部廠商已達成共識。如今,圖像生成模型不僅僅追求生成逼真的畫面,更要滿足現(xiàn)實場景中對提示詞精準(zhǔn)遵循、文字準(zhǔn)確渲染等關(guān)鍵因素的需求,這些才是真正決定模型生產(chǎn)力的核心要素。

隨著模型的不斷優(yōu)化與迭代,圖像生成或許有潛力成為企業(yè)和個人在信息處理、創(chuàng)作表達及決策支持等方面的強大助手。