智東西(公眾號(hào):zhidxcom)
作者 | 王涵
編輯 | 漠影

最近,圖像模型打得可謂是如火如荼。

OpenAI釋出新一代圖像模型GPT Image 1.5,劍指谷歌Nano Banana Pro。國產(chǎn)大模型廠商也紛紛推出自己的新一代圖像模型,生成效果一個(gè)比一個(gè)驚艷。

就拿谷歌的Nano Banana Pro來舉例,你能分辨出以下圖片哪張是AI生成的,哪張是現(xiàn)實(shí)的圖片嗎?

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

▲左為Nano Banana Pro生成,右為實(shí)景圖

除了生成圖畫,作為打工人的我們也開始嘗試在工作中使用AI工具生成PPT、海報(bào)等,試圖減輕工作負(fù)擔(dān),但AI生成的PPT或海報(bào)很難進(jìn)行二次編輯。一是AI生圖模型通常都有付費(fèi)額度限制,二則是受制于AI生圖技術(shù)本身。

但有這樣一個(gè)應(yīng)用,可以直接將AI生成的圖片轉(zhuǎn)換成PPT的形式,將文字、圖標(biāo)、背景等元素,分離成一個(gè)個(gè)可挪動(dòng)的圖層可編輯的文本框。而這個(gè)應(yīng)用我們經(jīng)常會(huì)用到卻時(shí)常忽視,那就是WPS。

智東西上手體驗(yàn)了WPS AIPPT的圖片轉(zhuǎn)PPT功能,整體上,圖片轉(zhuǎn)換為PPT的過程較為流暢,文本框可以隨意拖動(dòng),圖標(biāo)元素也可以移動(dòng)和放大縮小。文本和圖標(biāo)識(shí)別較為準(zhǔn)確,會(huì)有偶爾漏掉一些圖標(biāo)和文字的情況,但整體上已經(jīng)十分可用

一、為什么AI生成的圖片不能改?WPS:這個(gè)難題,我們?cè)缇推平饬?/h2>

在體驗(yàn)WPS功能之前,我們要先理清兩個(gè)問題:為什么文生圖模型所生成的圖片無法編輯?為什么WPS卻可以做到?

1、AI其實(shí)是在“畫字”

文生圖模型本質(zhì)上是一個(gè)“圖像分布建模器”。它通過學(xué)習(xí)海量“圖像-文本”配對(duì)數(shù)據(jù),建立從文本語義到圖像像素的映射。其目標(biāo)是生成視覺上逼真或合理的像素陣列,而非理解并生成結(jié)構(gòu)化的、可編輯的符號(hào)信息。

簡單來說,目前的文生圖模型生成的文字往往是“像素”而非“矢量字符”。文生圖模型生成文字不是在寫字,而是在“畫字”,而這就導(dǎo)致圖像中的文字無法二次編輯,但在辦公領(lǐng)域,最重要的就是“可編輯”。

2、WPS結(jié)合OCR和AI,打破不可編輯“魔咒”

在AI普及之前,有一種格式的文件也是不可編輯的——PDF。跨格式轉(zhuǎn)換對(duì)于現(xiàn)在來說并不是新鮮功能,但早期的辦公軟件對(duì)PDF文件幾乎只能“打印”或“只讀”。

WPS投入大量資源研發(fā)了自主的PDF渲染引擎,要知道,實(shí)現(xiàn)“Word轉(zhuǎn)PDF”(保真打?。┖苋菀祝珜?shí)現(xiàn)“PDF轉(zhuǎn)Word/PPT”(反向解析)非常難。通過多年在版面分析、字體還原、表格識(shí)別等方面的算法優(yōu)化,WPS讓PDF的可編輯不再是難題。

如今,WPS的“圖片轉(zhuǎn)PPT”、“掃描件轉(zhuǎn)可編輯文檔”等功能,已經(jīng)不僅僅是跨格式轉(zhuǎn)換,而是結(jié)合了OCR(光學(xué)字符識(shí)別)和AI智能排版的高級(jí)能力。

11月,金山辦公與華中科技大學(xué)合作自研的統(tǒng)一視覺-語言文檔解析框架算法MonkeyOCR v1.5,在全能多模態(tài)文檔解析基準(zhǔn)OmniDocBench v1.5中拿下93.01分的成績,獲得綜合性能全球第一。特別是在表格解析方面,該算法的表格結(jié)構(gòu)還原的準(zhǔn)確率高達(dá)95%

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

正是基于在OCR技術(shù)、文檔解析和智能排版領(lǐng)域沉淀的多年技術(shù)壁壘,WPS將這套成熟的能力遷移至AI生成圖片的編輯場(chǎng)景中,順理成章地破解了“AI生圖不可編輯”的行業(yè)痛點(diǎn)。

二、把文字圖片分離,還能編輯和換字體,WPS直擊文生圖模型痛點(diǎn)

話不多說,我們直接來看看WPS的效果。

首先我們讓Nano Banana Pro生成一張中國剪紙模板的北京今日天氣預(yù)報(bào)頁面,生成圖片如下:

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

而后,我們打開WPS AIPPT官網(wǎng),找到圖片轉(zhuǎn)PPT功能專區(qū),將剛剛生成的圖片上傳。

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

幾秒鐘的時(shí)間,WPS就完成了對(duì)圖片的識(shí)別和對(duì)圖層的拆解,我們點(diǎn)擊在線編輯,即可跳轉(zhuǎn)到WPS里的PPT編輯頁面,對(duì)剛剛轉(zhuǎn)換成功的圖片進(jìn)行編輯。

可以看到,轉(zhuǎn)換為PPT后,頁面中的大部分文字和圖標(biāo)元素都可以自由拖動(dòng)和修改,并且頁面的風(fēng)格元素與原圖保持一致,不用擔(dān)心會(huì)出現(xiàn)風(fēng)格“魔改”等問題。

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

再來試試英文頁面,我們用Nano Banana Pro生成了一張制作豆蔻奶茶的流程圖,看看WPS的轉(zhuǎn)換效果如何:

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

原圖中的圖表和文字都比較多且比較密集,從生成效果來看,WPS AIPPT可以很清晰地將文字和底層圖片分離開,并且每一小段文字都形成了獨(dú)立的編輯框可以單獨(dú)拖動(dòng)。

但仔細(xì)看,有一些原圖中較為模糊的文字并沒有被識(shí)別出來,依舊停留在了底圖上。

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

那如果不是非常規(guī)字體呢,WPS還可以識(shí)別出來嗎?我們用Nano Banana Pro生成了一張手繪漫畫分鏡:

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

從生成結(jié)果可以看出,WPS能夠十分清晰地識(shí)別出手繪字體的文字,四個(gè)分鏡畫面也可以分別拖動(dòng),生成效果較為穩(wěn)定,可以大大縮短工作流程,提高工作效率。


同樣的,用手機(jī)拍下來的PPT也可以輕松獲取。就比如這張世界人工智能大會(huì)上對(duì)“AI教父”辛頓教授的介紹頁面,我們可以用WPS將其轉(zhuǎn)為可編輯的PPT,不用再到處找類似的模版了。

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

Nano Banana最強(qiáng)搭子來了!WPS一鍵轉(zhuǎn)格式,幫你輕松編輯圖中文字,辦公效率飆升

三、不止做AI搭子,WPS其實(shí)是“原生Office AI”

WPS AI 的技術(shù)理念并非簡單地將AI功能嵌入辦公軟件,而是致力于打造一種全新的“原生Office AI”體驗(yàn),其核心在于Agentic Software(智能體軟件)的概念。

WPS AI 不滿足于傳統(tǒng)的“問一句答一句”的被動(dòng)響應(yīng)模式,它的核心能力在于自主規(guī)劃。當(dāng)用戶提出一個(gè)模糊需求時(shí),AI會(huì)像人一樣主動(dòng)思考,自動(dòng)進(jìn)行“任務(wù)拆解-執(zhí)行規(guī)劃-反思修正”全流程。

如果說自主規(guī)劃是智能體的“大腦”,那么深度工具調(diào)用能力就是WPS AI的“雙手”。憑借其37年的技術(shù)積累,金山辦公將辦公軟件中最核心、最高頻的操作,比如字號(hào)調(diào)整、表格對(duì)齊、文本框插入、樣式應(yīng)用等,抽象為AI可精準(zhǔn)理解的工具集,實(shí)現(xiàn)了辦公軟件核心功能的無損調(diào)用。

這讓AI不僅能“想”,還能“做”。它能直接在文檔內(nèi)部進(jìn)行精確操作,確保格式完美保留,沒有亂碼或隱藏標(biāo)簽,實(shí)現(xiàn)雙向無損互通,這正是通用大模型所不具備的“動(dòng)手能力”。

WPS AI打破了AI操作的“黑箱”,將執(zhí)行過程全面透明化、可視化。用戶在下達(dá)指令后,能實(shí)時(shí)看到AI的思考路徑,用戶可以在AI思考的任意環(huán)節(jié)介入糾正,掌控權(quán)始終在用戶手中。

作為一個(gè)辦公軟件,它將AI能力原生嵌入Office全流程,用戶無需在多個(gè)工具間切換搬運(yùn)內(nèi)容,可在熟悉的辦公環(huán)境中完成人與AI的協(xié)作。通過接管“Dirty work”,WPS AI讓用戶能專注于內(nèi)容本身、邏輯思考、審美判斷和最終決策

可以說,WPS AI的終極目標(biāo)不是炫技或生成內(nèi)容,而是成為一個(gè)真正“交付結(jié)果”的智能體

結(jié)語:WPS給AI辦公領(lǐng)域提供范例

AI落地發(fā)展到現(xiàn)在,僅僅是“AI+”已經(jīng)不能滿足市場(chǎng)的呼喚。如何才能做到“AI原生”是當(dāng)下各類應(yīng)用都在思考的問題。

當(dāng)前AI辦公賽道已形成千億元規(guī)模的市場(chǎng)空間,國內(nèi)外廠商如谷歌微軟等紛紛布局,從單點(diǎn)工具突破到全場(chǎng)景套件構(gòu)建,競爭焦點(diǎn)正轉(zhuǎn)向技術(shù)架構(gòu)與業(yè)務(wù)流程的融合。

WPS通過數(shù)十年的技術(shù)積累和Office辦公軟件的技術(shù)基礎(chǔ),將AI原生融合到工作流中,簡化了用戶使用AI的流程、削弱了割裂感,真正做到了原生Office AI。