智東西(公眾號(hào):zhidxcom)
編譯 | 王涵
編輯 | 漠影

智東西10月14日消息,今日凌晨,微軟AI推出其首款完全自研的文生圖模型MAI-Image-1。該模型首次亮相即以1096分排在權(quán)威評(píng)測(cè)平臺(tái)LMArena文生圖榜單第9名

微軟AI推出首款自研圖像生成模型!

▲LMArena文生圖榜單(來(lái)源:LMArena)

在實(shí)際性能方面,MAI-Image-1在光影效果、自然景觀等超寫(xiě)實(shí)圖像生成上表現(xiàn)突出。相比規(guī)模更大、響應(yīng)更慢的模型,該模型在保證生成質(zhì)量的同時(shí)顯著提升了處理速度,讓創(chuàng)作者能夠快速實(shí)現(xiàn)創(chuàng)意可視化并進(jìn)行迭代優(yōu)化。

微軟AI推出首款自研圖像生成模型!

▲MAI-Image-1生成圖像實(shí)例(來(lái)源:微軟AI)

微軟透露,研究團(tuán)隊(duì)在模型訓(xùn)練階段特別注重避免輸出內(nèi)容的重復(fù)與同質(zhì)化問(wèn)題,通過(guò)嚴(yán)格篩選訓(xùn)練數(shù)據(jù)并引入創(chuàng)意行業(yè)專(zhuān)業(yè)建議,讓模型在真實(shí)創(chuàng)作場(chǎng)景中展現(xiàn)出更好的實(shí)用性。MAI-Image-1后續(xù)也將集成至Copilot和Bing Image Creator等微軟核心產(chǎn)品中。

微軟AI(Mircosoft AI,簡(jiǎn)稱(chēng)MAI)創(chuàng)立于2024年3月,是微軟為推進(jìn)Copilot及其他消費(fèi)者AI產(chǎn)品研發(fā)而設(shè)立的專(zhuān)門(mén)機(jī)構(gòu)。

該機(jī)構(gòu)首席執(zhí)行官M(fèi)ustafa Suleyman曾作為聯(lián)合創(chuàng)始人創(chuàng)立DeepMind并領(lǐng)導(dǎo)其應(yīng)用AI部門(mén),隨DeepMind被谷歌收購(gòu)后加入谷歌,后于2022年離開(kāi)谷歌創(chuàng)辦大模型初創(chuàng)企業(yè)Inflection AI。

2024年初,微軟以6.5億美元(約合人民幣46.3億元)完成對(duì)Inflection AI的“人才收購(gòu)”,Suleyman隨即帶領(lǐng)團(tuán)隊(duì)核心成員加入MAI,14個(gè)月后,他們交付了首批全自研AI模型,分別為基礎(chǔ)模型MAI-1-preview和語(yǔ)音生成模型MAI-Voice-1。(參見(jiàn)智東西此前報(bào)道:微軟AI首個(gè)自研模型來(lái)了,實(shí)測(cè)可玩性超強(qiáng),CEO回應(yīng)與OpenAI隔閡

結(jié)語(yǔ):微軟多模態(tài)場(chǎng)景產(chǎn)品藍(lán)圖逐漸清晰

微軟AI全自研文生圖模型雖然闖進(jìn)LMArena文生圖榜單前十,但與谷歌等公司的自研模型仍有差距,如此看來(lái)微軟收購(gòu)Inflection AI的效果還沒(méi)有完全顯現(xiàn)出來(lái)。

在文生圖模型領(lǐng)域,MAI-Image-1需要來(lái)自面對(duì)Midjourney、Stable Diffusion等海外成熟模型以及hunyuan-image、seedream等中國(guó)文生圖模型的激烈競(jìng)爭(zhēng),壓力不算小。

不過(guò),從其發(fā)布的三款模型的類(lèi)型來(lái)看,從語(yǔ)音、對(duì)話到圖像生成,微軟正試圖打造覆蓋多模態(tài)場(chǎng)景的自主產(chǎn)品矩陣,其似乎是想要通過(guò)自研模型逐步構(gòu)建獨(dú)立技術(shù)體系。