智東西(公眾號:zhidxcom)
編譯 |? 子佩
編輯 |? Panken

智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環(huán),OpenAI在自然語言處理領(lǐng)域一路高歌猛進,于昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基于文本生成圖像,后者則可以基于文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派“涇渭分明”的界限,實現(xiàn)多模態(tài)AI系統(tǒng)。

什么是多模態(tài)系統(tǒng)呢?

就像人類有視覺、嗅覺、聽覺一樣,AI也有自己“眼鼻嘴”,而為了研究的針對性和深入,科學(xué)家們通常會將其分為“計算機視覺”、“自然語言處理”、“語音識別”等研究領(lǐng)域,分門別類地解決不同的實際問題。

每一個研究領(lǐng)域也可以被稱為一種模態(tài),通常來說,多模態(tài)學(xué)習(xí)(MultiModal Learning)就是在不同的模態(tài)間構(gòu)建聯(lián)系,讓AI學(xué)會“通感”。

一、GPT-3“繼承者”:看文繪圖的DALL·E

DALL·E的名字取自藝術(shù)家Salvador Dali和皮克斯動畫片機器人總動員(WALL-E),而與GPT-3一樣,它也是一個具有120億參數(shù)的Transformer語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲Dali代表作《記憶的永恒》和機器人總動員海報。

在博客上,OpenAI也大秀了一把DALL·E的“超強想象力”,隨意輸入一句話,DALL·E就能生成相應(yīng)圖片,這個圖片可能是網(wǎng)絡(luò)上已經(jīng)存在的圖片,也可能是根據(jù)自己的理解“畫”出的。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲輸入文本分別是:穿芭蕾舞裙遛狗的蘿卜、牛油果形狀的扶手椅、將上部的圖片素描化

DALL·E是如何實現(xiàn)先理解文字,再創(chuàng)造圖片的呢?

那首先要從理解token開始,語言學(xué)中對token的定義是詞符,或者標記。對于英語來說,每個字母就是一個token,每一個單詞就是一個tokens。

但在NLP中,tokens并不一定代表完整的單詞,如re、ug等沒有實際意義的字母組合也算一個tokens。

在最早提出Transformer架構(gòu)的論文《Attention is all you need》里,就提到了BPE(Byte-Pair Encoding)編碼方法,簡單來說,BPE就是通過分析訓(xùn)練集中每個單詞的組成,創(chuàng)建一個基礎(chǔ)詞匯表,詞匯表里涵蓋了一定數(shù)量最常用的tokens。

模型中tokens的數(shù)量是超參數(shù),也就是訓(xùn)練模型中人為規(guī)定的。

DALL·E同時包含著BPE編碼的文本和圖像詞匯表,分別涵蓋了16384、8192個tokens。

當(dāng)需要生成圖片時,它以單一數(shù)據(jù)流的形式,接收1280個文本和圖像的tokens(文本256個tokens,圖像1024個tokens),建立回歸模型。

與大多數(shù)Transformer模型一樣,DALL·E也采用自注意力機制(Self-Attention),分析文本內(nèi)部的聯(lián)系。

在DALL·E的64層自注意層中,每層都有一個注意力mask,就是為了使圖像的每個tokens都能匹配文本tokens。

OpenAI也表示,更具體的架構(gòu)和詳細訓(xùn)練過程會在之后的博客中公布。

二、普適的DALL·E:從改變物體關(guān)系到創(chuàng)造“不存在”

比起長篇累牘地描述自己模型的優(yōu)越性,OpenAI則是用大量實測案例證明了自己。

1、改變單個物體的某個屬性

如動圖所示,我們可以通過簡單地改變按鈕選項,將鐘改為花盆,再將綠色改為黃色,再將三角形改為正方形。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲原輸入文本:三角形綠色的鐘

2、同時改變多個物體以及其位置關(guān)系

將上方的物塊改成書,再將物體的上下疊放關(guān)系改成左右擺放。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

當(dāng)一句話含有多個主體時,例如“紅色的物塊放在綠色的物塊上面”,DALL·E需要分辨出這兩個物塊是兩個不同的物體,且他們之間的位置關(guān)系是上下疊放。

但OpenAI的研究人員也承認,隨著輸入文本中描述主體的增多和關(guān)系的復(fù)雜,DALL·E生成的圖像會更不準確。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲輸入文本:一堆立方體,紅色的立方體在綠色立方體的頂部,綠色立方體在中間,藍色立方體在底部。

3、可視化透視與背景

如動圖所示,將特寫圖改成前視圖,將背景從草地改成山上。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲原輸入文本:特寫圖下,在草地的水豚

除了二維圖像理解,DALL·E也能將某些類型的光學(xué)畸變(Optical Distortions)應(yīng)用到具體場景中,展現(xiàn)出“魚眼透視”或“球形全景態(tài)”圖等效果。

4、內(nèi)外部結(jié)構(gòu)

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲輸入文本:核桃橫截面圖

5、上下文推理

將文本目標“翻譯”成圖像這個問題,是沒有唯一答案的,且語言中常含有字面所沒有的引申義。

如“日出時,坐在田野上的水豚的繪畫像”這一文本目標,其中并沒有提到水豚的陰影,但根據(jù)經(jīng)驗我們也能知道,日出時,水豚必然會有由于陽光照射產(chǎn)生陰影。

因此,DALL·E就需要通過Transformer中的上下文推理,通過自己的“經(jīng)驗”,得到這一結(jié)論。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲輸入文本:日出時,坐在田野上的水豚的繪畫像。

6、不存在的物品

DALL·E還具有將完全不同的物品合成起來的能力,創(chuàng)造一些現(xiàn)實世界不可能出現(xiàn)的物體。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲輸入文本:豎琴狀的蝸牛

三、“zero-shot”踐行者:按詞分圖的CLIP

如果說DALL·E是GPT-3在圖像領(lǐng)域的延伸,那CLIP就是主打“zero-shot(零樣本)”,攻破視覺領(lǐng)域的深度學(xué)習(xí)方法的三大難題。

1、訓(xùn)練所需大量數(shù)據(jù)集的采集和標注,會導(dǎo)致的較高成本。

2、訓(xùn)練好的視覺模型一般只擅長一類任務(wù),遷移到其他任務(wù)需要花費巨大成本。

3、即使在基準測試中表現(xiàn)良好,在實際應(yīng)用中可能也不如人意。

對此,OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever曾發(fā)文聲稱,語言模型或是一種解法,我們可以通過文本,來修改和生成圖像。

基于這一愿景,CLIP應(yīng)運而生。

CLIP全稱是Contrastive Language-Image Pre-training,根據(jù)字面意思,就是對比文本-圖像預(yù)訓(xùn)練模型,只需要提供圖像類別的文本描述,就能將圖像進行分類。

怎么分?為什么能分?

CLIP靠的就是預(yù)訓(xùn)練階段,OpenAI從互聯(lián)網(wǎng)中收集的4億個文本-圖像對。接著,憑著與GPT-2/3相似的“zero-shot”設(shè)計,CLIP在不直接針對基準進行優(yōu)化的同時,表現(xiàn)出優(yōu)越的性能:魯棒性差距(robustness gap)縮小了75%,性能和深度殘差網(wǎng)絡(luò)ResNet50相當(dāng)。

也就是說,CLIP無需使用ResNet50同樣大的訓(xùn)練樣本,就達到了原始ResNet50在ImageNet數(shù)據(jù)集上的精確度。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

在眾多數(shù)據(jù)集上,CLIP都有著可以與ResNet50升級版ResNet101媲美的精度,其中ObjectNet數(shù)據(jù)集代表模型識別物體不同形態(tài)和背景的能力,ImageNet Rendition和ImageNet Sketch代表模型識別抽象物體的能力。

雖然二者在ImageNet測試集上的表現(xiàn)相差無幾,但非ImageNet設(shè)置更能代表CLIP優(yōu)秀的泛化能力。

為了識別出未曾見過的類別(圖像或文本),Zero-shot這一概念可以追溯到十年前,而目前計算機視覺領(lǐng)域應(yīng)用的重點是,利用自然語言作為靈活的預(yù)測空間,實現(xiàn)泛化和遷移。

在2013年,斯坦福大學(xué)的Richer Socher教授就曾在訓(xùn)練CIFAR-10的模型時,在詞向量嵌入空間中進行預(yù)測,并發(fā)現(xiàn)該模型可以預(yù)測兩個“未見過”的類別。

剛剛登上歷史舞臺、用自然語言學(xué)習(xí)視覺概念的CLIP則帶上了更多現(xiàn)代的架構(gòu),如用注意力機制理解文本的Transformer、探索自回歸語言建模的Virtex、研究掩蔽語言建模的ICMLM等。

四、詳細解析,CLIP的“足”與“不足”

在對CLIP有一個基本的認識后,我們將從四個方面詳細剖析CLIP。

1、從CLIP流程,看三大問題如何解決

簡單來說,CLIP的任務(wù)就是識別一張圖像所出現(xiàn)的各種視覺概念,并且學(xué)會它的名稱。比如當(dāng)任務(wù)是對貓和狗的圖片進行分類,CLIP模型就需要判斷,目前處理的這張圖片的文字描述是更偏向于“一張貓的照片”,還是一張狗的照片。

在具體實現(xiàn)上,有如下流程:預(yù)訓(xùn)練圖像編碼器和文本編碼器,得到相互匹配的圖像和文本,基于此,CLIP將轉(zhuǎn)換為zero-shot分類器。此外,數(shù)據(jù)集的所有類會被轉(zhuǎn)換為諸如“一只狗的照片”之類的標簽,以此標簽找到能夠最佳配對的圖像。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

在這個過程中,CLIP也能解決之前提到的三大問題。

1、昂貴的數(shù)據(jù)集:25000人參與了ImageNet中1400萬張圖片的標注。與此相比,CLIP使用的是互聯(lián)網(wǎng)上公開的文本-圖像對,在標注方面,也利用自監(jiān)督學(xué)習(xí)、對比方法、自訓(xùn)練方法以及生成建模等方法減少對人工標注的依賴。

2、只適用于單一任務(wù):由于已經(jīng)學(xué)會圖片中的各種視覺概念,所以CLIP可以執(zhí)行各種視覺任務(wù),而不需要額外的訓(xùn)練和調(diào)整。如下也展示了CLIP模型識別各類型圖像中視覺概念,無論是食物、場景還是地圖,都是有不錯的表現(xiàn)。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

3、實際應(yīng)用性能不佳:基準測試中表現(xiàn)好的模型在實際應(yīng)用中很可能并沒有這么好的水平。就像學(xué)生為了準備考試,只重復(fù)復(fù)習(xí)之前考過的題型一樣,模型往往也僅針對基準測試中的性能進行優(yōu)化。但CLIP模型可以直接在基準上進行評估,而不必在數(shù)據(jù)上進行訓(xùn)練。

2、CLIP的“足”:高效且靈活通用。

CLIP需要從未經(jīng)標注、變化多端的數(shù)據(jù)中進行預(yù)訓(xùn)練,且要在“zero-shot”,即零樣本的情況下使用。GPT-2/3模型已經(jīng)驗證了該思路的可行性,但這類模型需要大量的模型計算,為了減少計算量,OpenAI的研究人員采用了兩種算法:對比目標(contrastive objective)和Vision Transformer。前者是為了將文本和圖像連接起來,后者使計算效率比標準分類模型提高了三倍。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

▲CLIP模型在準確率和處理圖像大小上都優(yōu)于其他兩種算法。

由于CLIP模型可以直接從自然語言中學(xué)習(xí)許多視覺概念,因此它們比現(xiàn)有的ImageNet模型更加靈活與通用。OpenAI的研究人員在30多個數(shù)據(jù)集上評估了CLIP的“zero-shot”性能,包括細粒度物體分類,地理定位,視頻中的動作識別和OCR(光學(xué)字符識別)等。

下圖也展示了12種模型在27種數(shù)據(jù)集準確率和處理圖像大小的比較。CLIP-ViT和CLIP-ResNet兩類CLIP方法都遙遙領(lǐng)先。

文本秒生成圖像,震驚業(yè)界!詳解OpenAI兩大AI模型

3、CLIP的“不足”:復(fù)雜任務(wù)仍有差距

盡管CLIP在識別常見物體上表現(xiàn)良好,但在如計算圖像中物品數(shù)量、預(yù)測圖片中物品的位置距離等更抽象、復(fù)雜的任務(wù)上,“zero-shot”CLIP表現(xiàn)僅略勝于隨機分類,而在區(qū)分汽車模型、飛機型號或者花卉種類時,CLIP也不好。

且對于預(yù)訓(xùn)練階段沒有出現(xiàn)過的圖像,CLIP泛化能力也很差。例如,盡管CLIP學(xué)習(xí)了OCR,但評估MNIST數(shù)據(jù)集的手寫數(shù)字上,“zero-shot”CLIP準確率只達到了88%,遠低于人類在數(shù)據(jù)集中的99.75%精確度。最后,研究人員發(fā)現(xiàn),CLIP的“zero-shot”分類器對單詞構(gòu)造或短語構(gòu)造比較敏感,但有時還是需要試驗和錯誤“提示引擎”的輔助,才能表現(xiàn)良好。

4、CLIP未來:算法公正仍需努力

研究人員也在博客中提到,CLIP更大的潛力是允許人們設(shè)計自己的分類,無需使用特定任務(wù)的訓(xùn)練數(shù)據(jù)。因為分類的定義方法會影響模型的性能和偏差。

如果CLIP中添加的標簽包括Fairface種族標簽(FairFace是一個涵蓋不同人種、性別的面部圖像數(shù)據(jù)集)和少數(shù)負面名詞,例如“犯罪”,“動物”等,那么很可能大約32.3%年齡為0至20歲的人像會被劃分到負面類別中,但在添加“兒童”這一標簽后,負面類別的比例大約下降到8.7%。

此外,由于CLIP不需要針對特定任務(wù)訓(xùn)練數(shù)據(jù),所以能夠更輕松地完成一些任務(wù)。但這些任務(wù)會不會涉及到特定的隱私和監(jiān)視風(fēng)險,需要進一步的研究。

結(jié)語:模型很厲害,監(jiān)管需謹慎

無論是DALL·E還是CLIP,都采用不同的方法在多模態(tài)學(xué)習(xí)領(lǐng)域跨出了令人驚喜的一步。

但OpenAI的研究人員也反復(fù)強調(diào),越強大的模型一旦失控,后果也越加可怕,所以兩個模型后續(xù)的關(guān)于“公平性”、“隱私性”等問題研究也會繼續(xù)進行。

今后,文本和圖像的界限是否會進一步被打破,我們能否能順暢地用文字“控制”圖像的分類和生成,在現(xiàn)實生活中將會帶來怎樣的改變,都值得我們期待。

來源:OpenAI