2020年,通用模型產(chǎn)生了經(jīng)濟(jì)價值,特別是GPT-3,它的出現(xiàn)證明了大型語言模型具有驚人的語言能力,并且在執(zhí)行其他任務(wù)方面也毫不遜色。
2021年,OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever預(yù)測語言模型會轉(zhuǎn)向視覺領(lǐng)域。他說:“下一代模型,或許可以針對文本輸入,從而編輯和生成圖像。”
聽話聽音!OpenAI 踐行了這一想法,幾個小時前,OpenAI通過官方推特發(fā)布了兩個嶄新的網(wǎng)絡(luò),一個叫DALL-E(參見今天推送的頭條),能夠通過給定的文本創(chuàng)建出圖片;一個叫CLIP,能夠?qū)D像映射到文本描述的類別中。
其中,CLIP可以通過自然語言監(jiān)督有效學(xué)習(xí)視覺概念,從而解決目前深度學(xué)習(xí)主流方法存在的幾個問題:
1.需要大量的訓(xùn)練數(shù)據(jù)集,從而導(dǎo)致較高的創(chuàng)建成本。
2.標(biāo)準(zhǔn)的視覺模型,往往只擅長一類任務(wù),遷移到其他任務(wù),需要花費(fèi)巨大的成本。
3.在基準(zhǔn)上表現(xiàn)良好的模型,在測試中往往不盡人意。
具體而言,OpenAI從互聯(lián)網(wǎng)收集的4億(圖像、文本)對的數(shù)據(jù)集,在預(yù)訓(xùn)練之后,用自然語言描述所學(xué)的視覺概念,從而使模型能夠在zero-shot狀態(tài)下轉(zhuǎn)移到下游任務(wù)。這種設(shè)計類似于GPT-2和GPT-3的“zero-shot”。
這一點(diǎn)非常關(guān)鍵,因?yàn)檫@意味著,可以不直接針對基準(zhǔn)進(jìn)行優(yōu)化,同時表現(xiàn)出了優(yōu)越的性能:穩(wěn)健性差距(robustness gap)縮小了75%,性能和ResNet507相當(dāng)。換句話說。無需使用其訓(xùn)練的128萬個訓(xùn)練樣本中的任何一個,即可與原始ResNet-50 在 Image Net Zero-shot的精確度相匹配。
如上圖所示,雖然兩個模型在ImageNet測試集上的準(zhǔn)確度相差無幾,但CLIP的性能更能代表在非ImageNet設(shè)置下的表現(xiàn)。
CLIP網(wǎng)絡(luò)中做了大量的工作是關(guān)于zero-shot 遷移的學(xué)習(xí)、自然語言監(jiān)督、多模態(tài)學(xué)習(xí)。其實(shí),關(guān)于零數(shù)據(jù)學(xué)習(xí)的想法可以追溯到十年前,但是最近在計算機(jī)視覺中火了起來。零數(shù)據(jù)學(xué)習(xí)的一個重點(diǎn)是:利用自然語言作為靈活的預(yù)測空間,從而實(shí)現(xiàn)泛化和遷移。另外,在2013年,斯坦福大學(xué)的Richer Socher通過訓(xùn)練CIFAR-10上的一個模型,在詞向量嵌入空間中進(jìn)行預(yù)測,并表明模型可以預(yù)測兩個“未見過”的類別。Richer的工作提供了一個概念證明。
CLIP是過去一年,從自然語言監(jiān)督中學(xué)習(xí)視覺表征工作中的一部分。CLIP使用了更現(xiàn)代的架構(gòu),如Transformer,包括探索自回歸語言建模的Virtex,研究掩蔽語言建模的ICMLM等等。
1
方法
前面也提到,CLIP訓(xùn)練的數(shù)據(jù)來源于互聯(lián)網(wǎng)上4億數(shù)據(jù)對。用這些數(shù)據(jù),CLIP需要完成的任務(wù)是:給定一幅圖像,在32,768個隨機(jī)抽樣的文本片段中,找到能夠匹配的那一個。
完成這個任務(wù),需要CLIP模型學(xué)會識別圖像中的各種視覺概念,并將概念和圖片相關(guān)聯(lián)。因此,CLIP模型可以應(yīng)用于幾乎任意的視覺分類任務(wù)。
例如,如果一個數(shù)據(jù)集的任務(wù)是對狗與貓的照片進(jìn)行分類,而CLIP模型預(yù)測 “一張狗的照片 ”和 “一張貓的照片 ”這兩個文字描述哪個更匹配。
如上圖所示,CLIP網(wǎng)絡(luò)工作流程:預(yù)訓(xùn)練圖編碼器和文本編碼器,以預(yù)測數(shù)據(jù)集中哪些圖像與哪些文本配對。然后,將CLIP轉(zhuǎn)換為zero-shot分類器。
此外,將數(shù)據(jù)集的所有類轉(zhuǎn)換為諸如“一只狗的照片”之類的標(biāo)簽,并預(yù)測最佳配對的圖像。
總體而言,CLIP能夠解決:
1.昂貴的數(shù)據(jù)集:ImageNet中1400萬張圖片的標(biāo)注,動用了25,000名勞動力。相比之下,CLIP使用的是已經(jīng)在互聯(lián)網(wǎng)上公開提供的文本-圖像對。自我監(jiān)督學(xué)習(xí)、對比方法、自我訓(xùn)練方法和生成式建模也可以減少對標(biāo)注圖像的依賴。
2.任務(wù)單一:CLIP可以適用于執(zhí)行各種視覺分類任務(wù),而不需要額外的訓(xùn)練。
3.實(shí)際應(yīng)用性能不佳:深度學(xué)習(xí)中“基準(zhǔn)性能”與“實(shí)際性能”之間存在差距是一直以來的“痛”。這種差距之所以會出現(xiàn),是因?yàn)槟P汀白鞅住保磧H優(yōu)化其在基準(zhǔn)上的性能,就像一個學(xué)生僅僅通過研究過去幾年的試題就能通過考試一樣。
CLIP模型可以不必在數(shù)據(jù)上訓(xùn)練,而是直接在基準(zhǔn)上進(jìn)行評估,因此無法以這種方式來“作弊”。此外,為了驗(yàn)證“作弊的假設(shè)”,測量了CLIP在有能力“研究” ImageNet時性能會如何變化。
當(dāng)線性分類器根據(jù)CLIP的特性安裝時,線性分類器能夠?qū)LIP在ImageNet測試儀上的準(zhǔn)確性提高近10%。但是,在評估“魯棒性”的性能時,這個分類器在其余7個數(shù)據(jù)集的評估套件中并沒有取得更好的平均表現(xiàn)。
2
優(yōu)勢1. CLIP非常高效
CLIP從未經(jīng)過濾的、變化多端的、極其嘈雜的數(shù)據(jù)中學(xué)習(xí),且希望能夠在零樣本的情況下使用。從GPT-2和GPT-3中,我們可以知道,基于此類數(shù)據(jù)訓(xùn)練的模型可以實(shí)現(xiàn)出色的零樣本性能;但是,這類模型需要大量的訓(xùn)練計算。為了減少所需的計算,我們專注研究算法,以提高我們所使用方法的訓(xùn)練效率。我們介紹了兩種能夠節(jié)省大量計算的算法。
第一個算法是采用對比目標(biāo)(contrastive objective),將文本與圖像連接起來。最初我們探索了一種類似于VirTex的圖像到文本的方法,但這種方法在拓展以實(shí)現(xiàn)最先進(jìn)的性能時遇到了困難。在一些小型與中型實(shí)驗(yàn)中,我們發(fā)現(xiàn)CLIP所使用的對比目標(biāo)在零樣本ImageNet分類中的效率提高了4到10倍。
第二個算法是采用Vision Transformer,這個算法使我們的計算效率比在標(biāo)準(zhǔn)ResNet上提高了3倍。最后,性能最好的CLIP模型與現(xiàn)有的大規(guī)模圖像模型相似,在256個GPU上訓(xùn)練了2周。我們最初是嘗試訓(xùn)練圖像到字幕的語言模型,但發(fā)現(xiàn)這種方法在零樣本遷移方面遇到了困難。在16 GPU的日實(shí)驗(yàn)中,一個語言在訓(xùn)練了4億張圖像后,在ImageNet上僅達(dá)到16%的準(zhǔn)確性。CLIP的效率更高,且以大約快10倍的速度達(dá)到了相同的準(zhǔn)確度。
2. CLIP靈活且通用
由于CLIP模型可以直接從自然語言中學(xué)習(xí)許多視覺概念,因此它們比現(xiàn)有的ImageNet模型更加靈活與通用。我們發(fā)現(xiàn),CLIP模型能夠在零樣本下執(zhí)行許多不同的任務(wù)。為了驗(yàn)證這一點(diǎn),我們在30多個數(shù)據(jù)集上測量了CLIP的零樣本性能,任務(wù)包括細(xì)粒度物體分類,地理定位,視頻中的動作識別和OCR等。其中,學(xué)習(xí)OCR時,CLIP取得了在標(biāo)準(zhǔn)ImageNet模型中所無法實(shí)現(xiàn)的令人興奮的效果。
比如,我們對每個零樣本分類器的隨機(jī)非櫻桃采摘預(yù)測進(jìn)行了可視化。這一發(fā)現(xiàn)也反映在使用線性探測學(xué)習(xí)評估的標(biāo)準(zhǔn)表示中。
我們測試了26個不同的遷移數(shù)據(jù)集,其中最佳的CLIP模型在20個數(shù)據(jù)集上的表現(xiàn)都比最佳的公開ImageNet模型(Noisy Student EfficientNet-L2)出色。
在27個測試任務(wù)的數(shù)據(jù)集中,測試任務(wù)包括細(xì)粒度物體分類,OCR,視頻活動識別以及地理定位,我們發(fā)現(xiàn)CLIP模型學(xué)會了使用效果更廣泛的圖像表示。與先前的10種方法相比,CLIP模型的計算效率也更高。
3
局限性
盡管CLIP在識別常見物體上的表現(xiàn)良好,但在一些更抽象或系統(tǒng)的任務(wù)(例如計算圖像中的物體數(shù)量)和更復(fù)雜的任務(wù)(例如預(yù)測照片中距離最近的汽車有多近)上卻遇到了困難。
在這兩個數(shù)據(jù)集上,零樣本CLIP僅僅比隨機(jī)猜測要好一點(diǎn)點(diǎn)。與其他模型相比,在非常細(xì)粒度分類的任務(wù)上,例如區(qū)分汽車模型、飛機(jī)型號或花卉種類時,零樣本CLIP的表現(xiàn)也不好。
對于不包含在其預(yù)訓(xùn)練數(shù)據(jù)集內(nèi)的圖像,CLIP進(jìn)行泛化的能力也很差。
例如,盡管CLIP學(xué)習(xí)了功能強(qiáng)大的OCR系統(tǒng),但從MNIST數(shù)據(jù)集的手寫數(shù)字上進(jìn)行評估時,零樣本CLIP只能達(dá)到88%的準(zhǔn)確度,遠(yuǎn)遠(yuǎn)低于人類在數(shù)據(jù)集中的99.75%精確度。
最后,我們觀察到,CLIP的零樣本分類器對單詞構(gòu)造或短語構(gòu)造比較敏感,有時還需要試驗(yàn)和錯誤“提示引擎”才能表現(xiàn)良好。
4
更廣的影響
CLIP允許人們設(shè)計自己的分類器,且無需使用任務(wù)特定的訓(xùn)練數(shù)據(jù)。
設(shè)計分類的方式會嚴(yán)重影響模型的性能和模型的偏差。例如,我們發(fā)現(xiàn),如果給定一組標(biāo)簽,其中包括Fairface種族標(biāo)簽和少數(shù)令人討厭的術(shù)語,例如“犯罪”,“動物”等,那么該模型很可能將大約32.3%的年齡為0至20歲的人的圖像化為糟糕的類別。但是,當(dāng)我們添加“兒童”這一類別時,分類比率將下降到大約8.7%。
此外,由于CLIP不需要任務(wù)特定的訓(xùn)練數(shù)據(jù),因此它可以更輕松地解鎖某些任務(wù)。
一些任務(wù)可能會增加隱私或監(jiān)視相關(guān)的風(fēng)險,因此我們通過研究CLIP在名人識別方面的表現(xiàn)來探索這一擔(dān)憂。對100個名人圖像進(jìn)行識別時,CLIP實(shí)際分類的準(zhǔn)確率最高為59.2%,對1000個名人進(jìn)行識別時,準(zhǔn)確率最高為43.3%。值得注意的是,盡管通過任務(wù)不可知的預(yù)訓(xùn)練可以達(dá)到這些效果,但與廣泛使用的生產(chǎn)級別模型相比,該性能并不具有競爭力。
5
結(jié)論
借助CLIP,我們測試了互聯(lián)網(wǎng)的自然語言上與任務(wù)無關(guān)的預(yù)訓(xùn)練(這種預(yù)訓(xùn)練為NLP的最新突破提供了動力)是否可以用來改善其他領(lǐng)域的深度學(xué)習(xí)性能。
目前,CLIP應(yīng)用于計算機(jī)視覺所取得的效果令我們非常興奮。像GPT家族一樣,CLIP在預(yù)訓(xùn)練期間學(xué)習(xí)了我們通過零樣本遷移所展示的各種任務(wù)。
CLIP在ImageNet上的表現(xiàn)也令人驚喜,其中零樣本評估展示了CLIP模型的強(qiáng)大功能。
責(zé)任編輯:lq
-
語言模型
+關(guān)注
關(guān)注
0文章
558瀏覽量
10678 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25280 -
OpenAI
+關(guān)注
關(guān)注
9文章
1202瀏覽量
8649
原文標(biāo)題:OpenAI又放大招:連接文本與圖像的CLIP,在ImageNet上效果媲美ResNet50
文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
DeepSeek開源新版R1 媲美OpenAI o3
把樹莓派打造成識別文本的“神器”!

揭秘Cu Clip封裝:如何助力半導(dǎo)體芯片飛躍

OpenAI提交新商標(biāo)的申請
OpenAI失信,未能在2025年之前提供opt-out工具
OpenAI暫不推出Sora視頻生成模型API

OpenAI未來3周舉行12場新品發(fā)布會 我們能期待些什么? #OpenAI #人工智能 #AI
新品 | 可拼接燈板矩陣 Puzzle Unit &amp; 創(chuàng)意固定套件CLIP-A/CLIP-B

評論