女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對比學(xué)習(xí)的關(guān)鍵技術(shù)和基本應(yīng)用分析

深度學(xué)習(xí)自然語言處理 ? 來源:RUC AI Box ? 作者:楊錦霞 ? 2022-03-09 16:28 ? 次閱讀

對比學(xué)習(xí)可以應(yīng)用于監(jiān)督和無監(jiān)督的場景下,目前在CV、NLP等領(lǐng)域中取得了較好的性能。本文對對比學(xué)習(xí)進行基礎(chǔ)介紹,以及其在NLP和多模態(tài)中的應(yīng)用。

引言

對比學(xué)習(xí)的主要思想是相似的樣本的表示相近,而不相似的遠離。對比學(xué)習(xí)可以應(yīng)用于監(jiān)督和無監(jiān)督的場景下,并且目前在CV、NLP等領(lǐng)域中取得了較好的性能。本文先對對比學(xué)習(xí)進行基礎(chǔ)介紹,之后會介紹對比學(xué)習(xí)在NLP和多模態(tài)中的應(yīng)用,歡迎大家批評和交流。

對比學(xué)習(xí)基礎(chǔ)介紹

損失函數(shù)

1. NCE[1](Noise-contrastive estimation):是估計統(tǒng)計模型的參數(shù)的一種方法,主要通過學(xué)習(xí)數(shù)據(jù)分布和噪聲分布之間的區(qū)別。下面給出NCE的原始形式,它包含一個正負樣本對。在之后的許多研究工作中,包含多個正樣本或負樣本也被廣義的稱為NCE。下式中x表示數(shù)據(jù),y為噪聲。

a98c9e70-9dca-11ec-952b-dac502259ad0.png

2. InfoNCE[2]:在CPC中提出,使用分類交叉熵損失在一組負樣本中識別正樣本。原論文給出的式子如下:

a9a2fdfa-9dca-11ec-952b-dac502259ad0.png

3. Triplet Loss:三元組損失,最初是由谷歌在FaceNet[3]中提出,主要用于識別在不同角度和姿勢下的人臉。下式中加號在右下角表示max(x,0)。

aa52e85a-9dca-11ec-952b-dac502259ad0.png

4. N-pair Loss[4]:Multi-Class N-pair loss,是將Triplet Loss泛化到與多個負樣本進行對比。

aa64db6e-9dca-11ec-952b-dac502259ad0.png

衡量標(biāo)準

衡量指標(biāo)由(Wang & Isola, 2020)[5]提出,文中說明了對比學(xué)習(xí)算法具有兩個關(guān)鍵屬性alignment和uniformity,很多有效的對比學(xué)習(xí)算法正是較好地滿足了這兩種性質(zhì)。

alignment:衡量正例樣本間的近似程度

uniformity:衡量特征向量在超球體上的分布的均勻性

文章同時給出了衡量兩種性質(zhì)的評價指標(biāo),并同時指出優(yōu)化這兩個指標(biāo)會在下游任務(wù)上表現(xiàn)更好。

aa8f6da2-9dca-11ec-952b-dac502259ad0.png

關(guān)鍵技術(shù)

1. 正負樣本的構(gòu)造

數(shù)據(jù)增強:給定訓(xùn)練數(shù)據(jù),需要進行數(shù)據(jù)增強來得到更多正樣本。正確有效的數(shù)據(jù)增強技術(shù)對于學(xué)習(xí)好的表征至關(guān)重要。比如SimCLR[6]的實驗表明,圖片的隨機裁剪和顏色失真是最有效的兩種方式。而對于句子來說,刪除或替換可能會導(dǎo)致語義的改變。

負樣本構(gòu)造:一般對比學(xué)習(xí)中使用in-batch negatives,將一個batch內(nèi)的不相關(guān)數(shù)據(jù)看作負樣本。

多個模態(tài):正樣本對可以是兩種模態(tài)的數(shù)據(jù),比如圖片和圖片對應(yīng)描述。

2. 大的batch size

在訓(xùn)練期間使用大的batch size是許多對比學(xué)習(xí)方法成功的一個關(guān)鍵因素。當(dāng)batch size足夠大時,能夠提供大量的負樣本,使得模型學(xué)習(xí)更好表征來區(qū)別不同樣本。

對比學(xué)習(xí)在NLP領(lǐng)域的應(yīng)用

A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation

受多視圖學(xué)習(xí)的啟發(fā),這篇文章主要提出了一種Cutoff的數(shù)據(jù)增強方法,包含以下三種策略:

Token cutoff:刪除選中的token信息。為了防止信息泄露,三種類型的編碼都被改為0。

Feature cutoff:刪除特征,將整列置為0。。

Span cutoff:刪除連續(xù)的文本塊。

aaac500c-9dca-11ec-952b-dac502259ad0.png

作者將Cutoff應(yīng)用到自然語言理解和機器翻譯任務(wù)上去,實驗結(jié)果表明這種簡單的數(shù)據(jù)增強方式得到了與基線相當(dāng)或更好的結(jié)果。目前,Cutoff也作為一種常用的數(shù)據(jù)增強方法應(yīng)用到不同的對比學(xué)習(xí)模型中去。

CERT:Contrastive Self-supervised Learning for Language Understanding

CERT主要流程圖如下??梢钥闯?,在預(yù)訓(xùn)練Bert的基礎(chǔ)上,CERT增加了CSSL預(yù)訓(xùn)練任務(wù)來得到更好的表征。

aac2ab4a-9dca-11ec-952b-dac502259ad0.png

本文首先通過back-translation方式進行數(shù)據(jù)增強,使用不同語言的翻譯模型來創(chuàng)建不同的正樣本。

CSSL Pretraining:使用類似MoCo[7]的對比學(xué)習(xí)框架,采用一個隊列去存儲數(shù)據(jù)增強后的keys,并且使用一種動量更新的方法對該隊列進行更新。給定句子q,設(shè)隊列中存有與其互為正樣本的k+,故對比損失定義如下:

aaf3bb7c-9dca-11ec-952b-dac502259ad0.png

作者測試了CERT在GLUE 數(shù)據(jù)集的上的性能。在11個任務(wù)中,CERT在7個任務(wù)上優(yōu)于BERT,2個任務(wù)上效果相當(dāng),整體性能優(yōu)于BERT。這進一步證明了對比自監(jiān)督學(xué)習(xí)是一個學(xué)習(xí)更好的語言表征的方法。

SimCSE: Simple Contrastive Learning of Sentence Embeddings(EMNLP2021)

SimCSE有兩個變體:Unsupervised SimCSE和Supervised SimCSE,主要不同在于對比學(xué)習(xí)的正負例的構(gòu)造。

Unsupervised SimCSE:

ab106cc2-9dca-11ec-952b-dac502259ad0.png

正樣本:一個句子通過編碼器進行兩次編碼,兩次使用不同的dropout 掩碼,

ab542282-9dca-11ec-952b-dac502259ad0.png

Supervised SimCSE:

ab6acbfe-9dca-11ec-952b-dac502259ad0.png

使用NLI(Natural Language Inference)數(shù)據(jù)集,利用其標(biāo)注的句子之間的關(guān)系來構(gòu)造對比學(xué)習(xí)的正負樣本。如上圖所示,給定一個前提

ac071cd4-9dca-11ec-952b-dac502259ad0.png

本文作者在多個數(shù)據(jù)集上評估了SimCSE的性能,發(fā)現(xiàn)在STS(語義文本相似性)系列任務(wù)上,SimCSE在無監(jiān)督和有監(jiān)督的條件下均大幅超越了之前的SOTA模型。

上面提到了衡量對比學(xué)習(xí)質(zhì)量的指標(biāo):alignment和uniformity,作者將其進行了可視化,可以發(fā)現(xiàn)所有模型的uniformity都有所改進,表明預(yù)訓(xùn)練BERT的語義向量分布的奇異性被逐步減弱。

ac2583c2-9dca-11ec-952b-dac502259ad0.png

ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding

ESimCSE是對上述SimCSE構(gòu)建正負樣本方法的改進,主要出發(fā)點如下:

句子的長度信息通常會被編碼,因此無監(jiān)督的SimCSE中的每個正對長度是相同的。故用這些正對訓(xùn)練的無監(jiān)督SimCSE 往往會認為長度相同或相似的句子在語義上更相似。

Momentum Contrast(動量對比)最早是在MoCo提出,是一種能夠有效的擴展負例對并同時緩解內(nèi)存限制的一種方法。ESimCSE借鑒了這一思想來擴展負例。

ac3b3212-9dca-11ec-952b-dac502259ad0.png

正例:作者先探究了句子對的長度差對SimCSE的影響,當(dāng)長度差大于3時無監(jiān)督SimCSE模型的效果大幅度降低。為了降低句子長度差異的影響,作者嘗試了隨機插入、隨機刪除和詞重復(fù)三種方法構(gòu)建正例,發(fā)現(xiàn)前兩者導(dǎo)致語義相似度下降明顯,而詞重復(fù)可以保持較高的相似度,同時緩解了句子長度帶來的問題。故使用word repetition進行正例構(gòu)造。

負例:① in-batch negatives ② 動量更新隊列中的樣本

故損失函數(shù)如下:

ac5200b4-9dca-11ec-952b-dac502259ad0.png

實驗表明,ESimCSE整體效果優(yōu)于無監(jiān)督的SimCSE,在語義文本相似性(STS)任務(wù)上效果優(yōu)于BERTbase版的SimCSE 2%。

對比學(xué)習(xí)在多模態(tài)中的應(yīng)用

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision (ICML 2021)

本文提出ALIGN模型,作者利用了超過10億的圖像文本對的噪聲數(shù)據(jù)集,沒有進行細致的數(shù)據(jù)清洗或處理。ALIGN使用一個簡單的雙編碼器結(jié)構(gòu),基于對比學(xué)習(xí)損失來對齊圖像和文本對的視覺和語言表示 。作者證明了,數(shù)據(jù)規(guī)模的巨大提升可以彌補數(shù)據(jù)內(nèi)部存在的噪聲,因此即使使用簡單的對比學(xué)習(xí)方式,模型也能達到SOTA的特征表示。

ac685f1c-9dca-11ec-952b-dac502259ad0.png

在預(yù)訓(xùn)練中,將匹配的圖像-文本對視為正樣本,并將當(dāng)前訓(xùn)練batch中的其他隨機圖像-文本對視為負樣本。損失函數(shù)如下:

text-to-imageloss

ALIGN模型得到的對齊的圖像和文本表示在跨模態(tài)匹配/檢索任務(wù)中實現(xiàn)了SOTA效果。同時ALIGN模型也適用于zero-shot圖像分類、圖像分類等任務(wù)。例如,ALIGN在ImageNet中達到了88.64%的Top-1準確率 。

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021)

作者提出了 ALign BEfore Fuse(ALBEF) ,首先用一個圖像編碼器和一個文本編碼器獨立地對圖像和文本進行編碼。然后利用多模態(tài)編碼器,通過跨模態(tài)注意,將圖像特征與文本特征進行融合。并提出動量蒸餾(Momentum Distillation)對抗數(shù)據(jù)中的噪聲,得到更好的表征。

acac042e-9dca-11ec-952b-dac502259ad0.png

ALBEF預(yù)訓(xùn)練任務(wù):圖像-文本對比學(xué)習(xí)(ITC) 、掩蔽語言建模(MLM) 和圖像-文本匹配(ITM) 。

ITC:Image-Text Contrastive Learning,目的是在融合前學(xué)習(xí)到更好的單模態(tài)表征。受MoCo的啟發(fā),作者維護了兩個隊列來存儲最近的M個圖像-文本表示,故對于每個圖像和文本,作者計算圖像到文本和文本到圖像的相似度如下:

accc1674-9dca-11ec-952b-dac502259ad0.png

為ground truth(one-hot 編碼),ITC定義為p和y之間的交叉熵:

ad39573e-9dca-11ec-952b-dac502259ad0.png

MLM:Masked Language Modeling,利用給定圖像和上下文文本來預(yù)測mask詞

ITM:Image-Text Matching,把圖像和文本是否匹配看作二分類問題

故整個預(yù)訓(xùn)練的損失函數(shù)為上述三者的和。

由于用于預(yù)訓(xùn)練的數(shù)據(jù)集往往含有噪聲,作者提出同時從動量模型生產(chǎn)的偽標(biāo)簽中去學(xué)習(xí)。將上述相似度計算公式中的

adadfc42-9dca-11ec-952b-dac502259ad0.png

同時,作者從互信息最大化的角度來證明了ALBEF實際上最大化了圖像-文本對的不同views之間的互信息的下界。

與現(xiàn)有的方法相比,ALBEF在多個下游視覺語言任務(wù)上達到了SOTA的效果。

VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

本文提出VLMO模型,既可以作為融合編碼器去做分類任務(wù),也可以作為雙編碼器去做檢索任務(wù)。VLMO引入一個 Mixture-of-Modality-Experts(MoME)的Transformer,能夠根據(jù)輸入數(shù)據(jù)的類型選擇不同的expert,如下圖所示。

add054d6-9dca-11ec-952b-dac502259ad0.png

VLMO的預(yù)訓(xùn)練任務(wù)與前面類似,通過圖像-文本對比學(xué)習(xí)、掩碼語言建模和圖像-文本對匹配進行聯(lián)合預(yù)訓(xùn)練。

其中,Image-Text Contrast預(yù)訓(xùn)練任務(wù)具體為:給定一個batch的圖像文本對,圖像文本對比學(xué)習(xí)的目標(biāo)是從n*n個可能的圖像文本對中預(yù)測匹配的對,事實上在這一batch中有N個正樣本對,之后使用交叉熵損失進行訓(xùn)練。下式中,h為編碼,p為softmax歸一化后的相似性。

ae354f62-9dca-11ec-952b-dac502259ad0.png

本文巧妙的地方在于采用了分階段的預(yù)訓(xùn)練方式,得到了更泛化的表示。

ae5517b6-9dca-11ec-952b-dac502259ad0.png

VLMO模型在VQA等多模態(tài)下游任務(wù)上進行微調(diào),效果達到了SOTA。

審核編輯:gt

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6223

    瀏覽量

    107519
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22481

原文標(biāo)題:對比學(xué)習(xí)在NLP和多模態(tài)領(lǐng)域的應(yīng)用

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    電機系統(tǒng)節(jié)能關(guān)鍵技術(shù)及展望

    節(jié)約能源既是我國經(jīng)濟和社會發(fā)展的一項長遠戰(zhàn)略和基本國策,也是當(dāng)前的緊迫任務(wù)。論文在深入分析國內(nèi)外電機系統(tǒng)節(jié)能現(xiàn)狀和介紹先進的節(jié)能關(guān)鍵技術(shù)的基礎(chǔ)上,指出了現(xiàn)階段我國在電機系統(tǒng)節(jié)能方面存在的問題,并結(jié)合
    發(fā)表于 04-30 00:43

    解決錫膏焊接空洞率的關(guān)鍵技術(shù)

    抑制錫膏焊接空洞是確保焊接質(zhì)量的關(guān)鍵技術(shù),需從材料、工藝、設(shè)備等多方面進行優(yōu)化,傲??萍级ㄖ苹_發(fā)的焊膏,可以顯著降低焊接空洞率。
    的頭像 發(fā)表于 04-29 08:41 ?392次閱讀
    解決錫膏焊接空洞率的<b class='flag-5'>關(guān)鍵技術(shù)</b>

    淺談華為通信大模型的關(guān)鍵技術(shù)

    推理、幻覺糾正及多維聯(lián)合決策等方面創(chuàng)新成果的肯定。為此,我們將分三期深入解讀華為通信大模型無線的關(guān)鍵技術(shù)和價值應(yīng)用,本期聚焦于通信大模型的部署、訓(xùn)練和推理的關(guān)鍵技術(shù)。
    的頭像 發(fā)表于 03-26 14:35 ?466次閱讀

    國產(chǎn)高性能晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)

    國產(chǎn)高性能晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)
    的頭像 發(fā)表于 02-20 10:26 ?523次閱讀
    國產(chǎn)高性能晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車<b class='flag-5'>關(guān)鍵技術(shù)</b>

    SOA關(guān)鍵技術(shù)專利分析(一)

    與 SOA 相關(guān)的研究都集中在技術(shù)討論或市場研究上,但未能指出關(guān)鍵的 SOA 技術(shù)和 SOA 技術(shù)的發(fā)展趨勢。因此,本研究對 SOA 專利進行了分析
    的頭像 發(fā)表于 12-19 09:52 ?353次閱讀
    SOA<b class='flag-5'>關(guān)鍵技術(shù)</b>專利<b class='flag-5'>分析</b>(一)

    云計算HPC軟件關(guān)鍵技術(shù)

    云計算HPC軟件關(guān)鍵技術(shù)涉及系統(tǒng)架構(gòu)、處理器技術(shù)、操作系統(tǒng)、計算加速、網(wǎng)絡(luò)技術(shù)以及軟件優(yōu)化等多個方面。下面,AI部落小編帶您探討云計算HPC軟件的關(guān)鍵技術(shù)
    的頭像 發(fā)表于 12-18 11:23 ?377次閱讀

    雷可達《安防監(jiān)視雷達關(guān)鍵技術(shù)的研究與應(yīng)用》通過科技成果評價

    近日,《安防監(jiān)視雷達關(guān)鍵技術(shù)的研究與應(yīng)用》科技成果評價會在子公司武漢雷可達舉行。
    的頭像 發(fā)表于 12-13 10:31 ?414次閱讀

    哪些關(guān)鍵技術(shù)助力智慧園區(qū)建設(shè)

    在如今數(shù)字化轉(zhuǎn)型的浪潮中,智慧園區(qū)已經(jīng)成為城市發(fā)展的重要組成部分。建設(shè)智慧園區(qū)需要借助一系列關(guān)鍵技術(shù)來實現(xiàn)其智能化、高效化和可持續(xù)發(fā)展。其中,物聯(lián)網(wǎng)技術(shù)被認為是連接各類設(shè)備、傳感器和系統(tǒng)的核心技術(shù)
    的頭像 發(fā)表于 11-29 13:58 ?323次閱讀

    實現(xiàn)智慧城市的關(guān)鍵技術(shù)

    實現(xiàn)智慧城市的關(guān)鍵技術(shù)主要包括物聯(lián)網(wǎng)技術(shù)、大數(shù)據(jù)技術(shù)、人工智能技術(shù)、云計算技術(shù)、5G通信技術(shù)以及
    的頭像 發(fā)表于 10-24 16:12 ?1644次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復(fù)雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理加速關(guān)鍵技術(shù)的詳細探討,內(nèi)容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行推理以及特定框架和工具的應(yīng)用等方面。
    的頭像 發(fā)表于 07-24 11:38 ?1628次閱讀

    機載低軌衛(wèi)星通信發(fā)展及關(guān)鍵技術(shù)綜述

    機載低軌衛(wèi)星通信發(fā)展及關(guān)鍵技術(shù)
    發(fā)表于 07-23 12:41 ?0次下載

    面向手機直連的星載相控陣:關(guān)鍵技術(shù)與未來展望

    電子發(fā)燒友網(wǎng)站提供《面向手機直連的星載相控陣:關(guān)鍵技術(shù)與未來展望.pdf》資料免費下載
    發(fā)表于 07-23 12:39 ?0次下載

    機器視覺檢測系統(tǒng)的關(guān)鍵技術(shù)和應(yīng)用場景

    識別與定位能力,成為當(dāng)前研究的熱點和應(yīng)用的焦點。本文將從基本原理、關(guān)鍵技術(shù)、應(yīng)用場景以及未來展望四個方面,深入探討基于深度學(xué)習(xí)的機器視覺檢測系統(tǒng)。
    的頭像 發(fā)表于 07-08 10:33 ?2362次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機器學(xué)習(xí)對比

    在人工智能的浪潮中,機器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨特的方式推動著技術(shù)的進步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機器學(xué)習(xí)的范疇,但深度
    的頭像 發(fā)表于 07-01 11:40 ?2213次閱讀

    深度學(xué)習(xí)在自動駕駛中的關(guān)鍵技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,自動駕駛技術(shù)作為其中的重要分支,正逐漸走向成熟。在自動駕駛系統(tǒng)中,深度學(xué)習(xí)技術(shù)發(fā)揮著至關(guān)重要的作用。它通過模擬人腦的學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:40 ?1181次閱讀