两个人做人爱视频免费,美女丝袜高跟自慰视屏,未满18禁止入内

來自：復旦DISC

引言

本次分享我們將介紹三篇來自ACL2021的跨視覺語言模態的論文。這三篇文章分別介紹了如何在圖像描述任務中生成契合用戶意圖的圖像描述、端對端的視覺語言預訓練模型和如何生成包含更多細節的圖像描述。

文章概覽

Control Image Captioning Spatially and Temporally

論文地址：https://aclanthology.org/2021.acl-long.157.pdf

該篇文章基于對比學習和注意力機制引導提出了LoopCAG模型。LoopCAG可以根據輸入的鼠標軌跡，生成與鼠標軌跡相匹配的圖像描述，從而增強了圖片描述生成的可控性和可解釋性。

E2E-VLP： End-to-End Vision-Language Pretraining Enhanced by Visual Learning

論文地址：https://arxiv.org/pdf/2106.01804.pdf

這篇文章提出了一個端到端的視覺語言預訓練模型。模型不需要利用預訓練的目標檢測器抽取基于區域的視覺特征，直接以圖片作為輸入。并且設計了兩個額外的視覺預訓練任務幫助模型學習細粒度的信息，達到了和兩階段模型相似的效果，并且提高了運算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

論文地址：https://aclanthology.org/2021.acl-short.36.pdf

這篇文章通過推理圖和PageRank對圖像描述進行描述性打分。再通過參考抽樣和加權指定獎勵來生成具有更多細節的圖像描述。模型生成了比一般方法具有更多細節的圖像描述，這些圖像描述可以包含基線方法生成的圖像描述。

論文細節

動機

圖像描述任務主要針對圖片上比較突出的物體和物體關系展開描述，這樣的圖片描述沒有考慮到用戶意圖。為了生成具備可控性和可解釋性的圖像描述，最近的工作提出了生成可控性的圖像描述任務。為了生成符合用戶意圖的圖像描述，通常會對描述加以情感、邊界框和鼠標軌跡限制。與此同時，近期提出的 Localized-Narratives 數據集將鼠標軌跡作為圖像描述任務的另一個輸入，為圖像描述生成任務中所涉及的語義概念進行空間和時序關系上的控制提供了可能。

模型

LoopCAG 可以總結為三部分：用于生成圖片描述且以 Transformer 為主干網絡的編碼器-解碼器；用于視覺對象空間定位的注意力引導（Attention Guidance）組件；用于句子級時序對齊的對比性約束（Contrastive Constraints）組件。

（1）Caption Generation

作者將視覺特征V和軌跡特征T分別編碼，并疊加位置信息后得和，然后串聯在一起作為一個統一的序列輸入編碼器。解碼器通過交叉注意力模塊與編碼器最后一層的隱藏狀態相連，將視覺和軌跡信息結合起來作為生成的前置條件。解碼器的優化目標是將以下目標函數最小化：

（2）Attention Guidance

為了定位物體，作者用軌跡作為中間橋梁聯系物體和語義token。作者構建了一個監督矩陣來引導詞語和視覺對象之間的注意力，即需要物體軌跡點盡可能多的落入對象邊界框中。當注意力監督矩陣和模型的交叉注意力矩陣盡可能接近時，詞語則可以準確的對應到圖片的空間視覺物體上。

（3）Contrastive Constraints

作者使用對比損失函數來約束生成過程的時間順序，對比損失的形式是 NCE 函數，用來學習區分軌跡-描述對之中的正例和負例。正例是指在順序上自然對應的描述句和軌跡段，而其余的軌跡-描述對組合均為負例。

最后作者通過將所有損失的總和最小化來聯合優化模型。

實驗

作者在Localized-Narratives COCO 這個數據集上進行了訓練和測試。在測試集上的結果如圖所示，LoopCAG 方法在所有的自動評測指標上都達到了先進水平。從表中可以看出，ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了對順序敏感的最長共同子序列計分方式，這表明對比約束可以促進生成句子的順序和用戶意圖的對應。

動機

基于海量圖文對的多模態預訓練在下游的跨模態任務中已經取得巨大的成功。現有的多模態預訓練的方法主要基于兩階段訓練，首先利用預訓練的目標檢測器抽取基于區域的視覺特征，然后拼接視覺表示和文本向量作為Transformer的輸入進行訓練。這樣的模型存在兩點問題，一個是第一階段通常在特定數據集進行訓練模型泛化能力不好，此外提取區域的視覺特征比較耗費時間。基于此作者提出了端到端的像素級別的視覺語言預訓練模型。模型通過一個統一的Transformer框架同時學習圖像特征和多模態表示

模型

本文的模型如圖所示。E2E-VLP用一個CNN 模型提取圖片視覺特征的同時用一個Transformer進行多模態特征學習。