成年A片视频在线观看,AV热情网,1042手机看片地基

對于 AI 系統來說，將語言與視覺聯系起來是它需要面對并學會解決的基本問題，例如在進行圖像的檢索時，AI 系統需要既能識別圖像，也能識別語言，并將二者相關聯起來。

對于這類需要 AI 系統識別不同種類或形式的信息來源的任務中，就需要多模態機器學習（MML/Multimodal Machine Learning）來發揮作用。所謂模態，指的是一種信息的來源或形式，例如文字、圖像、視頻、音頻等都是模態。多模態機器學習是指利用機器學習來處理多種模態的信息。

近些年來，在多模態機器學習領域中，多模態圖像語言轉換器（Multimodal image–language transformers）已經取得了深刻進展，尤其在解決各種需要微調的任務，如視覺問答、圖像檢索中發揮了關鍵性作用。

但是，在既需要處理圖像又需要處理語言文本的多模態機器學習任務中，有一類問題對于多模態圖像語言轉換器來說尤其棘手，那就是對文本中的動詞的理解。例如要求 AI 系統來在圖像中區分識別找出“踢球”和“拋球”這兩種情景。在這一任務中，AI 系統不僅需要識別出圖像中的“球”這一對象，還需要識別圖像中不同對象之間的關系。

為了評估近年來多模態圖像語言轉換器的預訓練水平，尤其是在“看圖理解”中對于上文所說的動詞的識別能力。近日，DeepMind 開發出一套方法，并引入了名為 SVO-Probes 的“圖像－句子對” 數據集，來評估不同 AI 系統的多模態預訓練模型對于動詞的理解水平，尤其是了解這些 AI 系統多模態轉換器的預訓練模型在結合語言文本來識別圖像時，到底是既能夠識別中圖片中的物體、也能區分中圖像中的動作，還是只能夠識別出圖中的物體。

為了達到這一目的，DeepMind 建立的 SVO-Probes 數據集包含了 48000 個圖像-句子對，可以測試 AI 系統對 447 個動詞的理解，這些動詞要么是視覺可以區分的，要么是在預訓練數據中常見的，例如許多概念字幕數據集。這個數據集中的每個句子都可以分解成一個 <主語、動詞、賓語> 三元組，也就是 SVO 三元組，并分別配對有與句子描述的內容相符和不符的圖像，它們在是實驗中分別被稱為“正實例圖像” 和 “負實例圖像”。

圖｜評估多模態語言圖像轉換器對于動詞的識別能力的 SVO- Probes 數據集中的圖像-句子對（來源：DeepMind）

上圖顯示了圖像-句子對的幾個例子，以左上角的圖像-句子對為例，分別顯示了與句子“孩子、過、馬路”相符的正示例圖像，以及與“女士、過、馬路”不符的負示例圖像，通過這一對可以測試 AI 系統識別圖中的對象——也就是名詞的能力；而上方中間的圖像-句子對，則分別顯示了”人、唱歌、演唱會上“ 的正示例圖像和”“人、跳舞、演唱會上“ 的負示例圖像。通過這一對就可以既測試 AI 系統識別圖中的名詞的能力，也能測試 AI 識別動詞的能力。

在實驗中使用這一 SVO-Probes 數據集以零樣本的方式對 AI 預訓練模型進行評估之后，DeepMind 的工程師發現，相比名詞等其他詞性，預訓練模型在需要動詞理解的情況下錯誤率要高很多。

下面的條形圖詳細說明了測試的結果。標準多模態轉換器模型經過測試后總體準確率達到 64.3%，這也顯示了 SVO- Probes 數據集確實具有挑戰性。而這一 AI 模型在對于主語和賓語判斷的準確率分別為 67.0% 和 73.4%，但是對于動詞判斷的準確率卻下降到 60.8%。這一結果表明，動詞識別確實對 AI 系統模型具有挑戰性。

此外，該公司的工程師們還進一步總結調查了哪些類別的動詞對于這些 AI 預訓練模型尤其具有挑戰性。結果發現，像“抓”這樣的運動性動詞以及“帶領”這樣在不同類型的語境中經常出現的動詞對于 AI 來說更容易。而 AI 模型判斷的正確率最高的動詞有“打斗”“包圍”“滑雪”“參加”等；而錯誤率最高的幾個動詞有“切”“爭論”“斷”等。