ww欧洲ww在线视频看,天天影视网天天综合色,免费看大黄高清网站视频在线

視覺語言（Vision-Language，VL）系統允許為文本查詢搜索相關圖像（或反之），并使用自然語言描述圖像的內容。一般來說，一個VL系統使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發了一種新的圖像編碼對象屬性檢測模型，稱為VinVL（Visual features in Vision-Language），有著顯著超越人類的表現。

當VinVL與OSCAR和vivo等VL融合模塊結合后，微軟新的VL系統能夠在競爭最激烈的VL排行榜上取得第一，包括視覺問題回答（VQA）、微軟COCO圖像字幕和新穎對象字幕（nocaps）。微軟研究團隊還強調，在nocaps排行榜上，這種新的VL系統在CIDEr（92.5對85.3）方面的表現明顯超過了人類的同形式表現。

微軟解釋道：

VinVL在改善VL理解的圖像編碼方面表現出了巨大的潛力。我們新開發的圖像編碼模型可以使廣泛的VL任務受益，正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結果，比如在圖像字幕基準上超越了人類的表現，但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括（1）利用海量圖像分類/標記數據，進一步擴大對象屬性檢測預訓練的規模；（2）將跨模態VL表征學習的方法擴展到構建感知基礎的語言模型，可以像人類一樣將視覺概念建立在自然語言中，反之亦然。

微軟VinVL正在被整合到Azure認知服務中，Azure認知服務為微軟的各種服務提供支撐，如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發布VinVL模型和源代碼。
責編AJX

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6671

瀏覽量
105366
圖像

圖像

+關注

關注
2

文章
1092

瀏覽量
41018
模型

模型

+關注

關注
1

文章
3483

瀏覽量
49987

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

微軟視覺語言模型有顯著超越人類的表現

評論