女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Swin Transformer在MIM中的應用

OpenCV學堂 ? 來源:量子位 ? 作者:量子位 ? 2022-05-31 10:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自何愷明MAE橫空出世以來,MIM(Masked Image Modeling)這一自監(jiān)督預訓練表征越來越引發(fā)關注。

但與此同時, 研究人員也不得不思考它的局限性。

MAE論文中只嘗試了使用原版ViT架構作為編碼器,而表現(xiàn)更好的分層設計結構(以Swin Transformer為代表),并不能直接用上MAE方法。

于是,一場整合的范式就此在研究團隊中上演。

代表工作之一是來自清華、微軟亞研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的應用。

但與MAE相比,它在可見和掩碼圖塊均有操作,且計算量過大。有研究人員發(fā)現(xiàn),即便是SimMIM的基本尺寸模型,也無法在一臺配置8個32GB GPU的機器上完成訓練。

基于這樣的背景,東京大學&商湯&悉尼大學的研究員,提供一個新思路。

cf3dbdfe-e030-11ec-ba43-dac502259ad0.png

不光將Swin Transformer整合到了MAE框架上,既有與SimMIM相當的任務表現(xiàn),還保證了計算效率和性能——

將分層ViT的訓練速度提高2.7倍,GPU內存使用量減少70%。

來康康這是一項什么研究?

當分層設計引入MAE

這篇論文提出了一種面向MIM的綠色分層視覺Transformer。

即允許分層ViT丟棄掩碼圖塊,只對可見圖塊進行操作。

cf59a7ee-e030-11ec-ba43-dac502259ad0.png

具體實現(xiàn),由兩個關鍵部分組成。

首先,設計了一種基于分治策略的群體窗口注意力方案。

將具有不同數量可見圖塊的局部窗口聚集成幾個大小相等的組,然后在每組內進行掩碼自注意力。

cf7baa60-e030-11ec-ba43-dac502259ad0.png

其次,把上述分組任務視為有約束動態(tài)規(guī)劃問題,受貪心算法的啟發(fā)提出了一種分組算法。

cf9d5566-e030-11ec-ba43-dac502259ad0.png

它可以自適應選擇最佳分組大小,并將局部窗口分成最少的一組,從而使分組圖塊上的注意力整體計算成本最小。

表現(xiàn)相當,訓練時間大大減少

結果顯示,在ImageNet-1K和MS-COCO數據集上實驗評估表明,與基線SimMIM性能相當的同時,效率提升2倍以上。

cfbce552-e030-11ec-ba43-dac502259ad0.png

而跟SimMIM相比,這一方法在所需訓練時間大大減少,消耗GPU內存也小得多。具體而言,在相同的訓練次數下,在Swin-B上提高2倍的速度和減少60%的內存。

d00b726c-e030-11ec-ba43-dac502259ad0.png

值得一提的是,該研究團隊在有8個32GB V100 GPU的單機上進行評估的,而SimMIM是在2或4臺機器上進行評估。

研究人員還發(fā)現(xiàn),效率的提高隨著Swin-L的增大而變大,例如,與SimMIM192相比,速度提高了2.7倍。

實驗的最后,提到了算法的局限性。其中之一就是需要分層次掩碼來達到最佳的效率,限制了更廣泛的應用。這一點就交給未來的研究。

d050031e-e030-11ec-ba43-dac502259ad0.png

而談到這一研究的影響性,研究人員表示,主要就是減輕了MIM的計算負擔,提高了MIM的效率和有效性。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3794

    瀏覽量

    138006
  • 數據集
    +關注

    關注

    4

    文章

    1224

    瀏覽量

    25444

原文標題:何愷明MAE局限性被打破,與Swin Transformer結合,訓練速度大大提升 | 東大&商湯&悉大

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer架構編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?279次閱讀
    <b class='flag-5'>Transformer</b>架構<b class='flag-5'>中</b>編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?339次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    快手上線鴻蒙應用高性能解決方案:數據反序列化性能提升90%

    了其數據反序列化性能,典型場景下能夠降低約90%的數據轉換耗時,為鴻蒙應用帶來了更流暢的用戶體驗和更敏捷的交互響應。 鴻蒙應用開發(fā)過程,“class-transformer”三方
    發(fā)表于 05-15 10:01

    如何使用MATLAB構建Transformer模型

    Transformer 模型 2017 年由 Vaswani 等人在論文《Attentionis All You Need》首次提出。其設計初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4011次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b>模型

    OptiFDTD應用:納米盤型諧振腔等離子體波導濾波器

    幾何諧振腔[3]以及環(huán)形諧振腔[4]。 ?MIM波導,有兩種等離子體濾波器,即帶通和帶阻濾波器。 2D FDTD模擬 ?選擇TM偏振波激發(fā)SPPs ?應用正弦調制高斯脈沖光來模擬感興趣的波長 ?輸入
    發(fā)表于 01-09 08:52

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統(tǒng)治世界。 我們花了兩年時間打造Sohu,這是世界上第一個用于transformer(ChatGPT的“T”)的專用芯片。 將transform
    的頭像 發(fā)表于 01-06 09:13 ?1152次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    港大提出SparX:強化Vision Mamba和Transformer的稀疏跳躍連接機制

    本文分享香港大學計算和數據科學學院俞益洲教授及其研究團隊發(fā)表于 AAAI 2025 的論文——SparX,一種強化 Vision Mamba 和 Transformer 的稀疏跳躍連接機制,性能強大
    的頭像 發(fā)表于 01-03 09:28 ?694次閱讀
    港大提出SparX:強化Vision Mamba和<b class='flag-5'>Transformer</b>的稀疏跳躍連接機制

    【面試題】人工智能工程師高頻面試題匯總:Transformer篇(題目+答案)

    ,或者深度學習的框架,還有怎么優(yōu)化模型,Transformer的一些知識,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的Transformer方面的面
    的頭像 發(fā)表于 12-13 15:06 ?1377次閱讀
    【面試題】人工智能工程師高頻面試題匯總:<b class='flag-5'>Transformer</b>篇(題目+答案)

    Transformer是機器人技術的基礎嗎

    生成式預訓練Transformer(GPT)被吹捧為將徹底改變機器人技術。但實際應用,GPT需要龐大且昂貴的計算資源、冗長的訓練時間以及(通常)非機載無線控制,諸多限制之下,GPT技術真的
    的頭像 發(fā)表于 12-05 10:54 ?670次閱讀
    <b class='flag-5'>Transformer</b>是機器人技術的基礎嗎

    詳解電容的測試條件

    CMOS 工藝技術平臺的電容包括 MIM 和 PIP (Poly Insulator Poly)。PIP 主要應用在0.35μm及以上的亞微米及微米工藝技術,MIM 主要應用在0.35μm 及以下
    的頭像 發(fā)表于 12-04 16:14 ?1267次閱讀
    詳解電容的測試條件

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer
    的頭像 發(fā)表于 11-20 09:28 ?1558次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1010次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    什么是LLM?LLM自然語言處理的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構。變換器模型因其自注意力(Self-Attention)機制而聞名,這種機制使得模型能夠捕捉文本的長距離依賴關系。LLM通過
    的頭像 發(fā)表于 11-19 15:32 ?3640次閱讀

    自動駕駛中一直說的BEV+Transformer到底是個啥?

    很多車企的自動駕駛介紹,都會聽到一個關鍵技術,那就是BEV+Transformer,那BEV+Transformer到底是個啥?為什么很多車企
    的頭像 發(fā)表于 11-07 11:19 ?1372次閱讀
    自動駕駛中一直說的BEV+<b class='flag-5'>Transformer</b>到底是個啥?

    英偉達推出歸一化Transformer,革命性提升LLM訓練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構,nGPT保持原有精度的同時,直接將大型語言模型(LLM)的訓練速度提升了高達20倍。這一顯著的性能提升,無疑將極大地推動AI技術的發(fā)展和應用。 nGPT
    的頭像 發(fā)表于 10-23 11:30 ?873次閱讀