女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

cosFormer:重新思考注意力機制中的Softmax

深度學習自然語言處理 ? 來源:我愛計算機視覺 ? 作者:多模態研究組 - 商 ? 2022-03-30 16:18 ? 次閱讀

導讀:Transformer在自然語言處理、計算機視覺音頻處理方面取得了巨大成功。作為其核心組成部分之一,Softmax Attention模塊能夠捕捉長距離的依賴關系,但由于Softmax算子關于序列長度的二次空間和時間復雜性,使其很難擴展。

針對這點,研究者提出利用核方法以及稀疏注意力機制的方法來近似Softmax算子,從而降低時間空間復雜度。但是,由于誤差的存在,效果往往不盡如人意。

商湯多模態研究組認為,近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點是,與其近似Softmax,不如設計一種方式代替Softmax,并且同時降低時間空間復雜度。

因此,本文提出了名為cosFormer的方法,在時間空間復雜度關于序列長度為線性復雜度的同時,其性能接近或者超越Softmax Attention,并在LRA benchmark上取得SOTA結果。我們的設計核心理念基于兩點,首先是注意力矩陣的非負性,其次是對局部注意力的放大(非極大值抑制)。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

06f3c082-afe8-11ec-aa7f-dac502259ad0.jpg

070b788a-afe8-11ec-aa7f-dac502259ad0.png

Part 1

背景

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. Softmax Attention

為了引出我們的方法,對Softmax Attention的計算方式進行一定的推廣:

073c17f6-afe8-11ec-aa7f-dac502259ad0.png

其中表示相似度計算函數,如果,上式即變為Softmax Attention(不考慮除以的縮放操作)。注意到計算的時間復雜度為,的時間復雜度為,所以總時間復雜度為,即關于序列長度是二次的。

2. 線性 Attention

通過分析我們發現,性能瓶頸的主要原因是操作,如果相似度函數可以表示為:

0750d6dc-afe8-11ec-aa7f-dac502259ad0.png

那么:

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

根據矩陣運算的結合律:

077434e2-afe8-11ec-aa7f-dac502259ad0.png

上式可以變換為(編者修正:下方公式未變換,請參照論文):

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

經過計算后可以得到該方法的時間復雜度為,即關于序列長度是一次的。

Softmax Attention和線性Attention的計算方式可以用下圖概括:

07a1f260-afe8-11ec-aa7f-dac502259ad0.png

所以接下來將介紹的選擇,以及核心的reweighting操作。

3. Softmax 的兩大性質

我們經過分析以及實驗,歸納出Softmax Attention中比較重要的性質,這兩個性質可以指導我們的模型設計:

1. 注意力矩陣的非負性

2. 局部注意力的放大(非極大值抑制)

對于第一點,我們有如下實驗進行驗證(模型結構為RoBERTa):

07bdb856-afe8-11ec-aa7f-dac502259ad0.png

這里Loss表示驗證集損失(越低越好),其余指標均為準確率(越高越好)。可以看到,當保證了注意力矩陣的非負性之后,可以達到較好的效果。基于該實驗,我們選擇為ReLU函數。

對于第二點,我們的方式是在注意力矩陣中引入先驗locality信息,觀察Softmax注意力矩陣,如下圖所示,我們發現其注意力矩陣的權重在對角線附近很集中:

07ce07ce-afe8-11ec-aa7f-dac502259ad0.png

所以我們的方法需要在加了reweighting操作后也更加集中在對角線附近。注意并非所有的有類似權重的函數均適用,這個reweighting的函數需要跟前面的QK一樣可以拆分成兩個矩陣的乘法的形式。

至此,就可以引入我們的cosFormer了。

Part 2

cosFormer

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. 方法

我們的方法基于線性Attention,首先給出符號定義:

08068432-afe8-11ec-aa7f-dac502259ad0.png

根據之前的分析,我們選擇了:

081836fa-afe8-11ec-aa7f-dac502259ad0.png

可得:

08299756-afe8-11ec-aa7f-dac502259ad0.png

為了進行reweighting操作,并且同時保證線性Attention的計算方式依然成立,我們選擇了cos函數:

0846632c-afe8-11ec-aa7f-dac502259ad0.png

展開可得:

085b3eaa-afe8-11ec-aa7f-dac502259ad0.png

為了便于展示,我們把它記作:

0872566c-afe8-11ec-aa7f-dac502259ad0.png

最終得到:

088c78ee-afe8-11ec-aa7f-dac502259ad0.png

上式和線性Attention的計算方式一致,經過分析不難得出時間復雜度依然是。

2. 實驗結果

我們在單向模型、雙向模型以及LRA benchmark上測試了我們的方法,均取得了非常不錯的效果。

單向語言模型,指標表示困惑度(越低越好):

08a330ac-afe8-11ec-aa7f-dac502259ad0.png

雙向語言模型,指標表示準確率(越高越好):

08be1890-afe8-11ec-aa7f-dac502259ad0.png

LRA benchmark:

1)性能實驗,指標表示準確率(越高越好):

08d4c996-afe8-11ec-aa7f-dac502259ad0.png

2)內存速度實驗,指標表示速度(越高越好,如果內存溢出,則標記為叉):

08f4b97c-afe8-11ec-aa7f-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4371

    瀏覽量

    64229
  • 計算機視覺
    +關注

    關注

    9

    文章

    1706

    瀏覽量

    46580
  • Softmax
    +關注

    關注

    0

    文章

    9

    瀏覽量

    2676

原文標題:ICLR'22 | cosFormer:重新思考注意力機制中的Softmax

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    經顱電刺激適應癥之tDCS治療注意力缺陷ADHD

    ADHD是常見神經行為障礙,癥狀包括注意力不集中、多動和沖動,兒童和青少年患病率為5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分癥狀會持續,引發多種并發癥,給個人、家庭和社會帶來
    的頭像 發表于 04-22 19:49 ?143次閱讀
    經顱電刺激適應癥之tDCS治療<b class='flag-5'>注意力</b>缺陷ADHD

    變頻器重新設置參數應注意什么?

    進行重新設置參數時,我們必須格外謹慎,以確保設備能夠高效、穩定地運行。以下,我們將詳細探討變頻器重新設置參數時應注意的關鍵點。 一、了解變頻器與參數基礎 1. 熟悉變頻器型號與功能: ? ?● 不同型號的變頻器具有不同
    的頭像 發表于 03-17 16:00 ?335次閱讀
    變頻器<b class='flag-5'>重新</b>設置參數應<b class='flag-5'>注意</b>什么?

    DeepSeek推出NSA機制,加速長上下文訓練與推理

    近日,DeepSeek公司宣布推出一種全新的稀疏注意力機制——NSA(Native Sparse Attention)。據DeepSeek介紹,NSA旨在與現代硬件實現高度一致,并且具備本機可訓練
    的頭像 發表于 02-19 14:01 ?577次閱讀

    如何使用MATLAB構建Transformer模型

    LanguageProcessing, NLP)的序列到序列任務,如機器翻譯。Transformer 通過引入自注意力機制使得處理長距離依賴關系時變得高效。因此 Vaswani 等人的論文強調“
    的頭像 發表于 02-06 10:21 ?3509次閱讀
    如何使用MATLAB構建Transformer模型

    ADS1299S是否推薦有與DEMO匹配的傳感器頭?

    我們目前有個項目主要用于檢測幼兒的注意力,請問一下,TI ADS1299S是否推薦有與DEMO匹配的傳感器頭?如果有,請推薦。
    發表于 11-26 08:30

    什么是LLM?LLM在自然語言處理的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構。變換器模型因其自注意力(Self-Attention)機制而聞名,這種機制使得模型能夠捕捉文本
    的頭像 發表于 11-19 15:32 ?3374次閱讀

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場,使用多尺度卷積來提取特征。基于分層注意力機制來聚合
    的頭像 發表于 11-12 09:52 ?955次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網絡

    一種創新的動態軌跡預測方法

    本文提出了一種動態軌跡預測方法,通過結合歷史幀和歷史預測結果來提高預測的穩定性和準確性。它引入了歷史預測注意力模塊,以編碼連續預測之間的動態關系,并通過三重因子注意力模塊實現了最先進的性能。本方法能夠生成準確且穩定的未來軌跡,這對于自動駕駛系統落地至關重要。
    的頭像 發表于 10-28 14:34 ?945次閱讀
    一種創新的動態軌跡預測方法

    Llama 3 模型與其他AI工具對比

    、技術架構 Llama 3模型 采用了最新的Transformer架構,并結合了自注意力機制和分組查詢關注(GQA)機制。 引入了高效的tokenizer和RoPE位置編碼,提高了語言編碼和長文
    的頭像 發表于 10-27 14:37 ?952次閱讀

    N型接口在維修過程需要注意哪些問題

    德索工程師說道在組裝N型接口時,應按照拆解時的相反順序進行。注意各部件的裝配順序和位置,確保每個部件都安裝到位且緊固牢固。特別是防水膠圈和橡膠環等密封部件,必須正確安裝以確保接口的密封性。使用扳手或螺絲刀等工具時,要注意力度適中,避免過緊或過松導致接口損壞或松動。
    的頭像 發表于 09-28 15:22 ?407次閱讀
    N型接口在維修過程<b class='flag-5'>中</b>需要<b class='flag-5'>注意</b>哪些問題

    LDO穩壓器的過流保護機制

    LDO穩壓器(Low-Dropout Regulator)在實現過流保護方面,采用了多種機制來確保在負載電流超過其額定值時能夠保護電路不受損壞。以下是對LDO穩壓器如何實現過流保護的詳細分析,包括其工作原理、過流保護機制、設計要點以及實際應用
    的頭像 發表于 09-11 14:14 ?2593次閱讀

    2024 年 19 種最佳大型語言模型

    ,當時一篇題為“通過聯合學習對齊和翻譯的神經機器翻譯”的研究論文中引入了注意力機制(一種旨在模仿人類認知注意力的機器學習技術)。2017年,另一篇論文“注意力就是你
    的頭像 發表于 08-30 12:56 ?887次閱讀
    2024 年 19 種最佳大型語言模型

    MSPM0 MCU的網絡安全機制

    電子發燒友網站提供《MSPM0 MCU的網絡安全機制.pdf》資料免費下載
    發表于 08-29 10:05 ?1次下載
    MSPM0 MCU<b class='flag-5'>中</b>的網絡安全<b class='flag-5'>機制</b>

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    并捕捉長距離依賴關系的神經網絡結構。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實現語言的編碼和解碼。 注意力機制:Transformer注意力
    發表于 08-02 11:03

    Transformer模型在語音識別和語音生成的應用優勢

    隨著人工智能技術的飛速發展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,在
    的頭像 發表于 07-03 18:24 ?2014次閱讀