女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

將線性Transformer作為快速權重系統進行分析和改進

智能感知與物聯網技術研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2021-03-31 15:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Transformer 在深度學習中占據主導地位,但二次存儲和計算需求使得 Transformer 的訓練成本很高,而且很難使用。許多研究都嘗試線性化核心模塊:以 Performer 為例,使用帶核的注意力機制。然而,這種方法還存在很多缺點,例如它們依賴于隨機特征。 本文中,來自瑞士人工智能實驗室(IDSIA)、亞琛工業大學的研究者建立起了線性(核)注意力與 90 年代深度學習之父 Jürgen Schmidhuber 推廣的更古老的快速權重存儲系統之間的內在聯系,不僅指出了這些算法的基本局限性,還提出了新的更新規則和新的核來解決這些問題。在關鍵的綜合實驗和實際任務中,所得到的模型優于 Performers。

9f348e0a-8d23-11eb-8b86-12bb97331649.png

論文鏈接:https://arxiv.org/abs/2102.11174

代碼地址:https://github.com/ischlag/fast-weight-transformers

具體而言,該研究推測線性化的 softmax 注意力變量存在存儲容量限制。在有限存儲的情況下,快速權重存儲模型的一個理想行為是操縱存儲的內容并與之動態交互。 受過去對快速權重研究的啟發,研究者建議用產生這種行為的替代規則替換更新規則。此外,該研究還提出了一個新的核函數來線性化注意力,平衡簡單性和有效性。他們進行了大量的實驗,實驗內容包括合成檢索問題、標準機器翻譯以及語言建模。實驗結果證明了該研究方法的益處。 將線性 Transformer 作為快速權重系統進行分析和改進 將線性 Transformer 變量視為快速權重系統,研究者給出了兩個見解:作為關聯存儲容量的限制;無法編輯以前存儲的關聯內容。 容量限制 不斷地將新的關聯添加到有限大小的存儲中,如下公式 17 所示,這樣不可避免地會達到極限。在線性注意力中,信息存儲在矩陣中,并使用矩陣乘法進行檢索(如下公式 19)。因此,為了防止關聯在檢索時相互干擾,各個鍵(keys)需要正交。否則,點積將處理多個鍵并返回值的線性組合。對于嵌入在 d_dot 空間中的鍵,則不能有多余 d_dot 正交向量。

9fba1f8e-8d23-11eb-8b86-12bb97331649.png

也就是說,存儲多個 d_dot 關聯將導致檢索誤差。在線性 Transformer 中,當序列長度大于 d_dot 時,模型可能處于這樣一種容量過剩狀態。 改進與更新 受快速權重存儲研究(Schlag 等人,2021 年)的啟發,研究者提出了以下存儲更新規則。 給定新的輸入鍵 - 值對 (k^ (i) , v ^(i) ),模型首先訪問存儲的當前狀態 W^(i?1),并檢索當前與鍵 k^(i) 配對的值a020773e-8d23-11eb-8b86-12bb97331649.png。然后,該模型存儲檢索值a020773e-8d23-11eb-8b86-12bb97331649.png和輸入 v^(i) 的凸組合a08e2130-8d23-11eb-8b86-12bb97331649.png,使用插值權重 0≤β^(i)≤1 的輸入 v ^(i) 也由該模型生成。因此,該模型按順序將輸入序列a0ee1c16-8d23-11eb-8b86-12bb97331649.png轉化為輸出序列a14a9af4-8d23-11eb-8b86-12bb97331649.png,如下所示: ?

a171de98-8d23-11eb-8b86-12bb97331649.png

歸一化:在以上等式中,檢索的值沒有應用歸一化。通過推導可以得到一個簡單的歸一化,即通過引入累加器(accumulator):

a1b366ce-8d23-11eb-8b86-12bb97331649.png

將公式 20、25 分別替換為:

a20e70aa-8d23-11eb-8b86-12bb97331649.png

然而,這種方法也有缺陷。首先,公式 26 中正值的累積總是隨著步數的增加而增加,并且可能導致不穩定;其次,特別是對于該研究提出的更新規則,這種歸一化不足以平衡公式 23 中寫入和刪除運算之間的權重(參見附錄 A.2 中的推導)。 在這里,研究者提出了一種基于簡單歸一化的更好方法,將有效值和查詢向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,對于查詢:

a249b1ba-8d23-11eb-8b86-12bb97331649.png

線性注意力函數Katharopoulos 線性注意力 Katharopoulos 等人提出使用簡單的逐元素 ELU + 1 函數(Clevert 等人, 2016):

a2748a84-8d23-11eb-8b86-12bb97331649.png

選擇 ELU 而不是 ReLU 的動機是因為負數部分的非零梯度。重要的是,作為一個簡單的函數,這個Φ函數保留了輸入鍵向量(d_key=d_dot)的維數,而不需要修改第 4.1 節中討論的存儲容量。 DPFP 前面兩小節強調了現有Φ函數的次優性。采樣會給 FAVOR + 增加額外的復雜度,而線性 Transformer 缺乏投影點積維數的能力。因此,研究者提出了一種稱為確定性無參數投影(deterministic parameter-free projection, DPFP) 的替代方法。它是確定性的,并像線性 Transformer 一樣易于計算,同時增加點積維數,而不需要 FAVOR + 的隨機特性。 下圖中四維空間的元素被顯示為四個彩色表面的 z 分量,以及 2d 平面中的每個向量如何在 4d 空間中具有單個非零分量,并將輸入空間平均分割為在投影空間中正交的四個區域。

實驗 該研究從三個方面進行了實驗:合成檢索問題、機器翻譯和語言模型。 合成檢索問題 所有模型都以最小批次 32 進行訓練,直到評估損失降到 0.001 以下,或者進行了 1000 訓練步。下圖 2 展示了模型的最佳驗證集性能以及對不同 S 的顯示。唯一鍵的數量初始值 S=20,然后每次遞增 20,直到 S=600 為止。實驗對以下模型進行對比:Softmax、線性注意力、具有 64、128 和 512 個隨機特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。

a2e099a4-8d23-11eb-8b86-12bb97331649.png

下圖 3 展示了學習曲線。實驗結果表明,該研究提出的更新規則優于其他變體。正如預期的那樣,基線總和更新規則失敗。

a311ff9e-8d23-11eb-8b86-12bb97331649.png

機器翻譯 下表 1 顯示了 BLEU 得分結果。當樣本數 m 足夠大時(當 d_dot=512,m=256),Performer 與基礎 Transformer 性能相當。實際上,當 d_key=64 時,m 的推薦值是 d_dot log(d_dot)=266。當 d_dot 相對較小時,該研究的 DPFP 模型優于線性 Transformer 和 Performer;在簡單性和性能之間提供了一個很好的折衷。

a3233192-8d23-11eb-8b86-12bb97331649.png

語言模型 該研究使用標準 WikiText-103(Merity 等,2017)數據集進行實驗。WikiText-103 數據集由維基百科的長文組成;訓練集包含大約 28K 篇文章、總共 103M 個單詞。這將產生約 3600 個單詞的上下文文本塊。驗證集和測試集也包含類似的長依賴關系,分別有 218K 和 246K 個運行單詞,對應 60 篇文章,詞匯量約為 268K 個單詞。下表 2 展示了在該研究更新規則下,WikiText-103 語言模型的困惑度結果。

a363af9c-8d23-11eb-8b86-12bb97331649.png

在下表 3 中,使用該研究更新規則下的 Transformer(medium 配置),在 WikiText-103 語言模型的困惑度結果。

a3a4d38c-8d23-11eb-8b86-12bb97331649.png

在下表 4 中,WikiText-103 語言模型在沒有截斷上下文的情況下訓練和評估模型的困惑度,這與上表 2 中上下文窗口受到限制的情況相反。medium 配置既不用于位置編碼,也不用于注意力標準化。

a4065152-8d23-11eb-8b86-12bb97331649.png

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1806

    文章

    49014

    瀏覽量

    249449
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122794
  • Transformer
    +關注

    關注

    0

    文章

    151

    瀏覽量

    6519

原文標題:LSTM之父重提30年前的「快速權重存儲系統」:線性Transformer只是它的一種變體

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    微電機關鍵零部件制造誤差對其質量的影響權重分析

    獲取完整資料~~~*附件:微電機關鍵零部件制造誤差對其質量的影響權重分析.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發表于 06-23 07:16

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?344次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    如何在CentOS系統中部署ELK日志分析系統

    功能,使用戶能夠快速獲取關鍵業務洞察。本文詳細介紹如何在 CentOS 系統中部署 ELK 日志分析系統
    的頭像 發表于 05-08 11:47 ?320次閱讀
    如何在CentOS<b class='flag-5'>系統</b>中部署ELK日志<b class='flag-5'>分析</b><b class='flag-5'>系統</b>

    電機控制系統低速區測速方法分析改進

    純分享帖,需要者可點擊附件獲取完整資料~~~*附件:電機控制系統低速區測速方法分析改進.pdf 【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發表于 04-17 22:32

    智能電動輪椅控制系統的研究與設計

    控制系統,闡述了硬件系統的設計與實現,完成了軟件系統軟件平臺的搭建,并針對電機速度不穩定的問題,提出了一種基于線性自抗擾和模糊PID 控制算法的雙閉環調速
    發表于 03-07 15:17

    如何利用MES系統進行產能分析呢?

    利用MES系統進行產能分析是一個涉及數據收集、處理、分析和結果呈現的全過程。對生產過程加以監控,充分利用MES數據采集分析,實現監控生產全階
    的頭像 發表于 02-21 12:10 ?422次閱讀
    如何利用MES<b class='flag-5'>系統</b><b class='flag-5'>進行</b>產能<b class='flag-5'>分析</b>呢?

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統治世界。 我們花了兩年時間打造Sohu,這是世界上第一個用于transformer(ChatGPT中的“T”)的專用芯片。 transform
    的頭像 發表于 01-06 09:13 ?1153次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    DV2003L1快速充電開發系統車載線性電流控制

    電子發燒友網站提供《DV2003L1快速充電開發系統車載線性電流控制.pdf》資料免費下載
    發表于 12-21 11:05 ?0次下載
    DV2003L1<b class='flag-5'>快速</b>充電開發<b class='flag-5'>系統</b>車載<b class='flag-5'>線性</b>電流控制

    Celsius EC Solver:對電子系統散熱性能進行準確快速分析

    Cadence Celsius EC Solver 是一款電子產品散熱仿真軟件,用于對電子系統散熱性能進行準確快速分析。借助 Celsius EC Solver,設計人員能夠在設計周
    的頭像 發表于 12-16 18:11 ?1301次閱讀
    Celsius EC Solver:對電子<b class='flag-5'>系統</b>散熱性能<b class='flag-5'>進行</b>準確<b class='flag-5'>快速</b><b class='flag-5'>分析</b>

    是德矢量網絡分析儀的線性度測試

    至關重要。是德科技矢量網絡分析儀憑借其高精度、寬頻帶和強大的軟件功能,成為進行線性度測試的首選儀器。本文重點介紹如何利用是德矢量網絡分析
    的頭像 發表于 11-27 16:43 ?901次閱讀
    是德矢量網絡<b class='flag-5'>分析</b>儀的<b class='flag-5'>線性</b>度測試

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer。
    的頭像 發表于 11-20 09:28 ?1567次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發表于 11-20 09:27 ?1015次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    USB Type-C系統中TPS25947和LM73100的快速角色交換、線性或運算

    電子發燒友網站提供《USB Type-C系統中TPS25947和LM73100的快速角色交換、線性或運算.pdf》資料免費下載
    發表于 09-25 11:03 ?0次下載
    USB Type-C<b class='flag-5'>系統</b>中TPS25947和LM73100的<b class='flag-5'>快速</b>角色交換、<b class='flag-5'>線性</b>或運算

    數學建模(1)--層次分析

    。 分析系統中各因素之間的關系,建立系統的遞階層次結構。 權重表格 指標權重 蘇杭 北戴河 桂林 景色 花費 居住
    發表于 09-06 10:39

    線性定常系統和時變系統的概念、特點及判斷方法

    控制系統的設計和分析至關重要。 第一部分:線性系統 1.1 線性系統的定義 線性系統是指滿足線性
    的頭像 發表于 07-29 10:26 ?6591次閱讀