女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer架構中編碼器的工作流程

SSDFans ? 來源:SSDFans ? 2025-06-10 14:27 ? 次閱讀

編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。

其結構組成如下:

9d7ebf76-44d1-11f0-b715-92fbcf53809c.png

把它的工作流程分解成最基本的步驟:

步驟1 -輸入嵌入

嵌入只發生在最底部的編碼器中。編碼器首先使用嵌入層將輸入標記(詞或子詞)轉換為向量。這些嵌入捕獲符號的語義并將其轉換為數值向量。

所有編碼器接收一個向量列表,每個向量的大小為512(固定大小)。在底部的編碼器中,這將是單詞嵌入,但在其他編碼器中,是直接在它們下面的編碼器的輸出。

9d906550-44d1-11f0-b715-92fbcf53809c.png

步驟2 -位置編碼

由于transformer沒有像RNN那樣的遞歸機制,因此它們使用添加到輸入嵌入中的位置編碼來提供有關序列中每個標記的位置的信息。這使他們能夠理解每個單詞在句子中的位置。

為了做到這一點,研究人員建議使用各種正弦和余弦函數的組合來創建位置向量,使這種位置編碼器能夠用于任何長度的句子。在這種方法中,每個維度由波的唯一頻率和偏移量表示,其值范圍從-1到1,有效地表示每個位置。

9da63402-44d1-11f0-b715-92fbcf53809c.png

步驟3 -編碼器層堆棧

Transformer編碼器由一堆相同的層組成(在原始Transformer模型中為6層)。

編碼器層用于將所有輸入序列轉換為連續的抽象表示,該表示封裝了從整個序列中學習到的信息。該層包括兩個子模塊:

Multi-Headattention機制。

一個完全連接的網絡。

此外,它結合了每個子層周圍的剩余連接,然后進行層規范化。

9db5fb62-44d1-11f0-b715-92fbcf53809c.png

步驟3.1Multi-HeadSelf-Attention機制

在編碼器中,Multi-Headattention利用了一種特殊的attention機制,即Self-Attention。這種方法使模型能夠將輸入中的每個單詞與其他單詞關聯起來。例如,在給定的示例中,模型可能會學習將單詞“are”與“you”聯系起來。

這種機制允許編碼器在處理每個標記時專注于輸入序列的不同部分。它計算attention分數的基礎是:

查詢是一個向量,表示attention機制中輸入序列中的特定單詞或標記。

在attention機制中,鍵也是一個向量,對應于輸入序列中的每個單詞或標記。

每個值都與一個鍵相關聯,并用于構造注意力層的輸出。當一個查詢和一個鍵匹配得很好,這基本上意味著它們有很高的attention分數,相應的值在輸出中被強調。

第一個Self-Attention模塊使模型能夠從整個序列中捕獲上下文信息。而不是執行單一的attention功能,查詢,鍵和值是線性投影h次。在查詢、鍵和值的每個投影版本上,attention機制并行執行,產生h維輸出值。

詳細架構如下:

9dc750e2-44d1-11f0-b715-92fbcf53809c.png

矩陣乘法——查詢和鍵的點積

一旦查詢、鍵和值向量通過線性層,在查詢和鍵之間執行點積矩陣乘法,從而創建分數矩陣。

分數矩陣建立了每個單詞對其他單詞的強調程度。因此,在同一時間步長內,每個單詞相對于其它單詞被分配一個分數。分數越高,說明attention越集中。

這個過程有效地將查詢映射到相應的鍵。

9dd56fce-44d1-11f0-b715-92fbcf53809c.png

降低attention分數的大小

然后通過將分數除以查詢維度和關鍵向量的平方根來縮小分數。這一步的實現是為了確保更穩定的梯度,因為值的乘法可能導致過大的影響。

9deb3e80-44d1-11f0-b715-92fbcf53809c.png

將Softmax應用于調整后的分數

然后,對調整后的分數應用softmax函數得到關注權重。這導致概率值范圍從0到1。softmax函數強調高分,淡化低分,從而增強了模型有效判斷哪些詞應該得到更多關注的能力。

9df7eaa4-44d1-11f0-b715-92fbcf53809c.png

結合Softmax結果與值向量

attention機制的下一步是將softmax函數的權重與值向量相乘,得到一個輸出向量。

在這個過程中,只有呈現高softmax分數的單詞被保留。最后,這個輸出向量被送入一個線性層進行進一步處理。

9e068000-44d1-11f0-b715-92fbcf53809c.png

我們終于得到了attention機制的輸出!

所以,你可能想知道為什么它被稱為Multi-Headattention?

請記住,在所有進程開始之前,我們會中斷查詢、鍵和值h次。這個過程被稱為Self-Attention,在每個小階段中(heads)分別發生。每個head都獨立發揮其魔力,召喚出一個輸出向量。

這個整體經過最后的線性層,就像一個過濾器,對集體表現進行微調。這里的美妙之處在于每個head的學習多樣性,豐富了編碼器模型,具有強大的和多方面的理解。

步驟3.2歸一化和殘留連接

編碼器層中的每個子層后面都有一個規范化步驟。此外,每個子層的輸出被添加到它的輸入(殘余連接),以幫助緩解梯度消失問題,允許更深入的模型。這個過程在前饋神經網絡之后也會重復。

9e172c8e-44d1-11f0-b715-92fbcf53809c.png

步驟3.3前饋神經網絡

歸一化剩余輸出通過點向前饋網絡導航,這是額外細化的關鍵階段。

把這個網絡想象成兩個線性層,在它們之間有一個ReLU激活,作為一個橋梁。一旦處理完畢,輸出就會走上一條熟悉的路徑:它循環回去,并與點向前饋網絡的輸入合并。

這次團聚之后是另一輪歸一化,確保一切都調整得很好,并與下一步同步。

9e261622-44d1-11f0-b715-92fbcf53809c.png

步驟4 -編碼器的輸出

最終編碼器層的輸出是一組向量,每個向量表示具有豐富上下文理解的輸入序列。然后將該輸出用作Transformer模型中解碼器的輸入。

這種編碼為解碼器鋪平了道路,指導它在解碼時注意輸入中的正確單詞。

可以把它想象成建造一座塔,在那里可以堆疊N個編碼器層。這個堆棧中的每一層都有機會探索和學習attention的不同方面,就像知識層一樣。這不僅使理解多樣化,而且可以顯著增強Transformer網絡的預測能力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3779

    瀏覽量

    137226
  • 模型
    +關注

    關注

    1

    文章

    3495

    瀏覽量

    50039
  • Transformer
    +關注

    關注

    0

    文章

    151

    瀏覽量

    6405

原文標題:Transformer架構詳細解析——編碼器

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    光電編碼器工作原理

    光電編碼器工作原理 工作原理:當光電編碼器的軸轉動時A、B兩根線都產生脈沖輸出,A、B兩相脈沖相差90度相
    發表于 01-05 08:59 ?2996次閱讀
    光電<b class='flag-5'>編碼器</b>的<b class='flag-5'>工作</b>原理

    光電編碼器,光電編碼器工作原理

    光電編碼器,光電編碼器工作原理 光電編碼器,是一種通過光電轉換將輸出軸上的機械幾何位移量轉換成脈沖或數字量的傳感。這是目前應用最
    發表于 03-02 14:40 ?9245次閱讀

    編碼器,編碼器是什么意思

    編碼器,編碼器是什么意思 編碼器 編碼器(encoder)是將信號
    發表于 03-08 15:04 ?3250次閱讀

    編碼器工作原理,光電編碼器工作原理分析

    編碼器工作原理,光電編碼器工作原理分析 編碼器工作原理  絕對脈沖
    發表于 03-08 15:18 ?21.8w次閱讀

    編碼器工作原理和選型方法

    編碼器工作原理和選型方法 絕對脈沖編碼器:APC   增量脈沖編碼器:SPC   兩者一般都應用于速度控制或位置控制系統的檢測元件.   旋轉
    發表于 04-21 17:42 ?1714次閱讀

    編碼器元件工作原理及其應用電路

    本文主要介紹了編碼器元件工作原理及其應用電路。本文將對增量型編碼器和絕對型編碼器工作原理和應用進行介紹。在
    的頭像 發表于 03-04 15:20 ?4w次閱讀
    <b class='flag-5'>編碼器</b>元件<b class='flag-5'>工作</b>原理及其應用電路

    編碼器正交編碼工作原理

    正交編碼器(又名雙通道增量式編碼器),用于將線性移位轉換為脈沖信號。
    發表于 08-02 08:50 ?3.3w次閱讀

    拉線編碼器工作原理

    隨著拉線位移傳感的應用越來越普遍,對于拉線編碼器的了解也越來越重要了,因為如果您不懂拉繩編碼器工作原理的話,您也不好真正的把拉線式編碼器
    發表于 05-12 17:10 ?8074次閱讀

    工作流程圖怎么用?有哪些繪制工作流程圖的軟件

    工作流程圖是清晰地展示工作中各個環節的流程圖圖示,主要用于工作活動和效率的管理。工作流程圖這種圖示方法具有直觀描述性、簡潔性、可操作性和指導
    的頭像 發表于 07-28 14:22 ?3841次閱讀

    基于transformer編碼器-解碼模型的工作原理

    與基于 RNN 的編碼器-解碼模型類似,基于 transformer編碼器-解碼模型由一個編碼器
    發表于 06-11 14:17 ?2790次閱讀
    基于<b class='flag-5'>transformer</b>的<b class='flag-5'>編碼器</b>-解碼<b class='flag-5'>器</b>模型的<b class='flag-5'>工作</b>原理

    基于 Transformers 的編碼器-解碼模型

    基于 transformer編碼器-解碼模型是 表征學習 和 模型架構 這兩個領域多年研究成果的結晶。本文簡要介紹了神經編碼器-解碼
    的頭像 發表于 06-16 16:53 ?1216次閱讀
    基于 Transformers 的<b class='flag-5'>編碼器</b>-解碼<b class='flag-5'>器</b>模型

    神經編碼器-解碼模型的歷史

    基于 transformer編碼器-解碼模型是 表征學習 和 模型架構 這兩個領域多年研究成果的結晶。本文簡要介紹了神經編碼器-解碼
    的頭像 發表于 06-20 15:42 ?1141次閱讀
    神經<b class='flag-5'>編碼器</b>-解碼<b class='flag-5'>器</b>模型的歷史

    磁性直線編碼器工作原理

    磁性直線編碼器是一種常用于精確測量直線位移的關鍵裝置。本文將詳細介紹磁性直線編碼器工作原理,包括其基本結構、工作原理、測量原理和應用領域。同時,還會探討磁性直線
    的頭像 發表于 06-26 14:04 ?1868次閱讀

    NX CAD軟件:數字化工作流程解決方案(CAD工作流程)

    NXCAD——數字化工作流程解決方案(CAD工作流程)使用西門子領先的產品設計軟件NXCAD加速執行基于工作流程的解決方案。我們在了解行業需求方面累積了多年的經驗,并據此針對各個行業的具體需求提供
    的頭像 發表于 02-06 18:15 ?331次閱讀
    NX CAD軟件:數字化<b class='flag-5'>工作流程</b>解決方案(CAD<b class='flag-5'>工作流程</b>)

    Transformer架構解碼工作流程

    解碼的作用主要是制作文本序列。與編碼器類似,解碼也配備了一組類似的子層。它具有兩個Multi-Head attention層,一個點前饋層,并且在每個子層之后都包含剩余連接和層歸一化。
    的頭像 發表于 06-10 14:32 ?81次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構</b><b class='flag-5'>中</b>解碼<b class='flag-5'>器</b>的<b class='flag-5'>工作流程</b>