精品爆乳美女,亚洲一二三四区,亚洲欧美日韩综合国产

LLama

[GPT3] 使用RMSNorm（即Root Mean square Layer Normalization）對輸入數據進行標準化，RMSNorm可以參考論文：Root mean square layer normalization。

[PaLM]使用激活函數SwiGLU，該函數可以參考PALM論文：Glu variants improve transformer。

[GPTNeo]使用Rotary Embeddings進行位置編碼，該編碼可以參考論文 Roformer: Enhanced transformer with rotary position embedding。

使用了AdamW優(yōu)化器，并使用cosine learning rate schedule，

使用因果多頭注意的有效實現來減少內存使用和運行時間。該實現可在xformers

Palm

采用SwiGLU激活函數：用于 MLP 中間激活，采用SwiGLU激活函數：用于 MLP 中間激活，因為與標準 ReLU、GELU 或 Swish 激活相比，《GLU Variants Improve Transformer》論文里提到：SwiGLU 已被證明可以顯著提高模型效果

提出Parallel Layers：每個 Transformer 結構中的“并行”公式：與 GPT-J-6B 中一樣，使用的是標準“序列化”公式。并行公式使大規(guī)模訓練速度提高了大約 15%。消融實驗顯示在 8B 參數量下模型效果下降很小，但在 62B 參數量下沒有模型效果下降的現象。

Multi-Query Attention：每個頭共享鍵/值的映射，即“key”和“value”被投影到 [1, h]，但“query”仍被投影到形狀 [k, h]，這種操作對模型質量和訓練速度沒有影響，但在自回歸解碼時間上有效節(jié)省了成本。

使用RoPE embeddings：使用的不是絕對或相對位置嵌入，而是RoPE，是因為 RoPE 嵌入在長文本上具有更好的性能，

采用Shared Input-Output Embeddings:輸入和輸出embedding矩陣是共享的，這個我理解類似于word2vec的輸入W和輸出W'：

GLM

Layer Normalization的順序和殘差連接被重新排列，

用于輸出標記預測的單個線性層；

ReLU s替換為GELU s

二維位置編碼

BLOOM

使用 ALiBi 位置嵌入，它根據鍵和查詢的距離直接衰減注意力分數。與原始的 Transformer 和 Rotary 嵌入相比，它可以帶來更流暢的訓練和更好的下游性能。ALiBi不會在詞嵌入中添加位置嵌入；相反，它會使用與其距離成比例的懲罰來偏向查詢鍵的注意力評分。

Embedding Layer Norm 在第一個嵌入層之后立即使用，以避免訓練不穩(wěn)定。

使用了 25 萬個標記的詞匯表。使用字節(jié)級 BPE。這樣，標記化永遠不會產生未知標記

兩個全連接層：

GPT

GPT 使用 Transformer 的 Decoder 結構，并對 Transformer Decoder 進行了一些改動，原本的 Decoder 包含了兩個 Multi-Head Attention 結構，GPT 只保留了 Mask Multi-Head Attention，如下圖所示:

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

原文標題：LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT結構對比

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b