女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ChatGPT深度報告合集:奇點臨近,未來已來

悟空智能科技 ? 來源:悟空智能科技 ? 2023-07-14 15:03 ? 次閱讀

ChatGPT深度報告合集:奇點臨近,未來已來

一直以來,大家都對 GPT-4 的模型架構、基礎設施、訓練數(shù)據(jù)集、成本等信息非常好奇。

奈何 OpenAI 嘴太嚴,很長時間以來,大家也都只是猜測這些數(shù)據(jù)。

不久之前,「天才黑客」喬治?霍茲(George Hotz)在接受一家名為 Latent Space 的 AI技術播客采訪時透露出一個小道消息,稱 GPT-4 是由 8 個混合專家模型組成的集成系統(tǒng),每個專家模型都有 2200 億個參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經過了針對不同數(shù)據(jù)和任務分布的訓練。

雖然此消息無法驗證,但其流傳度非常高,也被部分業(yè)內人士認為非常合理。

最近,更多的消息似乎被泄露了出來。

今日,SemiAnalysis 發(fā)布了一篇付費訂閱的內容,「揭秘」了有關 GPT-4 的更多信息。

fc536a52-21fa-11ee-962d-dac502259ad0.png

文章稱,他們從許多來源收集了大量有關 GPT-4 的信息,包括模型架構、訓練基礎設施、推理基礎設施、參數(shù)量、訓練數(shù)據(jù)集組成、token 量、層數(shù)、并行策略、多模態(tài)視覺適應、不同工程權衡背后的思維過程、獨特的實現(xiàn)技術以及如何減輕與巨型模型推理有關的瓶頸等。

作者表示,GPT-4 最有趣的方面是理解 OpenAI 為什么做出某些架構決策。

此外,文章還介紹了 A100 上 GPT-4 的訓練和推理成本,以及如何拓展到下一代模型架構 H100 。

我們根據(jù) Deep Trading(一家算法交易公司)創(chuàng)始人 Yam Peleg 的推文(目前已刪除),整理了以下關于 GPT-4 的數(shù)據(jù)信息。感興趣的讀者可以細致研究下。

fc84a8f6-21fa-11ee-962d-dac502259ad0.png

不過請注意,這并非官方確認的數(shù)據(jù),大家自行判斷其準確性。

fc9e6f48-21fa-11ee-962d-dac502259ad0.png

1、參數(shù)量:GPT-4 的大小是 GPT-3 的 10 倍以上。文章認為它 120 層網絡中總共有 1.8 萬億個參數(shù)。

2、確實是混合專家模型。OpenAI 能夠通過使用混合專家(MoE)模型來保持合理成本。他們在模型中使用了 16 個專家模型,每個專家模型大約有 111B 個參數(shù)。這些專家模型中的 2 個被路由到每個前向傳遞。

3、MoE 路由:盡管文獻中對于選擇將每個 token 路由到哪個專家模型的高級路由算法進行了大量討論,但據(jù)稱 OpenAI 在當前的 GPT-4 模型中采用了相當簡單的路由方式。該模型大約使用了 550 億個共享參數(shù)來進行注意力計算。

fd1df60a-21fa-11ee-962d-dac502259ad0.png

4、推理:每次前向傳遞的推理(生成 1 個 token)僅利用約 2800 億個參數(shù)和約 560 TFLOP 的計算量。相比之下,純密集模型每次前向傳遞需要大約 1.8 萬億個參數(shù)和約 3700 TFLOP 的計算量。

5、數(shù)據(jù)集:GPT-4 的訓練數(shù)據(jù)集包含約 13 萬億個 token。這些 token 是重復計算之后的結果,多個 epoch 中的 token 都計算在內。

Epoch 數(shù)量:針對基于文本的數(shù)據(jù)進行了 2 個 epoch 的訓練,而針對基于代碼的數(shù)據(jù)進行了 4 個 epoch 的訓練。此外,還有來自 ScaleAI 和內部的數(shù)百萬行的指令微調數(shù)據(jù)。

6、GPT-4 32K:在預訓練階段,GPT-4 使用了 8k 的上下文長度(seqlen)。而 32k 序列長度版本的 GPT-4 是在預訓練后對 8k 版本進行微調而得到的。

fd547e50-21fa-11ee-962d-dac502259ad0.png

7、Batch Size:在計算集群上,幾天時間里,batch size 逐漸增加,最后,OpenAI 使用 batch size 達到了 6000 萬!當然,由于不是每個專家模型都能看到所有 token,因此這僅僅是每個專家模型處理 750 萬個 token 的 batch size。

真實的 batch size:將這個數(shù)字除以序列長度(seq len)即可得到真實的 batch size。請不要再使用這種誤導性的數(shù)字了。

8、并行策略:為了在所有 A100 GPU 上進行并行計算,他們采用了 8 路張量并行,因為這是 NVLink 的極限。除此之外,他們還采用了 15 路流水線并行。(很可能使用了 ZeRo Stage 1,也可能使用了塊級的 FSDP)。

fd9eaba6-21fa-11ee-962d-dac502259ad0.png

9、訓練成本:OpenAI 在 GPT-4 的訓練中使用了大約 2.15e25 的 FLOPS,使用了約 25,000 個 A100 GPU,訓練了 90 到 100 天,利用率(MFU)約為 32% 至 36%。這種極低的利用率部分是由于大量的故障導致需要重新啟動檢查點。

如果他們在云端的每個 A100 GPU 的成本大約為每小時 1 美元,那么僅此次訓練的成本將達到約 6300 萬美元。(而如今,如果使用約 8192 個 H100 GPU 進行預訓練,用時將降到 55 天左右,成本為 2150 萬美元,每個 H100 GPU 的計費標準為每小時 2 美元。)

10、使用專家混合模型時的 tradeoff:在使用專家混合模型時存在多方面 tradeoff。

例如,在推理過程中處理 MoE 非常困難,因為并非模型的每個部分都在每個 token 生成時被利用。這意味著在某些部分被使用時,其他部分可能處于閑置狀態(tài)。在為用戶提供服務時,這會嚴重影響資源利用率。研究人員已經證明使用 64 到 128 個專家比使用 16 個專家能夠實現(xiàn)更好的損失(loss),但這僅僅是研究的結果。

選擇較少的專家模型有多個原因。OpenAI 選擇 16 個專家模型的一大原因是:在許多任務中,更多的專家模型很難泛化,也可能更難收斂。

由于進行了如此大規(guī)模的訓練,OpenAI 選擇在專家模型數(shù)量上更加保守。

fdd45f08-21fa-11ee-962d-dac502259ad0.png

11、推理成本:GPT-4 的推理成本是 1750 億參數(shù)的 Davinci 模型的 3 倍。這主要是因為 GPT-4 需要更大規(guī)模的集群,并且達到的利用率要低得多。

據(jù)估計,在用 128 個 A100 GPU 進行推理的情況下,8k 版本 GPT-4 推理的成本為每 1,000 個 token 0.0049 美分。如果使用 128 個 H100 GPU 進行推理,同樣的 8k 版本 GPT-4 推理成本為每 1,000 個 token 0.0021 美分。值得注意的是,這些估計假設了高利用率和保持較高的 batch size。

12、Multi-Query Attention:OpenAI 和其他機構一樣,也在使用 Multi-Query Attention(MQA)。由于使用 MQA 只需要一個注意力頭(head),并且可以顯著減少用于 KV 緩存的內存容量。即便如此,32k 序列長度的 GPT-4 也絕對無法在 40GB 的 A100 GPU 上運行,而 8k 序列長度的模型則受到了最大 batch size 的限制。

fe4053b6-21fa-11ee-962d-dac502259ad0.png

13、連續(xù) batching:OpenAI 實現(xiàn)了可變 batch size 和連續(xù) batching。這樣做是為了允許一定程度的最大延遲,并優(yōu)化推理成本。

14、視覺多模態(tài):它是一個獨立于文本編碼器的視覺編碼器,二者之間存在交叉注意力。該架構類似于 Flamingo。這在 GPT-4 的 1.8 萬億個參數(shù)之上增加了更多參數(shù)。在純文本的預訓練之后,它又經過了另外約 2 萬億個 token 的微調。

對于視覺模型,OpenAI 本來希望從零開始訓練,但由于其尚未成熟,所以他們決定先從文本開始訓練來降低風險。

這種視覺能力的主要目的之一是使自主智能體能夠閱讀網頁并轉錄圖像和視頻中的內容。

他們訓練的一部分數(shù)據(jù)是聯(lián)合數(shù)據(jù)(包括渲染的 LaTeX / 文本)、網頁的截屏、YouTube 視頻(采樣幀),并使用 Whisper 對其進行運行以獲取轉錄文本。

fe9d0d40-21fa-11ee-962d-dac502259ad0.png

15、推測式解碼(Speculative Decoding):OpenAI 可能在 GPT-4 的推理過程中使用了推測式解碼技術(不確定是否 100%)。這種方法是使用一個更小更快的模型提前解碼多個 token,并將它們作為單個 batch 輸入到一個大型的預測模型(oracle model)中。

如果小型模型對其預測是正確的,大型模型將會同意,我們可以在單個 batch 中解碼多個 token。

但是,如果大型模型拒絕了草稿模型預測的 token,那么 batch 中剩余的部分將被丟棄,然后我們將繼續(xù)使用大型模型進行解碼。

有些陰謀論指出,新的 GPT-4 質量已經下降,這可能只是因為他們讓推測式解碼模型(speculative decoding model)將概率較低的序列傳遞給預測模型,從而導致了這種誤解。

fed73fd8-21fa-11ee-962d-dac502259ad0.png

16、推理架構:推理運行在由 128 個 GPU 組成的集群上。在不同地點的多個數(shù)據(jù)中心存在多個這樣的集群。推理過程采用 8 路張量并行(tensor parallelism)和 16 路流水線并行(pipeline parallelism)。每個由 8 個 GPU 組成的節(jié)點僅具有約 1300 億個參數(shù)。

該模型有 120 層,因此適合于 15 個不同的節(jié)點。可能第一個節(jié)點的層數(shù)較少,因為它還需要計算嵌入。

根據(jù)這些數(shù)字,如果 OpenAI 試圖按照 chinchilla 的最佳指標進行訓練,他們應該使用的 token 數(shù)量是現(xiàn)在的兩倍。這表明他們在獲取高質量數(shù)據(jù)方面遇到了困難。

最后想說的是,這應該是迄今為止關于 GPT-4 最為詳細的數(shù)據(jù)揭秘。目前還不能求證是否真實,但也值得大家研究下。正如原文作者所說,「有趣的方面是理解 OpenAI 為什么做出某些架構決策。」

關于 GPT-4 的這些架構信息,你怎么看?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)集

    關注

    4

    文章

    1223

    瀏覽量

    25283
  • ai技術
    +關注

    關注

    1

    文章

    1307

    瀏覽量

    25010
  • ChatGPT
    +關注

    關注

    29

    文章

    1588

    瀏覽量

    8810

原文標題:終極「揭秘」:GPT-4模型架構、訓練成本、數(shù)據(jù)集信息都被扒出來了

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    維智科技攜手武大校友共探智能未來

    近日,由武漢大學上海校友會創(chuàng)新創(chuàng)業(yè)分會主辦的“AI奇點臨近未來,你不來”2025AI拓新
    的頭像 發(fā)表于 03-04 15:46 ?415次閱讀

    未來!南京在全國率先上崗“智慧路燈機器人”

    未來!南京在全國率先上崗“智慧路燈機器人”
    的頭像 發(fā)表于 02-08 15:32 ?369次閱讀
    <b class='flag-5'>未來</b><b class='flag-5'>已</b><b class='flag-5'>來</b>!南京在全國率先上崗“智慧路燈機器人”

    ChatGPT深度融入蘋果Mac軟件生態(tài)

    近日,科技界迎來了一項重要更新。當?shù)貢r間12月19日,OpenAI宣布了一項重大進展,其研發(fā)的ChatGPT深度集成于蘋果Mac電腦的操作系統(tǒng)軟件中,為用戶帶來了全新的使用體驗。 此次更新中
    的頭像 發(fā)表于 12-23 10:50 ?693次閱讀

    ChatGPT新增實時搜索與高級語音功能

    。OpenAI對搜索算法進行了深度優(yōu)化,使得ChatGPT能夠在用戶提出問題后,迅速獲取到分鐘級別的最新信息,包括股票、新聞等。這一功能的加入,極大地滿足了用戶對即時數(shù)據(jù)的需求,使得ChatGPT在各類應用場景中更加得心應手。
    的頭像 發(fā)表于 12-17 14:08 ?574次閱讀

    蘋果iOS 18.2公測版發(fā)布,Siri與ChatGPT深度融合

    11月7日,蘋果公司正式推出了iOS 18.2的公測版,這款新版本為用戶帶來了諸多備受期待的新功能,其中Siri與ChatGPT深度融合成為了最為引人注目的亮點。   在iOS 18.2中
    的頭像 發(fā)表于 11-07 15:22 ?928次閱讀

    ChatGPT:為未來的個人和企業(yè)提供革命性的對話解決方案

    ChatGPT被認為是未來的個人和企業(yè)的革命性對話解決方案,因為它具有以下特點:1.自然流暢的對話:ChatGPT能夠以自然的、流暢的方式進行對話,使得與機器的交互更加人性化和易于理解。2.廣泛
    的頭像 發(fā)表于 11-01 11:12 ?412次閱讀
    <b class='flag-5'>ChatGPT</b>:為<b class='flag-5'>未來</b>的個人和企業(yè)提供革命性的對話解決方案

    ChatGPT 與人工智能的未來發(fā)展

    ChatGPT是人工智能領域的一個重要里程碑,它代表了自然語言處理(NLP)技術的最新進展。ChatGPT是由人工智能研究實驗室OpenAI開發(fā)的一種深度學習模型,它能夠理解和生成自然語言文本。這種
    的頭像 發(fā)表于 10-25 16:30 ?2419次閱讀

    如何使用 ChatGPT 進行內容創(chuàng)作

    使用ChatGPT進行內容創(chuàng)作是一個高效且富有創(chuàng)意的過程。以下是一些關鍵步驟和建議,幫助您充分利用ChatGPT進行內容創(chuàng)作: 一、準備階段 注冊與登錄 : 確保您注冊ChatGPT
    的頭像 發(fā)表于 10-25 16:08 ?922次閱讀

    華納云:ChatGPT 登陸 Windows

    ChatGPT 現(xiàn)已在 Windows 上推出。 今天,OpenAI宣布開始預覽其 AI 聊天機器人平臺ChatGPT的專用 Windows 應用程序。 OpenAI 表示, ChatGPT
    的頭像 發(fā)表于 10-18 15:50 ?485次閱讀

    蘋果計劃在iOS 18系統(tǒng)中引入ChatGPT

    在即將發(fā)布的iOS 18系統(tǒng)中,開創(chuàng)性地將ChatGPT融入其中,這一決策標志著蘋果與OpenAI合作關系的重大飛躍。ChatGPT與Siri智能助手的深度融合,旨在共同滿足用戶日益增長的知識需求,為用戶帶來前所未有的智能化交互
    的頭像 發(fā)表于 08-30 14:27 ?943次閱讀

    共創(chuàng)未來:QIDI Vida與中國聯(lián)通攜手開啟AI運動新紀元

    共創(chuàng)未來:QIDI Vida與中國聯(lián)通攜手開啟AI運動新紀元 2024中國聯(lián)通合作伙伴大會期間(7月19-20日),奇點臨近(QIDI)與中國聯(lián)通聯(lián)合正式宣布,技術合作共同研發(fā)突破性智能產品
    的頭像 發(fā)表于 07-24 14:47 ?752次閱讀
    共創(chuàng)<b class='flag-5'>未來</b>:QIDI Vida與中國聯(lián)通攜手開啟AI運動新紀元

    大模型LLM與ChatGPT的技術原理

    與機器的交互方式。這些技術通過深度學習和自然語言生成(Natural Language Generation, NLG)的結合,實現(xiàn)了對復雜語言任務的高效處理。本文將深入探討大模型LLM和ChatGPT的技術原理,并通過代碼示例展示其應用。
    的頭像 發(fā)表于 07-10 10:38 ?1518次閱讀

    llm模型和chatGPT的區(qū)別

    基于Transformer架構的預訓練語言模型,它可以生成連貫、自然的文本。ChatGPT使用GPT模型作為基礎,通過微調和訓練實現(xiàn)對話生成和理解。 以下是一
    的頭像 發(fā)表于 07-09 09:55 ?1895次閱讀

    用launch pad燒錄chatgpt_demo項目會有api key報錯的原因?

    我用launch pad燒錄chatgpt_demo項目問題會有api key報錯;請問用launch pad要如何設置api key和調試?還是只能通過idf?
    發(fā)表于 06-27 07:59

    使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因?

    我使用espbox lite進行chatgpt_demo的燒錄 我的idf是v5.1release版本的,espbox是master版本的 在編譯時似乎沒有什么問題 在燒錄時報錯 請問這是什么原因
    發(fā)表于 06-11 08:45