女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ChatGPT背后的原理簡析

要長高 ? 來源:網絡整理 ? 作者:網絡整理 ? 2023-02-09 15:09 ? 次閱讀

ChatGPT 是 OpenAI 發布的最新語言模型,比其前身 GPT-3 有顯著提升。與許多大型語言模型類似,ChatGPT 能以不同樣式、不同目的生成文本,并且在準確度、敘述細節和上下文連貫性上具有更優的表現。它代表了 OpenAI 最新一代的大型語言模型,并且在設計上非常注重交互性。

從官網介紹可以看到,ChatGPT與InstructGPT是同源的模型。

chatGPT是一種基于轉移學 習的大型語言模型,它使用GPT-2 (Generative PretrainedTransformer2)模型的技術,并進行了進一步的訓練和優化。

GPT-2模型是一種基于注意力機制的神經網絡模型,它能夠處理序列建橫問題,如自然語言處理中的語言建模和機器翻譯。它使用了一種叫做transformer的架構, 它能夠通過自注意力機制來學習語言的結構和語義。GPT-2模型預先訓練了一個大型語料庫上,以便在實際應用中能夠更好地表現。

chatGPT是在GPT-2模型的基礎上進一步訓練和優化而得到的。 它使用了更多的語料庫,并且進行了專門的訓練來提高在對話系統中的表現。這使得chatGPT能夠在對話中白然地回應用戶的輸入,并且能夠生成流暢、連貫、通順的文本。

那么接下來我們來看下什么是InstructGPT。從字面上來看,顧名思義,它就是指令式的GPT,“which is trained to follow an instruction in a prompt and provide a detailed response”。接下來我們來看下InstructGPT論文中的主要原理:

pYYBAGPknAmAfqGdAAFfaj7uGl0745.png

InstructGPT整體訓練流程

從該圖可以看出,InstructGPT是基于GPT-3模型訓練出來的,具體步驟如下:

步驟1.)從GPT-3的輸入語句數據集中采樣部分輸入,基于這些輸入,采用人工標注完成希望得到輸出結果與行為,然后利用這些標注數據進行GPT-3有監督的訓練。該模型即作為指令式GPT的冷啟動模型。

步驟2.)在采樣的輸入語句中,進行前向推理獲得多個模型輸出結果,通過人工標注進行這些輸出結果的排序打標。最終這些標注數據用來訓練reward反饋模型。

步驟3.)采樣新的輸入語句,policy策略網絡生成輸出結果,然后通過reward反饋模型計算反饋,該反饋回過頭來作用于policy策略網絡。以此反復,這里就是標準的reinforcement learning強化學習的訓練框架了。

所以總結起來ChatGPT(對話GPT)其實就是InstructGPT(指令式GPT)的同源模型,然后指令式GPT就是基于GPT-3,先通過人工標注方式訓練出強化學習的冷啟動模型與reward反饋模型,最后通過強化學習的方式學習出對話友好型的ChatGPT模型。

InstructGPT的訓練實際上是分為三個階段的,第一階段就是我們上文所述,利用人工標注的數據微調GPT3;第二階段,需要訓練一個評價模型即Reward Model,該模型需學習人類對于模型回復的評價方式,對于給定的上文與生成回復給出分數;第三階段,利用訓練好的Reward Model作為反饋信號,去指導GPT進一步進行微調,將目標設定為Reward分數最大化,從而使模型產生更加符合人類偏好的回復。

文章綜合CSDN、賽爾實驗室、 IT架構師聯盟

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4805

    瀏覽量

    102676
  • OpenAI
    +關注

    關注

    9

    文章

    1200

    瀏覽量

    8614
  • ChatGPT
    +關注

    關注

    29

    文章

    1586

    瀏覽量

    8774
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    新能源電池產業鏈及投資機會-磷酸亞鐵鋰

    新能源電池產業鏈及投資機會-磷酸亞鐵鋰  一、前言
    發表于 12-25 09:34 ?1035次閱讀

    LLM風口背后ChatGPT的成本問題

    趁著ChatGPT這一熱門話題還未消退,我們來聊一聊這類大規模語言模型(LLM)或通用人工智能(AGI)背后的細節。畢竟目前相關的概念股跟風大漲,但還是有不少人在持觀望態度。無論是國外還是國內
    的頭像 發表于 02-15 01:19 ?4955次閱讀

    基于ATM理念的UTRAN傳輸架構

    基于ATM理念的UTRAN傳輸架構:UTRAN(UMTS無線接入網)系統傳輸網承載其內部業務傳送及至CN(核心網)側的業務匯聚功能,考慮3G網絡內,話音、媒體流及Internet等數據業務的多樣
    發表于 10-22 10:49 ?15次下載

    電動汽車用鋰離子電池技術的國內外進展

    電動汽車用鋰離子電池技術的國內外進展
    發表于 11-10 13:53 ?851次閱讀

    PCB線路板電鍍銅工藝

    PCB線路板電鍍銅工藝   一.電鍍工藝的分類:   酸性光亮銅電鍍電鍍鎳/金電鍍錫   二.工藝流程:
    發表于 11-17 14:01 ?4196次閱讀

    EPON技術

    EPON技術 EPON是一個新技術,用于保證提供一個高品質與高帶寬利用率的應用。   EPON在日本、韓國、中國大陸、中國臺灣及其它以以太網絡為基礎的地區都
    發表于 01-22 10:43 ?968次閱讀

    筆記本屏幕亮度與反應速度

    筆記本屏幕亮度與反應速度 屏幕亮度   筆記本TFT-LCD的亮度值一般都在150~200 cd/m2(極少數可以
    發表于 01-23 09:34 ?835次閱讀

    BGA封裝技術與質量控制

    BGA封裝技術與質量控制  ?。樱停裕⊿urface Mount Technology)表面安裝技術順應了電子產品小型化、輕型化的潮流趨勢,為實現電子
    發表于 03-30 16:49 ?1594次閱讀

    鼠標HID例程(中)

    鼠標 HID 例程 緊接《鼠標 HID 例程(上)》一文,繼續向大家介紹鼠 標 HID 例程的未完的內容。
    發表于 07-26 15:18 ?0次下載

    籠型三相異步電動機噪聲故障

    籠型三相異步電動機噪聲故障_陳金剛
    發表于 01-01 15:44 ?1次下載

    比較器的原理及應用資料下載

    電子發燒友網為你提供比較器的原理及應用資料下載的電子資料下載,更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發表于 04-14 08:40 ?27次下載
    <b class='flag-5'>簡</b><b class='flag-5'>析</b>比較器的原理及應用資料下載

    5G AAU 功放控制和監測模塊

    5G AAU 功放控制和監測模塊
    發表于 10-28 12:00 ?2次下載
    5G AAU 功放控制和監測模塊<b class='flag-5'>簡</b><b class='flag-5'>析</b>

    ChatGPT成功背后的技術原因

    ChatGPT不僅是自然語言理解領域的一項技術進步,會引發新一輪信息服務和內容生成領域的商業潮流,同時,其背后基于海量數據的深度生成技術,以及基于人類反饋的強化學習技術,是更長遠的進步動力,會引起生命科學等領域的長足發展。
    發表于 02-21 09:40 ?1288次閱讀

    chatgpt是什么意思 ChatGPT背后的技術原理

      今天我們為大家帶來的文章,深入淺出地闡釋了ChatGPT背后的技術原理,沒有NLP或算法經驗的小伙伴,也可以輕松理解ChatGPT是如何工作的?! ?b class='flag-5'>ChatGPT是一種機器學習自然
    發表于 07-18 17:12 ?0次下載

    AFE8092幀同步特性

    AFE8092幀同步特性
    的頭像 發表于 08-24 13:37 ?862次閱讀
    AFE8092幀同步特性<b class='flag-5'>簡</b><b class='flag-5'>析</b>