女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌提出Flan-T5,一個模型解決所有NLP任務

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:nghuyong ? 2022-11-24 11:21 ? 次閱讀

d797167e-6ba6-11ed-8abf-dac502259ad0.jpg

「論文」: Scaling Instruction-Finetuned Language Models
「地址」: https://arxiv.org/abs/2210.11416
「模型」: https://huggingface.co/google/flan-t5-xxl

1. Flan-T5是什么

「Flan-T5」是Google最新的一篇工作,通過在超大規模的任務上進行微調,讓語言模型具備了極強的泛化性能,做到單個模型就可以在1800多個NLP任務上都能有很好的表現。這意味著模型一旦訓練完畢,可以直接在幾乎全部的NLP任務上直接使用,實現「One model for ALL tasks」,這就非常有誘惑力!

這里的Flan指的是(Instruction finetuning),即"基于指令的微調";T5是2019年Google發布的一個語言模型了。注意這里的語言模型可以進行任意的替換(需要有Decoder部分,所以「不包括BERT這類純Encoder語言模型」),論文的核心貢獻是提出一套多任務的微調方案(Flan),來極大提升語言模型的泛化性。

d7ad732e-6ba6-11ed-8abf-dac502259ad0.png

Flat

例如下面文章中的例子,模型訓練好之后,可直接讓模型做問答:

「模型輸入」是:"Geoffrey Hinton和George Washington這兩個人有沒有交談過?在回答之前想一想原因。“

「模型返回」是:Geoffrey Hinton是一個計算機科學家,出生在1947年;而George Washington在1799年去世。所以這兩個不可能有過交談。所以答案時“沒有”。

2. 怎么做的

d7bb88b0-6ba6-11ed-8abf-dac502259ad0.png

1800+微調任務

(1) 「任務收集」:工作的第一步是收集一系列監督的數據,這里一個任務可以被定義成<數據集,任務類型的形式>,比如“基于SQuAD數據集的問題生成任務”。需要注意的是這里有9個任務是需要進行推理的任務,即Chain-of-thought (CoT)任務。

(2) 「形式改寫」:因為需要用單個語言模型來完成超過1800+種不同的任務,所以需要將任務都轉換成相同的“輸入格式”喂給模型訓練,同時這些任務的輸出也需要是統一的“輸出格式”。

d7d6b630-6ba6-11ed-8abf-dac502259ad0.png

輸入輸出格式

如上圖所示,根據 “是否需要進行推理 (CoT)” 以及 “是否需要提供示例(Few-shot)” 可將輸入輸出劃分成四種類型:

  • chain-of-thought : and few-shot: (圖中左上)
    • 輸入:指令 + 問題
    • 輸出:答案
  • chain-of-thought : and few-shot: (圖中右上)
    • 輸入:指令 + CoT引導(by reasoning step by step) + 問題
    • 輸出:理由 + 答案
  • chain-of-thought: and few-shot: (圖中左下)
    • 輸入:指令 + 示例問題 + 示例問題回答 + 指令 + 問題
    • 輸出:答案
  • chain-of-thought: and few-shot: (圖中右下)
    • 輸入:指令 + CoT引導 + 示例問題 + 示例問題理由 + 示例問題回答 + 指令 + CoT引導 + 問題
    • 輸出:理由 + 答案

(3) 「訓練過程」:采用恒定的學習率以及Adafactor優化器進行訓練;同時會將多個訓練樣本“打包”成一個訓練樣本,這些訓練樣本直接會通過一個特殊的“結束token”進行分割。訓練時候在每個指定的步數會在“保留任務”上進行模型評估,保存最佳的checkpoint。

d7f38ada-6ba6-11ed-8abf-dac502259ad0.png

保留任務

盡管微調的任務數量很多,但是相比于語言模型本身的預訓練過程,計算量小了非常多,只有0.2%。所以通過這個方案,大公司訓練好的語言模型可以被再次有效的利用,我們只需要做好“微調”即可,不用重復耗費大量計算資源再去訓一個語言模型。

d81381dc-6ba6-11ed-8abf-dac502259ad0.png

微調過程與預訓練本身的計算量對比

3. 一些結論

(1) 微調很重要

d923992c-6ba6-11ed-8abf-dac502259ad0.png

直接預測(紅框)微調(綠框)

與不微調相比,通過基于指令的微調(flan)可以大幅度提高語言模型的效果。

(2) 模型越大效果越好

d9499398-6ba6-11ed-8abf-dac502259ad0.png

模型大小與任務數量對效果的影響

伴隨模型體積的增加(上圖左), 尤其是指數級的增加,比如從8B->62B,再從62B->540B,不論是否微調,效果都有非常顯著的提升,而且還沒有看到收斂的信號,可能如果有了 “萬億”參數的模型,效果還能繼續提升。

(3) 任務越多效果越好

伴隨任務數量的增加(上圖右),模型的性能也會跟著增加,但是當任務數量超過282個之后,提升就不是很明顯了。因為繼續增加新的任務,尤其任務形式跟之前一樣,不會給模型帶來新的知識;多任務微調的本質是模型能夠更好的把從預訓練學到的知識進行表達,超過一定任務之后,繼續新增相似的任務,知識的表達能力不會繼續有很大的收益。進一步統計全部微調數據集的token數,發現只占到了預訓練數據token數的0.2%,這表明還是有很多的知識沒有在微調階段重新被激發。

(4) 混雜CoT相關的任務很重要

d955b5a6-6ba6-11ed-8abf-dac502259ad0.png

保留任務中 CoT相關的任務 以及 非CoT相關的任務

盡管在1800多個任務中只有9個需要推理再給出回答的任務(CoT任務),但是混雜了這9個任務之后對整個模型的提升很大。在針對CoT相關任務的預測上,如果在微調中混淆CoT任務能帶來明顯的提升(左圖中藍色和綠色線);在針對非CoT相關任務的預測上,如果在微調中混淆了CoT任務也不會對模型帶來傷害(右圖中藍色和綠色線)。

d966f668-6ba6-11ed-8abf-dac502259ad0.png

zero-shot上是否引入CoT的對比
(5) 整合起來

最終在多個不同尺寸的模型上進行實驗,都可以獲得一致性的結論:引入Flan微調方案,可以很好提高語言模型在超大規模任務上的整體效果。

d975968c-6ba6-11ed-8abf-dac502259ad0.png

不同版本的模型

總結一下,這篇工作提出了Flan的微調框架,核心有四點:統一的輸入輸出格式(4種類型),引入chain-of-thought,大幅提高任務數量,大幅提高模型體積;實現了用一個模型來解決超過1800種幾乎全部的NLP任務,通過較低的成本,極大發掘了現有語言模型的泛化性能,讓大家看到了通用模型的希望,即「One Model for ALL Tasks」


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1786

    瀏覽量

    58647
  • 模型
    +關注

    關注

    1

    文章

    3480

    瀏覽量

    49948
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22466

原文標題:谷歌提出Flan-T5,一個模型解決所有NLP任務

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    谷歌AI智能體執行復雜任務能力大幅提升

    自然語言描述任務,隨后由AI智能體代替用戶執行并最終完成任務,極大地提升工作效率和便捷性。 為了推進這技術的實現,谷歌正在積極開發兩相關
    的頭像 發表于 02-17 14:39 ?530次閱讀

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI 大模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新代旗艦大模型 Gemini 2.0 P
    的頭像 發表于 02-07 15:07 ?605次閱讀

    AI大模型在自然語言處理中的應用

    AI大模型在自然語言處理(NLP)中的應用廣泛且深入,其強大的語義理解和生成能力為NLP任務帶來了顯著的性能提升。以下是對AI大模型
    的頭像 發表于 10-23 14:38 ?1254次閱讀

    大語言模型的預訓練

    隨著人工智能技術的飛速發展,自然語言處理(NLP)作為人工智能領域的重要分支,取得了顯著的進步。其中,大語言模型(Large Language Model, LLM)憑借其強大的語
    的頭像 發表于 07-11 10:11 ?857次閱讀

    Transformer語言模型簡介與實現過程

    在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之。Transformer模型
    的頭像 發表于 07-10 11:48 ?2797次閱讀

    模型為什么要微調?大模型微調的原理

    難以達到最佳性能。為了提升模型在特定任務上的表現,微調(Fine-tuning)成為了關鍵步驟。本文將詳細探討大模型為什么要進行微調以及
    的頭像 發表于 07-10 10:43 ?6842次閱讀

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對
    的頭像 發表于 07-09 10:39 ?705次閱讀

    nlp自然語言處理基本概念及關鍵技術

    、問答系統、文本摘要等眾多領域有著廣泛的應用。 1. NLP的基本概念 1.1 語言模型 語言模型NLP的基礎,它用于描述
    的頭像 發表于 07-09 10:32 ?1186次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多領域
    的頭像 發表于 07-09 10:26 ?1903次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是種深度學習模型,主要用于處理自然語言處理(NLP任務。LLM
    的頭像 發表于 07-09 09:59 ?1257次閱讀

    llm模型和chatGPT的區別

    LLM(Large Language Model)是指大型語言模型,它們是類使用深度學習技術構建的自然語言處理(NLP模型。LLM模型
    的頭像 發表于 07-09 09:55 ?1847次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學習技術的發展,NLP領域
    的頭像 發表于 07-05 09:59 ?1035次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域的重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域
    的頭像 發表于 07-05 09:57 ?1290次閱讀

    NLP模型中RNN與CNN的選擇

    NLP中的應用場景、工作原理、優缺點,以及在選擇時應考慮的關鍵因素,以期為讀者提供全面而深入的理解。
    的頭像 發表于 07-03 15:59 ?939次閱讀

    【大規模語言模型:從理論到實踐】- 每日進步點點

    序列數據提出種歸化方法,主要在layer維度進行歸化,即對整個序列進行歸化。 流程:計算
    發表于 05-31 19:54