女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

技術速遞 | 論文分享《Holistic Evaluation of Language Models》

華為DevCloud ? 來源:未知 ? 2023-05-11 20:16 ? 次閱讀
【摘要】 大模型(LLM)已經成為了大多數語言相關的技術的基石,然而大模型的能力、限制、風險還沒有被大家完整地認識。該文為大模型評估方向的綜述論文,由Percy Liang團隊打造,將2022年四月份前的大模型進行了統一的評估。其中,被評估的模型包括GPT-3,InstructGPT等。在經過大量的實驗之后,論文提出了一些可供參考的經驗總結。

1. 在所有被評估的模型中,InstructGPT davinci v2(175B)在準確率,魯棒性,公平性三方面上表現最好。論文主要聚焦的是國外大公司的語言大模型,而國內的知名大模型,如華為的Pangu系列以及百度的文心系列,論文并沒有給出相關的測評數據。下圖展示了各模型間在各種NLP任務中頭對頭勝率(Head-to-head win rate)的情況。可以看到,出自OpenAI的InstructGPT davinci v2在絕大多數任務中都可以擊敗其他模型。最近的大火的ChatGPT誕生于這篇論文之后,因此這篇論文沒有對ChatGPT的測評,但ChatGPT是InstructGPT的升級版,相信ChatGPT可以取得同樣優異的成績。在下圖中,準確率的綜合第二名由微軟的TNLG獲得,第三名由初創公司Anthropic獲得。同時我們也可以看到,要想在準確率額上獲得55%及以上的勝率,需要至少50B的大小,可見大模型是趨勢所向。8317f780-e42d-11ed-ab56-dac502259ad0.png

2. 由于硬件、架構、部署模式的區別,不同模型的準確率和效率之間沒有強相關性。而準確率與魯棒性(Robustness)、公平性(Fairness)之間有一定的正相關關系(如下圖所示)。

8335fb7c-e42d-11ed-ab56-dac502259ad0.png

如今,大模型的參數規模都非常巨大。GPT-3具有1750億個參數,部署這樣一個大模型,無論在成本上還是工程上都是極大的挑戰。同時,由于需要開放API給用戶使用,OpenAI還需要考慮GPT-3的推理速度。文章的測試結果顯示,GPT-3的推理速度并沒有顯著地比參數更少地模型慢,可能是在硬件、架構和部署模式上都有一定地優勢,足以彌補參數規模上的劣勢。

3. InstructGPT davinci v2(175B)在知識密集型的任務上取得了遠超其他模型的成績,在TruthfulQA數據集上獲得了62.0%的準確率,遠超第二名Anthropic-LM v4-s3 (52B) 36.2%的成績。(TruthfulQA是衡量語言模型在生成問題答案時是否真實的測評數據集。該數據集包括817個問題,涵蓋38個類別,包括健康,法律,金融和政治。作者精心設計了一些人會因為錯誤的先驗知識或誤解而錯誤回答的問題。)與此同時,TNLG v2(530B)在部分知識密集型任務上也有優異的表現。作者認為模型的規模對學習真實的知識起到很大的貢獻,這一點可以從兩個大模型的優異表現中推測得到。

4. 在推理(Reasoning)任務上,Codex davinci v2在代碼生成和文本推理任務上表現都很優異,甚至遠超一些以文本為訓練語料的模型。這一點在數學推理的數據上表現最明顯。在GSM8K數據集上,Codex davinci v2獲得了52.1%的正確率,第二名為InstructGPT davinci v2(175B)的35.0%,且沒有其他模型正確率超過16%。Codex davinci v2主要是用于解決代碼相關的問題,例如代碼生成、代碼總結、注釋生成、代碼修復等,它在文本推理任務上的優秀表現可能是其在代碼數據上訓練的結果,因為代碼是更具有邏輯關系的語言,在這樣的數據集上訓練也許可以提升模型的推理能力。

5. 所有的大模型都對輸入(Prompt)的形式非常敏感。論文主要采用few-shot這種In-context learning的形式增強輸入(Prompt)。

835fb868-e42d-11ed-ab56-dac502259ad0.png

如上圖所示,在不同任務上,in-context examples的數量影響不同,在不同的模型上也是如此。由于有些任務比較簡單,例如二分類的IMDB數據庫,增加in-context examples并不會對結果有明顯的影響。在模型方面,由于window size的限制,過多的in-context examples可能導致剩余的window size不足以生成一個完成答案,因而對生成結果造成負面的影響。

點擊“閱讀原文”,了解更多!


原文標題:技術速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信公眾號:華為DevCloud】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    216

    文章

    35032

    瀏覽量

    255079

原文標題:技術速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信號:華為DevCloud,微信公眾號:華為DevCloud】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    請問AD7768-4、ADAU1979的配套Evaluation Software能否進行原始音頻數據?

    請問AD7768-4、ADAU1979的配套Evaluation Software能否進行原始音頻數據? 另外請問有沒有MCU+AD架構的高精度、多通道的聲卡的解決方案?
    發表于 04-15 07:53

    Keil LPC1769 Evaluation Board支持SPI和I2C通信嗎?

    OM11084 : Keil LPC1769 Evaluation Board 支持 SPI 和 I2C 通信嗎?
    發表于 04-07 06:33

    京東零售廣告創意:引入場域目標的創意圖片生成

    作者:京東零售 馮偉 WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models
    的頭像 發表于 03-18 14:00 ?271次閱讀
    京東零售廣告創意:引入場域目標的創意圖片生成

    美報告:中國芯片研究論文全球領先

    據新華社報道,美國喬治敦大學“新興技術觀察項目(ETO)”3日在其網站發布一份報告說,2018年至2023年間,在全球發表的芯片設計和制造相關論文中,中國研究人員的論文數量遠超其他國家,中國在高被
    的頭像 發表于 03-05 14:32 ?850次閱讀

    DeepSeek大模型如何推動“AI+物流”融合創新

    在人工智能技術的迭代浪潮中,大模型(Large Language Models, LLM)正從文本生成、圖像創作走向垂直行業賦能。2025年新年,國產 AI 大模型 DeepSeek 橫空出世,憑借其低成本、高精度和多模態能力,
    的頭像 發表于 02-28 16:36 ?593次閱讀

    MAX38913AEVK-WLP: Evaluation Kit for the MAX38913 and MAX38914 Data Sheet adi

    電子發燒友網為你提供ADI(ADI)MAX38913AEVK-WLP: Evaluation Kit for the MAX38913 and MAX38914 Data Sheet相關產品參數
    發表于 01-15 18:55
    MAX38913AEVK-WLP: <b class='flag-5'>Evaluation</b> Kit for the MAX38913 and MAX38914 Data Sheet adi

    MAX15159EVKIT: Evaluation Kit for MAX15159 Data Sheet adi

    電子發燒友網為你提供ADI(ADI)MAX15159EVKIT: Evaluation Kit for MAX15159 Data Sheet相關產品參數、數據手冊,更有MAX15159EVKIT
    發表于 01-15 18:53
    MAX15159EVKIT: <b class='flag-5'>Evaluation</b> Kit for MAX15159 Data Sheet adi

    MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: Evaluation System for the MAX98361 Data Sheet adi

    電子發燒友網為你提供ADI(ADI)MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: Evaluation System for the MAX98361 Data
    發表于 01-15 18:45
    MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: <b class='flag-5'>Evaluation</b> System for the MAX98361 Data Sheet adi

    中國電提出大模型推理加速新范式Falcon

    近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的頭像 發表于 01-15 13:49 ?703次閱讀
    中國電提出大模型推理加速新范式Falcon

    大語言模型開發語言是什么

    在人工智能領域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發語言和工具的支持。下面,AI部落小編為您介紹大語言模型開發所依賴的主要編程語言。
    的頭像 發表于 12-04 11:44 ?597次閱讀

    LMK5C33414A Evaluation Module用戶指南

    電子發燒友網站提供《LMK5C33414A Evaluation Module用戶指南.pdf》資料免費下載
    發表于 11-07 09:12 ?0次下載
    LMK5C33414A <b class='flag-5'>Evaluation</b> Module用戶指南

    新品速遞 | TOF反射型光電,突破檢測距離天花板

    新品速遞 | TOF反射型光電,突破檢測距離天花板
    的頭像 發表于 08-13 08:24 ?568次閱讀
    新品<b class='flag-5'>速遞</b> | TOF反射型光電,突破檢測距離天花板

    微軟GitHub推出Models服務,賦能AI工程師

    微軟旗下的代碼托管巨頭 GitHub 近期宣布了一項重大更新——GitHub Models 服務,旨在成為 AI 工程師的得力助手。該服務專為開發者設計,旨在幫助他們輕松選擇并優化最適合其應用需求的 AI 模型。
    的頭像 發表于 08-05 14:16 ?782次閱讀

    GitHub推出GitHub Models服務,賦能開發者智能選擇AI模型

    8月2日,全球領先的代碼托管平臺GitHub宣布了一項重大創新——GitHub Models服務的正式推出。該服務被定位為AI時代的工程師助手,旨在幫助全球超過1億的GitHub用戶輕松找到并應用最適合其項目需求的AI模型。
    的頭像 發表于 08-02 15:39 ?949次閱讀

    大模型LLM與ChatGPT的技術原理

    在人工智能領域,大模型(Large Language Model, LLM)和ChatGPT等自然語言處理技術(Natural Language Processing, NLP)正逐步改變著人類
    的頭像 發表于 07-10 10:38 ?1509次閱讀