女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

布朗大學90后研究生:我們復現了15億參數GPT-2模型,你也行!

DPVg_AI_era ? 來源:lq ? 2019-09-01 07:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

布朗大學的計算機科學研究畢業生 Vanya Cohen 近日在 Medium 分享了他復現 GPT-2 大模型的全過程。作者復刻了Open-AI 15億參數模型,允許其他人在其預訓練模型上進行構建并進一步改進。

BERT,XLNet,GPT-2和Grover等大型語言模型在生成文本和多個NLP任務方面取得了令人矚目的成果。

本文試圖去復刻GPT-2的15億模型以供研究人員使用。

Google Colab地址:

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

單獨提供的模型權重:

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

復刻

之所以采取遲遲不放出模型的安全戰略,是因為這些模型難以復刻并需要高度專業的領域知識。

但是布朗大學的兩名碩士研究生卻證明了本文的許多結果復刻起來并不是那么的難。而且不僅他們倆可以,絕大多數感興趣的人都可以復刻GPT-2。

研究生之一:Vanya Cohen

此外,Zellers等人表明像GPT-2這樣的大型語言模型是一種非常有用的工具,可以抵制使用與文本生成器相同的模型。

兩位研究生經過深思熟慮后認為,復刻工作并不是獨一無二的,并且大型語言模型是目前抵制生成文本的最有效手段,因此在對抗未來模型被濫用的可能性方面,發布本模型是有益的。

本模型的實現基于Grover模型,并修改其代碼庫以匹配GPT-2的語言建模訓練目標。由于他們的模型是在類似的大型語料庫上進行訓練的,因此大部分代碼和超參數都可以重復使用。本模型沒有從Grover中大幅改變超參數。

使用本模型代碼從頭開始訓練模型的成本約為5萬美元。要注意這個數字是云計算的估計值,并不包含所涉及的各種其他細微的內部成本。

存在顯著的時間-成本平衡,并且較慢的訓練方法具有相當小的成本,因此降低了使用門檻。

數據集

原始文件提供了有關如何清理數據集的最低限度的詳細信息。

與在WebText中一樣,首先從Reddit中解析出超過3個向上投票的所有鏈接。接著,從PushshiftRedditscrape開始。這是一個包含不斷更新的Reddit帖子、評論以及相關元數據集合的數據集。

然后過濾一些鏈接以刪除不太可能包含可用文本或HTML(即視頻文件,PDF和CSS樣式文件)的文件類型的直接鏈接。

同時還過濾網頁以刪除維基百科,因為它被各種評估基準和數據集使用。目前還無法確定過濾標準是否與OpenAI相匹配,因為此信息從未發布過。

使用Newspaper Python庫從HTML頁面中提取文本,然后使用fastText Python庫來提取英文文本、過濾掉其他語言。具體來說,使用WhatTheLangpython Wrapper。

使用局部敏感散列(LSH)來去重。然后將文檔散列為5-grams的集合,并且刪除了相似度閾值大于0.5的所有文檔。

使用Heuristic Cleaning算法,從數據集中刪除少于128個令牌的文檔。這些較短的文件往往質量較低,這是由文本連貫性決定的。最后將此數據集作為OpenWebTextCorpus發布。

使用Radford等人發布的小型模型和Binary Pattern Encoder對數據集進行編碼,并使用OpenWebText web-scrapingcodebase的修改版本作為數據集集合的起點。

勘誤表

從公開發布的來自WebText的260k文檔集合中來看,研究人員發現所有文件都具有最小字節對(BPE)編碼,長度為40,最大值為1024.

OpenWebText的不同之處在于為128個令牌設置文檔長度的下限(而不是BPE代碼),并且不限制最大文檔長度。

原始的WebTextCorpus在這些樣本可用之前發布,因此沒有使用該信息來生成cleaning heuristics。

研究人員曾多次嘗試聯系Radford等人,以澄清評估和模型細節,但最終都沒有成功。

結果

盡管訓練分布存在差異,但確實報告了與大多數數據集相似的困惑。

示例:輸入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”輸出結果如下:

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10735
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25366

原文標題:布朗大學90后研究生:我們復現了15億參數GPT-2模型,你也行!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    感應電機智能調速

    內容先進,可作為電力傳動專業特別是感應電機控制專業方向的大學教師和學生(高年級本科、碩士研究生、博士研究生)學習研究感應電機智能控制的參考
    發表于 05-28 15:53

    浙江大學與大華股份共建研究生聯合培育基地

    近日,浙江大學研究生產教融合人才培養工作會議在杭州召開,會上舉行了校級聯合培養基地授牌儀式暨行業導師聘書頒發儀式,大華股份作為校級聯合培養基地代表參會,標志著“浙江大學-大華股份研究生
    的頭像 發表于 03-27 15:34 ?367次閱讀

    用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預訓練技術》發布收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模型的預訓練流程
    的頭像 發表于 03-21 18:24 ?1426次閱讀
    用PaddleNLP為<b class='flag-5'>GPT-2</b><b class='flag-5'>模型</b>制作FineWeb二進制預訓練數據集

    FA90-220S15G2N5 FA90-220S15G2N5

    電子發燒友網為提供AIPULNION(AIPULNION)FA90-220S15G2N5相關產品參數、數據手冊,更有FA90-220S15G2N5的引腳圖、接線圖、封裝手冊、中文資料
    發表于 03-19 18:31
    FA<b class='flag-5'>90-220S15G2</b>N5 FA<b class='flag-5'>90-220S15G2</b>N5

    用PaddleNLP在4060單卡上實踐大模型預訓練技術

    手把手教您如何在單張消費級顯卡上,利用PaddleNLP實踐OpenAI的GPT-2模型的預訓練。GPT-2的預訓練關鍵技術與流程與GPT-4等大
    的頭像 發表于 02-19 16:10 ?933次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b>預訓練技術

    OpenAI即將推出GPT-5模型

    OpenAI首席執行官奧爾特曼近日宣布一項重要消息:OpenAI將在今年未來幾個月內推出全新的GPT-5模型。這一消息引起了業界的廣泛關注和期待。 據了解,GPT-5
    的頭像 發表于 02-13 11:21 ?566次閱讀

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    需要專業程序員進行繁瑣的編程工作,這種方式不僅效率低下,還限制機器人的應用場景。例如,在我們大學工程實訓課程中使用的數控機床,需要人為設定起點、終點、移動方向和移動距離等參數,自動化
    發表于 12-29 23:04

    中軟國際助力廣東外語外貿大學發布涉外法治人才實訓大模型

    近期,2024年全國法律專業學位研究生培養單位工作會議在廣東外語外貿大學隆重召開。在此次會議期間,由廣東外語外貿大學(以下簡稱:廣外)聯合華為、中軟國際共同研發的“涉外法治人才實訓大模型
    的頭像 發表于 12-26 10:09 ?529次閱讀

    廣立微助力2024中國研究生創“芯”大賽·EDA精英挑戰賽

    近日,“2024中國研究生創“芯”大賽·EDA精英挑戰賽” 總決賽在南京完美收官,最終評審結果榮耀揭曉。廣立微榮幸受邀成為本次大賽的命題合作企業,通過精心設計的命題、專業的指導以及參與高端論壇的演講,為大賽的順利進行增添了濃墨重彩的一筆。
    的頭像 發表于 12-13 14:08 ?782次閱讀

    AMD發布10參數開源AI模型OLMo

    AMD公司近日宣布一項重大進展,推出了首個完全開放的10參數語言模型系列——AMD OLMo。這一舉措為開發者和研究人員提供
    的頭像 發表于 11-12 18:08 ?756次閱讀

    深信服發布安全GPT4.0數據安全大模型

    近日,深信服在數據安全領域邁出了重要一步,正式發布安全GPT4.0數據安全大模型。這一創新的大模型技術,旨在為用戶提供更高效、精準的數據安全解決方案。
    的頭像 發表于 10-29 11:12 ?589次閱讀

    RISC-V AI技術正式納入北京大學研究生課程

    希姆計算與北京大學達成SOC課程合作2024年10月14日,希姆計算的范福杰博士走進北京大學集成電路學院的研究生課堂,為同學們講授一節生動的《現代SoC芯片架構設計實驗課程》。RIS
    的頭像 發表于 10-18 08:09 ?1060次閱讀
    RISC-V AI技術正式納入北京<b class='flag-5'>大學</b><b class='flag-5'>研究生</b>課程

    GAP!對AI大模型到底了解多少?

    談到 AI 大模型最先想到的是什么?很多人首先關心的還是它的商業變現,而非這些技術術語。AI 大模型訓練是一個端到端的復雜系統工程,技術門檻很高,需要強大的算力支撐,尤其是參數量大
    的頭像 發表于 09-07 09:40 ?966次閱讀

    名單公布!【書籍評測活動NO.41】大模型時代的基礎架構:大模型算力中心建設指南

    工程技術人員,都可以參考和閱讀本書。 作者介紹 方天戟騰訊專有云與智算平臺shou席架構師,本科畢業于北京航空航天大學自動控制專業,碩士研究生畢業于中國科學院研究生院計算機科學與技術專業。從業近20年,從事過硬
    發表于 08-16 18:33

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    GPT-4. GPT-4o mini的定價為每百萬輸入標記15美分和每百萬輸出標記60美分,比之前的前沿模型便宜一個數量級,比
    的頭像 發表于 07-21 10:20 ?1644次閱讀
    OpenAI 推出 <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜