女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

開源方案低成本復現ChatGPT流程,僅需1.6GB顯存即可體驗

OSC開源社區 ? 來源:OSC開源社區 ? 2023-02-21 11:32 ? 次閱讀
開源并行訓練系統 ColossalAI 表示,已低成本復現了一個 ChatGPT 訓練的基本流程,包括 stage 1 預訓練、stage 2 的獎勵模型的訓練,以及最為復雜的 stage 3 強化學習訓練。具體亮點包括:
  • 一個開源完整的基于 PyTorch 的 ChatGPT 等效實現流程,涵蓋所有 3 個階段,可以幫助你構建基于預訓練模型的 ChatGPT 式服務。

  • 提供了一個迷你演示訓練過程供用戶試玩,它只需要 1.62GB 的 GPU 顯存,并且可能在單個消費級 GPU 上實現,GPU模型容量最多提升10.3 倍。

  • 與原始 PyTorch 相比,單機訓練過程最高可提升7.73 倍,單 GPU 推理速度提升 1.42 倍,僅需一行代碼即可調用。

  • 在微調任務上,同樣僅需一行代碼,就可以在保持足夠高的運行速度的情況下,最多提升單GPU的微調模型容量3.7 倍。

  • 提供多個版本的單 GPU 規模、單節點多 GPU 規模和原始 1750 億參數規模。還支持從 Hugging Face 導入 OPT、GPT-3、BLOOM 和許多其他預訓練的大型模型到你的訓練過程中。

ColossalAI 是一個具有高效并行化技術的綜合大規模模型訓練系統;旨在無縫整合不同的并行化技術范式,包括數據并行、管道并行、多張量并行和序列并行。其聲稱已通過 ZeRO、Gemini、Chunk-based 內存管理等技術,極大地降低 ChatGPT 訓練的顯存開銷;僅需一半硬件資源即可啟動 1750 億參數模型訓練(從 64 卡到 32 卡),顯著降低應用成本。若使用上述相同硬件資源,Colossal-AI 則能以更短時間進行訓練,節省訓練成本,加速產品迭代。為了讓更多開發者體驗復現 ChatGPT 模型,除 1750 億參數版本外,Colossal-AI 還提供高效的單 GPU、單機 4/8 GPU 的類 ChatGPT 版本,以降低硬件限制。2f5923c4-b130-11ed-bfe3-dac502259ad0.png博客內容還指出,在單機多 GPU 服務器上,即便使用最高端的 A100 80GB 顯卡,由于 ChatGPT 的復雜性和內存碎片,PyTorch 最大僅能啟動基于 GPT-L(774M)這樣的小模型的 ChatGPT。用 PyTorch 原生的 DistributedDataParallel (DDP) 進行多卡并行擴展至 4 卡或 8 卡,性能提升有限。Colossal-AI 不僅在單GPU速度上訓練和推理優勢明顯,隨著并行規模擴大還可進一步提升,最高可提升單機訓練速度 7.73 倍,單 GPU 推理速度 1.42 倍;并且能夠繼續擴展至大規模并行,顯著降低 ChatGPT 復現成本。2fa38996-b130-11ed-bfe3-dac502259ad0.png為了最大限度地降低培訓成本和易用性,Colossal-AI 提供了可以在單個 GPU 上試用的 ChatGPT 培訓流程。與在 14999 美元的 A100 80GB 上最多只能啟動 7.8 億個參數模型的 PyTorch 相比,Colossal-AI 將單個 GPU 的容量提升了 10.3 倍,達到 80 億個參數。對于基于 1.2 億參數的小模型的 ChatGPT 訓練,至少需要 1.62GB 的 GPU 內存,任意單個消費級 GPU 都可以滿足。2fd62f2c-b130-11ed-bfe3-dac502259ad0.png此外,Colossal-AI 還在致力于降低基于預訓練大型模型的微調任務的成本。以 ChatGPT 可選的開源基礎模型 OPT 為例,Colossal-AI 能夠在單 GPU 上將微調模型的容量提高到 PyTorch 的 3.7 倍,同時保持高速運行。Colossal-AI 為 Hugging Face 社區的 GPT、OPT 和 BLOOM 等主流預訓練模型,提供了開箱即用的 ChatGPT 復現代碼。以 GPT 為例,僅需一行代碼,指定使用 Colossal-AI 作為系統策略即可快速使用。
from chatgpt.nn import GPTActor, GPTCritic, RewardModel
from chatgpt.trainer import PPOTrainer
from chatgpt.trainer.strategies import ColossalAIStrategy

strategy = ColossalAIStrategy(stage=3, placement_policy='cuda')

with strategy.model_init_context():
    actor = GPTActor().cuda()
    critic = GPTCritic().cuda()
    initial_model = deepcopy(actor).cuda()
    reward_model = RewardModel(deepcopy(critic.model)).cuda()

trainer = PPOTrainer(strategy, actor, critic, reward_model, initial_model,...)
trainer.fit(prompts)
審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4893

    瀏覽量

    130548
  • 服務器
    +關注

    關注

    12

    文章

    9640

    瀏覽量

    87143
  • ChatGPT
    +關注

    關注

    29

    文章

    1586

    瀏覽量

    8751

原文標題:開源方案低成本復現ChatGPT流程,僅需1.6GB顯存即可體驗

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    香蕉派開源社區與矽昌通信共推BPI-Wifi5 低成本路由器開源方案

    香蕉派開源社區與矽昌通信共推BPI-Wifi5 低成本路由器[]() 香蕉派 BPI-Wifi5 路由器采用矽昌SF19A2890S2芯片方案設計。它是一款高性能無線路由器,適用于小微企業、家庭
    發表于 11-28 10:37

    低成本藍牙串口模塊解決方案

    傳統電子產品生產商對價格比較敏感,進口的藍牙串口模塊對廠商的成本控制有很大的壓力。針對此種情況,紅果電子推出了完整的低成本藍牙串口模塊解決方案,采用RG-BT10-10低成本藍牙模塊,
    發表于 03-21 16:46

    追求性能提升 使用8GB HBM2顯存

    更積極,繼Altera之后賽靈思也宣布了集成HBM 2做內存的FPGA新品,而且用了8GB容量。    HBM顯存雖然首發于AMD顯卡上,不過HBM 2這一代FPGA廠商比GPU廠商更積極  AMD
    發表于 12-07 15:54

    科技大廠競逐AIGC,中國的ChatGPT在哪?

    迭代,需要大量的數據進行訓練。2020年發布的GPT-3,其訓練參數量已經達到了驚人的1750億個,“大量的數據被反復‘喂’給ChatGPT。” 而且,ChatGPT的訓練成本支出巨大。據Lambda
    發表于 03-03 14:28

    低成本遙控器線路ICHQ1628產品規格書

    這是一款低成本的紅外線遙控器線路方案,整個遙控器一個IC完成,降低了物料成本及生產成本
    發表于 12-31 17:10 ?19次下載

    堅果Pro 3開啟了促銷活動最高直降500元8GB+128GB2399元

    為了迎接新年,堅果手機開啟新年促銷活動。目前購買堅果Pro 3可享直降最高500元的活動,購買8GB+128GB堅果Pro 32399元;購買8GB+256GB版本
    的頭像 發表于 01-03 16:27 ?3773次閱讀

    榮耀V30 PRO在5G網絡環境下下載一部1.6GB大小的1080P電影2分鐘

    筆者定位芍藥居北里南門,在5G網絡環境下,使用榮耀V30 PRO下載一部1.6GB大小的1080P電影。電影從10:23開始下載,10:25完成下載,耗時也2分鐘,盡管是在室外下載的,但是就實際使用體驗而言,這個下載速度已經相當快了。
    發表于 01-07 15:30 ?2307次閱讀

    華為Mate 20降價促銷 6+128GB2199元

    近日,據網友爆料,拼多多華為Mate 20降價促銷,6+128GB到手2199元,比首發價便宜2300元。
    的頭像 發表于 03-09 11:32 ?6271次閱讀

    低成本的醫療檢測與監測方案

    介紹最新的低成本的醫療檢測與監測方案
    發表于 03-16 15:38 ?8次下載
    <b class='flag-5'>低成本</b>的醫療檢測與監測<b class='flag-5'>方案</b>

    ESP32低成本開源項目

    電子發燒友網站提供《ESP32低成本開源項目.zip》資料免費下載
    發表于 07-18 11:20 ?4次下載
    ESP32<b class='flag-5'>低成本</b>板<b class='flag-5'>開源</b>項目

    低成本無線火箭發射器開源分享

    電子發燒友網站提供《低成本無線火箭發射器開源分享.zip》資料免費下載
    發表于 10-21 14:54 ?0次下載
    <b class='flag-5'>低成本</b>無線火箭發射器<b class='flag-5'>開源</b>分享

    低成本機器人消毒系統開源分享

    電子發燒友網站提供《低成本機器人消毒系統開源分享.zip》資料免費下載
    發表于 11-24 09:15 ?0次下載
    <b class='flag-5'>低成本</b>機器人消毒系統<b class='flag-5'>開源</b>分享

    開源防火墻的低成本使用

    開源防火墻的低成本使用
    的頭像 發表于 01-04 11:17 ?1536次閱讀

    開源低成本電力監控系統

    電子發燒友網站提供《開源低成本電力監控系統.zip》資料免費下載
    發表于 02-02 15:04 ?0次下載
    <b class='flag-5'>開源</b><b class='flag-5'>低成本</b>電力監控系統

    源2.0-M32大模型發布量化版 運行顯存23GB 性能可媲美LLaMA3

    北京2024年8月23日?/美通社/ -- 近日,浪潮信息發布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存
    的頭像 發表于 08-25 22:06 ?571次閱讀
    源2.0-M32大模型發布量化版 運行<b class='flag-5'>顯存</b><b class='flag-5'>僅</b><b class='flag-5'>需</b>23<b class='flag-5'>GB</b> 性能可媲美LLaMA3