女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google Brain和DeepMind聯手發布可以分布式訓練模型的框架

中科院長春光機所 ? 來源:reddit ? 作者:reddit ? 2021-06-26 15:42 ? 次閱讀

【導讀】AI模型進入大數據時代,單機早已不能滿足訓練模型的要求,最近Google Brain和DeepMind聯手發布了一個可以分布式訓練模型的框架Launchpad,堪稱AI界的MapReduce。

正如吳恩達所言,當代機器學習算法的成功很大程度上是由于模型和數據集大小的增加,在大規模數據下進行分布式訓練也逐漸變得普遍,而如何在大規模數據、大模型的情況下進行計算,還是一個挑戰。

分布式學習過程也會使實現過程復雜化,這對于許多不熟悉分布式系統機制的機器學習從業者來說是個問題,尤其是那些具有復雜通信拓撲結構的機器學習從業者。

在arxiv上一篇新論文中,來自 DeepMind 和 Google Brain 的研究團隊用 Launchpad 解決了這個問題,Launchpad 是一種編程模型,它簡化了定義和啟動分布式計算實例的過程。

論文的第一作者是來自DeepMind的華人Yang Fan,畢業于香港中文大學。

Launchpad 將分布式系統的拓撲描述為一個圖形數據結構,這樣圖中的每個節點都代表一個服務,即研究人員正在運行的基本計算單元。

將句柄構造為節點的引用,將客戶端表示為尚未構造的服務。

圖的邊表示兩個服務之間的通信,并在構建時將與一個節點相關聯的句柄給予另一個節點時創建。

通過這種方式,Launchpad 可以通過傳遞節點句柄來定義跨服務通信。Launchpad 的計算構建塊由不同的服務類型表示,每種服務類型由特定于該類型的節點和句柄類表示。

8bf59634-d5af-11eb-9e57-12bb97331649.png

論文中提出的 Launchpad 的生命周期可以分為三個階段: 設置、啟動和執行。設置階段構造程序數據結構; 在啟動階段,處理這個數據結構以分配資源、地址等,并啟動指定服務; 然后執行階段運行服務,例如為服務通信創建客戶端。

Launchpad 是用流行的編程語言 Python 實現的,它簡化了定義程序和節點數據結構以及為單個平臺啟動的過程。Launchpad 框架還可以很容易地用任何其他宿主語言實現,包括 c/c + + 等低級編程語言。

8cd0f1fc-d5af-11eb-9e57-12bb97331649.png

Launchpad 編程模型非常豐富,足以容納各種各樣的分布式系統,包括參數服務器、 MapReduce和 Evolution Strategies。

研究人員用簡潔的代碼詳細描述了如何將 Launchpad 應用到這些常見的分布式系統范例中,并說明了該框架在簡化本研究領域常用機器學習算法和組件的設計過程方面的能力。

總的來說,Launchpad 是一個實用的、用戶友好的、表達性強的框架,用于機器學習研究人員和實踐者詳細說明分布式系統,作者表示,這個框架能夠處理日益復雜的機器學習模型。其他框架

2020年,DeepMind 發布過一個強化學習優化框架Acme,可以讓AI驅動的智能體在不同的執行規模上運行,從而簡化強化學習算法的開發過程。

強化學習可以讓智能體與環境互動,生成他們自己的訓練數據,這在電子游戲、機器人技術、自動駕駛機器人出租車等領域取得了突破。

隨著所使用的訓練數據量的增加,這促使設計了一個系統,使智能體與環境實例相互作用,迅速積累經驗。DeepMind 斷言,將算法的單進程原型擴展到分布式系統通常需要重新實現相關的智能體,這就是 Acme 框架的用武之地。

DeepMind研究員寫道,「Acme 是一個用于構建可讀、高效、面向研究的 RL 算法的框架。Acme 的核心是設計用于簡單描述 RL 智能體,這些智能體可以在不同規模的執行中運行,包括分布式智能體。」

Determined AI也是一個深度學習神器。Determined使深度學習工程師可以集中精力大規模構建和訓練模型,而無需擔心DevOps,或者為常見任務(如容錯或實驗跟蹤)編寫代碼。更快的分布式訓練,智能的超參優化,實驗跟蹤和可視化。

一萬億模型要來了?谷歌大腦和DeepMind聯手發布分布式訓練框架Launchpad

Determined主要運用了Horovod,以Horovod為起點,研究人員運用了多年的專業知識和經驗,使得整個訓練過程比庫存配置要快得多。

Horovod 是一套面向TensorFlow 的分布式訓練框架,由Uber 構建并開源,目前已經運行于Uber 的Michelangelo 機器學習即服務平臺上。Horovod 能夠簡化并加速分布式深度學習項目的啟動與運行。當數據較多或者模型較大時,為提高機器學習模型訓練效率,一般采用多 GPU 的分布式訓練。TensorFlow 集群存在諸多缺點,如概念太多、學習曲線陡峭、修改的代碼量大、性能損失較大等,而 Horovod 則讓深度學習變得更加美好,隨著規模增大,Horovod 性能基本是線性增加的,損失遠小于 TensorFlow。

2019年,字節跳動AI lab開源了一款高性能分布式框架BytePS,在性能上顛覆了過去幾年allreduce流派一直占據上風的局面,超出目前其他所有分布式訓練框架一倍以上的性能,且同時能夠支持Tensorflow、PyTorch、MXNet等開源庫。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件,用戶只要在代碼中引用BytePS的插件,就可以獲得高性能的分布式訓練。BytePS的核心邏輯,則實現在BytePS core里。具體的通信細節,完全由BytePS完成,用戶完全不需要操心。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4912

    瀏覽量

    130661
  • 開源
    +關注

    關注

    3

    文章

    3611

    瀏覽量

    43485
  • 分布式
    +關注

    關注

    1

    文章

    980

    瀏覽量

    75172
  • 機器學習
    +關注

    關注

    66

    文章

    8492

    瀏覽量

    134094
  • pytorch
    +關注

    關注

    2

    文章

    809

    瀏覽量

    13767
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    曙光存儲領跑中國分布式存儲市場

    近日,賽迪顧問發布《中國分布式存儲市場研究報告(2025)》,指出2024 年中國分布式存儲市場首次超過集中式存儲,規模達 198.2 億元,增速 43.7%。
    的頭像 發表于 05-19 16:50 ?325次閱讀

    淺談工商企業用電管理的分布式儲能設計

    文章設計了一種新的用于工商業用電管理的分布式儲能系統。由于儲能系統硬件置換成本高,選擇在傳統儲能系統的硬件框架基礎上,對控制軟件進行優化設計,建立分布式儲能系統模型,分析發電量、儲電量
    的頭像 發表于 03-24 15:43 ?2396次閱讀
    淺談工商企業用電管理的<b class='flag-5'>分布式</b>儲能設計

    分布式存儲有哪幾種類型?

    分布式存儲有哪幾種類型?分布式存儲系統是一種將數據分散存儲在多臺獨立節點上的技術,根據數據模型可分為鍵值存儲、列式存儲、文檔存儲和圖形存儲等類型;按數據存儲單位可分為基于文件、塊和對象的存儲;按
    的頭像 發表于 02-20 11:00 ?464次閱讀

    分布式云化數據庫有哪些類型

    分布式云化數據庫有哪些類型?分布式云化數據庫主要類型包括:關系型分布式數據庫、非關系型分布式數據庫、新SQL分布式數據庫、以列方式存儲數據、
    的頭像 發表于 01-15 09:43 ?396次閱讀

    模型訓練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫,它支持在多種硬件配置上進行分布式訓練,包括 CPU、GPU、TPU 等。Accelerat
    的頭像 發表于 01-14 14:24 ?585次閱讀

    HarmonyOS Next 應用元服務開發-分布式數據對象遷移數據權限與基礎數據

    使用分布式數據對象遷移數據,當需要遷移的數據較大(100KB以上)或需要遷移文件時,可以使用分布式數據對象。原理與接口說明詳見分布式數據對象跨設備數據同步。 說明:自API 12起,由
    發表于 12-24 09:40

    大語言模型開發框架是什么

    大語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言模型開發
    的頭像 發表于 12-06 10:28 ?463次閱讀

    Google DeepMind發布Genie 2:打造交互3D虛擬世界

    在OpenAI宣布即將發布模型和新功能后,Google DeepMind也不甘落后,于近日推出了大型基礎世界模型——Genie 2。這款
    的頭像 發表于 12-05 14:16 ?969次閱讀

    分布式通信的原理和實現高效分布式通信背后的技術NVLink的演進

    的大小已經超出了單個 GPU 的范圍。所以就需要實現跨多個 GPU 的模型訓練,這種訓練方式就涉及到了分布式通信和 NVLink。 當談及分布式
    的頭像 發表于 11-18 09:39 ?1139次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實現高效<b class='flag-5'>分布式</b>通信背后的技術NVLink的演進

    分布式光纖測溫解決方案

    分布式光纖測溫解決方案
    的頭像 發表于 11-12 01:02 ?492次閱讀
    <b class='flag-5'>分布式</b>光纖測溫解決方案

    分布式光纖測溫是什么?應用領域是?

    時,該處的散射光特性會受到影響。通過高速信號采集與數據處理技術,可以準確地定位發生溫度變化的位置,并給出實時的溫度信息。簡而言之,分布式光纖測溫技術將整條傳輸光纖作為傳感器,光纖上的每一點都兼具“傳”和“感”
    的頭像 發表于 10-24 15:30 ?1093次閱讀
    <b class='flag-5'>分布式</b>光纖測溫是什么?應用領域是?

    NetApp與Google Cloud深化合作,強化分布式云存儲

    智能數據基礎設施領導者NetApp?宣布,其與Google Cloud的戰略合作再升級。此次合作中,NetApp將統一數據存儲和智能服務融入Google Distributed Cloud架構,為分布式云基礎設施提供強大支撐。
    的頭像 發表于 10-11 17:21 ?744次閱讀

    分布式故障在線監測|高精度技術選用 行波特征 故診模型

    輸電線路故障是電力系統中不可避免的問題,但通過深入分析其成因并采取有效的防范策略,我們可以最大限度地減少故障的發生,保障電網的安全穩定運行。以下是深圳鼎信智慧科技為您講述關于鼎信分布式故障在線監測
    的頭像 發表于 10-11 12:00 ?346次閱讀

    安科瑞分布式光伏系統在某重工企業18MW分布式光伏中應用

    2024年7月16日,江蘇省發改委發布《關于高質量做好全省分布式光伏接網消納的通知(征求意見稿)》,計劃大力支持分布式光伏的發展! 1、未來分布式光伏規模規劃 根據規劃,2024、20
    的頭像 發表于 07-19 11:30 ?778次閱讀
    安科瑞<b class='flag-5'>分布式</b>光伏系統在某重工企業18MW<b class='flag-5'>分布式</b>光伏中應用

    鴻蒙ArkTS聲明開發:跨平臺支持列表【分布式遷移標識】 通用屬性

    組件的分布式遷移標識,指明了該組件在分布式遷移場景下可以將特定狀態恢復到對端設備。
    的頭像 發表于 06-07 21:15 ?587次閱讀