女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HugeCTR能夠高效地利用GPU來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-04-01 09:40 ? 次閱讀

1. Introduction

HugeCTR 能夠高效地利用 GPU 來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開(kāi)發(fā)了 SparseOperationKit (SOK),來(lái)將 HugeCTR 中的高級(jí)特性封裝為 TensorFlow 可直接調(diào)用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級(jí)特性來(lái)加速他們的推薦系統(tǒng)。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù),然后在 SOK 內(nèi)部做黑盒式地模型轉(zhuǎn)換,最后將計(jì)算結(jié)果以數(shù)據(jù)并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼,以更方便、快捷地在多個(gè) GPU 上進(jìn)行擴(kuò)展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據(jù)業(yè)界中的實(shí)際需求提供了對(duì)應(yīng)的新解決方案,比如說(shuō) GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來(lái)作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標(biāo)準(zhǔn)模型 DLRM 來(lái)對(duì) SOK 的性能進(jìn)行測(cè)試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測(cè)試數(shù)據(jù)

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓(xùn)練速度以及更高的吞吐量。

3. API

SOK 提供了簡(jiǎn)潔的、類 TensorFlow 的 API;使用 SOK 的方式非常簡(jiǎn)單、直接;讓用戶通過(guò)修改幾行代碼就可以使用 SOK。

1. 定義模型結(jié)構(gòu)

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側(cè)是使用 TensorFlow 的 API 來(lái)搭建模型,右側(cè)是使用 SOK 的 API 來(lái)搭建相同的模型。使用 SOK 來(lái)搭建模型的時(shí)候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對(duì)應(yīng)的 API 即可。

2. 使用 Horovod 來(lái)定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側(cè)是使用 TensorFlow 來(lái)定義 training loop,右側(cè)是使用 SOK 時(shí),training loop 的定義方式。可以看到,使用 SOK 時(shí),只需要對(duì) Embedding Variables 和 Dense Variables 進(jìn)行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來(lái)定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類似的,還可以使用 TensorFlow 自帶的通信工具來(lái)定義 training loop。

4. 開(kāi)始訓(xùn)練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開(kāi)始訓(xùn)練過(guò)程時(shí),使用 SOK 與使用 TensorFlow 時(shí)所用代碼完全一致。

4. 結(jié)語(yǔ)

SOK 將 HugeCTR 中的高級(jí)特性包裝為 TensorFlow 可以直接使用的模塊,通過(guò)修改少數(shù)幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進(jìn)設(shè)計(jì)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4912

    瀏覽量

    130681
  • SOK
    SOK
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6385

原文標(biāo)題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    提升AI訓(xùn)練性能:GPU資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    在人工智能與機(jī)器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計(jì)算資源的高效利用已成為關(guān)鍵技術(shù)指標(biāo)。優(yōu)化的GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實(shí)
    的頭像 發(fā)表于 05-06 11:17 ?330次閱讀
    提升AI<b class='flag-5'>訓(xùn)練</b>性能:<b class='flag-5'>GPU</b>資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

    近日,摩爾線程正式開(kāi)源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過(guò)深度融合FP8混合訓(xùn)練策略和高性能算子庫(kù),這兩大框架在國(guó)產(chǎn)全功能GPU上實(shí)現(xiàn)了高效的混合
    的頭像 發(fā)表于 03-17 17:05 ?484次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計(jì)算助力AI<b class='flag-5'>訓(xùn)練</b>

    GPU是如何訓(xùn)練AI大模型的

    在AI模型的訓(xùn)練過(guò)程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來(lái),AI部落小編帶您了解GPU是如何訓(xùn)練AI大模型的。
    的頭像 發(fā)表于 12-19 17:54 ?647次閱讀

    如何利用地物光譜進(jìn)行地利用分類?

    在土地利用分類領(lǐng)域,地物光譜技術(shù)正發(fā)揮著日益重要的作用。下面就為大家簡(jiǎn)要介紹如何利用地物光譜進(jìn)行地利用分類: 1.地物光譜數(shù)據(jù)采集: 使用專業(yè)光譜儀對(duì)不同地物
    的頭像 發(fā)表于 12-13 14:44 ?396次閱讀
    如何<b class='flag-5'>利用</b>地物光譜<b class='flag-5'>進(jìn)行</b>土<b class='flag-5'>地利用</b>分類?

    訓(xùn)練AI大模型需要什么樣的gpu

    訓(xùn)練AI大模型需要選擇具有強(qiáng)大計(jì)算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴(kuò)展性的GPU。在選擇時(shí),需要根據(jù)具體需求進(jìn)行權(quán)衡和選擇。
    的頭像 發(fā)表于 12-03 10:10 ?554次閱讀

    NPU與GPU的性能對(duì)比

    它們?cè)诓煌瑧?yīng)用場(chǎng)景下的表現(xiàn)。 一、設(shè)計(jì)初衷與優(yōu)化方向 NPU : 專為加速AI任務(wù)而設(shè)計(jì),包括深度學(xué)習(xí)和推理。 針對(duì)神經(jīng)網(wǎng)絡(luò)的計(jì)算模式進(jìn)行了優(yōu)化,能夠高效地執(zhí)行矩陣乘法、卷積等操作。 擁有眾多小型處理單元,配備專門的內(nèi)存體系結(jié)構(gòu)和數(shù)據(jù)流優(yōu)化策略,對(duì)深度學(xué)習(xí)任務(wù)的處理特別
    的頭像 發(fā)表于 11-14 15:19 ?3840次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和方法來(lái)
    的頭像 發(fā)表于 11-05 17:43 ?1266次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)的核心應(yīng)用領(lǐng)域之一,GPU在加速圖像識(shí)別模型訓(xùn)練方面發(fā)揮著關(guān)鍵作用。通過(guò)
    的頭像 發(fā)表于 10-27 11:13 ?1117次閱讀

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?873次閱讀

    GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢(shì)具體體現(xiàn)在哪些方面?

    能力特別適合于深度學(xué)習(xí)中的大規(guī)模矩陣運(yùn)算和高維度數(shù)據(jù)處理,這些是AI訓(xùn)練中常見(jiàn)的計(jì)算密集型任務(wù)。 2、高效的數(shù)據(jù)處理:AI訓(xùn)練通常涉及大量的數(shù)據(jù),GPU服務(wù)器
    的頭像 發(fā)表于 09-11 13:24 ?894次閱讀

    蘋果承認(rèn)使用谷歌芯片來(lái)訓(xùn)練AI

    蘋果公司最近在一篇技術(shù)論文中披露,其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型,是在谷歌設(shè)計(jì)的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI訓(xùn)練領(lǐng)域,大型科技公司正積極探索并實(shí)踐著英偉達(dá)
    的頭像 發(fā)表于 07-30 17:03 ?881次閱讀

    SOK在手機(jī)行業(yè)的應(yīng)用案例

    通過(guò)封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡(jiǎn)稱 SOK)使得 TensorFlow 用戶可以借助 HugeCTR 的一些相關(guān)特性和優(yōu)化加速 GPU 上的分布式 Embed
    的頭像 發(fā)表于 07-25 10:01 ?757次閱讀
    SOK在手機(jī)行業(yè)的應(yīng)用案例

    電磁干擾訓(xùn)練系統(tǒng)原理是什么

    智慧華盛恒輝電磁干擾訓(xùn)練系統(tǒng)的原理主要基于電磁干擾(EMI)的基本原理,即利用電磁波對(duì)電子設(shè)備或系統(tǒng)產(chǎn)生的干擾,通過(guò)模擬真實(shí)的電磁環(huán)境,對(duì)受訓(xùn)人員進(jìn)
    的頭像 發(fā)表于 07-22 16:34 ?688次閱讀

    llm模型訓(xùn)練一般用什么系統(tǒng)

    LLM(Large Language Model,大型語(yǔ)言模型)是近年來(lái)在自然語(yǔ)言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計(jì)算資源和數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。以下是關(guān)于LLM模型訓(xùn)練
    的頭像 發(fā)表于 07-09 10:02 ?758次閱讀

    如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    ,使得神經(jīng)網(wǎng)絡(luò)的創(chuàng)建、訓(xùn)練和仿真變得更加便捷。本文將詳細(xì)介紹如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,包括網(wǎng)絡(luò)創(chuàng)建、數(shù)據(jù)預(yù)處理、訓(xùn)練過(guò)程、參數(shù)調(diào)
    的頭像 發(fā)表于 07-08 18:26 ?3481次閱讀