女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Merlin HugeCTR v3.6和v3.7版本新增內(nèi)容介紹

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2022-06-17 09:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦程序框架,旨在在多個 GPU 和節(jié)點之間分配訓(xùn)練并估計點擊率(Click-through rate)。

V3.6 版本新增內(nèi)容

1. Concat 層現(xiàn)已支持 3D 輸入張量:

在之前的版本中,Concat 層只能處理 2D 輸入張量。現(xiàn)在輸入可以是 3D 并且可以沿軸 1 和軸 2 連接。

2. Parquet 數(shù)據(jù)讀取器現(xiàn)已支持讀取稠密特征中的列表:

在以前的版本中, HugeCTR 假設(shè)每個稠密特征只有一個值,并且數(shù)據(jù)類型必須是 float32,也就是是一種標量類型。而現(xiàn)在用戶可以將 float32 或者 [float32] 用于稠密特征,這意味著每個稠密特征可以有多個值。

3. 在 Merlin 容器中重新啟用 HDFS:

Merlin 容器中的 HDFS 支持現(xiàn)在是一個可選依賴項。有關(guān)詳細信息,請參閱核心功能文檔中的 HDFS 支持部分。

(https://nvidia-merlin.github.io/HugeCTR/v3.6/hugectr_core_features.html#hdfs-support)

4. 評估指標中增加 AUC 評估:

以前版本的 HugeCTR 僅針對二進制分類的情況計算 AUC。在這個版本中,我們支持多標簽分類的 AUC。我們使用 sklearn 的 AUC 實現(xiàn)作為參考 (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)。我們實現(xiàn)了未加權(quán)的宏觀平均策略,這是 sklearn 中的默認策略。用戶可以更改輸入層的“l(fā)abel_dim”參數(shù)以啟用多標簽分類,我們的實現(xiàn)將在該場景中計算多標簽 AUC。

5. 日志輸出格式升級:

我們已將默認日志輸出格式升級為毫秒級。

6. 文檔更新:

a. 發(fā)布說明現(xiàn)已添加到網(wǎng)絡(luò)文檔中,可通過以下鏈接訪問

(https://nvidia-merlin.github.io/HugeCTR/master/release_notes.html)。

b. HPS(分級參數(shù)服務(wù)器)配置手冊

我們?yōu)?HPS 添加了一個配置手冊(https://nvidia-merlin.github.io/HugeCTR/master/hugectr_parameter_server.html#configuration-book) 。這本配置手冊總結(jié)了 Python API 和 JSON 格式的所有參數(shù)及其用法。

c. 與使用多模態(tài)數(shù)據(jù)相關(guān)的示例筆記本在標題多模態(tài)示例筆記本下的導(dǎo)航中重新排布(https://nvidia-merlin.github.io/HugeCTR/master/notebooks/multi-modal -data/index.html),旨在提供更好的閱讀體驗。

d. 我們更清楚地描述了SOK 提供的功能以及介紹了如何使用它們。

V3.7 版本新增內(nèi)容:

1. 第三代 Embedding 開發(fā)者預(yù)覽:

在這個版本中,我們引入了第三代 Embedding 的開發(fā)者預(yù)覽版本,與先前的 Embedding 相比,第三代 Embedding 主要有三個變化。首先,它允許用戶融合具有不同 Embedding 向量大小的 Embedding Table,從而提高了靈活性和性能。其次,它現(xiàn)在支持 concat combiner ,以及在同一個 Embedding Table 上的不同 slot 來進行查找。最后,Embedding Collection 的引入有力地支持了自定義 Embedding Table 的放置,包括數(shù)據(jù)并行和模型并行。通過提供一個 JSON 文件,您可以根據(jù)您的指定配置更改 Embedding Table 的放置策略。更詳細的使用方法,清查閱實例

https://github.com/NVIDIA-Merlin/HugeCTR/tree/v3.7/test/embedding_collection_test 下的 dlrm_train.py 腳本。

2. 分級參數(shù)服務(wù)器性能改進:

a. Kafka:模型參數(shù)現(xiàn)在以節(jié)省帶寬的多路復(fù)用數(shù)據(jù)格式存儲在 Kafka 中,這種數(shù)據(jù)格式極大地提高了吞吐量。在我們的測試中,每個 Kafka Broker 的傳輸速度高達 1.1 Gbps。

b. HashMap 后端:并行和單線程的 hashmap 實現(xiàn)已被新的統(tǒng)一實現(xiàn)取代。這個新的實現(xiàn)使用了一種新的基于內(nèi)存池的分配方法,它極大地提高了插入性能,而不會降低召回性能。與之前的實現(xiàn)相比,大批量插入操作的速度提高了 4 倍。

c. 壓縮的日志:用戶可以在 Triton 服務(wù)啟動時配置多級日志輸出,從而提高在線推理的吞吐量。

d. 簡化配置:HugeCTR 后端將推理參數(shù)服務(wù)器相關(guān)配置(ps.json)和 Triton 配置(config.pbtxt)完全解耦,避免了 Triton 中的重復(fù)配置。

e. Embedding 更新的凍結(jié)功能:HugeCTR 后端已經(jīng)支持通過 Triton 的模型控制接口只更新模型的密集部分,從而避免 Embedding 的在重復(fù)在線更新。

3. 離線推理可用性的增強:

線程池的大小現(xiàn)在可以配置了,這對于研究異步更新場景中的 Embedding Cache 性能十分有用。更多信息,請參閱分層參數(shù)服務(wù)器配置

https://nvidia-merlin.github.io/HugeCTR/master/hugectr_parameter_server.html#configuration。

4. 數(shù)據(jù)生成器性能提升:

現(xiàn)在可以指定 `num_threads` 參數(shù)以并行化 `Norm` 數(shù)據(jù)集生成。

5. 評估指標改進:

a. 多節(jié)點環(huán)境中的 AverageLoss 性能提升

b. AUC 性能優(yōu)化和更安全的內(nèi)存管理

c. NDCG 和 SMAPE

6. 使用 Parquet 數(shù)據(jù)集的 Embedding Training Cache(ETC) 演示:

現(xiàn)在我們提供了一個 keyset 提取腳本以生成 Parquet 數(shù)據(jù)集的 keyset文件。并且為用戶提供了一個使用 ETC 模式訓(xùn)練 Parquet 數(shù)據(jù)集的端到端演示: https://github.com/NVIDIA-Merlin/HugeCTR/blob/master/notebooks/embedding_training_cache_example.ipynb 。

7. 文檔更新:

HugeCTR 分層參數(shù)服務(wù)器數(shù)據(jù)庫后端 https://nvidia-merlin.github.io/HugeCTR/master/hugectr_parameter_server.html 的文檔詳細信息已更新,以保持一致性和清晰性。

8. 修復(fù)的問題:

a. 在使用 Parquet 數(shù)據(jù)類型時,如果指定了 `slot_size_array`,則不再需要指定 `workspace_size_per_gpu_in_mb` 了。

b.如果您從頭開始構(gòu)建和安裝 HugeCTR,您可以指定 `CMAKE_INSTALL_PREFIX` 變量來指定 HugeCTR 的安裝目錄。

c. 解決了使用大量 GPU 進行 SOK 訓(xùn)練時 sok.init()的掛起問題:

https://github.com/NVIDIA-Merlin/HugeCTR/issues/261

https://github.com/NVIDIA-Merlin/HugeCTR/issues/302。

已知問題

以下是目前 HugeCTR 存在的已知問題,我們將在之后的版本中盡快修復(fù)。

HugeCTR 使用 NCCL 在 rank 之間共享數(shù)據(jù),并且 NCCL 可能需要共享系統(tǒng)內(nèi)存用于 IPC 和固定(頁面鎖定)系統(tǒng)內(nèi)存資源。在容器內(nèi)使用 NCCL 時,建議您通過發(fā)出以下命令來增加這些資源 `-shm-size=1g -ulimit memlock=-1`

另見 NCCL 的 已知問題 https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html#sharing-data。還有 GitHub 問題 https://github.com/NVIDIA-Merlin/HugeCTR/issues/243 。

目前即使目標 Kafka broker 無響應(yīng), KafkaProducers 啟動也會成功。為了避免與來自 Kafka 的流模型更新相關(guān)的數(shù)據(jù)丟失,您必須確保有足夠數(shù)量的 Kafka brokers 啟動、正常工作并且可以從運行 HugeCTR 的節(jié)點訪問。

文件列表中的數(shù)據(jù)文件數(shù)量應(yīng)不小于數(shù)據(jù)讀取器的數(shù)量。否則,不同的 data reader worker 將被映射到同一個文件,導(dǎo)致數(shù)據(jù)加載不會按預(yù)期進行。

正則化器暫時不支持聯(lián)合損失訓(xùn)練。

用于 HugeCTR 訓(xùn)練樣本的 Criteo 1TB Click Logs 數(shù)據(jù)集目前不可用。在它再次可下載之前,您可以基于我們的合成數(shù)據(jù)集生成器運行這些示例。有關(guān)詳細信息,請參閱 https://nvidia-merlin.github.io/HugeCTR/master/hugectr_user_guide.html#generating-synthetic-data-and-benchmarks 。

目前的數(shù)據(jù)生成器在生成 Parquet 數(shù)據(jù)集時會產(chǎn)生不一致的文件名,這會將導(dǎo)致使用合成的 Parquet 數(shù)據(jù)時報錯。

原文標題:HugeCTR v3.6 & v3.7 發(fā)布說明

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106368
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4945

    瀏覽量

    131224
  • 程序
    +關(guān)注

    關(guān)注

    117

    文章

    3826

    瀏覽量

    82971

原文標題:HugeCTR v3.6 & v3.7 發(fā)布說明

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    請問k230創(chuàng)樂博V3.0版本如何使用ADB傳輸文件呢?

    請問k230 創(chuàng)樂博V3.0版本如何使用ADB傳輸文件?
    發(fā)表于 06-24 07:57

    鋰電池升壓方案:3V-3.7V 輸入升 5V 輸出,DC-DC芯片選型關(guān)鍵參數(shù)探討(大小電流)

    鋰離子電池已深度融入電子玩具、美容儀、醫(yī)療設(shè)備、智能手表、手機、筆記電腦、電動汽車等日常生活的各個領(lǐng)域,而其中3.7V鋰電池升壓至5V供電技術(shù),能廣泛適配USB接口設(shè)備、微型控制器、傳感器模塊
    的頭像 發(fā)表于 06-12 11:55 ?457次閱讀
    鋰電池升壓方案:3<b class='flag-5'>V-3.7V</b> 輸入升 5<b class='flag-5'>V</b> 輸出,DC-DC芯片選型關(guān)鍵參數(shù)探討(大小電流)

    CANoe產(chǎn)品體系19版本新特性及新增Option(上)

    版本持續(xù)助力當(dāng)前車輛E/E架構(gòu)中ECU開發(fā)驗證,同時賦能后續(xù)智能網(wǎng)聯(lián)電動車型預(yù)研驗證。新版本CANoe產(chǎn)品體系新增數(shù)據(jù)驅(qū)動的DDS、車輛互聯(lián)服務(wù)和高效電機模型庫,進一步支持CANXL
    的頭像 發(fā)表于 06-11 10:03 ?1299次閱讀
    CANoe產(chǎn)品體系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    支持HPM6P00/HPM5E00系列!HPMicro Manufacturing Tool v0.6.0發(fā)布

    各位先楫的小伙伴久等了,HPMicroManufacturingTool0.6.0版本正式發(fā)布啦!該版本包含多個模塊的更新優(yōu)化,讓我們抓緊時間先睹為快!v0.6.0版本主要更新
    的頭像 發(fā)表于 06-04 08:28 ?527次閱讀
    支持HPM6P00/HPM5E00系列!HPMicro Manufacturing Tool <b class='flag-5'>v</b>0.6.0發(fā)布

    SL4010升壓芯片:3.7V升5V 3.7V升12V解決方案

    SL4010升壓芯片:3.7V升5V/12V解決方案的優(yōu)選方案 隨著便攜式設(shè)備、LED照明等領(lǐng)域的快速發(fā)展,高效穩(wěn)定的升壓電源管理芯片需求日益增長。SL4010作為一款高性能DC-DC升壓芯片
    發(fā)表于 05-07 16:31

    達實智能正式發(fā)布AIoT平臺V7版本

    近日,在達實智能成立30周年慶典上,達實AIoT智能物聯(lián)網(wǎng)平臺V7版本重磅發(fā)布。此版本借助國產(chǎn)AI大模型發(fā)展趨勢,展示了生成式AI在園區(qū)數(shù)字化平臺的實際應(yīng)用。以下為發(fā)布會當(dāng)天達實智能研發(fā)中心袁宜峰博士現(xiàn)場分享:
    的頭像 發(fā)表于 03-21 11:44 ?579次閱讀

    達實AIoT智能物聯(lián)網(wǎng)管控平臺V7版本發(fā)布

    近日,達實智能在公司總部發(fā)布了達實AIoT智能物聯(lián)網(wǎng)管控平臺V7版本,展示了生成式AI在園區(qū)數(shù)字化平臺的實際應(yīng)用。
    的頭像 發(fā)表于 03-19 11:39 ?620次閱讀

    Rockusb_v3.6_RK最新驅(qū)動

    Rockusb_v3.6_RK最新驅(qū)動
    發(fā)表于 03-07 14:06 ?6次下載

    芯來科技發(fā)布Nuclei Studio 2025.02版本

    Studio 2025.02版本發(fā)布了以下功能特性: 集成Nuclei RISC-V Toolchain /OpenOCD /QEMU /Xlmodel 2025.02版本
    的頭像 發(fā)表于 03-05 17:43 ?1106次閱讀
    芯來科技發(fā)布Nuclei Studio 2025.02<b class='flag-5'>版本</b>

    Ludovic v7.2.4 新版本更新內(nèi)容

    Ludovic從v7.0.7到v7.2.4歷經(jīng)v7.1、v7.2、v7.2.3三個版本,軟件在功
    的頭像 發(fā)表于 02-19 09:24 ?634次閱讀
    Ludovic <b class='flag-5'>v</b>7.2.4 新<b class='flag-5'>版本</b>更新<b class='flag-5'>內(nèi)容</b>

    ads7818輸入信號超過3.7V,輸出始終保持在3.7V多對應(yīng)的這個采樣值,問題出在哪里?

    7818輸入電壓范圍應(yīng)為0到5V,調(diào)試時,輸入信號在某個電壓(3.7V左右)以內(nèi)輸出正常,超過這個值時,輸出始終保持在3.7V多對應(yīng)的這個采樣值。請問可能是哪里出了問題?
    發(fā)表于 01-10 07:58

    特斯拉FSD V13.2版本正式發(fā)布

    的又一次重要突破。 FSD V13.2版本的發(fā)布對特斯拉而言具有重要意義。該版本在技術(shù)和功能上進行了全面升級,旨在提供更加穩(wěn)定、高效的自動駕駛體驗。特斯拉表示,如果新版本在初期測試中未
    的頭像 發(fā)表于 12-03 11:01 ?1210次閱讀

    馬斯克宣布FSD V13版本將很快發(fā)布

    今年9月份,特斯拉的AI團隊就曾在馬斯克的X平臺上發(fā)帖,表示目標是在10月底發(fā)布FSD V13版本。然而,這一時間點并未如愿實現(xiàn)。到了10月下旬,特斯拉AI團隊再次表示,他們的目標是在感恩節(jié)之前推出最新的FSD V13
    的頭像 發(fā)表于 11-26 11:15 ?892次閱讀

    實時網(wǎng)絡(luò)的仿真和配置工具RTaW Pegase v4.6版本更新

    隨著嵌入式系統(tǒng)日益復(fù)雜,高效可靠的設(shè)計工具變得愈發(fā)重要。RTaW公司的仿真工具RTaW-Pegase最新發(fā)布的4.6版本,為用戶帶來了一系列重要更新和功能增強。本文將詳細介紹
    的頭像 發(fā)表于 09-26 08:07 ?520次閱讀
    實時網(wǎng)絡(luò)的仿真和配置工具RTaW Pegase <b class='flag-5'>v</b>4.6<b class='flag-5'>版本</b>更新

    NVIDIA Parabricks v4.3.1版本的新功能

    會(ESHG)上發(fā)布,其加入了新的體細胞數(shù)據(jù)變異檢測功能,并將業(yè)內(nèi)領(lǐng)先的工具升級到最新版本。這個版本是繼在 NVIDIA GTC 2024 大會上發(fā)布 Parabricks v4.3 之后推出的新
    的頭像 發(fā)表于 09-10 10:22 ?813次閱讀
    NVIDIA Parabricks <b class='flag-5'>v</b>4.3.1<b class='flag-5'>版本</b>的新功能