久久久2022精品视频,久久综合久久香蕉网欧美,另类人妻校园卡通技巧

Merlin HugeCTR（以下簡稱 HugeCTR）是 GPU 加速的推薦程序框架，旨在在多個 GPU 和節(jié)點之間分配訓(xùn)練并估計點擊率（Click-through rate）。

V3.6 版本新增內(nèi)容

1. Concat 層現(xiàn)已支持 3D 輸入張量：

在之前的版本中，Concat 層只能處理 2D 輸入張量。現(xiàn)在輸入可以是 3D 并且可以沿軸 1 和軸 2 連接。

2. Parquet 數(shù)據(jù)讀取器現(xiàn)已支持讀取稠密特征中的列表：

在以前的版本中， HugeCTR 假設(shè)每個稠密特征只有一個值，并且數(shù)據(jù)類型必須是 float32，也就是是一種標量類型。而現(xiàn)在用戶可以將 float32 或者 [float32] 用于稠密特征，這意味著每個稠密特征可以有多個值。

3. 在 Merlin 容器中重新啟用 HDFS：

Merlin 容器中的 HDFS 支持現(xiàn)在是一個可選依賴項。有關(guān)詳細信息，請參閱核心功能文檔中的 HDFS 支持部分。

(https://nvidia-merlin.github.io/HugeCTR/v3.6/hugectr_core_features.html#hdfs-support)

4. 評估指標中增加 AUC 評估：

以前版本的 HugeCTR 僅針對二進制分類的情況計算 AUC。在這個版本中，我們支持多標簽分類的 AUC。我們使用 sklearn 的 AUC 實現(xiàn)作為參考 (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)。我們實現(xiàn)了未加權(quán)的宏觀平均策略，這是 sklearn 中的默認策略。用戶可以更改輸入層的“l(fā)abel_dim”參數(shù)以啟用多標簽分類，我們的實現(xiàn)將在該場景中計算多標簽 AUC。

5. 日志輸出格式升級：

我們已將默認日志輸出格式升級為毫秒級。

6. 文檔更新：

a. 發(fā)布說明現(xiàn)已添加到網(wǎng)絡(luò)文檔中，可通過以下鏈接訪問

(https://nvidia-merlin.github.io/HugeCTR/master/release_notes.html)。

b. HPS（分級參數(shù)服務(wù)器）配置手冊

我們?yōu)?HPS 添加了一個配置手冊(https://nvidia-merlin.github.io/HugeCTR/master/hugectr_parameter_server.html#configuration-book) 。這本配置手冊總結(jié)了 Python API 和 JSON 格式的所有參數(shù)及其用法。

c. 與使用多模態(tài)數(shù)據(jù)相關(guān)的示例筆記本在標題多模態(tài)示例筆記本下的導(dǎo)航中重新排布（https://nvidia-merlin.github.io/HugeCTR/master/notebooks/multi-modal -data/index.html)，旨在提供更好的閱讀體驗。

d. 我們更清楚地描述了SOK 提供的功能以及介紹了如何使用它們。

V3.7 版本新增內(nèi)容:

1. 第三代 Embedding 開發(fā)者預(yù)覽：

在這個版本中，我們引入了第三代 Embedding 的開發(fā)者預(yù)覽版本，與先前的 Embedding 相比，第三代 Embedding 主要有三個變化。首先，它允許用戶融合具有不同 Embedding 向量大小的 Embedding Table，從而提高了靈活性和性能。其次，它現(xiàn)在支持 concat combiner ，以及在同一個 Embedding Table 上的不同 slot 來進行查找。最后，Embedding Collection 的引入有力地支持了自定義 Embedding Table 的放置，包括數(shù)據(jù)并行和模型并行。通過提供一個 JSON 文件，您可以根據(jù)您的指定配置更改 Embedding Table 的放置策略。更詳細的使用方法，清查閱實例

https://github.com/NVIDIA-Merlin/HugeCTR/tree/v3.7/test/embedding_collection_test 下的 dlrm_train.py 腳本。

2. 分級參數(shù)服務(wù)器性能改進：

a. Kafka：模型參數(shù)現(xiàn)在以節(jié)省帶寬的多路復(fù)用數(shù)據(jù)格式存儲在 Kafka 中，這種數(shù)據(jù)格式極大地提高了吞吐量。在我們的測試中，每個 Kafka Broker 的傳輸速度高達 1.1 Gbps。

b. HashMap 后端：并行和單線程的 hashmap 實現(xiàn)已被新的統(tǒng)一實現(xiàn)取代。這個新的實現(xiàn)使用了一種新的基于內(nèi)存池的分配方法，它極大地提高了插入性能，而不會降低召回性能。與之前的實現(xiàn)相比，大批量插入操作的速度提高了 4 倍。

c. 壓縮的日志：用戶可以在 Triton 服務(wù)啟動時配置多級日志輸出，從而提高在線推理的吞吐量。

d. 簡化配置：HugeCTR 后端將推理參數(shù)服務(wù)器相關(guān)配置（ps.json）和 Triton 配置（config.pbtxt）完全解耦，避免了 Triton 中的重復(fù)配置。

e. Embedding 更新的凍結(jié)功能：HugeCTR 后端已經(jīng)支持通過 Triton 的模型控制接口只更新模型的密集部分，從而避免 Embedding 的在重復(fù)在線更新。

3. 離線推理可用性的增強：

線程池的大小現(xiàn)在可以配置了，這對于研究異步更新場景中的 Embedding Cache 性能十分有用。更多信息，請參閱分層參數(shù)服務(wù)器配置

https://nvidia-merlin.github.io/HugeCTR/master/hugectr_parameter_server.html#configuration。

4. 數(shù)據(jù)生成器性能提升：

現(xiàn)在可以指定 `num_threads` 參數(shù)以并行化 `Norm` 數(shù)據(jù)集生成。

5. 評估指標改進：

a. 多節(jié)點環(huán)境中的 AverageLoss 性能提升

b. AUC 性能優(yōu)化和更安全的內(nèi)存管理

c. NDCG 和 SMAPE

6. 使用 Parquet 數(shù)據(jù)集的 Embedding Training Cache(ETC) 演示：

現(xiàn)在我們提供了一個 keyset 提取腳本以生成 Parquet 數(shù)據(jù)集的 keyset文件。并且為用戶提供了一個使用 ETC 模式訓(xùn)練 Parquet 數(shù)據(jù)集的端到端演示: https://github.com/NVIDIA-Merlin/HugeCTR/blob/master/notebooks/embedding_training_cache_example.ipynb 。

7. 文檔更新：

HugeCTR 分層參數(shù)服務(wù)器數(shù)據(jù)庫后端 https://nvidia-merlin.github.io/HugeCTR/master/hugectr_parameter_server.html 的文檔詳細信息已更新，以保持一致性和清晰性。

8. 修復(fù)的問題：

a. 在使用 Parquet 數(shù)據(jù)類型時，如果指定了 `slot_size_array`，則不再需要指定 `workspace_size_per_gpu_in_mb` 了。

b.如果您從頭開始構(gòu)建和安裝 HugeCTR，您可以指定 `CMAKE_INSTALL_PREFIX` 變量來指定 HugeCTR 的安裝目錄。

c. 解決了使用大量 GPU 進行 SOK 訓(xùn)練時 sok.init()的掛起問題：

https://github.com/NVIDIA-Merlin/HugeCTR/issues/261

https://github.com/NVIDIA-Merlin/HugeCTR/issues/302。

已知問題

以下是目前 HugeCTR 存在的已知問題，我們將在之后的版本中盡快修復(fù)。

HugeCTR 使用 NCCL 在 rank 之間共享數(shù)據(jù)，并且 NCCL 可能需要共享系統(tǒng)內(nèi)存用于 IPC 和固定（頁面鎖定）系統(tǒng)內(nèi)存資源。在容器內(nèi)使用 NCCL 時，建議您通過發(fā)出以下命令來增加這些資源 `-shm-size=1g -ulimit memlock=-1`

另見 NCCL 的已知問題 https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html#sharing-data。還有 GitHub 問題 https://github.com/NVIDIA-Merlin/HugeCTR/issues/243 。

目前即使目標 Kafka broker 無響應(yīng)， KafkaProducers 啟動也會成功。為了避免與來自 Kafka 的流模型更新相關(guān)的數(shù)據(jù)丟失，您必須確保有足夠數(shù)量的 Kafka brokers 啟動、正常工作并且可以從運行 HugeCTR 的節(jié)點訪問。

文件列表中的數(shù)據(jù)文件數(shù)量應(yīng)不小于數(shù)據(jù)讀取器的數(shù)量。否則，不同的 data reader worker 將被映射到同一個文件，導(dǎo)致數(shù)據(jù)加載不會按預(yù)期進行。

正則化器暫時不支持聯(lián)合損失訓(xùn)練。

用于 HugeCTR 訓(xùn)練樣本的 Criteo 1TB Click Logs 數(shù)據(jù)集目前不可用。在它再次可下載之前，您可以基于我們的合成數(shù)據(jù)集生成器運行這些示例。有關(guān)詳細信息，請參閱 https://nvidia-merlin.github.io/HugeCTR/master/hugectr_user_guide.html#generating-synthetic-data-and-benchmarks 。

目前的數(shù)據(jù)生成器在生成 Parquet 數(shù)據(jù)集時會產(chǎn)生不一致的文件名，這會將導(dǎo)致使用合成的 Parquet 數(shù)據(jù)時報錯。

原文標題：HugeCTR v3.6 & v3.7 發(fā)布說明

文章出處：【微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴