啊啊啊校花,奇米色777,国产精品拍拍拍拍拍

作為計算領域學術界、產業界、教育界的年度盛會，CNCC2021將匯聚國內外頂級專業力量、專家資源，為逾萬名參會者呈上一場精彩宏大的專業盛宴。

今年NVIDIA專家團隊受邀參會，將為大家帶來實用的技術論壇、開發者技術培訓、編程體驗。歡迎大家蒞臨CNCC大會現場 T10 展位以及線上分論壇了解我們帶來的精彩技術分享！

亮點活動1：技術論壇

深度了解超大規模模型訓練超算化

【超大規模模型訓練超算化的趨勢及應用技術論壇】將于12月以在線論壇的形式召開。NVIDIA攜手百度、阿里云和京東的專家為您帶來超大規模分布式模型訓練的實踐，以及深入分析GPT-3訓練過程中的存儲、計算及通信開銷及相應優化策略等精彩演講。對GPU 加速計算、超大規模語言模型訓練、分布式訓練框架和E級高性能AI計算集群的硬件架構感興趣的小伙伴千萬不要錯過。

超大規模模型訓練超算化的趨勢及應用技術論壇

主題報告1：飛槳分布式框架：深度解析超大模型訓練技術

主講嘉賓：

吳志華

百度深度學習技術平臺部主任研發架構師，

飛槳分布式技術負責人

報告摘要：

飛槳是源于產業實踐的開源深度學習平臺。本專題主要介紹飛槳分布式訓練框架及其在自然語言處理、視覺、推薦等領域的應用。首先帶大家深入了解飛槳超大規模深度學習模型訓練技術，含三代參數服務器架構、多維混合并行訓練技術等，來解決不同維度大模型的訓練；其次通過經典案例介紹大模型訓練難點及在實際業務中的應用。

主題報告2：阿里云在超大規模分布式模型訓練的實踐

時間：1700主講嘉賓：董建波阿里云資深技術專家報告摘要：AI算法模型的規模迅速增長，對算力的需求也急劇增加，分布式集群成為AI計算的必然選擇。而隨著集群規模的擴展，系統的計算效率不斷下降。為了應對這一挑戰，阿里巴巴設計了EFLOPS高性能AI計算集群，通過軟硬件的協同優化，獲得極致的計算效率。本專題將介紹EFLOPS高性能AI計算集群的硬件架構，軟硬件協同設計，以及在典型業務場景上的應用。

主題報告3：大規模分布式深度學習：算法、理論及應用

主講嘉賓：

沈力

京東科技、京東探索研究院算法科學家

報告摘要：

在分布式深度學習的場景下，參數服務器和節點之間需要頻繁的傳輸梯度和神經網絡權重。當前的超級深度學習模型如GPT-3的參數量已經到千億規模，這給現有的分布式深度學習算法帶來了全新的挑戰。本次報告中，京東探索研究院立足于優化算法理論，從四個層面來探索解決大規模分布式深度學習中模型參數維度過高和數據規模過大帶來的通信壓力和算力壓力的問題。

主題報告4：超大規模模型訓練的趨勢及方案介紹

主講嘉賓：

楊廣樓

NVIDIA工程解決方案技術專家

報告摘要：

針對超大規模模型訓練發展，介紹NVIDIA DGX SuperPOD如何設計計算、網絡和存儲等，提供給客戶最優化、可擴展和性能可保障的一站式分布式GPU集群解決方案。

主題報告5：深入分析GPT-3模型訓練的存儲、計算和網絡資源需求

主講嘉賓：

劉宏斌、劉冰

NVIDIA GPU技術專家

報告摘要：

超大規模語言模型已經在各類NLP任務中取得了SOTA級別的訓練結果，然而大規模語言模型帶來的存儲及計算開銷使其對軟件及硬件都提出了較高的要求。NVIDIA推出的Megatron-LM框架通過3D-Parallelism將模型合理地分配到相應的計算資源，并且對通信及Kernel進行了優化以提升計算效率，在DGX-A100集群上整體GPU利用率可達50%以上，訓練GPT-3只需34天（1024GPUs）。演講將以Megatron-LM為例，深入分析GPT-3訓練過程中的存儲、計算及通信開銷及Megatron-LM的相應優化策略。

主題報告6：超大模型部署實踐

主講嘉賓：

薛博陽

NVIDIA GPU技術專家

報告摘要：

最近幾年，NLP模型的參數量以每年10倍的成長速度不斷增加，并且至今為止還沒有減緩的跡象。為了能將這些上千億參數的模型部署上線，透過多GPU來載入模型并且提升速度是必要的。雖然目前許多的主流框架，如 TensorFlow、PyTorch，都有提供多GPU的訓練庫。但在推理上，這些筐架無論是在顯存使用上還是速度上都明顯不足。而在推理方面，雖然也已經有許多很好的工作，例如TensorRT、Light-seq，但他們都只能支持單GPU的推理。而FasterTransformer正是第一個針對多GPU場景進行優化的推理庫。

亮點活動2：CUDA編程入門分享

【Arm / GPU 架構 CUDA 編程入門分享及線上編程體驗技術分享】將于 2021年12月16日1700 在線上召開。NVIDIA專家將與您一起探討基于Arm的嵌入式平臺Jetson 開發環境、GPU異構計算原理、CUDA編程模型等理論內容。此外，還將提供云端環境以進行線上開發實驗，快帶上你的電腦參與我們的開發實驗吧！

Arm / GPU 架構 CUDA 編程入門分享及線上編程體驗

12月16日

時間主題主講嘉賓

1700CUDA開發原理介紹何琨NVIDIA企業開發者社區經理

1850線上編程實驗何琨NVIDIA企業開發者社區經理

1800答疑何琨NVIDIA企業開發者社區經理

亮點活動3：展位現場開發者技術培訓

【展位現場開發者技術培訓】將于12月16-17日在英偉達-麗臺 T10 號展位舉行舉行，12月16日14:00麗臺科技專家為您帶來全方位實用的技術培訓。在12月17日上午的NVIDIA 初創加速加速日之中，我們邀請到眾多NVIDIA初創加速計劃成員的創始人和研發負責人為您介紹諸如基于NVIDIA GPU 的模塊化機器人平臺、TensorRT 推理加速應用等各領域開發實戰培訓內容。

展位現場開發者技術培訓

時間主題主講嘉賓

1430現代AI數據中心構建解決方案蔡欣欣麗臺GPU產品經理及售前顧問

1400AI及HPC產品解決方案蔡欣欣麗臺GPU產品經理及售前顧問

1530麗臺EGX邊緣計算解決方案蔡欣欣麗臺GPU產品經理及售前顧問

時間主題主講嘉賓

1015英偉達初創加速計劃介紹朱敏NVIDIA初創加速計劃經理

1030AUTO CUBE ROBOT - 利用模塊化機器人平臺實現學生人工智能體系掌握張明YUHESEN研發負責人

1045TensorRT推理加速在實際場景中的應用成望極視角科技研發SVP

1000新型存儲架構YRCloudFile 在 AI 訓練中的性能優化與實踐王鵬飛

焱融科技CTO

1115GPU 并行計算- 利用 AI模型加速空間數據生產梁健大地量子AI遙感算法工程師