日韩电影在线,成年在线视频免费观看视,插进去动图

NVIDIA 四大主題論壇

全棧式解決方案

為您啟動 AI 引擎

12 月 8 日-10 日，CNCC 邀您共赴 “計算之約”。以算力、數據、生態為主題，本屆 CNCC 首次全面改為線上舉辦，但規模可說是史上之 “最” ：邀請嘉賓包括 ACM 圖靈獎獲得者、田納西大學教授 Jack Dongarra，以及多位院士及專家，還有七百余位國內外名校學者、名企領軍人物、各領域極具影響力的業內專家。

今年，NVIDIA會在CNCC帶來涵蓋DPU、元宇宙、超大模型的推理和部署實踐三大主題的演講論壇和面向開發者的CUDA Python線上編程培訓實驗論壇，內容豐富、干貨滿滿、場場精彩！（* NVIDIA 將免費放送四大論壇，線上票價值 1080 元，千萬別錯過）

NVIDIA 在 CNCC 主題論壇概覽

時間	主題
12 月 8 日（星期四）1330	探索 DPU 應用場景加速云原生基礎設施創新
12 月 8 日（星期四）1900	如何利用元宇宙相關技術實現虛擬世界和現實世界的連接
12 月 9 日（星期五）1330	超大模型的推理和部署實踐
12 月 10 日（星期六）1330	基于 Python 的 CUDA 編程入門培訓及線上編程體驗

在 8 號的“為數據中心不斷“減負” ：探索 DPU 應用場景，加速云原生基礎設施創新”、穿梭虛實之間，元宇宙技術是如何做到的？兩期主題論壇之后。

這一程，NVIDIA 將攜手百度、騰訊、小冰，于 12 月 9 日下午共同解讀《超大模型的推理和部署實踐》。論壇云集技術大牛，您將了解：

飛槳超大模型的壓縮和推理優化；
基于精調、蒸餾和壓縮的大模型落地應用；
通往高參數效用比的自然語言處理；
“小冰”如何利用 FasterTransformer 實現大規模語言模型的產品級部署等內容。

對超大模型推理及其具體應用感興趣的小伙伴們，

下方查看會議詳情！

超大模型的推理和部署實踐

12 月 9 日，星期五，1330

線上會議室 6

隨著 AI 的發展，創新和數據復雜性不斷提升，超大規模成為必然趨勢。通過本次分論壇，您將了解飛槳超大模型的壓縮和推理優化；基于精調、蒸餾和壓縮的大模型落地應用；通往高參數效用比的自然語言處理；如何利用 FasterTransformer 實現大規模語言模型的產品級部署，以及 Transformer 模型在 TensorRT 上的推理性能優化等內容。

具體議程

飛槳超大模型的壓縮和推理優化

超大模型在各類任務上取得卓越的效果，然而由于超大模型體積大、速度慢，推理部署面臨巨大的挑戰，大模型的高效推理是實現大模型產業應用落地的關鍵所在。飛槳推出了針對大模型的壓縮、推理、服務化全流程部署方案。該方案通過面向大模型的精度無損模型壓縮技術、自適應分布式推理技術，可自動感知硬件特性，完成模型壓縮、自動切分和混合并行推理計算，實現領先性能。

黨青青 | 百度資深研發工程師

黨青青，百度資深研發工程師，目前主要從事深度學習模型推理、壓縮、視覺算法的研究。負責飛槳推理性能優化，以及模型壓縮工具、視覺套件建設。有豐富的深度學習框架系統研發、高性能優化、算法調優經驗。

通往高參數效用比的自然語言處理-預訓練、

下游任務、與前沿展望

如今自然語言處理領域正在進行 “訓練->推理” 到 “預訓練->下游任務微調”的范式轉換，其中模型神經元數量和預訓練所用數據規模已經遠超人類大腦的神經元數量和人類人均閱讀總量，同時在 GLUE 等通用大模型評估榜單中獲得的收益是非常微弱的。對此，我們開展了一系列高參數效用比的自然語言處理預訓練、和下游任務的探索，來幫助大模型更加智能、高效的從海量數據中挖掘知識，并魯棒、準確的遷移到下游任務中。

丁亮 | 京東探索研究院算法科學家

丁亮，京東探索研究院算法科學家，自然語言處理方向負責人。博士畢業于悉尼大學，師從 IEEE/ACM Fellow 陶大程教授。他致力于基于深度學習的自然語言處理，包括大規模語言模型預訓練、語言理解、生成和翻譯。他帶領團隊在 2021 年 12 月在兩個 GLUE 基準評測任務上實現首次超越人類的表現，隨后在 2022 年 1 月以均分 91.3 獲得總榜單第一。

基于精調、蒸餾和壓縮的大模型落地應用

大模型歷經過去幾年探索已經相對成熟。目前如何能夠在真實場景快速落地成為急需解決的問題。為解決大模型落地方面的各種問題，我們開發提供精調、蒸餾、壓縮、推理、服務化全流程部署方案，助力大模型快速有效落地。

劉凱 | 騰訊軟件工程師

從事 NLP 訓練推理一體化服務開發。

小冰如何利用 FasterTransformer

實現大規模語言模型的產品級部署

小冰在部署 GPT 1B/6B 模型中遇到的困難；Faster Transformer (FT) 如何解決上述困難；在上述模型配置下，FT+Triton 與 baseline (Huggingface Transformers 和 Deepspeed) 在 a. latency, b. throughput, c. 可部署的最低配置GPU環境上的差異；小冰如何利用 FT 對 soft prompt/prefix 的支持，在只使用同一個 backbone model 的情況下實現對不同用戶的高度自定義化。

趙天雨 | 小冰高級研究員

2015 年本科畢業于北京大學計算機系，2020 年博士畢業于京都大學智能信息學系，同年就職于小冰日本團隊。研究方向為自然語言處理，主要關注對話系統、大模型的訓練與部署。

鄭鵬 | NVIDIA GPU 計算專家

畢業于佐治亞理工計算科學與工程專業，2021 年加入 NVIDIA 主要參與 FasterTransformer Multi-GPU Multi-Node 相關的優化工作。

基于 FasterTransformer

和 Triton大模型的預估

自 2020 年 OpenAI 推出 GPT 模型之後，越來越多研究證明超大模型在自然語言處理上的能力與重要性。NVIDIA 在 2021 年時基于 FasterTransformer 開發多機多卡并行推理的功能，提出第一個多機多卡大模型推理的解決方案。FasterTransformer 本身不具有收集、整理請求的能力，這在實際應用上是非常重要的功能。為了填補不足，我們將 FasterTransformer 與推理框架 Triton 進行結合，讓 FasterTransformer 能夠更好的支持實際的推理場景。在這次的演講中，我們會詳細的講解我們如何實現以上的功能，讓用戶能透過 FasterTransformer 將大模型推理實際落地。

薛博陽 | NVIDIA GPU 技術專家

2019 年加入 NVIDIA，目前主要負責 FasterTransformer 的開發與優化。FasterTransformer 提供 Transformer 模型推理上靈活與高效的調用，對比一般的框架能提供數倍到十倍以上的加速效果。除此之外，是第一個支持 GPT-3 的推理庫。FasterTransformer 針對 GPT-3 這種超大規模(1750 億模型參數)的模型提供了模型并行、優化通信開銷、顯存使用，讓使用者能以最少的 GPU、透過多 GPU、多節點在 GPT-3 的服務上得到最好的速度。

Transformer 模型

在 TensorRT 上的推理性能優化

Transformer 在 NLP 和 CV 領域大放異彩，在眾多深度學習模型中顯現了突出的效果。同時，它相比于卷積網絡需要更高的計算量，其推理優化值得關注。TensorRT 是 NVIDIA 專門針對推理場景推出的性能優化工具；NVIDIA DevTech 團隊將若干常用的 Transformer 模型移植到 TensorRT，獲得了良好的加速效果。