在今年的國際學習表征大會(ICLR)上,NVIDIA 發表了 70 余篇論文,其內容涵蓋醫療、機器人、自動駕駛汽車以及大語言模型等領域。
推動 AI 進步需要采用全棧式方法,這依賴于包括加速處理器和網絡技術在內的強大計算基礎設施,并將其與優化的編譯器、算法及應用程序相連接。
NVIDIA Research 正在該領域進行全方位的創新,并在此過程中為幾乎所有行業提供支持。在近日舉行的國際學習表征大會(ICLR)上,NVIDIA 提交了 70 余篇論文,展示了 AI 在自動駕駛汽車、醫療、多模態內容創作、機器人等領域的應用進展。
NVIDIA 應用深度學習研究副總裁 Bryan Catanzaro 表示:“ICLR 是全球最具影響力的 AI 會議之一,研究人員在此發布推動各行各業進步的關鍵技術創新。NVIDIA 今年提交的研究成果旨在加速計算堆棧的各個層級,從而增強 AI 在各行業的影響力和實用性。”
解決現實世界挑戰的研究工作
NVIDIA 在 ICLR 上提交的多篇論文聚焦多模態生成式 AI 領域的突破性進展,以及 AI 訓練和合成數據生成的新方法,具體包括:
Fugatto:Fugatto 是世界上最靈活的音頻生成式 AI 模型。根據輸入的文本提示和音頻文件,它能夠生成或修改包含任意的音樂、人聲和聲音組合的作品。在 ICLR 上展示的其他 NVIDIA 模型對音頻大語言模型(LLM)進行了改進,以使其更好地理解語音。
HAMSTER:這篇論文提出了一種視覺-語言-動作模型的分層設計方案,它可以更好地從域外微調數據(即無需在真實機器人硬件上收集的低成本數據)中遷移知識,進而提升機器人在測試場景中的技能水平。
Hymba:這個小語言模型家族采用混合模型架構,由此創造的 LLM 融合了 Transformer 模型和狀態空間模型的優勢,實現了高分辨率記憶檢索、高效的上下文總結以及常識推理任務。借助這種混合模型架構,Hymba 在保持性能的前提下將吞吐量提升了 3 倍,緩存減少至約1/4。
LongVILA:該訓練流程實現了高效的視覺語言模型訓練與推理,以支持長視頻理解。使用長視頻訓練 AI 模型時,需要大量算力和密集內存,而這篇論文提出的系統可以高效地并行處理長視頻的訓練和推理,在 256 塊 GPU 上進行訓練時可擴展到多達 200 萬個 token。LongVILA 在 9 個主流視頻基準測試中均達到當前最優性能。
LLaMaFlex:這篇論文提出了一種全新的零樣本生成技術,可從單個大型模型來構建一系列壓縮 LLM 家族。研究人員發現,LLaMaFlex 生成的壓縮模型在精度上媲美或優于現有剪枝、彈性架構及從頭訓練的模型。相比剪枝和知識蒸餾等技術,這種能力能夠顯著降低訓練模型家族的成本。
Proteina:該模型可以生成多樣且可設計的蛋白質骨架,即維持蛋白質結構的框架。它采用 Transformer 模型架構,參數數量是此前模型的 5 倍。
SRSA:這個框架解決了使用現有技能庫教會機器人執行新任務的難題。這意味著機器人無需從頭學習,而是能夠將現有技能應用并適配到新任務中。研究人員開發了預測最相關預置技能的框架,使機器人在執行未知任務時的零樣本成功率提高了 19%。
STORM:通過僅需少量快照即可推斷出精確的 3D 表示,該模型能夠重建動態戶外場景,比如行駛的汽車或隨風搖曳的樹木。該模型能夠在 200 毫秒內重建大規模戶外場景,在自動駕駛開發中具有應用潛力。
-
機器人
+關注
關注
213文章
29463瀏覽量
211492 -
NVIDIA
+關注
關注
14文章
5238瀏覽量
105753 -
AI
+關注
關注
87文章
34146瀏覽量
275298
原文標題:NVIDIA Research 在 ICLR 大會引領新一波多模態生成式 AI 浪潮
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
華為公布AI基礎設施架構突破性新進展
NVIDIA實現神經網絡渲染技術的突破性增強功能
移遠通信智能模組全面接入多模態AI大模型,重塑智能交互新體驗

評論