在CVPR 2018大會上,英偉達開源了數(shù)據(jù)增強和數(shù)據(jù)解碼的兩個新的庫:
NVIDIA DALI:一個GPU加速的數(shù)據(jù)增強和圖像加載庫,用于優(yōu)化深度學習框架的數(shù)據(jù)pipeline
NVIDIA nvJPEG:一個高性能的GPU加速的圖像解碼庫
由深度學習驅(qū)動的計算機視覺應用程序包括復雜的、多階段的預處理數(shù)據(jù)pipeline,包括計算密集型的步驟,例如從磁盤加載和提取數(shù)據(jù)、解碼、裁剪和調(diào)整大小、顏色和空間變換以及格式轉(zhuǎn)換。
通過使用GPU加速數(shù)據(jù)增強,NVIDIA DALI解決了當今計算機視覺深度學習應用程序中的性能瓶頸問題,這些應用程序包括復雜的多階段數(shù)據(jù)增強步驟。借助DALI,深度學習研究人員可以通過MXNet、TensorFlow和PyTorch在AWS P3 8 GPU實例或Volta GPU的DGX-1系統(tǒng)上提高圖像分類模型(比如ResNet-50)的訓練性能。由于可以跨框架實現(xiàn)高性能的數(shù)據(jù)加載和增強,框架用戶將能夠減少代碼重復。
DALI依賴于新的NVIDIA nvJPEG庫進行高性能的GPU加速解碼。
DALI的優(yōu)勢包括:
能與MxNet,TensorFlow和PyTorch的框架直接集成
具有支持多種數(shù)據(jù)格式(如JPEG,原始格式,LMDB,RecordIO和TFRecord)的便攜式訓練工作流
具有可配置圖形和自定義操作符的自定義數(shù)據(jù)pipeline
使用nvJPEG進行高性能的單圖像解碼和批量JPEG解碼
nvJPEG是一個用于JPEG解碼的高性能GPU加速庫。nvJPEG支持同時使用CPU和GPU對單個圖像和批量圖像進行解碼、顏色空間轉(zhuǎn)換、多相位解碼,以及混合解碼。與只使用CPU解碼相比,使用nvJPEG進行解碼的應用程序具有更高的吞吐量和更低的延遲。
nvJPEG為計算機視覺應用中常用的JPEG格式提供低延遲解碼器,如圖像分類、物體檢測和圖像分割等應用。對于深度學習訓練應用,nvJPEG可以加速數(shù)據(jù)加載和預處理,如平移、縮小,放大,翻轉(zhuǎn)等。對于需要低延遲深度學習推理的應用,nvJPEG可用于實時地進行JPEG解碼和調(diào)整大小。
nvJPEG的優(yōu)勢包括:
使用CPU和GPU進行混合解碼
可以進行單個圖像解碼和批量圖像解碼
色彩空間可以轉(zhuǎn)換為RGB,BGR,RGBI,BGRI和YUV
單相位解碼和多相位解碼
DALI已經(jīng)開源,可以從GitHub獲取:
https://github.com/NVIDIA/dali
nvJPEG預發(fā)行版也已經(jīng)可以免費下載,用于收集反饋和測試,今年晚些時候會作為CUDA工具包的一部分提供。
-
計算機視覺
+關注
關注
9文章
1706瀏覽量
46568 -
英偉達
+關注
關注
22文章
3920瀏覽量
93100
原文標題:英偉達開源數(shù)據(jù)增強和數(shù)據(jù)解碼庫,解決計算機視覺性能瓶頸
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
深度學習在計算機視覺領域圖像應用總結 精選資料下載
深度學習與傳統(tǒng)計算機視覺簡介
技術 | 深度學習在計算機視覺領域的瓶頸已至
計算機視覺應用中3大瓶頸問題及解決方案

通過遷移學習解決計算機視覺問題

深度學習和傳統(tǒng)計算機視覺技術在新興領域的比較
淺談深度學習在計算機視覺領域的三大瓶頸

計算機視覺中的九種深度學習技術

評論