人工智能模型的復雜度不斷增加,對內存的需求也越來越大。深度學習的進一步發展需要解決內存限制問題,而當前的解決方案無法利用所有可用計算,業內人士逐漸意識到需要專用芯片來支持深度學習訓練和推理。
英特爾則在人工智能方面提供優越的硬件選擇,并通過軟件來最大化釋放硬件的性能,從而幫助客戶無論是數據多么復雜或位于哪里都可以自如運行AI應用。
7月3日-4日,在百度AI開發者大會上,英特爾公司副總裁兼人工智能產品事業部總經理Naveen Rao宣布,英特爾正與百度合作開發英特爾? Nervana?神經網絡訓練處理器(NNP-T)。這一合作包括全新定制化加速器,以實現極速訓練深度學習模型的目的。
此次NNP-T是一類全新開發的高效深度學習系統硬件,能夠加速大規模的分散訓練。與百度的密切合作能夠確保英特爾開發部門始終緊跟客戶對訓練硬件的最新需求。
從2016年起,英特爾便一直針對英特爾?至強?可擴展處理器優化百度飛槳(PaddlePaddle*)深度學習框架。如今,通過為百度飛槳優化NNP-T,雙方能夠為數據科學家提供更多的硬件選擇。
與此同時,英特爾還通過更多技術來進一步增強這些AI解決方案的性能。例如,憑借英特爾傲騰數據中心級持久內存所提供的更高內存性能,百度能夠通過其Feed Stream*(信息流)服務向數百萬用戶提供個性化移動內容,并通過百度AI推薦引擎獲得更高效的客戶體驗。
此外,鑒于數據安全對于用戶極其重要,英特爾還與百度共同致力于打造基于英特爾軟件保護擴展(SGX)技術的MesaTEE*——內存安全功能即服務(FaaS)計算框架。
Naveen Rao表示:“未來幾年,AI模型的復雜性以及對大規模深度學習計算的需求將爆發式增長。英特爾和百度將延續雙方十多年的合作并聚焦于聯合設計和開發全新的硬件以及配套軟件,從而向‘AI 2.0’的新疆界不斷邁進。”
而在英特爾分論壇上,英特爾及其合作伙伴分別就邊緣計算、百度超級計算平臺的軟硬件優化、英特爾 DL Boost、百度海洋引擎與英特爾SGX的合作、愛奇藝在OpenVINO?上的AI實踐以及英特爾AEP的分布式系統在AI訓練和數據處理上的實踐等方面的技術細節進行了探討。我們將從以下四個演講中闡釋英特爾取得的主要進展。
英特爾DL Boost的至強云端深度學習推理優化實踐
英特爾DL Boost是一套旨在加快人工智能深度學習速度的處理器技術。英特爾人工智能資深架構師姚偉峰講述了利用英特爾DL Boost的至強云端深度學習推理優化實踐。
DL Boost基于AVX-512擴展新的矢量神經網絡指令集,性能提升是數量級的,具有更好的TCO,為終端用戶提供更一致性的體驗。他指出,英特爾 DL Boost VNNI就是為加速深度學習推理任務而生。他還從圖優化、量化、算子優化三方面詳細講解了XEON深度學習推理優化。
英特爾MKL-DNN優化的深度學習框架和OpenVINO?
英特爾軟件產品開發部、資深AI 技術咨詢工程師胡英以英特爾MKL-DNN優化的深度學習框架為主講述了如何利用英特爾AI軟件工具加速深度學習。
英特爾MKL-DNN是一個開源的、性能強化的函數庫,用于加速在CPU上的深度學習框架,包含高度矢量化和線程化的構建模塊,支持利用C和C++接口實施卷積神經網絡。
英特爾MKL-DNN主要在以下對象上運行:基元、引擎和流。庫文檔對這些對象的定義如下所示:
基元——任何操作,包括卷積、數據格式重新排序和內存。基元可以以其他基元為輸入,但是智能輸出內存基元。
引擎——一種執行設備,如CPU。每個基元都映射為特定的引擎。
流——一種執行環境,將基元提交至流后等待完成。提交至流的基元可能有不同的引擎。流對象也可以跟蹤基元間的相關性。
OpenVINO是英特爾基于自身現有的硬件平臺開發的一種可以加快高性能計算機視覺和深度學習視覺應用開發速度工具套件,支持各種英特爾平臺的硬件加速器上進行深度學習,并且允許直接異構執行。 支持在Windows與Linux系統,使用Python/C++語言。
OpenVINO工具包主要包括兩個核心組件,模型優化器和推理引擎。
OpenVINO的主要特點有:
在英特爾平臺上提升計算機視覺相關深度學習性能達19倍以上
解除CNN-based的網絡在邊緣設備的性能瓶頸
對OpenCV,OpenXV*視覺庫的傳統API實現加速與優化
基于通用API接口在CPU、GPU、FPGA等設備上運行加上
愛奇藝在OpenVINO?上的AI實踐
軟件工具包OpenVINO,專為在邊緣部署深度神經網絡而設計,廣泛支持各種框架,只需編寫一次,可擴展到不同加速器上使用,使邊緣AI實現高性能、高效率。
借助英特爾OpenVINO工具包,能夠幫助開發人員加快深度神經網絡推理應用的開發,支持深度神經網絡測試、調整和原型制作,可以幫助開發者進入實際應用的量產階段。
愛奇藝助理研究員虞科華分享了他們在OpenVINO上的AI應用開發的相關實踐 。首先是應用開發方法主要包括三點:
訓練模型:固化模型
模型優化:圖分割、客制化層、 客制化子圖
推理引擎:模型級聯計算、多輸入尺寸設計、自動評估CPU端執行特征
另外,虞科華指出OpenVINO FPGA后端實踐主要包括兩方面:1推理引擎: 異構Plugin、 異構執行分析;性能分析:Bitstream精度、異構Affinity設置、流水線化。
OpenVINO目前在愛奇藝的落地服務主要有AI雷達、圖文審核、視頻標簽、圖片審核等。
百度計算平臺的軟硬件優化
作為英特爾重要的合作方,百度AI系統架構師丁瑞全介紹了在百度大規模分布式訓練系統中與英特爾在軟硬件優化方面的合作。
在系統設計上,百度超級AI計算平臺X-MAN與英特爾進行合作共同推動OAI & OAM全球標準定義。
軟硬件聯合優化方面主要包括四個方面。IO優化,百度Fast-F共享并行文件系統,同時基于英特爾 SPDK,為AI場景海量小文件而優化;預處理優化,通過預取 + 硬件Offload + 均衡CPU與AI加速卡配比的方式進行合作;數據下發優化,增加下行鏈路 + 避免沖突;前后向計算優化,自動混合精度 (AMP) +大顯存增大batch size 英特爾 AI芯片可支持bfloat16*, 其動態范圍相比float16 的更大液冷+48V供電 支持計算性能更強的芯片;通信優化,軟件算法優化以及英特爾 SCR* ICL支持多機互聯。
-
處理器
+關注
關注
68文章
19833瀏覽量
233920 -
英特爾
+關注
關注
61文章
10183瀏覽量
174147 -
AI
+關注
關注
88文章
34588瀏覽量
276150 -
深度學習
+關注
關注
73文章
5557瀏覽量
122579
原文標題:加速AI應用落地,英特爾AI 2.0的進階之道
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
直擊Computex 2025:英特爾重磅發布新一代GPU,圖形和AI性能躍升3.4倍

直擊Computex2025:英特爾重磅發布新一代GPU,圖形和AI性能躍升3.4倍

英特爾發布全新GPU,AI和工作站迎來新選擇
英特爾借助開放生態系統,加速邊緣AI創新

英特爾發布全新企業AI一體化解決方案
英特爾計劃明年AI PC出貨一億臺
英特爾聚焦AI座艙
英特爾攜手百度智能云加速AI落地
Inflection AI攜手英特爾推出企業級AI系統
英特爾發布Gaudi3 AI加速器,押注低成本優勢挑戰市場
軟銀與英特爾AI芯片合作計劃告吹
從運動員到開發者: 英特爾以開放式AI系統應對多重挑戰

評論