開源社區通過對NVIDIA GPU的原生支持加速Spark 3.0;
實現數百TB數據的飛速ETL和SQL處理;
Adobe在Databricks上使用Spark 3.0將模型訓練速度提高7倍
加利福尼亞州圣克拉拉市 - GTC 2020大會 - 2020年5月14日 – NVIDIA于今日宣布其正在與開源社區合作,為Apache Spark 3.0帶來端到端的GPU加速。Apache Spark 3.0是一個熱門的分析引擎,被全球范圍內超過50萬名數據科學家用于大數據處理。
隨著Spark 3.0預計將于春季晚些時候發布,數據科學家和機器學習工程師將首次能夠把革命性的GPU加速應用于普遍使用SQL數據庫操作進行的ETL(提取、轉換和加載)數據處理工作負載中。
此外,他們還將首次能夠在同一Spark集群上處理AI模型訓練任務,而無需將工作負載作為單獨流程在單獨的基礎架構上運行。這樣就可以對整個數據科學的處理流程進行高性能數據分析,對從數據湖到模型訓練所涉及的數十、乃至數千TB的數據進行加速,而且無需對已被應用于本地和云端Spark應用程序的現有代碼進行修改。
NVIDIA企業計算主管Manuvir Das表示:“數據分析是當今企業和研究者所面臨最大的高性能計算挑戰。從ETL到訓練再到推理,整個Spark 3.0 方案的原生GPU加速為用戶提供了最終將大數據潛力與AI性能相連所需的性能和規模?!?/p>
作為NVIDIA的戰略AI合作伙伴,Adobe是最早在Databricks上運行Spark 3.0預覽版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速數據分析技術進行產品開發,并為各項推進數字化業務進程的功能提供支持。在初步測試中其已將性能提高了7倍,并節省了90%的成本。
性能提升后的Spark 3.0讓科學家能夠訓練包含有更大數據集的模型,并增加反復訓練模型的頻率,從而提高模型的精度?,F在,數據科學家每天可以處理數TB的新數據,這對于需要為在線推薦系統提供支持或分析新研究數據的數據科學家們而言至關重要。此外,處理速度的加快,減少了交付結果所需的硬件資源,從而節省了大量成本。
Adob機器學習高級總監William Yan表示:“相比于在CPU上運行Spark,NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴隨著GPU性能的飛躍性提升,也將為我們全套Adobe Experience Cloud應用中AI功能的提升帶來新的可能性。”
Databricks和NVIDIA為Spark提速
Apache Spark最初是由Databricks的創始人創建。Databricks的云端統一數據分析平臺每天在一百多萬臺虛擬機上運行。NVIDIA與Databricks已開展合作,使用專為Databricks開發的RAPIDSTM軟件套件優化Spark,將GPU加速應用于在Databricks上運行的醫療、金融、零售等眾多行業的數據科學和機器學習工作負載中。
Apache Spark最初的創建者兼Databricks首席技術員Matei Zaharia表示:“我們與NVIDIA開展了長期合作,用專為Apache Spark 3.0和Databricks開發的RAPIDS相關優化來提高性能,使得像Adobe這樣的我們兩家公司共同的客戶能夠得以受益。我們所作出的這些努力加快了數據處理流程、模型訓練和評分的速度,直接為我們的數據工程師和數據科學家社區帶來更多的突破和洞見?!?/p>
NVIDIA GPU加速Spark中的ETL和數據傳輸
NVIDIA正在提供一種用于Apache Spark的全新開源RAPIDS加速器,幫助數據科學家提高其數據流程的端到端性能。該加速器能夠將之前需要在CPU上運行的功能,轉到GPU上運行,以發揮GPU的性能:
·在無需更改任何代碼的情況下顯著提高Spark SQL和DataFrame的運行性能,從而加速Spark中的ETL數據流程。
·無需獨立的機器學習和深度學習集群,即可在相同的基礎架構上加速數據準備和模型訓練。
·加速Spark分布式集群中各節點之間的數據傳輸性能。這些資源庫使用UCF Consortium 的開源UCX(Unified Communication X)框架,并通過使數據直接在GPU內存之間移動來最大程度地減少延遲。
Apache Software Foundation 上現已提供Spark 3.0的預覽版。該產品預計將在未來幾個月內全面上市。
-
NVIDIA
+關注
關注
14文章
5238瀏覽量
105721 -
gpu
+關注
關注
28文章
4907瀏覽量
130611 -
數據分析
+關注
關注
2文章
1470瀏覽量
34775 -
大數據
+關注
關注
64文章
8949瀏覽量
139414 -
SPARK
+關注
關注
1文章
106瀏覽量
20396
發布評論請先 登錄
NVIDIA加速的Apache Spark助力企業節省大量成本

NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

NVIDIA助力百度提升數據分析效能
eda與傳統數據分析的區別
raid 在大數據分析中的應用
云計算在大數據分析中的應用
數據分析除了spss還有什么
數據分析的工具有哪些
數據分析有哪些分析方法
機器學習在數據分析中的應用
Spark基于DPU的Native引擎算子卸載方案

評論