女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

將數(shù)據(jù)湖和數(shù)據(jù)倉庫評估為機器學習數(shù)據(jù)倉庫

星星科技指導員 ? 來源:NVIDIA ? 作者:JudyMcConnell ? 2022-10-10 15:42 ? 次閱讀

無論你是零售商、金融服務公司還是數(shù)字廣告商,數(shù)據(jù)都是現(xiàn)代企業(yè)的生命線。跨行業(yè),組織正在認識到其數(shù)據(jù)對于業(yè)務分析、機器學習人工智能的重要性。

智能企業(yè)正在投資于從數(shù)據(jù)中提取價值的新方法:更好地了解客戶需求和行為,定制新產品和服務,并做出在未來幾年將帶來競爭優(yōu)勢的戰(zhàn)略決策。

幾十年來,企業(yè)數(shù)據(jù)倉庫已用于所有類型的業(yè)務分析,圍繞 SQL 和關系數(shù)據(jù)庫的強大生態(tài)系統(tǒng)。現(xiàn)在,一個挑戰(zhàn)者出現(xiàn)了。

創(chuàng)建數(shù)據(jù)湖是為了存儲用于訓練人工智能模型和預測分析的大數(shù)據(jù)。這篇文章涵蓋了每個存儲庫的優(yōu)缺點:如何使用它們,以及最終為 ML 項目提供最佳結果的方法。

這個難題的關鍵是處理 AI 和 ML 工作流的數(shù)據(jù)。人工智能項目需要大量數(shù)據(jù)來訓練模型和運行預測分析。技術團隊必須評估如何捕獲、處理和存儲數(shù)據(jù),以使其具有可擴展性、經(jīng)濟性和易用性。

什么是數(shù)據(jù)倉庫?

數(shù)據(jù)倉庫創(chuàng)建于 20 世紀 80 年代,旨在幫助企業(yè)組織高數(shù)據(jù)量,以便做出更好的業(yè)務決策。數(shù)據(jù)倉庫與企業(yè)資源規(guī)劃( ERP )、客戶關系管理( CRM )軟件、庫存和銷售點系統(tǒng)等遺留資源一起使用。

主要目標是跨業(yè)務線、產品分析和商業(yè)智能提供運營報告。

數(shù)據(jù)倉庫使用 ETL (提取、轉換、加載)已有幾十年的歷史,在上傳數(shù)據(jù)之前,傾向于完成轉換和清理數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)倉庫對數(shù)據(jù)結構和提前規(guī)劃有嚴格的標準,以滿足模式要求。

數(shù)據(jù)只有在經(jīng)過處理和優(yōu)化后才能存儲在數(shù)據(jù)倉庫中。 ETL 通過首先清理數(shù)據(jù),然后上傳到關系數(shù)據(jù)庫來處理數(shù)據(jù)。好處是數(shù)據(jù)狀態(tài)良好,可以使用。但是,您需要預先支付處理開銷,如果數(shù)據(jù)從未使用,則會丟失這些開銷。

數(shù)據(jù)分析員在運行查詢之前,必須創(chuàng)建預先確定的數(shù)據(jù)結構和固定模式。這個攔截器對于數(shù)據(jù)科學家、分析師和其他業(yè)務部門來說是一個巨大的痛點,因為運行新的查詢需要幾個月或更長的時間。

通常,倉庫中的數(shù)據(jù)是只讀的,因此很難添加、更新或刪除數(shù)據(jù)文件。

優(yōu)勢:數(shù)據(jù)質量

對于任何系統(tǒng),都存在權衡。數(shù)據(jù)倉庫的優(yōu)點是,它們的數(shù)據(jù)在接收時處于良好狀態(tài),并且由于數(shù)據(jù)倉庫的規(guī)則,可能會保持這種狀態(tài) 數(shù)據(jù)清洗 和數(shù)據(jù)治理。

傳統(tǒng)的數(shù)據(jù)倉庫可以作為分類賬,提供干凈、結構化和規(guī)范化的數(shù)據(jù),作為組織的唯一真實來源。通過使用關系數(shù)據(jù)庫,整個組織的經(jīng)理和業(yè)務分析師可以快速準確地查詢大量企業(yè)數(shù)據(jù),以指導關鍵業(yè)務戰(zhàn)略。

缺點:模式需求

數(shù)據(jù)倉庫更有可能將 ETL 用于操作分析和機器學習工作負載。

然而,傳統(tǒng)的數(shù)據(jù)倉庫需要一個固定的模式來構建數(shù)據(jù),這可能需要數(shù)月或數(shù)年的時間才能在所有團隊和業(yè)務線經(jīng)理之間達成一致。當一個模式被實現(xiàn)時,它的用戶有了新的查詢,使他們回到原點。

公平地說,數(shù)據(jù)倉庫模式引發(fā)了人們對數(shù)據(jù)湖的極大興趣。

為什么使用數(shù)據(jù)湖?

在 21 世紀初, Apache Hadoop 引入了一種在分布式文件系統(tǒng)( HDF )中存儲數(shù)據(jù)的新范式,使企業(yè)能夠更輕松地挖掘其數(shù)據(jù)以獲得競爭優(yōu)勢。數(shù)據(jù)湖的想法來自 Hadoop ,能夠吸收存儲在低成本 blob 或對象存儲中的各種數(shù)據(jù)類型。

在過去的十年中,組織紛紛涌向數(shù)據(jù)湖,以捕獲來自 web 、社交媒體、傳感器物聯(lián)網(wǎng)、天氣數(shù)據(jù)、購買列表等的各種數(shù)據(jù)類型。隨著大數(shù)據(jù)變得越來越大,數(shù)據(jù)湖開始流行使用彈性技術存儲數(shù) PB 的原始數(shù)據(jù)。

數(shù)據(jù)湖有兩個主要優(yōu)點:易于接受廣泛的數(shù)據(jù)類型和隨時訪問該數(shù)據(jù)以進行臨時查詢。

使用 ELT (提取、加載、轉換),數(shù)據(jù)湖可以吸收大多數(shù)任何類型的數(shù)據(jù):結構化、非結構化、半結構化和二進制圖像和視頻

進入數(shù)據(jù)湖的數(shù)據(jù)在存儲之前不必進行轉換。攝取是高效的,沒有按類型清理和規(guī)范化數(shù)據(jù)的開銷。

數(shù)據(jù)湖使存儲所有類型的數(shù)據(jù)( PDF 、音頻、 JSON 文檔)變得很容易,而不知道將來如何使用這些數(shù)據(jù)。

優(yōu)勢:即席查詢

數(shù)據(jù)湖的好處是團隊可以訪問不同的數(shù)據(jù),并根據(jù)需要運行任意查詢。需要立即提供數(shù)據(jù)分析是采用數(shù)據(jù)湖的主要驅動力。

缺點:隨著時間的推移,數(shù)據(jù)質量會下降

原始數(shù)據(jù)在數(shù)據(jù)湖中很快就會壞掉。很少有工具可以馴服原始數(shù)據(jù),因此很難進行合并、重復數(shù)據(jù)消除和數(shù)據(jù)連續(xù)性。

數(shù)據(jù)倉庫和數(shù)據(jù)湖有什么共同點?

數(shù)據(jù)倉庫和數(shù)據(jù)湖都是大型數(shù)據(jù)存儲庫,具有共同的特點和缺點,尤其是在成本和復雜性方面。

比例:兩者都可以使用批處理和流式處理來保留大量數(shù)據(jù)。

高成本:兩者都非常昂貴,每年維護成本超過 100 萬美元。

復雜性:數(shù)據(jù)中心正在管理數(shù)十個獨特的數(shù)據(jù)源,數(shù)據(jù)量以每年 50% 或更高的速度快速增長。存儲基礎架構占用了更多的 IT 工時,提高了存儲成本,降低了整體效率。

數(shù)據(jù)處理:兩者都可以使用 ETL 和 ELT 處理。

共享用例:隨著數(shù)據(jù)科學家優(yōu)先考慮 ML 技術以從他們的數(shù)據(jù)中獲得新的見解,許多組織現(xiàn)在正在充分利用這兩個領域:支持人工智能的數(shù)據(jù)分析和廣泛的不同數(shù)據(jù)類型。

數(shù)據(jù)倉庫和數(shù)據(jù)湖之間有什么區(qū)別?

比較數(shù)據(jù)倉庫和數(shù)據(jù)湖有點像比較蘋果和桔子。他們提供不同的東西。

數(shù)據(jù)倉庫組織、清理和存儲用于分析的數(shù)據(jù)。

數(shù)據(jù)湖存儲許多數(shù)據(jù)類型,并根據(jù)需要進行轉換。

隨著團隊越來越專注于人工智能項目,功能性、可管理性和數(shù)據(jù)質量問題上的差距逐漸顯現(xiàn),導致這兩種方法不斷發(fā)展和改進。

部署

數(shù)據(jù)倉庫更有可能位于內部或混合云中。數(shù)據(jù)湖更有可能是基于云的,以利用更實惠的存儲選項。

數(shù)據(jù)處理

數(shù)據(jù)倉庫更有可能將 ETL 用于操作分析和機器學習工作負載。數(shù)據(jù)湖使用原始數(shù)據(jù)的 ELT 管道接收數(shù)據(jù),以備將來需要。數(shù)據(jù)湖也不需要模式,因此團隊可以毫不延遲地提出臨時查詢。

工具

就功能性編程模型和成熟的、企業(yè)級軟件和工具而言,數(shù)據(jù)湖缺乏數(shù)據(jù)倉庫的穩(wěn)健性。數(shù)據(jù)湖有很多痛點,包括不支持事務、原子性或數(shù)據(jù)治理。

數(shù)據(jù)質量

這總是一個問題。對于數(shù)據(jù)湖來說,這是一個更大的問題。希望對數(shù)據(jù)湖中的數(shù)據(jù)進行大量監(jiān)控和維護。如果不能有效地管理原始數(shù)據(jù),最終可能會陷入數(shù)據(jù)沼澤,性能低下,存儲成本失控。

Gartner 估計,大約 85% 的數(shù)據(jù)湖由于低質量的數(shù)據(jù)而失敗。正如諺語所說:數(shù)據(jù)管道的好壞取決于流經(jīng)它們的數(shù)據(jù)。

購買與建造相比

Teradata 、 Oracle 和 IBM 這樣的公司可以以數(shù)百萬美元的價格向您出售一個數(shù)據(jù)倉庫。存儲是最昂貴的組件之一,因為一般公司的數(shù)據(jù)量每年增長超過 50% 。

為了獲得數(shù)據(jù)湖,大多數(shù)公司使用開源的 Apache Spark 、 Kafka 或 Zookeeper 在免費的 PaaS 上構建自己的數(shù)據(jù)湖。然而,這并不意味著構建和維護數(shù)據(jù)湖的成本更低。

據(jù)估計,雇傭人員部署帶有云存儲的生產數(shù)據(jù)湖每年可能會花費超過 100 萬美元。如果你能獲得專業(yè)知識,建立一個數(shù)據(jù)湖可能需要 6 個月到一年的時間。

什么最適合 ML 工作負載?

簡單的答案是兩者都有。大多數(shù)公司將在人工智能項目中同時使用數(shù)據(jù)倉庫和數(shù)據(jù)湖。原因如下。

數(shù)據(jù)湖之所以受歡迎,是因為它們可以擴展到 PB 或 EB 級的大數(shù)據(jù),而不會破壞數(shù)據(jù)庫。然而,由于其編程模型中的約束,數(shù)據(jù)湖并沒有為 ML 工作負載提供端到端的解決方案。

許多組織采用了 Hadoop 范式,卻發(fā)現(xiàn)幾乎不可能讓高技能人才使用 MapReduce 從數(shù)據(jù)湖中提取數(shù)據(jù)。 Apache Spark 的引入和開發(fā)使數(shù)據(jù)湖得以維持,從而使數(shù)據(jù)訪問變得更容易。

盡管如此, Hadoop 模型并沒有實現(xiàn)其對 ML 的承諾。 Data lakes 持續(xù)的痛點包括缺乏原子性、性能差、缺乏語義更新,以及不斷發(fā)展的 SQL Spark 引擎。

將其與數(shù)據(jù)倉庫進行比較,數(shù)據(jù)倉庫與整個 SQL 生態(tài)系統(tǒng)兼容。任何為 SQL 后端編寫的軟件都可以訪問企業(yè)軟件。這些方法從所見即所得前端和拖放界面到自動生成的儀表板,再到進行 Kube 分析和超 Kubes 的全自動方法等等。

過去 30 年的所有商業(yè)智能和數(shù)據(jù)分析工作都是在 SQL 數(shù)據(jù)庫中繼承的。這些都不適用于 Hadoop 或數(shù)據(jù)湖。

越來越多的數(shù)據(jù)倉庫支持數(shù)據(jù)湖常用的 ELT 。數(shù)據(jù)湖的一個主要用例是將數(shù)據(jù)攝取到數(shù)據(jù)倉庫中,以便可以為 ML 項目提取和構造數(shù)據(jù)。 ELT 使數(shù)據(jù)科學家能夠定義一種結構數(shù)據(jù)和查詢數(shù)據(jù)的方法,同時將原始數(shù)據(jù)作為真理的來源。

數(shù)據(jù)湖之家的前景

對于尋求更強健的數(shù)據(jù)解決方案以滿足其大數(shù)據(jù)需求的數(shù)據(jù)工程師來說,一個 數(shù)據(jù)湖屋 (數(shù)據(jù)湖和數(shù)據(jù)倉庫的組合)有望解決數(shù)據(jù)湖的缺點。

在一個名為 三角洲湖 。

混合云選項

如果你剛剛開始人工智能數(shù)據(jù)架構,像 Amazon 和谷歌這樣的公司正在提供基于云的數(shù)據(jù)倉庫 ( Amazon 紅移 , Google BigQuery ) 幫助降低存儲和部署成本。

核心數(shù)據(jù)庫 是一種開源數(shù)據(jù)庫服務,作為 Apache 許可證下的一項服務,其功能相當于數(shù)據(jù)湖。

結論

數(shù)據(jù)倉庫和數(shù)據(jù)湖都是馴服大數(shù)據(jù)和推進高級 ML 分析的有用方法。數(shù)據(jù)湖是最近在商業(yè)云中存儲大量數(shù)據(jù)的一種方法,例如 Amazon S3 和 Azure Blob 。

數(shù)據(jù)倉庫和數(shù)據(jù)湖的定義正在演變。每種方法都在為新的用例測試新的數(shù)據(jù)過程和模型。展望未來,優(yōu)化性能的技術對于管理成本和監(jiān)控大型存儲庫中的數(shù)據(jù)衛(wèi)生至關重要。

數(shù)據(jù)湖為數(shù)據(jù)分析提供了更靈活的解決方案,可以以較低的價格處理和存儲數(shù)據(jù)。然而, Hadoop 數(shù)據(jù)湖范式目前并沒有為大規(guī)模機器學習提供全功能解決方案。許多組織正在制定新策略并嘗試新工具,以便在不久的將來為數(shù)據(jù)倉庫和數(shù)據(jù)湖提供更好的功能。

關于作者

JudyMcConnell 為 NVIDIA 撰寫了關于企業(yè)數(shù)據(jù)中心和網(wǎng)絡安全的文章。在過去的 15 年里,她在硅谷的多家公司工作,之前她是一名技術記者。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    34146

    瀏覽量

    275318
  • 機器學習
    +關注

    關注

    66

    文章

    8490

    瀏覽量

    134069
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    注塑機數(shù)據(jù)采集網(wǎng)關和數(shù)據(jù)中臺有哪些聯(lián)系特點

    。它將這些分散的、來自不同注塑機的數(shù)據(jù)進行收集和整理,數(shù)據(jù)中臺提供原始數(shù)據(jù)來源。 數(shù)據(jù)中臺實現(xiàn)集中存儲:
    的頭像 發(fā)表于 03-25 15:38 ?192次閱讀
    注塑機<b class='flag-5'>數(shù)據(jù)</b>采集網(wǎng)關<b class='flag-5'>和數(shù)據(jù)</b>中臺有哪些聯(lián)系特點

    支持二維碼掃描的PDA數(shù)據(jù)采集器,用于倉庫,出入庫、庫存管理

    在現(xiàn)代倉庫管理中,支持二維碼掃描的PDA數(shù)據(jù)采集器已成為不可或缺的工具。這種便攜式的智能移動終端,憑借其高效、準確的數(shù)據(jù)采集能力,極大地提升了倉庫管理的效率和精度。PDA
    的頭像 發(fā)表于 02-19 15:48 ?369次閱讀
    支持二維碼掃描的PDA<b class='flag-5'>數(shù)據(jù)</b>采集器,用于<b class='flag-5'>倉庫</b>,出入庫、庫存管理

    戴爾數(shù)據(jù)倉助力企業(yè)數(shù)字化轉型

    在數(shù)字化轉型的浪潮下,企業(yè)正面臨著前所未有的數(shù)據(jù)挑戰(zhàn)。從傳統(tǒng)的結構化數(shù)據(jù)到如今的非結構化數(shù)據(jù)、半結構化數(shù)據(jù),每一種類型都對企業(yè)的存儲和分析能力提出了更高的要求。面對這些變化,傳統(tǒng)的
    的頭像 發(fā)表于 12-20 09:31 ?435次閱讀

    可與MES系統(tǒng)集成的數(shù)據(jù)采集監(jiān)控平臺

    ,確保數(shù)據(jù)的全面接入。 數(shù)據(jù)存儲與管理: 采用數(shù)據(jù)庫或數(shù)據(jù)倉庫存儲采集到的數(shù)據(jù)。 提供高效的數(shù)據(jù)
    發(fā)表于 12-16 15:08

    探索RFID應急物資倉庫管理的創(chuàng)新應用

    在緊急救援行動中,時間就是生命。傳統(tǒng)的應急倉庫管理方法由于缺乏實時數(shù)據(jù)和自動化流程,往往導致響應速度慢和資源分配不當。快速有效的倉庫管理和物資調配對于救援工作的成功至關重要。而 RFID技術 的引入
    的頭像 發(fā)表于 11-14 16:44 ?458次閱讀

    云計算在大數(shù)據(jù)分析中的應用

    和處理大規(guī)模的數(shù)據(jù)集。通過云計算平臺,用戶可以快速構建數(shù)據(jù)倉庫海量數(shù)據(jù)進行存儲、管理和分析。這種能力使得企業(yè)能夠高效地處理PB級別的數(shù)據(jù)
    的頭像 發(fā)表于 10-24 09:18 ?982次閱讀

    AI、ML和數(shù)字孿生模型建立可信數(shù)據(jù)

    在當今數(shù)據(jù)驅動的世界中,人工智能(AI)、機器學習(ML)和數(shù)字孿生技術正在深刻改變行業(yè)、流程和企業(yè)運營環(huán)境。每天產生的超過3.28億TB數(shù)據(jù)
    的頭像 發(fā)表于 09-30 10:23 ?494次閱讀

    多功能數(shù)據(jù)采集背夾廣泛應用于用于倉庫、物流運輸?shù)刃袠I(yè)

    隨著信息技術的飛速發(fā)展,多功能數(shù)據(jù)采集背夾作為一種創(chuàng)新型的智能設備,正逐步在倉庫、物流運輸?shù)刃袠I(yè)中展現(xiàn)其巨大的應用價值。這種設備以其便攜性、高效性和多功能性,成為現(xiàn)代企業(yè)管理中不可或缺的一部分。在
    的頭像 發(fā)表于 09-12 14:49 ?566次閱讀
    多功能<b class='flag-5'>數(shù)據(jù)</b>采集背夾廣泛應用于用于<b class='flag-5'>倉庫</b>、物流運輸?shù)刃袠I(yè)

    解鎖SAP數(shù)據(jù)的潛力:SNP Glue與SAP Datasphere的協(xié)同作用

    ,實現(xiàn)與基于云的數(shù)據(jù)倉庫和數(shù)據(jù)的無縫連接。通過近乎實時的數(shù)據(jù)傳輸和增強的數(shù)據(jù)共享能力,企業(yè)可以更有效地管理內外部
    的頭像 發(fā)表于 09-11 17:23 ?614次閱讀
    解鎖SAP<b class='flag-5'>數(shù)據(jù)</b>的潛力:SNP Glue與SAP Datasphere的協(xié)同作用

    恒溫倉庫環(huán)境監(jiān)測解決方案

    在當今日益發(fā)展的物流倉儲行業(yè)中,恒溫倉庫的環(huán)境監(jiān)測與管理已成為確保產品質量和存儲安全的關鍵環(huán)節(jié)。隨著物聯(lián)網(wǎng)、大數(shù)據(jù)等技術的不斷發(fā)展,恒溫倉庫環(huán)境監(jiān)測解決方案也日趨完善,倉儲行業(yè)帶來了
    的頭像 發(fā)表于 07-23 16:33 ?492次閱讀

    機器學習中的數(shù)據(jù)分割方法

    機器學習中,數(shù)據(jù)分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器
    的頭像 發(fā)表于 07-10 16:10 ?2940次閱讀

    數(shù)據(jù)倉庫數(shù)據(jù)庫的主要區(qū)別

    數(shù)據(jù)倉庫數(shù)據(jù)庫是兩個在信息技術領域中常見的概念,它們在數(shù)據(jù)管理和分析方面發(fā)揮著重要作用。盡管它們在某些方面有相似之處,但它們在設計、目的和功能上存在顯著差異。本文介紹
    的頭像 發(fā)表于 07-05 14:57 ?871次閱讀

    工業(yè)數(shù)據(jù)中臺的功能和應用場景

    。 實時數(shù)據(jù)流處理和批量數(shù)據(jù)處理。 2.數(shù)據(jù)存儲與管理: 提供分布式存儲解決方案,如Hadoop、HBase等。 數(shù)據(jù)
    的頭像 發(fā)表于 07-04 16:18 ?703次閱讀

    機器學習數(shù)據(jù)分析中的應用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從
    的頭像 發(fā)表于 07-02 11:22 ?1246次閱讀

    一維碼二維碼條碼掃描手持機 倉庫盤點PDA智能數(shù)據(jù)終端

    條碼手持機,它是一款集一維碼、二維碼、條碼掃描、數(shù)據(jù)采集、倉庫管理、云端存儲、實時同步等多種功能于一身的強大設備。它可以在短時間內快速掃描各種碼制,數(shù)據(jù)實時上傳到云端,確保
    的頭像 發(fā)表于 06-13 15:00 ?626次閱讀
    一維碼二維碼條碼掃描手持機 <b class='flag-5'>倉庫</b>盤點PDA智能<b class='flag-5'>數(shù)據(jù)</b>終端