女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對(duì)于大數(shù)據(jù)的處理,主要有幾個(gè)工具引擎

姚小熊27 ? 來(lái)源:今日頭條 ? 作者:今日頭條 ? 2020-11-05 10:14 ? 次閱讀

提到大數(shù)據(jù),我們就離不開(kāi)數(shù)據(jù)的收集整理,其中ETL是我們經(jīng)常使用的用于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù), 構(gòu)建大數(shù)據(jù)的方法。

大數(shù)據(jù)處理階段

此階段的目標(biāo)是使用單個(gè)模式來(lái)清理,規(guī)范化,處理和保存數(shù)據(jù)。最終結(jié)果是具有定義良好的架構(gòu)的可信數(shù)據(jù)集。例如Spark之類(lèi)的處理框架用于在機(jī)器集群中并行處理數(shù)據(jù)。在這里我們需要進(jìn)行數(shù)據(jù)的驗(yàn)證,隔離掉不合法的數(shù)據(jù),我們需要對(duì)不良數(shù)據(jù)進(jìn)行篩選過(guò)濾。對(duì)于不規(guī)范的數(shù)據(jù),我們需要有整理和清潔功能,我們要能夠?qū)⒁恍┑托У母袷饺雑son進(jìn)行轉(zhuǎn)換。同時(shí)我們可能還需要一些標(biāo)準(zhǔn)化的操作,比如對(duì)一些數(shù)值進(jìn)行小數(shù)點(diǎn)位的精度轉(zhuǎn)化。

大數(shù)據(jù)處理的最終目的就是創(chuàng)建一個(gè)可信數(shù)據(jù)集,然后下游系統(tǒng)可以依賴此數(shù)據(jù)源進(jìn)行業(yè)務(wù)分析和數(shù)據(jù)計(jì)算。

對(duì)于大數(shù)據(jù)的處理,主要有下面的幾個(gè)工具引擎。

Apache Hive

它是將SQL請(qǐng)求轉(zhuǎn)換為MapReduce任務(wù)鏈的引擎。它主要實(shí)現(xiàn)的功能是對(duì)傳入的SQL進(jìn)行排序然后優(yōu)化排序結(jié)果,最終得到高效率的請(qǐng)求結(jié)果。2018年它將MapReduce替換為Tez作為搜索引擎。它具有機(jī)器學(xué)習(xí)功能,并且在和其他流行的大數(shù)據(jù)框架進(jìn)行集成。

Apache Spark

這是最著名的批處理框架。它是Hadoop生態(tài)系統(tǒng)的一部分,是一個(gè)托管集群,可提供強(qiáng)大的并性,有著精準(zhǔn)的監(jiān)控和出色的UI。它還支持流處理(結(jié)構(gòu)化流)。基本上,Spark在內(nèi)存中運(yùn)行MapReduce作業(yè),其性能是常規(guī)MapReduce性能的100倍。它與Hive集成以支持SQL,并可用于創(chuàng)建Hive表,視圖或查詢數(shù)據(jù)。它具有很多集成,支持多種格式,并且擁有龐大的社區(qū)。所有云提供商都支持它。它可以在YARN上運(yùn)行作為Hadoop集群的一部分,還可以在Kubernetes和其他平臺(tái)中使用。它具有許多的第三方庫(kù)可以使用。

Apache Flink

第一個(gè)統(tǒng)一批處理和流傳輸?shù)囊妫梢杂米飨馣afka這樣的微服務(wù)的主干。它可以作為Hadoop集群的一部分在YARN上運(yùn)行,它還針對(duì)其他平臺(tái)(如Kubernetes或Mesos)進(jìn)行了優(yōu)化。它非常快,并且提供實(shí)時(shí)流傳輸,使其成為針對(duì)低延遲流處理(尤其是有狀態(tài)流)的一個(gè)比Spark更好的選擇。它還具有用于SQL,機(jī)器學(xué)習(xí)等的庫(kù)。它比Spark更快,是數(shù)據(jù)流的更好選擇。

Apache Storm

是一個(gè)免費(fèi)和開(kāi)源的分布式實(shí)時(shí)計(jì)算系統(tǒng),它專注于流傳輸,是Hadoop生態(tài)系統(tǒng)的托管解決方案部分。它具有可擴(kuò)展性,容錯(cuò)性,可確保您的數(shù)據(jù)將得到處理,并且易于設(shè)置和操作。

Apache Samza

一個(gè)出色的有狀態(tài)流處理引擎。Samza允許您構(gòu)建有狀態(tài)的應(yīng)用程序,它可以從多個(gè)來(lái)源實(shí)時(shí)處理數(shù)據(jù)。它不僅可以在YARN集群上運(yùn)行,也可以作為獨(dú)立庫(kù)單獨(dú)運(yùn)行。

Apache Beam

它本身不是引擎,而是將所有其他引擎結(jié)合在一起的統(tǒng)一編程模型的規(guī)范。它提供了可以與不同語(yǔ)言一起使用的編程模型,因此開(kāi)發(fā)人員在處理大數(shù)據(jù)管道時(shí)不必學(xué)習(xí)新的語(yǔ)言。然后,它為可以在云或本地運(yùn)行的處理步驟插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它們之間輕松切換并在任何平臺(tái)上運(yùn)行它們:云,YARN,Mesos,Kubernetes。如果您要開(kāi)始一個(gè)新項(xiàng)目,那么建議您從Beam開(kāi)始,因?yàn)锽eam是面向未來(lái)的。

Presto

Presto是一個(gè)開(kāi)放源代碼的分布式SQL查詢引擎,適合于對(duì)各種大小,各種數(shù)據(jù)源進(jìn)行交互式分析查詢。

Presto是專為交互式分析而設(shè)計(jì)和編寫(xiě)的,當(dāng)它的規(guī)模擴(kuò)展到一定的規(guī)模的時(shí)候,它也可以實(shí)現(xiàn)商業(yè)數(shù)據(jù)倉(cāng)庫(kù)的處理速度。

Presto允許查詢數(shù)據(jù)存在多個(gè)地方,包括Hive,Cassandra,關(guān)系數(shù)據(jù)庫(kù)甚至專有數(shù)據(jù)存儲(chǔ)。一個(gè)Presto查詢可以合并來(lái)自多個(gè)來(lái)源的數(shù)據(jù),從而可以在整個(gè)組織中進(jìn)行分析。

Presto適用于期望響應(yīng)時(shí)間從亞秒到數(shù)分鐘不等的分析師。Presto打破了使用昂貴的商業(yè)解決方案進(jìn)行快速分析或使用需要大量硬件的慢速“免費(fèi)”解決方案之間的錯(cuò)誤選擇。

總結(jié)

處理引擎是當(dāng)前在大數(shù)據(jù)詞中使用的很著名的工具。作為大數(shù)據(jù)工程師,您將經(jīng)常使用這些引擎。了解這些引擎的分布式特性并知道如何優(yōu)化它們,保護(hù)它們并監(jiān)視它們至關(guān)重要。

請(qǐng)記住,還有一些OLAP引擎提供了一種查詢大量數(shù)據(jù)的單一解決方案,而無(wú)需編寫(xiě)復(fù)雜的轉(zhuǎn)換,而是通過(guò)以一種特定的格式加載數(shù)據(jù)來(lái)提高查詢的性能。

對(duì)于一個(gè)新項(xiàng)目,建議您研究Apache Beam,因?yàn)樗谒衅渌娴幕A(chǔ)上提供了一個(gè)抽象,使您無(wú)需更改代碼即可更改處理引擎。

對(duì)于流處理,特別是有狀態(tài)流處理,請(qǐng)考慮Flink或Samza。對(duì)于批處理,請(qǐng)使用Spark。
責(zé)任編輯:YYX

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8952

    瀏覽量

    139524
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    緩存對(duì)大數(shù)據(jù)處理的影響分析

    緩存對(duì)大數(shù)據(jù)處理的影響顯著且重要,主要體現(xiàn)在以下幾個(gè)方面: 一、提高數(shù)據(jù)訪問(wèn)速度 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)
    的頭像 發(fā)表于 12-18 09:45 ?640次閱讀

    熱敏電阻主要有哪三種類(lèi)型

    熱敏電阻是一種利用電阻隨溫度變化的特性來(lái)測(cè)量溫度的傳感器。它們廣泛應(yīng)用于各種電子設(shè)備和系統(tǒng)中,用于溫度監(jiān)測(cè)、控制和補(bǔ)償。熱敏電阻主要有三種類(lèi)型:負(fù)溫度系數(shù)(NTC)、正溫度系數(shù)(PTC)和臨界溫度
    的頭像 發(fā)表于 09-06 09:37 ?3409次閱讀

    集成電路設(shè)計(jì)流程主要有哪些步驟

    集成電路設(shè)計(jì)流程是一個(gè)復(fù)雜且精細(xì)的過(guò)程,主要包括以下幾個(gè)關(guān)鍵步驟: 一、規(guī)格定義 需求分析 :明確電路的需求、功能和性能指標(biāo),如成本、功耗、算力、接口方式、安全等級(jí)等。這是設(shè)計(jì)流程的基礎(chǔ),為后續(xù)
    的頭像 發(fā)表于 09-04 18:20 ?2430次閱讀

    linux驅(qū)動(dòng)程序主要有哪些功能

    Linux驅(qū)動(dòng)程序是操作系統(tǒng)與硬件設(shè)備之間進(jìn)行通信的橋梁,負(fù)責(zé)實(shí)現(xiàn)硬件設(shè)備與操作系統(tǒng)之間的數(shù)據(jù)交換和控制。Linux驅(qū)動(dòng)程序的主要功能包括以下幾個(gè)方面: 設(shè)備識(shí)別與初始化 Linux驅(qū)動(dòng)程序需要
    的頭像 發(fā)表于 08-30 14:47 ?756次閱讀

    直流電源主要有哪三個(gè)環(huán)節(jié)?每個(gè)環(huán)節(jié)的作用是什么?

    是指將交流電轉(zhuǎn)換為直流電的過(guò)程。在直流電源中,整流環(huán)節(jié)的作用是將輸入的交流電轉(zhuǎn)換為脈動(dòng)的直流電。整流后的直流電雖然含有直流分量,但仍然存在較大的紋波,需要通過(guò)后續(xù)的濾波環(huán)節(jié)進(jìn)行處理。 整流的類(lèi)型 整流環(huán)節(jié)主要有
    的頭像 發(fā)表于 08-29 10:26 ?1395次閱讀

    SMT錫膏鋼網(wǎng)的清洗工藝主要有哪些?

    成本,就需要選擇合適的清洗工藝及清洗劑。下面佳金源錫膏廠家來(lái)講解一下SMT錫膏鋼網(wǎng)的清洗工藝主要有哪些?一、手工浸泡擦洗方式:手工浸泡擦洗就是把SMT鋼網(wǎng)浸泡入清
    的頭像 發(fā)表于 08-26 16:22 ?1157次閱讀
    SMT錫膏鋼網(wǎng)的清洗工藝<b class='flag-5'>主要有</b>哪些?

    助焊劑的作用主要有哪些

    助焊劑,是焊接過(guò)程中不可或缺的物質(zhì)。它的主要作用有: 化學(xué)活性 為了實(shí)現(xiàn)優(yōu)質(zhì)的焊接點(diǎn),待焊表面必須完全沒(méi)有氧化層。然而,一旦金屬暴露在空氣中,就會(huì)形成氧化層,而這種氧化層無(wú)法通過(guò)常規(guī)溶劑清除。此時(shí)
    的頭像 發(fā)表于 08-15 18:07 ?1494次閱讀

    邊沿觸發(fā)器主要有哪兩種類(lèi)型

    邊沿觸發(fā)器是一種數(shù)字電路元件,它在數(shù)字邏輯設(shè)計(jì)中扮演著重要的角色。邊沿觸發(fā)器主要有兩種類(lèi)型:上升沿觸發(fā)器和下降沿觸發(fā)器。這兩種觸發(fā)器的主要區(qū)別在于它們響應(yīng)的是信號(hào)的上升沿還是下降沿。 邊沿觸發(fā)器
    的頭像 發(fā)表于 08-09 17:44 ?2001次閱讀

    RFID天線主要有哪些制造工藝

    RFID(射頻識(shí)別)天線的制造工藝是RFID技術(shù)中至關(guān)重要的一環(huán),它直接影響到RFID標(biāo)簽的性能、成本和應(yīng)用范圍。目前,RFID天線的主要制造工藝包括蝕刻法、線圈繞制法和印刷法三種,每種工藝都有其獨(dú)特的特點(diǎn)和適用場(chǎng)景。
    的頭像 發(fā)表于 08-09 15:55 ?1834次閱讀

    工業(yè)物聯(lián)網(wǎng)平臺(tái)的應(yīng)用場(chǎng)景主要有哪些

    生產(chǎn)流程,提高生產(chǎn)效率。 預(yù)測(cè)性維護(hù):通過(guò)數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法,預(yù)測(cè)設(shè)備故障,提前進(jìn)行維護(hù),減少停機(jī)時(shí)間和維修成本。 質(zhì)量控制:利用傳感器數(shù)據(jù)和分析工具,實(shí)時(shí)監(jiān)控產(chǎn)品質(zhì)量,及時(shí)發(fā)現(xiàn)和糾正問(wèn)題,提高產(chǎn)品質(zhì)量。 2.能源管理: 能
    的頭像 發(fā)表于 07-19 13:59 ?951次閱讀

    工業(yè)控制設(shè)備間主要有哪些有線通信技術(shù)?

    信技術(shù)的詳細(xì)介紹。 ? ? ??1.串行通信技術(shù) ? ? ??串行通信技術(shù)是一種最基本的有線通信技術(shù),廣泛應(yīng)用于工業(yè)控制領(lǐng)域。它通過(guò)一條數(shù)據(jù)線(TX)和一條接收線(RX)實(shí)現(xiàn)數(shù)據(jù)的發(fā)送和接收。串行通信技術(shù)主要有以下幾種: ? ?
    的頭像 發(fā)表于 06-23 16:38 ?1374次閱讀

    NFC功能是什么?主要有哪些應(yīng)用?

    NFC是一種新興的技術(shù),即近距離無(wú)線通訊技術(shù),使用了NFC技術(shù)的設(shè)備可以在彼此靠近的情況下進(jìn)行數(shù)據(jù)交換,是由非接觸式射頻識(shí)別(RFID)及互連互通技術(shù)整合演變而來(lái)的。 NFC在單一芯片上結(jié)合感應(yīng)式讀卡器、感應(yīng)式卡片和點(diǎn)對(duì)點(diǎn)的功能,能在短距離內(nèi)與兼容設(shè)備進(jìn)行識(shí)別和數(shù)據(jù)
    的頭像 發(fā)表于 06-20 16:57 ?3201次閱讀
    NFC功能是什么?<b class='flag-5'>主要有</b>哪些應(yīng)用?

    工業(yè)網(wǎng)關(guān)主要有哪些功能?

    和智能化水平。本文將詳細(xì)解析工業(yè)網(wǎng)關(guān)的主要功能,以便讀者更好地理解和應(yīng)用。 一、數(shù)據(jù)采集與上傳 工業(yè)網(wǎng)關(guān)的首要功能之一是數(shù)據(jù)采集與上傳。它能夠連接工業(yè)現(xiàn)場(chǎng)的各種設(shè)備,如PLC、傳感器、儀表等,并通過(guò)串口/網(wǎng)口(如RS4
    的頭像 發(fā)表于 06-17 15:19 ?734次閱讀
    工業(yè)網(wǎng)關(guān)<b class='flag-5'>主要有</b>哪些功能?

    數(shù)控車(chē)床伺服系統(tǒng)主要有哪些裝置

    數(shù)控車(chē)床伺服系統(tǒng)是數(shù)控車(chē)床的核心組成部分,它負(fù)責(zé)接收數(shù)控系統(tǒng)的指令,并精確控制機(jī)床各軸的運(yùn)動(dòng),以實(shí)現(xiàn)高精度、高速度的加工。數(shù)控車(chē)床伺服系統(tǒng)主要由以下幾個(gè)裝置組成: 伺服電機(jī) 伺服電機(jī)是數(shù)控車(chē)床
    的頭像 發(fā)表于 06-14 14:13 ?2083次閱讀

    工業(yè)控制設(shè)備間主要有哪些有線通信技術(shù)

    介紹。 串行通信技術(shù) 串行通信技術(shù)是一種最基本的有線通信技術(shù),廣泛應(yīng)用于工業(yè)控制領(lǐng)域。它通過(guò)一條數(shù)據(jù)線(TX)和一條接收線(RX)實(shí)現(xiàn)數(shù)據(jù)的發(fā)送和接收。串行通信技術(shù)主要有以下幾種: 1.1 RS-232:RS-232是一種標(biāo)準(zhǔn)的
    的頭像 發(fā)表于 06-11 10:51 ?1033次閱讀