大數據工程師工作內容取決于你工作在數據流的哪一個環(huán)節(jié)。
從數據上游到數據下游,大致可以分為:
數據采集 -》 數據清洗 -》 數據存儲 -》 數據分析統(tǒng)計 -》 數據可視化 等幾個方面
工作內容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現(xiàn)上面幾個方面的功能。
很多初學者,對大數據的概念都是模糊不清的,大數據是什么,能做什么,學的時候,該按照什么線路去學習,學完往哪方面發(fā)展,想深入了解,想學習的同學歡迎加入大數據學習qq群:522189307,有大量干貨(零基礎以及進階的經典實戰(zhàn))分享給大家,并且有清華大學畢業(yè)的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰(zhàn)實用學習流程體系
具體說說吧,
數據采集:
業(yè)務系統(tǒng)的埋點代碼時刻會產生一些分散的原始日志,可以用Flume監(jiān)控接收這些分散的日志,實現(xiàn)分散日志的聚合,即采集。
數據清洗:
原始的日志,數據是千奇百怪的
一些字段可能會有異常取值,即臟數據。為了保證數據下游的“數據分析統(tǒng)計”能拿到比較高質量的數據,需要對這些記錄進行過濾或者字段數據回填。
一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時也為了節(jié)省存儲開銷,需要刪除這些多余的字段信息。
一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用‘*’字符替換。
數據存儲:
清洗后的數據可以落地入到數據倉庫(Hive),供下游做離線分析。如果下游的“數據分析統(tǒng)計”對實時性要求比較高,則可以把日志記錄入到kafka。
數據分析統(tǒng)計:
數據分析是數據流的下游,消費來自上游的數據。其實就是從日志記錄里頭統(tǒng)計出各種各樣的報表數據,簡單的報表統(tǒng)計可以用sql在kylin或者hive統(tǒng)計,復雜的報表就需要在代碼層面用Spark、Storm做統(tǒng)計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。
數據可視化:
用數據表格、數據圖等直觀的形式展示上游“數據分析統(tǒng)計”的數據。一般公司的某些決策會參考這些圖表里頭的數據~
當然,大數據平臺(如CDH、FusionInsight等)搭建與維護,也可能是大數據工程師工作內容的一部分喔~
-
工程師
+關注
關注
59文章
1587瀏覽量
69216 -
大數據
+關注
關注
64文章
8950瀏覽量
139467
發(fā)布評論請先 登錄
新編電氣工程師手冊




硬件系統(tǒng)工程師寶典—完整版



為什么嵌入式驅動開發(fā)工程師可以拿高薪?


FPGA算法工程師、邏輯工程師、原型驗證工程師有什么區(qū)別?

評論