大數據工程師的工作內容有哪些

大數據工程師工作內容取決于你工作在數據流的哪一個環(huán)節(jié)。

從數據上游到數據下游，大致可以分為：

數據采集 -》數據清洗 -》數據存儲 -》數據分析統(tǒng)計 -》數據可視化等幾個方面

工作內容當然就是使用工具組件（Spark、Flume、Kafka等）或者代碼（Java、Scala等）來實現(xiàn)上面幾個方面的功能。

很多初學者，對大數據的概念都是模糊不清的，大數據是什么，能做什么，學的時候，該按照什么線路去學習，學完往哪方面發(fā)展，想深入了解，想學習的同學歡迎加入大數據學習qq群：522189307，有大量干貨（零基礎以及進階的經典實戰(zhàn)）分享給大家，并且有清華大學畢業(yè)的資深大數據講師給大家免費授課，給大家分享目前國內最完整的大數據高端實戰(zhàn)實用學習流程體系

具體說說吧，

數據采集：

業(yè)務系統(tǒng)的埋點代碼時刻會產生一些分散的原始日志，可以用Flume監(jiān)控接收這些分散的日志，實現(xiàn)分散日志的聚合，即采集。

數據清洗：

原始的日志，數據是千奇百怪的

一些字段可能會有異常取值，即臟數據。為了保證數據下游的“數據分析統(tǒng)計”能拿到比較高質量的數據，需要對這些記錄進行過濾或者字段數據回填。

一些日志的字段信息可能是多余的，下游不需要使用到這些字段做分析，同時也為了節(jié)省存儲開銷，需要刪除這些多余的字段信息。

一些日志的字段信息可能包含用戶敏感信息，需要做脫敏處理。如用戶姓名只保留姓，名字用‘*’字符替換。

數據存儲：

清洗后的數據可以落地入到數據倉庫（Hive），供下游做離線分析。如果下游的“數據分析統(tǒng)計”對實時性要求比較高，則可以把日志記錄入到kafka。

數據分析統(tǒng)計：

數據分析是數據流的下游，消費來自上游的數據。其實就是從日志記錄里頭統(tǒng)計出各種各樣的報表數據，簡單的報表統(tǒng)計可以用sql在kylin或者hive統(tǒng)計，復雜的報表就需要在代碼層面用Spark、Storm做統(tǒng)計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。

數據可視化：

用數據表格、數據圖等直觀的形式展示上游“數據分析統(tǒng)計”的數據。一般公司的某些決策會參考這些圖表里頭的數據~

當然，大數據平臺（如CDH、FusionInsight等）搭建與維護，也可能是大數據工程師工作內容的一部分喔~

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴