一、大數(shù)據(jù)定義
大數(shù)據(jù)尚未形成統(tǒng)一的定義,主流的定義包括三種:
(1)高德納咨詢公司(Gartner Group)對(duì)大數(shù)據(jù)的定義:大數(shù)據(jù)又可被稱為巨量資料,是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力、流程優(yōu)化能力的海量、高增長率、多樣化的信息資產(chǎn)。
(2)維克托·邁爾·舍恩伯格和肯尼斯·庫克耶編寫的《大數(shù)據(jù)時(shí)代》對(duì)大數(shù)據(jù)的定義:相較于隨機(jī)分析法中的抽樣調(diào)查數(shù)據(jù),大數(shù)據(jù)指所有數(shù)據(jù)(含個(gè)人理解)。
(3)著云臺(tái)(根據(jù)百度百科:一家中國云服務(wù)企業(yè))的分析師團(tuán)隊(duì)對(duì)大數(shù)據(jù)的定義:通常形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),此類數(shù)據(jù)在下載至關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)較多時(shí)間和金錢。
圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》
二、大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)的特點(diǎn)也被稱為大數(shù)據(jù)的4個(gè)“V”,具體如下: (1)數(shù)據(jù)量大(Volume),集中存儲(chǔ)和集中計(jì)算已無法處理其數(shù)據(jù)量。 數(shù)據(jù)量大舉例:tumblr(全球最大輕博客網(wǎng)站)每日產(chǎn)出9500萬條信息,F(xiàn)acebook每日產(chǎn)出25TB日志數(shù)據(jù),YouTube每日新增視頻數(shù)據(jù)量168TB。 (2)數(shù)據(jù)種類和來源多樣(Variety)。大數(shù)據(jù)的數(shù)據(jù)種類包括:結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)占比為80%,且非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量以63%的年增長率增長(非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的數(shù)據(jù)處理技術(shù))。大數(shù)據(jù)的數(shù)據(jù)來源包括:日志、圖片、視頻、文檔、地理位置等。 (3)需要較快的分析處理速度(Velocity)。因?yàn)榇髷?shù)據(jù)產(chǎn)生速度快,所以也需要較快的分析處理速度。 (4)價(jià)值密度較低,但商業(yè)價(jià)值高(Value)。因?yàn)榇髷?shù)據(jù)數(shù)據(jù)量大,所以價(jià)值密度相對(duì)較低。但通過大數(shù)據(jù)分析,可以為企業(yè)創(chuàng)造高的價(jià)值。
三、大數(shù)據(jù)平臺(tái)
目前,大數(shù)據(jù)主流技術(shù)平臺(tái)是Hadoop。Hadoop被公認(rèn)為大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件。Hadoop創(chuàng)立于2002年,創(chuàng)始人是Doug Cutting,Hadoop名稱來源于Doug Cutting兒子的一頭黃色大象玩具。 Hadoop的發(fā)展歷程如圖一所示。Hadoop項(xiàng)目于2006年2月被單獨(dú)立項(xiàng)(根據(jù)百度百科:此前為Apache Lucene的子項(xiàng)目之一),2008年打破1TB數(shù)據(jù)排序紀(jì)錄,2017年Hadoop3.0版本發(fā)布。
圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》 Hadoop的主流版本包括:Apache Hadoop、CDH。
(1)Apache Hadoop Apache Hadoop的優(yōu)點(diǎn)包括: 1)完全開源免費(fèi)。 2)社區(qū)活躍。 3)文檔資料詳實(shí)。 Apache Hadoop的缺點(diǎn)包括: 1)版本管理比較混亂。 2)選擇生態(tài)組件時(shí)需要考慮兼容性問題。 3)集群的部署安裝配置復(fù)雜,集群運(yùn)維復(fù)雜。
(2)CDH CDH由CLOUDERA維護(hù)。
CDH的優(yōu)點(diǎn)包括: 1)基于Apache協(xié)議,100%開源。 2)版本管理清晰,相比于Apache Hadoop在兼容性、安全性、穩(wěn)定性方面更優(yōu)。 3)提供了部署、安裝、配置工具,大大提高了集群部署的效率。 4)提供了管理、監(jiān)控、診斷、配置修改的工具,管理配置方便。 CDH的缺點(diǎn)是設(shè)計(jì)廠商鎖定問題。如果某公司選用CDH,當(dāng)公司需要改用其他平臺(tái)的服務(wù)時(shí),可能對(duì)該公司生產(chǎn)環(huán)境產(chǎn)生較大影響,即該公司被CDH廠商鎖定。
編輯:黃飛
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8960瀏覽量
140198
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(1)——大數(shù)據(jù)概述(上)
文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論