從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術,明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
在萊尼的理論基礎上,IBM提出大數據的4V特征得到了業界的廣泛認可:第一,數量,即數據巨大,從TB級別躍升到PB級別;第二,多樣性,即數據類型繁多,不僅包括傳統的格式化數據,還包括來自互聯網的網絡日志、視頻、圖片、地理位置信息等;第三,速度,即處理速度快;第四,真實性,即追求高質量的數據。
數據體量巨大
容量大是大數據的首要特征,隨著網絡的發展,迫切的需要足夠大的容量去統計分析以及預測大規模的數據。最開始的mp3時代僅僅只是mb級的存儲,但是已經能滿足很多人的要求了。隨著信息技術的高度發展,存儲單位也慢慢的發生了演變。從大家耳熟能詳的***存儲到了tb存儲,乃至現在有了pb,eb等存儲。
數據速度快
大數據的數據產生、處理和分析的速度在持續加快。加速的原因是數據創建的實時性特點,以及將流數據結合到業務流程和決策過程中的需求。數據處理速度快,處理模式已經開始從批處理轉向流處理。業界對大數據的處理能力有一個稱謂——“1秒定律”,也就是說,可以從各種類型的數據中快速獲得高價值的信息。大數據的快速處理能力充分體現出它與傳統的數據處理技術的本質區別。
數據類型繁多
大數據的數據類型繁多,傳統IT產業產生和處理的數據類型較為單一,大部分是結構化數據。隨著傳感器、智能設備、社交網絡、物聯網、移動計算、在線廣告等新的渠道和技術不斷涌現,產生的數據類型無以計數。
現在的數據類型不再只是格式化數據,更多的是半結構化或者非結構化數據,如XML、郵件、博客、即時消息、視頻、照片、點擊流、日志文件等。企業需要整合、存儲和分析來自復雜的傳統和非傳統信息源的數據,包括企業內部和外部的數據。因為大數據的來源非常廣泛,所以多樣性成為了大數據的另一大特點。在任何形式下,所獲取的來源都是可以使用的,目前為止應用比較廣泛的有淘寶,網易云,頭條等等。這些平臺通過對用戶的數據進行分析,從而對應的推薦一些用戶比較喜歡的東西。
真實性
數據的重要性就在于對決策的支持,數據的規模并不能決定其能否為決策提供幫助,數據的真實性和質量才是獲得真知和思路最重要的因素,是制定成功決策最堅實的基礎。追求高數據質量是一項重要的大數據要求和挑戰,即使最優秀的數據清理方法也無法消除某些數據固有的不可預測性。
在處理這些類型的數據時,數據清理無法修正這種不確定性,然而,盡管存在不確定性,數據仍然包含寶貴的信息。我們必須承認、接受大數據的不確定性,并確定如何充分利用這一點。
文章整合自:個人圖書館、百度服務商點亮工場、螞蚜網
審核編輯:鄢孟繁
-
格式化
+關注
關注
2文章
39瀏覽量
9283 -
智能設備
+關注
關注
5文章
1094瀏覽量
51768 -
大數據
+關注
關注
64文章
8949瀏覽量
139407
發布評論請先 登錄
同步整流芯片U7612的主要特征
電源管理IC U6018的主要特征
緩存對大數據處理的影響分析
ADS1675最大數據吞吐率是是多少?
raid 在大數據分析中的應用
智慧城市與大數據的關系
dct變換的主要優點有哪些
電氣設備或電氣線路故障引起的火災主要特征

評論