(文章來源:網(wǎng)絡整理)
什么是數(shù)據(jù)?數(shù)據(jù)有狹義和廣義之分。狹義的數(shù)據(jù)就是我們說的一些數(shù)字,比如我們學習過程中的物理、化學等實驗數(shù)據(jù),國家GDP等各種統(tǒng)計數(shù)據(jù)。廣義的數(shù)據(jù)包括任意形式的信息,比如我們每個人的個人的姓名、年齡、家庭情況、學歷等基本信息,還包括我們所能記錄和查詢的所有信息,如圖紙、視頻、音頻等。
我們所要談論的是廣義上的數(shù)據(jù)。數(shù)據(jù)不僅在科學研究中,而且在生活的方方面面都很重要,它已經(jīng)成為我們?nèi)粘Q策的重要依據(jù)。數(shù)據(jù)可以說伴隨真我們的一生。遠古時代的結繩記事等就是最原始的數(shù)據(jù)傳遞方式。人類的文明與進步,從某種意義上講是通過對數(shù)進行收集、處理和總結而達成的。
“大數(shù)據(jù)”是怎么一回事呢?它就是我們字面意思理解的“大量的數(shù)據(jù)”嗎?如果不是,這兩者又有什么聯(lián)系和區(qū)別呢?大數(shù)據(jù)是隨著信息技術的發(fā)展而興起的,當數(shù)據(jù)的計算和存儲不再是問題時,人們發(fā)現(xiàn)超大量的數(shù)據(jù)會給我們決策帶來驚喜,這才有了更多的人研究和應用大數(shù)據(jù)。
首先,大數(shù)據(jù)的數(shù)據(jù)量肯定是非常大的,但光是量大還不能稱之為大數(shù)據(jù)。比如我們做結構有限元分析的實驗數(shù)據(jù),往往計算過程就需要幾天甚至幾周,數(shù)據(jù)量也很大,但是不能算是大數(shù)據(jù)。大數(shù)據(jù)對數(shù)據(jù)最基本的要求是數(shù)據(jù)的多維度和完備性,要將原本看似毫無聯(lián)系的事物聯(lián)系起來,達到對事物全方位的完整描述,以便做出更科學的決策。
與數(shù)據(jù)相比,大數(shù)據(jù)的核心就是大數(shù)據(jù)是對收集掌握的各個維度的數(shù)據(jù)的再處理和分析。沒有經(jīng)過科學收集和處理的數(shù)據(jù)只是客觀存在,大數(shù)據(jù)可以理解為是一種決策能力的體現(xiàn)。
大數(shù)據(jù)(big data,mega data)或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。
理解了數(shù)據(jù)和大數(shù)據(jù)的聯(lián)系和區(qū)別后,我們再來看看由數(shù)據(jù)到大數(shù)據(jù)應用過程和數(shù)學基礎。有了數(shù)據(jù)之后,如何科學地使用數(shù)據(jù),就要用到一門應用科學——統(tǒng)計學。
非數(shù)學專業(yè)在大學有一門課程叫《概率和統(tǒng)計》,但其實概率論和統(tǒng)計學雖然緊密相連,卻是獨立發(fā)展的。概率論是研究隨機現(xiàn)象數(shù)量規(guī)律的數(shù)學分支;統(tǒng)計學是通過收集、整理、分析數(shù)據(jù)等手段,通過特定的數(shù)學模型和數(shù)學計算,以用來推測所測對象的本質,甚至預測對象未來的一門綜合性科學。
比如我們在上篇文章中討論的人工智能,數(shù)字人工智能中,如果沒有足夠多的數(shù)據(jù)供機器深度學習,得到的結果就會有很大的不確定性,那它跟仿生人工智能相比就不會有很大的進步。為什么數(shù)據(jù)要足夠大且全面呢?舉個簡單的例子。
我們現(xiàn)在對著馬路上的車輛進行統(tǒng)計,主要對國產(chǎn)和進口兩個數(shù)據(jù)維度進行統(tǒng)計。如果半個小時之內(nèi),過去了100輛車,其中50臺進口車,我們不能說進口車已經(jīng)占50%,顯然這個結論是有非常大的誤差的。我們以這個調查來對但假如我們改變數(shù)據(jù)來源和數(shù)據(jù)的統(tǒng)計維度,從國家層面的車管所收集數(shù)據(jù),比如2018年進口車占銷量的4%,這個數(shù)據(jù)對企業(yè)決策就有比較大的參考意義。
這個例子比較特殊。如果數(shù)據(jù)具有代表性,統(tǒng)計量又足夠,統(tǒng)計維度又比較科學,那么從這些數(shù)據(jù)中得到的統(tǒng)計結果,對我們的工作和生活就有意義,不然充其量就是大量的數(shù)據(jù),而失去了數(shù)據(jù)存在的意義。
目前,大數(shù)據(jù)已經(jīng)在我們生活中起著巨大的作用。政府層面:宏觀經(jīng)濟調控、公共衛(wèi)生安全防范、社會輿論監(jiān)督、智慧交通管理;生活方面:醫(yī)療疾病風險跟蹤、公司運營成本節(jié)省、售后服務質量提升、運輸車輛的故障險情以提前預警維修、用戶商品推薦和服務、個人旅游、二手市場買賣等等。
毫不夸張地說,大數(shù)據(jù)創(chuàng)造了一種新的生活和商業(yè)模式,給人們提供了前所未有的便捷,甚至在網(wǎng)絡政務方面創(chuàng)造眾多奇跡。大數(shù)據(jù)已經(jīng)被當作一種核心資產(chǎn)和商業(yè)模式,被不同程度地進行著挖掘,隨之帶來了個人隱私和安全問題。
你剛剛搜索一個關鍵詞,比如“手表”,你的瀏覽器甚至一些應用APP就開始頻繁地向你推薦各類手表廣告信息,難道你的手機這么懂你的“心思”?當然不是,你剛剛的搜索信息被收集并馬上被應用到你的手機上了。是不是有點赤裸裸的感覺!個人信息安全相關法律法規(guī)亟需出臺。大數(shù)據(jù)既帶來了創(chuàng)新,也帶來了挑戰(zhàn),數(shù)據(jù)的應用需要有一定的約束,需要相關法律法規(guī)進行有效地引導和管理。
(責任編輯:fqj)
-
數(shù)字技術
+關注
關注
0文章
334瀏覽量
25789 -
大數(shù)據(jù)
+關注
關注
64文章
8960瀏覽量
140240
發(fā)布評論請先 登錄
更改最大數(shù)據(jù)包大小時無法識別USB設備如何解決?
大數(shù)據(jù)與云計算是干嘛的?
大數(shù)據(jù)云計算都需要考什么證書?
工程大數(shù)據(jù)平臺

緩存對大數(shù)據(jù)處理的影響分析
大數(shù)據(jù)的3V、4V、7V,到底是什么意思?

ADS1675最大數(shù)據(jù)吞吐率是是多少?
raid 在大數(shù)據(jù)分析中的應用
人工智能云計算大數(shù)據(jù)三者關系
emc技術在大數(shù)據(jù)分析中的角色
智慧城市與大數(shù)據(jù)的關系
云計算在大數(shù)據(jù)分析中的應用
IP 地址大數(shù)據(jù)分析如何進行網(wǎng)絡優(yōu)化?

基于Kepware的Hadoop大數(shù)據(jù)應用構建-提升數(shù)據(jù)價值利用效能

評論