女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是大數(shù)據(jù)?大數(shù)據(jù)技術(shù)有哪些?

jf_78858299 ? 來源:巽達信息 ? 作者:巽達信息 ? 2023-03-29 10:56 ? 次閱讀

“大數(shù)據(jù) ”這個概念火了很久,但又很不容易說得清楚(不然呢?怎么會是個位數(shù)的回答),這時候買本書來看看可能會更香。

先說結(jié)論——大數(shù)據(jù)技術(shù),其實就是一套完整的“數(shù)據(jù)+業(yè)務(wù)+需求”的解決方案。

它其實是一個很寬泛的概念,涉及五個領(lǐng)域:

  1. 業(yè)務(wù)分析;2.數(shù)據(jù)分析;3.數(shù)據(jù)挖掘;4.機器學(xué)習(xí);5.人工智能

從1到5,越來越需要技術(shù)背景;從5到1,越來越貼近具體業(yè)務(wù)。

其實,除了像搜索引擎這樣依靠數(shù)據(jù)技術(shù)而誕生的產(chǎn)品外,大部分互聯(lián)網(wǎng)產(chǎn)品在生存期,即一個產(chǎn)品從0到1的階段,并不是特別需要大數(shù)據(jù)技術(shù)的。而在產(chǎn)品的發(fā)展期,也就是從“1”到“無窮”的階段,“大數(shù)據(jù)技術(shù)”對產(chǎn)品的作用才會逐漸體現(xiàn)。

主要原因是初期產(chǎn)品的功能和服務(wù)較少,也沒有“積累的用戶數(shù)據(jù)”用于模型研發(fā)。所以,我們常聽說“構(gòu)建大數(shù)據(jù)的壁壘”,這里面,“數(shù)據(jù)技術(shù)”是小壁壘,“大數(shù)據(jù)”本身才是大壁壘。

這里就從“大數(shù)據(jù)”開始說起。

什么是大數(shù)據(jù)?

“大數(shù)據(jù) ”從字面上看,就是很“大”的“數(shù)據(jù)”。先別急著打我。有多大呢?

早N多年前,百度首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。

5千億張,是不是很暴力了。

再來兩個不暴力的:

“廣西人最愛點贊,河北人最愛看段子,最關(guān)心時政的是山西人,最關(guān)注八卦的是天津。”

這組有趣的數(shù)據(jù),是今日頭條根據(jù)用戶閱讀大數(shù)據(jù)得出的結(jié)論。

而比這個更精準(zhǔn)的數(shù)據(jù),是三年前美國明尼蘇達州的一則八卦新聞:

一位氣勢洶洶的老爸沖進Target的一家連鎖超市,質(zhì)問超市為什么把嬰兒用品的廣告發(fā)給他正在念高中的女兒。

但非常打臉的是,這位父親跟他女兒溝通后發(fā)現(xiàn)女兒真的懷孕了。

在大數(shù)據(jù)的世界里,事情的原理很簡單——這位姑娘搜尋商品的關(guān)鍵詞,以及她在社交網(wǎng)站所顯露的行為軌跡,使超市的營銷系統(tǒng)捕捉到了她懷孕的信息。

你看,單個的數(shù)據(jù)并沒有價值,但越來越多的數(shù)據(jù)累加,量變會產(chǎn)生質(zhì)的飛躍。

腦補一下上面這個事件中的“女兒”,她在網(wǎng)絡(luò)營銷系統(tǒng)中的用戶畫像標(biāo)準(zhǔn)可能包括:用戶ID、性別 、性格描述、資產(chǎn)狀況、信用狀況、喜歡的顏色、鐘愛的品牌、大姨媽的日期、上周購物清單等等,有了這些信息,系統(tǒng)就可以針對這個用戶,進行精準(zhǔn)的廣告營銷和個性化購物推薦。

當(dāng)然,除了獲得大數(shù)據(jù)的個性化推薦,一不留神也容易被大數(shù)據(jù)割一波韭菜。

亞馬遜在一次新碟上市時,根據(jù)潛在客戶的人口信息、購物歷史、上網(wǎng)記錄等,給同一張碟片報出了不同的價格。這場“殺熟事件”的結(jié)局就是:亞馬遜的 CEO 貝索斯不得不親自出來道歉,解釋只是在進行價格測試。

大數(shù)據(jù) ,說白了,就是巨量數(shù)據(jù)集合。

大數(shù)據(jù)來源于海量用戶的一次次的行為數(shù)據(jù),是一個數(shù)據(jù)集合;但大數(shù)據(jù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。

在電影《美國隊長2》里,系統(tǒng)能把一個人從出生開始的所有行為特征,如消費行為,生活行為等,作為標(biāo)簽存入數(shù)據(jù)庫中,最后推測出未來這個人是否會對組織產(chǎn)生威脅,然后使用定位系統(tǒng),把這些預(yù)測到有威脅的人殺死。

而在《點球成金》里,球隊用數(shù)據(jù)建模的方式,挖掘潛在的明星隊員(但其實這個案例并非典型的大數(shù)據(jù)案例,因為用到的是早已存在的數(shù)據(jù)思維和方法)。

麥肯錫全球研究所曾給出過大數(shù)據(jù)一個相當(dāng)規(guī)矩的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。

上面這四個特征,也就是人們常說的大數(shù)據(jù)的4V特征(volume,variety,value,velocity),即大量,多樣性,價值,及時性。

圖片

具體來說就是:

  1. 數(shù)據(jù)體量巨大(這是大數(shù)據(jù)最明顯的特征),有人認為,大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);這里按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(進率2^10)。

不過,數(shù)據(jù)的體量有時可能并沒那么重要。比如13億人口的名字,只占硬盤幾百M空間的數(shù)據(jù),但已經(jīng)是這個領(lǐng)域里非常大的數(shù)據(jù)。

  1. 數(shù)據(jù)類型繁多(也就是多維度的表現(xiàn)形式)。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。
  2. 價值密度低,商業(yè)價值高。以視頻為例,一小時的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。因此,如何結(jié)合業(yè)務(wù)邏輯并通過強大的機器算法來挖掘數(shù)據(jù)價值(所謂“浪里淘金”吧),是最需要解決的問題。
  3. 處理速度快且及時。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息。

事實上,關(guān)于這個“4V”,業(yè)界還是有不少爭議的。比如阿里技術(shù)委員會的王堅博士,就直接把4V“扔”進了***堆。王堅在《在線》這本書里說過:“我分享時說‘大數(shù)據(jù)’這個名字叫錯了,它沒有反映出數(shù)據(jù)最本質(zhì)的東西。”

他認為,今天數(shù)據(jù)的意義并不在于有多“大”,真正有意思的是數(shù)據(jù)變得“在線”了,這恰恰是互聯(lián)網(wǎng)的特點。所有東西都能“在線”這件事(數(shù)據(jù)隨時能調(diào)用和計算),遠比“大”更能反映本質(zhì)。

什么是大數(shù)據(jù)技術(shù)?

對于一個從事大數(shù)據(jù)行業(yè)人來說,一切數(shù)據(jù)都是有意義的。因為通過數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)等,我們可以發(fā)現(xiàn)很多有用的或有意思的規(guī)律和結(jié)論。

比如,北京公交一卡通每天產(chǎn)生4千萬條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規(guī)律,來有效改善城市交通。

但這4千萬條刷卡數(shù)據(jù) ,不是想用就能用的,需要通過“存儲”“計算”“智能”來對數(shù)據(jù)進行加工和支撐,從而實現(xiàn)數(shù)據(jù)的增值。

而在這其中,最關(guān)鍵的問題不在于數(shù)據(jù)技術(shù)本身,而在于是否實現(xiàn)兩個標(biāo)準(zhǔn):第一,這4千萬條記錄,是否足夠多,足夠有價值;第二,是否找到適合的數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用。

下面就來簡單說說上述提到的一些和“大數(shù)據(jù)“”形影不離的“小伙伴們”——

1.云計算

由于大數(shù)據(jù)的采集、存儲和計算的量都非常大,所以大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的數(shù)據(jù)。

從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。

可以說,大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫”,云計算相當(dāng)于計算機和操作系統(tǒng),將大量的硬件資源虛擬化后再進行分配使用。

整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢是,實時交互式的查詢效率和分析能力, “動一下鼠標(biāo)就可以在秒級操作PB級別的數(shù)據(jù)”。

2.Hadoop/HDFS /Mapreduce/Spark

除了云計算,分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來了新的曙光。

Hadoop是Apache軟件基金會旗下的一個分布式計算平臺,為用戶提供了系統(tǒng)底層細節(jié)透明的開源分布式基礎(chǔ)架構(gòu)。它是一款用Java編寫的開源軟件框架,用于分布式存儲,并對非常大的數(shù)據(jù)集進行分布式處理,用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,現(xiàn)在Hadoop被公認為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件。

而HDFS為海量的數(shù)據(jù)提供了存儲;Mapreduce則為海量的數(shù)據(jù)提供了并行計算,從而大大提高計算效率。它是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,能允許開發(fā)者在不具備開發(fā)經(jīng)驗的前提下也能夠開發(fā)出分布式的并行程序,并讓其運行在數(shù)百臺機器上,在短時間完成海量數(shù)據(jù)的計算。

在使用了一段時間的 MapReduce 以后,程序員發(fā)現(xiàn) MapReduce 的程序?qū)懫饋硖闊M軌蚍庋b出一種更簡單的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。

同時Spark/storm/impala等各種各樣的技術(shù)也相繼進入數(shù)據(jù)科學(xué)的視野。比如Spark是Apache Software Foundation中最活躍的項目,是一個開源集群計算框架,也是一個非常看重速度的大數(shù)據(jù)處理平臺。

打個比方,如果我們把上面提到的4千萬條記錄比喻成“米”,那么,我們可以用“HDFS”儲存更多的米,更豐富的食材;如果我們有了“Spark”這些組件(包括深度學(xué)習(xí)框架Tensorflow),就相當(dāng)于有了“鍋碗瓢盆”,基本上就能做出一頓可口的飯菜了。

圖片

其實,大數(shù)據(jù)火起來的時候,很多做統(tǒng)計出身的人心里曾經(jīng)是有一萬個***的——因為大數(shù)據(jù)實在太火,以至于很多公司在招人的時候,關(guān)注的是這個人對計算工具的使用,而忽略了人對數(shù)據(jù)價值和行業(yè)的理解。

但目前統(tǒng)計學(xué)專業(yè)人士確實面臨的一個現(xiàn)實問題是:隨著客戶企業(yè)的數(shù)據(jù)量逐漸龐大,不用編程的方式很難做數(shù)據(jù)分析。所以,越來越多的統(tǒng)計學(xué)家也拿自己開涮:“統(tǒng)計學(xué)要被計算機學(xué)替代了,因為現(xiàn)在幾乎沒有非大數(shù)據(jù)量的統(tǒng)計應(yīng)用”。

總之,掌握編程的基礎(chǔ),大量的項目實踐,是從事大數(shù)據(jù)技術(shù)領(lǐng)域的必要條件。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關(guān)注

    關(guān)注

    39

    文章

    7965

    瀏覽量

    139248
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3893

    瀏覽量

    65709
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8948

    瀏覽量

    139342
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    探尋大數(shù)據(jù)時代的商業(yè)變革

    `科技的進步在很多時候總會超出我們的想象。近年來,“大數(shù)據(jù)”一詞逐漸被大眾所熟知,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。大數(shù)據(jù)時代已然來臨,它
    發(fā)表于 05-27 17:11

    大數(shù)據(jù)技術(shù)經(jīng)驗交流 場景化數(shù)據(jù)算法

    可視化數(shù)據(jù)指導(dǎo),讓每一個人看懂大數(shù)據(jù);多場景數(shù)據(jù)算法,讓所有數(shù)據(jù)都有跡可循;大數(shù)據(jù)技術(shù)經(jīng)驗交流群
    發(fā)表于 06-01 17:12

    為什么小數(shù)據(jù)大數(shù)據(jù)更重要

    大數(shù)據(jù)在2015年一年的收集量比有史以來人類總共收集到的數(shù)據(jù)總和都要多,可是90%都沒有被利用,成了廢數(shù)據(jù)。問題出在哪里?請看下文:早在2014年,加州大學(xué)戴維斯分校的
    發(fā)表于 12-27 14:54

    如何從零學(xué)大數(shù)據(jù)

    新如何學(xué)習(xí)大數(shù)據(jù)技術(shù)大數(shù)據(jù)怎么入門?怎么做大數(shù)據(jù)分析?數(shù)據(jù)科學(xué)需要學(xué)習(xí)那些技術(shù)
    發(fā)表于 03-01 15:41

    常見大數(shù)據(jù)應(yīng)用哪些?

    與預(yù)測、數(shù)據(jù)分析結(jié)果展示等,為做出正確決策提供依據(jù),其數(shù)據(jù)級別通常在PB以上,以下是常用的大數(shù)據(jù)技術(shù):一、大數(shù)據(jù)基礎(chǔ)階段
    發(fā)表于 03-13 16:50

    大數(shù)據(jù)運用的技術(shù)

    大數(shù)據(jù)是對海量數(shù)據(jù)進行存儲、計算、統(tǒng)計、分析處理的一系列處理手段,處理的數(shù)據(jù)量通常是TB級,甚至是PB或EB級的數(shù)據(jù),這是傳統(tǒng)數(shù)據(jù)處理手段所
    發(fā)表于 04-08 16:50

    大數(shù)據(jù)數(shù)據(jù)類型

    大數(shù)據(jù)不僅僅是一個數(shù)據(jù),它是大數(shù)據(jù)集的集合,不能使用傳統(tǒng)的計算技術(shù)來處理,宏觀上來講,它不僅包括需處理的數(shù)據(jù),還包括各種工具、
    發(fā)表于 05-11 15:57

    大數(shù)據(jù)開發(fā)核心技術(shù)詳解

    數(shù)據(jù)的核心是云技術(shù)和BI。關(guān)于大數(shù)據(jù)和云計算的關(guān)系人們通常會有誤解,而且也會把它們混起來說,分別做一句話直白解釋就是:云計算就是硬件資源的虛擬化;大數(shù)據(jù)就是海量
    發(fā)表于 07-26 16:26

    基于hadoop的免費大數(shù)據(jù)平臺哪些?

    時期內(nèi)關(guān)于大數(shù)據(jù)應(yīng)用開發(fā)又將進入到一個新的階段。現(xiàn)在市面上圍繞大數(shù)據(jù)的應(yīng)用開發(fā)如火如荼,比如,企業(yè)級大數(shù)據(jù)處理平臺開發(fā)、政務(wù)大數(shù)據(jù)平臺的開發(fā)、智慧交通
    發(fā)表于 11-07 14:10

    大數(shù)據(jù)平臺開發(fā)公司哪些?

    `大數(shù)據(jù)、區(qū)塊鏈可以說近幾年互聯(lián)網(wǎng)非常火爆的風(fēng)口了,發(fā)展真可謂是蓬勃向上。圍繞大數(shù)據(jù)進行的行業(yè)變革、創(chuàng)新已經(jīng)不僅僅是趨勢,而是真實在進行中。大數(shù)據(jù)技術(shù)對各行業(yè)的重要性不言而喻,15年*
    發(fā)表于 11-15 15:17

    大數(shù)據(jù)的定義及其應(yīng)用

    目錄1、大數(shù)據(jù)概述1.1. 概述1.2. 大數(shù)據(jù)定義1.3. 大數(shù)據(jù)技術(shù)發(fā)展2、大數(shù)據(jù)應(yīng)用2.1. 大數(shù)
    發(fā)表于 07-12 06:12

    什么是大數(shù)據(jù)大數(shù)據(jù)的特點哪些

    大數(shù)據(jù)(big data)目錄1什么是大數(shù)據(jù)2大數(shù)據(jù)的定義3大數(shù)據(jù)的特點[1]4大數(shù)據(jù)的作用[2]5大數(shù)
    發(fā)表于 07-12 06:52

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)
    發(fā)表于 07-27 07:47

    什么是大數(shù)據(jù)

    ,毅然決定學(xué)習(xí)大數(shù)據(jù)技術(shù),進入相關(guān)行業(yè),而有的人還在觀望,不知道未來大數(shù)據(jù)前景怎么樣?今日博主有幸在1024"程序員節(jié)"上,為大家(更多是入門級的選...
    發(fā)表于 08-31 08:52

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具。現(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和領(lǐng)域,對企業(yè)決策和業(yè)務(wù)發(fā)展起到了重
    的頭像 發(fā)表于 01-31 11:07 ?4742次閱讀