編者按:MarkLogic數(shù)據(jù)架構(gòu)師Kurt Cagle分享了他的洞見(jiàn),缺乏良好的數(shù)據(jù)收集、整理、儲(chǔ)存過(guò)程,數(shù)據(jù)分析的結(jié)果只能是垃圾。
大約四年前,興起了數(shù)據(jù)科學(xué)家這一不可或缺的行當(dāng)。搞技術(shù)的紛紛扔掉讀大學(xué)時(shí)老舊的統(tǒng)計(jì)學(xué)課本,花了很多時(shí)間重新學(xué)習(xí)Python Pandas和R,還有最新的機(jī)器學(xué)習(xí)理論,添置了新款的白大褂。我知道我就是這么做的。
如果你曾經(jīng)是個(gè)Hadoop開發(fā)者,那數(shù)據(jù)科學(xué)也是一個(gè)好去處。畢竟所有人都以為不會(huì)map/reduce的數(shù)據(jù)科學(xué)家不是一個(gè)好數(shù)據(jù)科學(xué)家。這甚至可能延緩即將到來(lái)的Hadoop企業(yè)的崩潰到幾年之后,伴隨著印度程序員作坊大量炮制數(shù)以千計(jì)的新Hadoop程序員和數(shù)據(jù)科學(xué)“專家”,以趕上下一個(gè)大趨勢(shì)。
公司以最高的價(jià)格為此買單。Nasdaq上的每家公司都給數(shù)據(jù)科學(xué)家開出高薪,以免因?yàn)楹笾笥X(jué)而受到競(jìng)爭(zhēng)對(duì)手的沖擊。同時(shí)銷售經(jīng)理和C開頭的那些執(zhí)行官也可以指望早上啟動(dòng)iPad后可以實(shí)時(shí)看到公司運(yùn)轉(zhuǎn)得有多好。控制面板曾經(jīng)變成一大社會(huì)地位象征——資深的執(zhí)行官享有超級(jí)奢侈的執(zhí)行面板,基于3D可視化技術(shù)和實(shí)時(shí)動(dòng)畫散點(diǎn)圖,而相對(duì)初級(jí)的同事得到的是2D平面版本,只有最少的總結(jié)。
然而,到目前為止,并沒(méi)有什么真正的改變。數(shù)據(jù)科學(xué)家(大多數(shù)是高學(xué)歷人士,在制藥分析和高級(jí)材料工程這樣的領(lǐng)域具有多年經(jīng)驗(yàn))將逐漸意識(shí)到,他們需要處理的數(shù)據(jù)的質(zhì)量……好吧,不帶任何貶低地說(shuō),糟透了。人們被引導(dǎo)了,相信因?yàn)樗麄冇斜椴几魈幍某汕€(gè)數(shù)據(jù)庫(kù),因此他們的組織有海量的數(shù)據(jù),并且大部分——如果不是全部的話——數(shù)據(jù)是有價(jià)值的。
那些數(shù)據(jù)科學(xué)家將發(fā)現(xiàn),情況與此相反,大部分?jǐn)?shù)據(jù)都是過(guò)時(shí)的,格式不對(duì),數(shù)據(jù)模型適用于創(chuàng)建數(shù)據(jù)的程序員當(dāng)時(shí)需要的應(yīng)用。大量數(shù)據(jù)是在電子表格中,在缺乏任何流程、控制和遠(yuǎn)見(jiàn)的情況下,被反復(fù)修改。這些記錄離真相很遠(yuǎn),有太多數(shù)據(jù)是缺乏文檔的一次性數(shù)據(jù),列名會(huì)是MFGRTL3QREVPRJ之類的,鍵也絕對(duì)是不一致的。
換句話說(shuō),他們擁有的數(shù)據(jù)基本上對(duì)任何分析而言都毫無(wú)用處,離那些擅長(zhǎng)制藥試驗(yàn)日常測(cè)試結(jié)果分析的人心目中的分析更是差了十萬(wàn)八千里。
現(xiàn)在你拿著15萬(wàn)美元的年薪為業(yè)務(wù)代表提供控制面板,這些業(yè)務(wù)代表對(duì)統(tǒng)計(jì)學(xué)一無(wú)所知,但對(duì)需要百萬(wàn)美元和授權(quán)才能玩轉(zhuǎn)的事情無(wú)能為力。你的數(shù)據(jù)雜亂不堪,還有相當(dāng)多的數(shù)據(jù)完全無(wú)用,但是說(shuō)服業(yè)務(wù)代表重建數(shù)據(jù)庫(kù)會(huì)嚇哭他們的,因?yàn)檫@需要幾百萬(wàn)美元,而且看起來(lái)并不必要。你當(dāng)然可以直接向他們?nèi)鲋e,草草裝配一個(gè)隨機(jī)數(shù)生成器,說(shuō)不定提供給他們的數(shù)據(jù)還比他們知道得要準(zhǔn)確一點(diǎn)。但和數(shù)據(jù)打交道的人可不習(xí)慣撒謊,因?yàn)檫@和他們的基本目標(biāo)——盡可能地精確背道而馳。那么你會(huì)怎么做?
現(xiàn)在我得戴上我語(yǔ)義布道師的帽子,告訴你應(yīng)該開發(fā)一個(gè)語(yǔ)義數(shù)據(jù)倉(cāng)庫(kù)。你真的應(yīng)該這么干,它并不沒(méi)有那么難,卻能提供一些實(shí)實(shí)在在的收益。不過(guò)我也會(huì)說(shuō)它不是一個(gè)魔法般的解決方案。它讓你更容易以易于處理的格式獲取數(shù)據(jù)(或者有助于查明哪些數(shù)據(jù)是垃圾,可以直接刪除)。然而,現(xiàn)實(shí)是,這并不是一個(gè)數(shù)據(jù)科學(xué)問(wèn)題——這是一個(gè)數(shù)據(jù)品質(zhì)和本體工程問(wèn)題。
所以,讓我說(shuō)得更清楚一點(diǎn),讓那些穿著執(zhí)行官的衣服的人也可以理解。你有數(shù)據(jù)問(wèn)題。你的數(shù)據(jù)科學(xué)家具備各種有用的工具可以呈上數(shù)據(jù)分析的結(jié)果,然而沒(méi)有優(yōu)質(zhì)的數(shù)據(jù),他們產(chǎn)出的東西完全是無(wú)意義的。這不是他們的錯(cuò)。這是你的錯(cuò),你期望酷炫的控制面板能為你贏得一千萬(wàn)美元的合同的每一天,都是在浪費(fèi)時(shí)間,都是看著錢從你那里流走的一天。
你的工作可不簡(jiǎn)單。你需要做的是首先確定你實(shí)際需要追蹤的信息,接著花時(shí)間和你的數(shù)據(jù)科學(xué)家以及數(shù)據(jù)本體學(xué)家(data ontologist)討論下需要哪些數(shù)據(jù)。別指望指著一個(gè)數(shù)據(jù)庫(kù),然后數(shù)據(jù)會(huì)魔法般地出現(xiàn)在那里。
數(shù)據(jù)庫(kù)總的來(lái)說(shuō)是讓程序員用來(lái)編寫應(yīng)用的,而不是提供公司內(nèi)部的深層測(cè)度的。坐下來(lái)查看下你現(xiàn)在具備的資源,你需要理解那些依賴這些數(shù)據(jù)庫(kù)完成他們的工作的人會(huì)非常不情愿給你訪問(wèn)權(quán)限,特別是這些權(quán)限可能導(dǎo)致他們擔(dān)責(zé)的時(shí)候。此外,你還需理解大多數(shù)數(shù)據(jù)庫(kù)的文檔都很糟糕(這已經(jīng)算好的了,其實(shí)大多數(shù)數(shù)據(jù)庫(kù)根本沒(méi)有文檔),因此需要基于隱晦的參考進(jìn)行偵破。這稱為病理計(jì)算,大多數(shù)程序員都討厭干這個(gè),因?yàn)檫@意味著猜測(cè)其他程序員的大腦,這些程序員很可能已經(jīng)離職了,水平不明,忘記了十年寫的東西是什么意思。
關(guān)系數(shù)據(jù)湖(relational data lake)并沒(méi)有解決這個(gè)問(wèn)題。數(shù)據(jù)湖解決的問(wèn)題是讓同一個(gè)主機(jī)可以訪問(wèn)所有數(shù)據(jù)。對(duì)于病理計(jì)算而言,這是必要的部分,但它既不是最難的部分,也不是最昂貴的部分。最昂貴的部分是搞明白數(shù)據(jù)到底意味著什么,甚至僅僅是識(shí)別出分散的數(shù)據(jù)集談?wù)摰耐患?。這一問(wèn)題沒(méi)有現(xiàn)成的解決方案,如果任何人告訴你有,那他們?cè)诤鲇颇恪?/p>
我要再一次植入語(yǔ)義方案的廣告——graph triple store、RDF、ontology management等等。這些不是開箱即用的解決方案,卻是使病理分析得以實(shí)行的工具,并能將管理這些過(guò)程的手段交到程序員手中。
然而,你需要理解,這一切經(jīng)常需要你重新思考數(shù)據(jù)流的整個(gè)流程,理解在一開始如何捕獲信息并及早傳入合適的管道。它需要你的程序員和數(shù)據(jù)庫(kù)管理員放棄部分自治,基于一個(gè)中央化的聯(lián)合存儲(chǔ)工作。它也意味著你作為執(zhí)行官需要更熟悉數(shù)據(jù)管理和數(shù)據(jù)來(lái)源。
對(duì)大多數(shù)商業(yè)人員而言,這都是一個(gè)相當(dāng)激進(jìn)的轉(zhuǎn)變,比讓部分商業(yè)人員做一些IT工作要激進(jìn)得多。然而,今天的商業(yè)正在轉(zhuǎn)變(大部分已經(jīng)轉(zhuǎn)變)為碰巧銷售貨物或服務(wù)的數(shù)據(jù)管理公司。比起管理銷售,今天的CEO的角色需要更多地關(guān)注所在組織的數(shù)據(jù)輸入和輸出,確保數(shù)據(jù)的品質(zhì)盡可能好。這并不僅僅是為了應(yīng)對(duì)合規(guī)性要求,而是因?yàn)閿?shù)據(jù)的完整性對(duì)這些公司在市場(chǎng)上的成功至關(guān)重要。
這意味著你需要和你的執(zhí)行數(shù)據(jù)團(tuán)隊(duì)確定你需要知道和想要知道的信息的范圍,以及哪些信息是無(wú)關(guān)的,然后確立必要的流程收集和商業(yè)需求相關(guān)的數(shù)據(jù)。直接指向數(shù)據(jù)庫(kù)的一個(gè)接口,提取它的內(nèi)容,除了增加磁盤存儲(chǔ)開銷外毫無(wú)影響,雇傭數(shù)據(jù)科學(xué)家分析垃圾數(shù)據(jù)只會(huì)產(chǎn)生垃圾分析。如果你在意的話,它可能很美觀,充斥著梯度和3D特效,但毫無(wú)作用。
-
數(shù)據(jù)收集
+關(guān)注
關(guān)注
0文章
73瀏覽量
11423 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134331
原文標(biāo)題:為什么你不需要數(shù)據(jù)科學(xué)家
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
kintex產(chǎn)品架構(gòu)設(shè)計(jì)文檔(成為架構(gòu)師也是電子人不錯(cuò)的選...
后臺(tái)架構(gòu)師-JAVA
關(guān)于架構(gòu)師的詳細(xì)介紹
架構(gòu)師的能力鍛煉
架構(gòu)師最重要的是什么
好的架構(gòu)師為什么是出色的程序員
女性會(huì)更適合做架構(gòu)師?
怎樣成為軟件架構(gòu)師
大數(shù)據(jù)架構(gòu)師的職責(zé)有哪些
開發(fā)工程師和架構(gòu)師的區(qū)別
什么是 SoC 設(shè)計(jì)中的系統(tǒng)架構(gòu)師?

評(píng)論