人工智能的火爆帶動(dòng)了對(duì)數(shù)據(jù)科學(xué)家的大量需求。看到急缺的崗位和高薪,誰能不動(dòng)心呢?可是你確定想好要成為一名數(shù)據(jù)科學(xué)家了嗎?你知道成為一名DS,需要具備什么技能嗎?那就請(qǐng)準(zhǔn)備好,下面我們要開車了!
你可能已經(jīng)從媒體鋪天蓋地的報(bào)道中,了解到數(shù)據(jù)科學(xué)家這個(gè)抬頭非常火。
根據(jù)UiPath數(shù)據(jù)顯示,2018年12113個(gè)崗位爭(zhēng)奪AI人才,數(shù)據(jù)科學(xué)家需求量排名第二。
于是很多人萌生了入行、或者轉(zhuǎn)行做數(shù)據(jù)科學(xué)家的念頭。那么接著就帶來一個(gè)問題:如何成為一名數(shù)據(jù)科學(xué)家呢?
接下來,由《Getting Started with SQL》(O’Reilly)和《Learning RxJava》(Packt) 二書的作者、美國(guó)西南航空的企業(yè)顧問Thomas Nield,獻(xiàn)上這份《2019年數(shù)據(jù)科學(xué)家成長(zhǎng)指南》。
廢話不多說,馬上進(jìn)入戰(zhàn)斗。
Round 1:不考證完全沒問題。當(dāng)然考了也可以
不要把工作后寶貴的時(shí)間,浪費(fèi)在考證上。「數(shù)據(jù)科學(xué)」不過是「商業(yè)分析」的一個(gè)分支,而且通常學(xué)校的知識(shí)總是和當(dāng)前的科技前沿脫節(jié)。如果真的想學(xué)建議去Coursera或者可汗學(xué)院自學(xué)。
當(dāng)然,證書多了終歸是好事嘛。如果你非要去學(xué)校考證,建議考物理或者運(yùn)籌學(xué)的研究生。我了解到很多一流的數(shù)據(jù)科學(xué)家,基本都是這倆專業(yè)畢業(yè)的。
花個(gè)幾年時(shí)間研究生畢業(yè)后,明天就會(huì)更好?反正有個(gè)數(shù)據(jù)科學(xué)初創(chuàng)公司的創(chuàng)始人說:
博士學(xué)歷不重要;碩士學(xué)歷無可無不可;學(xué)士畢業(yè)必須有,因?yàn)橛萌藛挝蛔畹鸵缶褪谴髮W(xué)畢業(yè)。
https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253
Round 2:成為一個(gè)數(shù)據(jù)科學(xué)家真的需要了解這么多領(lǐng)域嗎?
這是一張6年前的圖,里面甚至連TensorFlow都沒有。
而且我覺得,數(shù)據(jù)科學(xué)發(fā)展到現(xiàn)在,已經(jīng)非常碎片化和細(xì)分化了。根本沒必要搞的這么復(fù)雜。
Round 3:我應(yīng)該學(xué)哪門語(yǔ)言呢?需要從Linux入手嗎?
數(shù)據(jù)科學(xué)家是一個(gè)跨平臺(tái)物種,操作系統(tǒng)不重要。
語(yǔ)言的話,Scala早就過氣了,R解決數(shù)學(xué)問題非常爽,Python才是萬能的。一條Python在手,數(shù)據(jù)科學(xué)跟我走。
不過需要了解一些庫(kù),類似Pandas用來處理數(shù)據(jù)幀,matplotlib用來創(chuàng)建圖表。
Round 4:學(xué)會(huì)Python很關(guān)鍵!學(xué)不會(huì)也沒關(guān)系
Python學(xué)起來超簡(jiǎn)單。不過,你可能也不用非得學(xué)會(huì)Python。
作為人類,要善用工具。數(shù)據(jù)科學(xué)不止眼前的腳本和機(jī)器學(xué)習(xí),還有遠(yuǎn)方的數(shù)據(jù)可視化。這個(gè)時(shí)候顯然Tableau更好用,也更美觀。
Tableau
不過涉及到數(shù)據(jù)清洗、管理、轉(zhuǎn)換、加載等,就需要用到Alteryx了,鼠標(biāo)拖拽就能搞定。
新智元點(diǎn)評(píng):所以買個(gè)Tableau就可以稱為數(shù)據(jù)科學(xué)家了?
從淘寶買個(gè)激活碼豈不是要變成二手科學(xué)家?
Round 5:明明靠Excel和PPT就能搞定,為什么非要學(xué)Python呢?
首先,能為你的簡(jiǎn)歷增加光環(huán)。
其次,之前也說過,Python簡(jiǎn)直萬能。通過Jupyter notebook逐步完成每個(gè)數(shù)據(jù)分析階段,讓每一步都可視化,就像你正在創(chuàng)建一個(gè)可以與他人分享的故事。
劃重點(diǎn):畢竟,溝通和講故事才是數(shù)據(jù)科學(xué)的重要組成部分。
數(shù)據(jù)科學(xué)和軟件工程很大程度可以劃等號(hào)。不同之處在于,數(shù)據(jù)科學(xué)必須有數(shù)據(jù),軟件工程就不一定了。
Wiki網(wǎng)頁(yè)是一個(gè)非常好的數(shù)據(jù)來源,抓取網(wǎng)頁(yè)并使用Beautiful Soup解析他們,就得到了大量非結(jié)構(gòu)化文本數(shù)據(jù)。
Round 6:懂NoSQL行,不懂也沒事
非機(jī)構(gòu)化數(shù)據(jù)才能激發(fā)我們的想象力,結(jié)構(gòu)化數(shù)據(jù)只能固化我們的邏輯能力。
如今像谷歌Facebook這樣的大廠,擁有大量的非機(jī)構(gòu)化數(shù)據(jù),他們就像裁判一樣,「數(shù)據(jù)科學(xué)」的定義權(quán)掌握在他們手里。剩下我們這些運(yùn)動(dòng)員,只好用無聊的SQL咯。
利用非結(jié)構(gòu)化數(shù)據(jù),大廠可以通過挖掘用戶內(nèi)容、郵件、故事,用于廣告或者其他途徑。
而我們也可以利用非結(jié)構(gòu)化數(shù)據(jù),對(duì)社交媒體上的帖子進(jìn)行,做一些NLP應(yīng)用比如聊天機(jī)器人。
NoSQL更擅長(zhǎng)存儲(chǔ)這類數(shù)據(jù)。但是對(duì)于數(shù)據(jù)科學(xué)家來說,NoSQL也不是必須要掌握的,除非做數(shù)據(jù)工程師。而且現(xiàn)在Apache Kafka比NoSQL更火,所以你也知道該學(xué)什么了。
有的人可能不知道,數(shù)據(jù)科學(xué)家分為兩種角色。數(shù)據(jù)工程師使用生產(chǎn)系統(tǒng)并幫助使數(shù)據(jù)和模型可用;而數(shù)據(jù)科學(xué)家則負(fù)責(zé)機(jī)器學(xué)習(xí)以及數(shù)學(xué)建模。
這個(gè)時(shí)候,利用樸素貝葉斯算法,就可以去預(yù)測(cè)文本的分類。我打算建議從具有均值和標(biāo)準(zhǔn)差的正態(tài)分布開始。也許用z分?jǐn)?shù)和線性回歸計(jì)算一些概率或兩個(gè)。
Round 7:學(xué)會(huì)線性代數(shù)很重要。不會(huì)的話……也行吧
傳統(tǒng)智慧認(rèn)為線性代數(shù)是許多數(shù)據(jù)科學(xué)的基石,因此掌握線性代數(shù)很重要。將矩陣相乘和相加(稱為點(diǎn)積),將一直伴隨著你。
聽起來很無聊對(duì)吧,但這就是機(jī)器學(xué)習(xí)在做的事情。當(dāng)你進(jìn)行線性回歸或構(gòu)建自己的神經(jīng)網(wǎng)絡(luò)時(shí),你將使用隨機(jī)權(quán)重值進(jìn)行大量矩陣乘法和縮放。
不過實(shí)際上,你可能也不需要學(xué)習(xí)線性代數(shù),因?yàn)橛邢馮ensorFlow和 scikit-learn這樣的框架和庫(kù),幫你解決掉最枯燥乏味的線代部分。
呃,實(shí)際上,也別用TensorFlow,用Keras。
Round 8:棒。總之都能用Excel實(shí)現(xiàn),所以會(huì)用Excel就可以被稱為數(shù)據(jù)科學(xué)家了?
機(jī)器學(xué)習(xí)通常在做兩個(gè)任務(wù):回歸,或者分類。但技術(shù)上來說,分類就是回歸。
決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、邏輯回歸、線性回歸都執(zhí)行某種形式的曲線擬合。
所以,我們也可以不負(fù)責(zé)任的說:機(jī)器學(xué)習(xí)只是回歸。神經(jīng)網(wǎng)絡(luò)實(shí)際上只是具有一些非線性函數(shù)的多層回歸。圖像識(shí)別也是回歸。
Round 9:為什么大家現(xiàn)在不怎么談?wù)撍惴耍?/p>
因?yàn)檫@些優(yōu)化問題已經(jīng)在很長(zhǎng)一段時(shí)間內(nèi)得到了令人滿意的解決,而且這些方法在很早以前也沒太多人討論。
運(yùn)籌學(xué)已經(jīng)提供了許多機(jī)器學(xué)習(xí)使用的優(yōu)化算法。同時(shí)也為常見“AI”問題提供了許多解決方案。
AI炒作重新點(diǎn)燃了機(jī)器學(xué)習(xí)及其解決的問題類型:圖像識(shí)別,自然語(yǔ)言處理,圖像生成等。
機(jī)器學(xué)習(xí),深度學(xué)習(xí)…今天被炒作的任何東西,通常都不能解決離散優(yōu)化問題,人們嘗試過,但效果非常不理想。
所以有人說深度學(xué)習(xí)是否已經(jīng)達(dá)到了極限,AI寒冬又雙來了。
Round 10:AI玩游戲已經(jīng)超神,接下來會(huì)取代人類工作嗎?
首先我們要明確一點(diǎn)。人們已經(jīng)找到了一些巧妙的回歸應(yīng)用,例如計(jì)算圍棋和象棋最優(yōu)移動(dòng)(離散優(yōu)化也可以做),或自動(dòng)駕駛的汽車計(jì)算轉(zhuǎn)向的方向。
但是,回歸只能將這么多的應(yīng)用組合起來,完成單一任務(wù)。
現(xiàn)在我們好好思考一下,你會(huì)擔(dān)心職業(yè)星際爭(zhēng)霸選手威脅到你的工作嗎?你覺得打星際,和你打Excel之間,有多少重疊的交集呢?
如果你連人類星際選手都不怕,你為什么還怕一個(gè)回歸呢?AI玩星際再?gòu)?qiáng),它也只會(huì)玩星際。
Round 11:一句話解釋什么是數(shù)據(jù)科學(xué)家,讓你爺爺也能聽懂
數(shù)據(jù)科學(xué)的界限正在模糊。它可以是任何東西,也可以什么都不是。成為數(shù)據(jù)科學(xué)家你需要掌握很多東西,但就算沒掌握也不會(huì)致命。
天哪??
不過幸好,這個(gè)世界上還是有人能說明白到底什么是數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家的。一句話解釋數(shù)據(jù)科學(xué)家:
數(shù)據(jù)科學(xué)家是比軟件工程師更懂統(tǒng)計(jì)、比統(tǒng)計(jì)學(xué)家更懂軟件工程的一個(gè)人。
Round 12:已瘋
所以,2019年,你還想做數(shù)據(jù)科學(xué)家嗎?
-
Linux
+關(guān)注
關(guān)注
87文章
11511瀏覽量
213814 -
人工智能
+關(guān)注
關(guān)注
1806文章
49028瀏覽量
249507 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10489
原文標(biāo)題:數(shù)據(jù)科學(xué)家成長(zhǎng)指南:從入門到被逼瘋
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
復(fù)星醫(yī)藥使用亞馬遜云科技生成式AI技術(shù)賦能醫(yī)療撰寫場(chǎng)景 助力科學(xué)家效率躍升
地物光譜儀如何幫助科學(xué)家研究植被和土壤?

云天勵(lì)飛董事長(zhǎng)陳寧當(dāng)選深圳市青年科學(xué)家協(xié)會(huì)第十屆會(huì)長(zhǎng)

我國(guó)科學(xué)家制備出可控手性石墨烯卷
NVIDIA RAPIDS cuDF如何賦能AI加速數(shù)據(jù)科學(xué)
深開鴻亮相“小小科學(xué)家”品牌發(fā)布暨科學(xué)探索研學(xué)營(yíng)開營(yíng)活動(dòng)

AI 推動(dòng)未來科學(xué) 晶泰科技共襄未來科學(xué)大獎(jiǎng)周

西湖大學(xué):科學(xué)家+AI,科研新范式的樣本

華為自動(dòng)駕駛科學(xué)家陳亦倫投身具身智能創(chuàng)業(yè)
螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家
AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得
科學(xué)家開發(fā)出首臺(tái)可見光飛秒光纖激光器

受人眼啟發(fā)!科學(xué)家開發(fā)出新型改良相機(jī)

評(píng)論