2018年可以認為是人工智能(AI)大爆發的一年。你只需看看那些標語中帶AI一詞數量,宣稱自己 AI 創業公司的數量,大公司提到 AI 戰略的次數,以及技術頂會中爆滿的 AI 專場,你就知道人工智能已經無處不在。但是,即使是這樣,AI 也只是稱為了一個流行語而已,但實際上 AI 的本質是什么,我相信很多人都不知道。
圖 1: 這些年來大肆宣傳的概念
回顧這些年宣傳過的各種概念,多少人曾為之瘋狂。但是浪潮退去,裸泳者將會即刻出現。我們不應該跟隨風潮進行概念炒作,相反的,我們應該反思,這些技術都解決了什么問題?
對數據科學行業來說,也是如此。讓我們回顧一下單單“數據科學”一詞在谷歌搜索中的趨勢:
圖 2: 自2013年12月以來對“數據科學”術語的搜索(來源:谷歌趨勢)
可以看到,數據科學的趨勢一直在穩步上升。接下來,讓我們回顧2018曾發生的事情,再來看看2019年的熱門話題。
2018 回顧
去年的這個時候,我也發表一篇關于2018年數據科學趨勢展望的文章。在那篇文章中,我主要提到的關鍵詞有:工程自動化,模型可解釋性和公平性,數據科學應用商業化,以及特征工程工具的構建和改進。
自動化:一般來說,數據科學家的工作就是使他們的工作自動化,這句話可能有點繞口,但你認真思考以下,數據科學出現的意義就是解決大規模數據情況的分析和挖掘。而我們使用的各種模型,都是致力于提供某種較為通用的方案讓機器能夠自動從數據中學習知識。并且在過去的一年里,很多大公司開源了自己的模型算法,以及整個機器學習流水線的自動化,甚至連機器學習算法的建模都能自動化,參見 Google/Amazon/阿里/騰訊 等一大批公司提出的 AutoML。
商業化:正是有了這么多可用的開源工具,數據科學領域內的商業化競爭也越來越殘酷。不過幸運的是,數據科學是一種橫向學科,你可以只對模型進行一些微調,就可以在農業應用和醫療場景中使用相同的算法。因此,你也會發現,在2018年有很多宣稱自己是 AI 公司的,如果在某個垂直方向上失敗了,他們會迅速適應另一個領域。
同樣也是由于這么多的開源工具,有一些公司直接對開源工具進行某種適配和修改,然后賣給其它公司。這也是2018里常常出現的一個現象。
可解釋性和公平性:2018年這個領域也取得了巨大進展?,F在有很多開源工具幫助解釋機器學習模型學習到的知識,例如 Python 中會用到的 SHAP。 此外,還有很多書籍也在探討這個問題,其中比較著名就有:Christoph Molnar 發表的《可解釋的機器學習模型》一書(獲取本書資源,請在本公眾號發消息:可解釋,即可獲取全書)。除此之外,Google 提供的 “What-If” 工具系列,也可以幫助初學者降低學習門檻,了解機器學習復雜模型的運行原理。感謝 Google。
特征工程:雖然深度學習全面席卷整個行業,但是特征工程仍然是數據科學行業提升模型性能的主要秘訣之一。經常參加比賽的同學就會知道,在各類比賽的獲勝方案中,沒有哪個是單單靠模型取勝的,這些參賽者都花了很多時間在特征工程上,即便是深度模型也是如此。 因此,特征工程仍舊是一個大話題,但是在2018年,也有越來越多的通用特征處理工具和算法提了出來。
最后,根據 Stack Overflow 的統計,Python 已經成為連續兩年增長最快的編程語言和最受歡迎的語言。按照這個速度,Python 應該會在不久之后成為最常用的編程語言。
2019 展望
2018年的飛速發展讓我們能更廣泛更輕松的應用數據科學,在2019年,數據科學家們關注的焦點是:
1. 如何最大限度地減少數據科學家花在數據清理和特征工程上的時間?
2. 如何解決機器學習模型的偏見問題?
3. 機器學習模型真的都可信嗎?
拋開這些難以回答的問題,數據科學還有很多現實的問題需要解決。
強化學習在2018年可謂是如坐過山車一般,從火爆到寒冬。但是今年強化學習的春天可能要到來了,比如應用強化學習玩 Dota2 就是一個很好的例子。但是由于強化學習對于設備計算能力的要求較高,想要普及強化學習仍舊有很長的路要走。但是,無論如何,強化學習是數據科學領域目前學習方式最擬人化的模型,如果強化學習一旦廣泛應用,將會是革命性的進展。
如果你對強化學習感興趣,可以關注由 OpenAI 開發并開源的 Gym,里面有很多游戲示例可以練手。
隱私問題:2018年 facebook 由于隱私被起訴,國內也有很多公司相繼爆出隱私問題。國際上,歐盟于2018年5月25日起,將要求數據科學履行他們制定的通用數據保護法規(GDPR),這些對全球的數據科學公司來說,都會有極大的影響。
目前,GDPR 主要關注以下兩個方面:
- 數據隱私:任何公司如果未經用戶授權,擅自使用或者超過用戶的授權范圍使用用戶數據,會收到歐盟的巨額罰款。這帶來的問題是:以后想要獲取用戶數據,是否會越來越困難,或者,如果我們使用匿名數據,那么這些匿名數據是否真的可信?
- 向用戶解釋:對于任何完全自動化的算法形成的決策,平臺必須要能夠向用戶解釋任何發生在用戶身上的事情。在完全自動化的決策必須是可解釋的。歐盟沒有對“可解釋”下更多明確的定義,但是無論如何,迄今為止有很多機器學習模型仍舊還是不容易被解釋的,尤其是某些先進的高級模型。那么是否意味著:一旦我們使用前沿的高級模型,是否就代表著有巨大的罰款等著我們?
值得信賴的人工智能至少要滿足這兩個條件:
(1)它應該尊重人的基本權利,社會的法規、原則和價值觀,并且是道德的;
(2)在技術上它應該強大可靠,避免對用戶造成意外傷害
隨著人工智能對社會的影響越來越大,我們有權要求這些 AI 減少偏見。幸運的是,在國外我們已經看到了很多公司和機構在努力解決這個問題,比如歐盟提出了AI道德草案,谷歌重申了AI應用的原則。AI 倫理學還有很長的路要走,希望在國內我們也能有更多關于數據隱私和道德的討論。
圖 3:歐盟 AI 道德草案
基于云的解決方案:隨著人工智能算法變得越來越復雜,數據量越來越大,對計算機的要求越來越高。現在已經很少有大公司用個人電腦來進行數據科學的研究。國內如騰訊和阿里都相繼提出云上的機器學習解決方案,在未來,這一定是數據科學開發、運行和部署的基本趨勢。
行業細分:現在如果你搜索一個傳統行業的工程師,你看到的職位名稱將會非常細化,比如機械工程師嗎、航天工程師、軟件工程師等等。
數據科學也是如此。2018年很多公司會將數據科學職位定義為“數據科學家”,但是在未來,隨著行業細分專業細分,數據科學家必定也會細分下去。國外 Netflix 公司已經開了一個好頭,下圖中展示了 Netflix 的九個數據科學家角色:
圖 4: Netflix 的數據科學家職位
這給我們的啟示是:深耕一個領域。在數據科學剛開始的時候,肯定不存在許多專業化的細分領域。但隨著數據科學的發展,不同領域的細分越來越明顯,今年能夠明顯看到的就是 NLP 內部也對 NLG / NER 等工程師進行了細分。所以如果你還沒有確定自己的方向的話,是時候好好思考一下了。
2019年仍將是數據科學高速發展的一年,它可能不如2018瘋狂,但讓我們更理性的對待數據科學本身就是一個好事。請記住,時間是你最大的資產。你浪費的每一秒都是你錯失的機會。行動起來,為數據科學更理性的明天做好準備。
評論