摘要:當技術像機器學習一樣被炒得沸沸揚揚時,就會有許多誤解產生。以下是關于機器學習可以提供,或不能提供的清晰視角。
?
? ? ? ?當技術像機器學習一樣被炒得沸沸揚揚時,就會有許多誤解產生。以下是關于機器學習可以提供,或不能提供的清晰視角。
? ? ? ?機器學習被證明是非常有用的,人們很容易假設它可以解決所有問題并適用于所有情況。和其它工具一樣,機器學習在特定領域也很有用,特別是對于一直困擾著你,但你永遠不會雇用足夠的人來解決的問題,或者對于有明確目標,但沒有明顯的實現方法的問題。
? ? ? ?盡管如此,每個組織都有可能以這樣或那樣的方式利用機器學習,因為42%的高管最近告訴埃森哲,他們預計人工智能將在2021年之前成為他們的創新的后盾。但是,只要你的視野能繞過炒作,并避免下面這些常見的誤解你會得到更好的成果——通過了解機器學習可以實現和不能實現的機制。
迷思:機器學習就是人工智能
? ? ? ?機器學習和人工智能經常被用作同義詞,但機器學習是最成功地從研究實驗室走出來,邁向現實世界的技術,而人工智能則是一個廣泛的領域,它涵蓋計算機視覺、機器人技術和自然語言處理等領域,以及不涉及機器學習的約束滿足等方法。不妨把它看成是使機器變得智能的一切東西。這些都不是那種一般人所害怕的通用“人工智能”——可以與人競爭甚至攻擊人類的東西。
? ? ? ?留意這些流行語并做到準確無誤。機器學習是關于學習模式和預測大數據集的結果;結果可能看起來很“智能”,但其本質事關以前所未有的速度和規模應用統計數據。
迷思:是數據就有用
? ? ? ?機器學習需要數據,但并非所有的數據都可用于機器學習。為了訓練你的系統,你需要有代表性的數據,以涵蓋機器學習系統需要處理的模式和結果。你需要不含與模式不相關的數據(例如顯示這些內容的照片——所有站立的男士和所有坐著的女士,或者所有車輛都在車庫中,所有自行車都在泥濘的場地中),因為你所創建的機器學習模型將反映那些過于具體的模式,并在你使用的數據中查找它們。所有用于訓練的數據都需要注上正確的標記,并注上上與你要問機器學習系統的問題相匹配的功能,這需要做很多工作。
? ? ? ?不要以為你已經擁有的數據是干凈,清晰,有代表性或易于標注的。
迷思:你總是需要很多數據
? ? ? ?最近在圖像識別、機器閱讀理解、語言翻譯和其它領域取得的主要進展已經發生了,因為有了更好的工具,可以并行處理大量數據的GPU等計算硬件,以及大量已標記的數據集,包括ImageNet和斯坦福問題回答數據集(Stanford Question Answering Dataset)。但是,由于有一種稱為遷移學習(transfer learning)的技巧,你并不總是需要大量數據才能在特定區域獲得良好結果。相反,你可以教機器學習系統如何使用一個大型數據集進行學習,然后將其遷移到屬于你自己的,更小的培訓數據集的學習能力。這就是Salesforce和Microsoft Azure的自定義視覺API的工作原理:你只需要30到50張圖像即可顯示想要分類的內容,以獲得良好結果。
? ? ? ?遷移學習可讓你使用相對較少的數據為你自己的問題定制預先訓練好的系統。
迷思:是人都能創建機器學習系統
? ? ? ?市面上有很多用于機器學習的開源工具和框架,以及無數課程向你展示如何使用它們。但機器學習仍然是一項專門技術;你要知道如何準備數據并對其進行分區以進行訓練和測試,你要知道如何選擇最佳算法以及使用何種啟發式算法,以及如何將其轉化為可靠的生產系統。你還要監視系統,以確保結果始終保持相關性;無論你的市場變革還是你的機器學習系統是否好得使你最終會遇到不同的客戶群,你需要繼續檢驗該模型是否符合你的問題。
? ? ? ?要徹底把機器學習弄明白是需要經驗;如果你剛剛開始使用API,則可以使用API預先訓練模型,在獲取或聘用數據科學和機器學習專業知識來構建定制系統時,你可以從代碼中調用該模型。
迷思:數據中的所有模式都是有用的
? ? ? ?哮喘患者,胸痛或心臟病患者以及任何期頤之年的人的肺炎的存活率遠高于你的期望。實際上,好到只要有一個簡單的用來將入院程序自動化的機器學習系統就可以讓他們安然無恙地回家(一種基于規則的,和神經網絡一樣受訓于相同的數據的系統就能做到這個)。不幸的是,他們有如此高的存活率的原因是,他們總是立即入院,因為肺炎對他們來說非常危險。
? ? ? ?系統見證了數據中的有效的模式;這對于選擇讓誰入院來說并不是一種有用的模式(盡管它可以幫助保險公司預測治療費用)。更危險的是,除非你已經了解它們,否則你不會知道這些無用的反模式出現在你的數據集中。
? ? ? ?在其它情況下,一個系統可以學習一種有效的模式(比如爭議頗多的面部識別系統,它可以準確地從自拍照中預測性取向),然而它沒有清晰明確的解釋,所以沒有用(在這種情況下,照片看起來似乎顯示了姿勢這樣的社交線索而不是天生的任何東西)。
? ? ? ?“黑匣子”模型是高效的,但它沒有澄清他們到底學到了什么模式。像廣義加性模型(Generalized Additive Model)這樣的更透明,可理解的算法可以更清楚地了解模型的學習內容,從而讓你決定它是否適用于部署。
迷思:強化學習隨時可以使用
? ? ? ?幾乎所有當今使用的機器學習系統都使用監督學習;在大多數情況下,他們接受了人類參與準備的明確標記的數據集的培訓。管護這些數據集需要時間和精力,所以人們對非監督形式的學習,特別是強化學習(RL)有很大的興趣——在這里,艾真體(agent)通過試錯法學習,通過與環境交互并因為正確的行為而獲得獎勵。DeepMind的AlphaGo系統使用強化學習與監督式學習一同戰勝了最高段位的圍棋選手,而由卡內基梅隆大學的團隊建立的系統Libratus使用強化學習和另外兩種人工智能技術在無限德州撲克擊敗了一部分世界上最好的撲克玩家(具有漫長而復雜的投注策略)。研究人員正在用機器學習對一切進行強化試驗——從機器人技術到安全軟件的測試。
? ? ? ?強化學習在研究領域之外并不常見。谷歌使用DeepMind學習更高效地降低數據中心的溫度,從而節省數據中心的電力;微軟使用強化學習的一個特別版本,稱為上下文賭博機(contextual bandit),它為MSN.com的訪客定制個性化的新聞頭條。問題在于很少有現實環境有可輕易發現的獎勵和即時反饋,當艾真體在發生任何事情之前采取多項行動時,分配獎勵就尤其棘手了。
迷思:機器學習沒有偏差
? ? ? ?由于機器學習從數據中學習,它將復制數據集中的任何偏差。搜尋首席執行官的圖像可能會顯示白人男性首席執行官的照片,因為有更多的首席執行官通常是白人男性。但事實證明,機器學習也會放大偏差。
? ? ? ?經常用于訓練圖像識別系統的COCO數據集具有男性和女性的照片;但更多的女性是在廚房設備旁邊得到展示,更多的男性則和電腦鍵盤和鼠標或網球拍和滑雪板一起得到展示。在COCO上訓練系統,它會比原始照片中的統計數據更強烈地把男性和計算機硬件聯系起來。
? ? ? ?一個機器學習系統也可能給另一個機器增加偏差。訓練這樣一個機器學習系統——它具有將單詞表征為向量的流行框架——來表示詞之間關系的向量,它將學習像“男人之于女人正如計算機程序員之于家庭主婦”或醫生之于護士正如老板之于前臺那樣的刻板印象。如果你使用這樣的系統,這個系統把那些具有他和她這樣的代詞的語言(如英語)翻譯成具有中性代詞的語言(如芬蘭語或土耳其語),那么“他們是醫生”就會變成“他是醫生”,“他們是護士”變成“她是護士”。(譯注,最后一句話有點費解,但是結合中文網絡用語中誕生的新代詞TA就不難理解了,因為不確定被指稱的人的性別,所以寫作TA,而不是他或她,相當于英語的he or she,而有些語言中則用復數形式表示中性性別,如they表示he or she,這里可以理解為they=TA,把這個中文新詞套進去就不難理解了)
? ? ? ?在購物網站上獲得類似的建議是有用的,但在涉及敏感領域時會產生問題,并且會產生反饋回路;如果你加入反對疫苗接種的臉書群,臉書的推薦引擎將建議其它關注陰謀論或者認為地球平的群。
? ? ? ?了解機器學習中的偏差問題是很重要的。如果你無法消除訓練數據集中的偏差,請使用規則化詞對之間的性別關聯等技術來減少偏差或將不相關的項目添加到建議中以避免“過濾氣泡(filter bubble)”。
迷思:機器學習只用于做好事
? ? ? ?機器學習為防病毒工具提供了強大的功能,并著眼于全新攻擊的行為,以便一出現就能發現它們。但同樣地,黑客也正在使用機器學習來研究防病毒工具的防御措施,并通過分析大量公共數據或分析以前的網絡釣魚嘗試的成功來大規模地制作有針對性的網絡釣魚攻擊。
迷思:機器學習會取代人
? ? ? ?人們常常擔心人工智能會搶走他們的飯碗,它肯定會改變我們所從事的工作以及我們的做事方式;機器學習系統可以改善了效率和合規性并降低了成本。從長遠來看,它將在業務中創造新的角色,并使一些當前職位顯得過時。但是機器學習所自動化的很多任務在以前根本就不可能做到,要么歸咎于復雜性,要么歸咎于為規模,例如,你無法聘請足夠多的人來查看發布到社交媒體上的每張照片,以查看它是否具有你的品牌特征。
? ? ? ?機器學習已經開始做的事情是創造新的商機,例如通過預測性維護改善客戶體驗,并向業務決策者提供建議和支持。和前幾代自動化一樣,機器學習可以把員工解放出來,使他們可以盡情地應用自己的專業知識和創造力。
評論