不久之前,人們還常說,計算機視覺的辨別能力尚不如一歲大的孩子。如今看來,這句話要改寫了。計算機不僅能和大多數成年人一樣識別圖片中的物體,在馬路上駕駛汽車的安全性還高過16 歲的青少年。更神奇的是,如今的計算機不再是被動按照指令識別和駕駛,而是像自然界的生命由數百萬年前開始進化那樣,自主地從經驗中學習。是數據的井噴促成了這一技術進步。如果說數據是新時代的石油,那么學習算法就是從中提取信息的煉油廠;信息積累成知識;知識深化成理解;理解演變為智慧。歡迎來到深度學習的新世界。
深度學習是機器學習的一個分支,它根植于數學、計算機科學和神經科學。深度網絡從數據中學習,就像嬰兒了解周圍世界那樣,從睜開眼睛開始,慢慢獲得駕馭新環境所需的技能。深度學習的起源可以追溯到20 世紀50 年代人工智能的誕生。關于如何構建人工智能。
當時存在兩種不同的觀點:一種觀點主張基于邏輯和計算機程序,曾主宰人工智能的研究和應用數十年;另一種觀點則主張直接從數據中學習,經歷了更長時間的摸索才逐漸成熟。
20 世紀,計算機技術還不夠成熟,而且按照現在的標準,數據存儲成本十分高昂,用邏輯程序來解決問題更加高效。熟練的程序員需要為每個不同的問題編寫不同的程序,問題越大,相應的程序也就越復雜。如今,計算機能力日趨強大,數據資源也變得龐大且豐富,使用學習算法解決問題比以前更快、更準確,也更高效。此外,同樣的學習算法還能用來解決許多不同的難題,這遠比為每個問題編寫不同的程序更加節省人力。
汽車新生態:無人駕駛將全面走入人們生活
在2005 年美國國防部高級研究計劃局( 以下簡稱DARPA)舉辦的自動駕駛挑戰賽中,一輛由斯坦福大學塞巴斯蒂安·特隆(Sebastian Thrun)實驗室開發的自動駕駛汽車Stanley最終贏得了200萬美元現金大獎。團隊利用了機器學習技術教它如何自主地在加利福尼亞州的沙漠中穿行。132 英里的賽道中有若干狹窄的隧道和急轉彎,還包括啤酒瓶道(Beer Bottle Pass),這是一段蜿蜒曲折的山路,兩側分別是碎石遍布的陡坡和斷壁。特隆并沒有遵循傳統的AI 方法,即通過編寫計算機程序來應付各種偶發事件,而是在沙漠中駕駛Stanley,讓汽車根據視覺和距離傳感器的感應輸入,學習如何像人一樣駕駛。
特隆后來參與創立了高科技項目重點實驗室Google X,并開始了進一步研究自動駕駛汽車技術的計劃。谷歌的自動駕駛汽車自此開始,在舊金山灣區累積了350 萬英里的車程。優步(Uber)已經在匹茲堡投放了一批自動駕駛汽車。蘋果也步入自動駕駛領域,以擴大其操作系統控制的產品范圍,并希望能夠再現它在手機市場上的輝煌。汽車制造商們親眼看見一個100 年來從未改變的行業在他們眼前發生了轉型,也開始奮起直追。通用汽車公司以10 億美元的價格并購了開發無人駕駛技術的硅谷創業公司Cruise Automation,并在2017 年投入了額外的6 億美元用于研發。2017年,英特爾以153 億美元的價格收購了Mobileye,它是一家專門為自動駕駛汽車研發傳感器和計算機視覺的公司。在價值數萬億美元的交通運輸領域,參與的各方都下了極高的賭注。
自動駕駛汽車不久將擾亂數百萬卡車司機和出租車司機的生計。最終,如果一輛自動駕駛汽車能夠在一分鐘內出現,將你安全帶到目的地且無須停車,在城市擁有汽車就顯得不那么必要了。今天,汽車行駛時間平均僅占4%,這意味著它其余96% 的時間都需要停放在某個地方。由于自動駕駛汽車可以在城市外圍維修和停放,城市中被大量停車場占用的空間得以被重新高效利用。城市規劃者已經開始考慮讓停車場變成公園了。街邊的停車道可以成為真正的自行車道。其他汽車相關行業也將受到影響,包括汽車保險業和修理廠。超速和停車罰單將不復存在。由醉駕和疲勞駕駛導致的交通事故死亡人數也會相應減少。通勤浪費的時間也將被節省下來做其他事情。根據2014年的美國人口普查數據,1.39 億上班族人均單日通勤時間達到了52分鐘,全年總計296 億小時。這驚人的340 萬年的時間本可以在人生中得到更好的利用。自動駕駛汽車會使公路通行能力翻兩番。而且,一旦大規模投入使用,沒有方向盤、可以自己開回家的自動駕駛汽車還會讓大規模汽車盜竊行為銷聲匿跡。雖然目前自動駕駛汽車仍面臨很多監管和法律層面的障礙,但這一技術一旦開始普及,我們就將迎來一個嶄新的世界。可以預見的是,卡車大概會在10 年內率先實現自動駕駛,出租車要花上15 年,而15 到25 年后,客運無人車將全面走入人們的生活。
汽車在人類社會中的標志性地位將以我們無法想象的方式發生變化,一種新的汽車生態也將應運而生。正如100 多年前汽車的出現創造了許多新的行業和就業機會,圍繞著自動駕駛汽車的發展,也出現了一個快速增長的生態系統。從谷歌獨立出來的自動駕駛公司Waymo,8年來已經投入了10億美元,并在加州中部山谷搭建了一個秘密測試場所。該場所位于一個占地91 英畝的仿造小鎮,其中還設計了騎自行車的“演員”和假的汽車事故。其目的是擴大訓練數據集以包含特殊和不常見的情況(也叫邊緣情況)。公路上罕見的駕駛事件經常會導致事故。自動駕駛汽車的不同之處就在于,當一輛汽車遇到罕見事件時,相應的學習體驗會被傳遞給所有其他自動駕駛汽車,這是一種集體智能。其他自動駕駛汽車公司也在建造許多類似的測試設施。這些舉措創造了以前并不存在的新工作機會,以及用于汽車導航的傳感器和激光器的新供應鏈。
自然語言翻譯:從語言到句子的飛躍
如今,谷歌在超過100 種服務中使用了深度學習,包括街景視圖(Street View)、收件箱智能回復(Inbox Smart Reply)和語音搜索。幾年前,谷歌的工程師意識到他們需要將這些計算密集型應用擴展到云端。他們開始著手設計一種用于深度學習的專用芯片,并巧妙地設計了可以插入數據中心機架中的硬盤插槽的電路板。谷歌的張量處理單元(TPU)現在已配置在遍布全球的服務器上,讓深度學習應用程序的性能得到了大幅改進。
深度學習快速改變格局的一個例子是它對語言翻譯的影響。語言翻譯是人工智能的一只圣杯,因為它依賴于理解句子的能力。谷歌最近推出了基于深度學習的最新版谷歌翻譯(Google Translate),代表了自然語言翻譯質量的重大飛躍。幾乎一夜之間,語言翻譯就從零散雜亂的拼湊短語,升級到了語意完整的句子。之前的計算機方法搜索的是可以被一并翻譯的詞匯組合,但深度學習會在整個句子中尋找詞匯之間的依賴關系。
下一步工作是訓練更大規模的深度學習網絡,針對段落來提高句子間的連貫性。文字背后都有悠久的文化歷史。俄裔作家和英文小說家,《洛麗塔》一書的作者弗拉基米爾·納博科夫(Vladimir Nabokov)曾經得出結論,在不同語言之間翻譯詩歌是不可能的。他將亞歷山大·普希金(Aleksandr Pushkin)的詩體小說《葉甫蓋尼·奧涅金》(Eugene Onegin)直譯成了英文,并對這些詩文的文化背景做了解釋性腳注,以此論證他的觀點。或許谷歌翻譯終有一天能夠通過整合莎士比亞的所有詩歌來翻譯他的作品。
語音識別:實時跨文化交流不再遙遠
人工智能的另一只圣杯是語音識別。不久之前,計算機的獨立語音識別應用領域還很有限,如機票預訂。而如今,限制已不復存在。2012 年,一名來自多倫多大學的實習生在微軟研究院(Microsoft Research)的一個夏季研究項目中,讓微軟的語音識別系統性能得到了顯著的提升。2016 年,微軟的一個團隊宣布,他們開發的一個擁有120 層的深度學習網絡已經在多人語音識別基準測試中達到了與人類相當的水平。
這一突破性成果將在之后的幾年逐漸影響我們的社會,計算機鍵盤會被自然語言接口取代。隨著數字助手,如亞馬遜的Alexa、蘋果的Siri 以及微軟的Cortana 先后進入千家萬戶,這種取代已經在發生了。就如隨著個人電腦的普及,打字機退出了歷史舞臺,有一天電腦鍵盤也將成為博物館的展品。
當語音識別和語言翻譯結合到一起時,實時的跨文化交流將有可能實現。《星際迷航》中那種萬能翻譯機將觸手可及。為什么計算機語音識別和語言翻譯達到人類的水平要花這么久的時間?難道計算機的各種認知能力同時進入瓶頸期僅僅是巧合嗎?其實所有這些突破都源于大數據的出現。
AI 醫療:醫學診斷將更加準確
l 深入皮膚
隨著機器學習的成熟并被應用于可獲取大數據的許多其他問題,服務行業和其相關職業也將發生轉變。基于數百萬患者病情記錄的醫學診斷將變得更加準確。最近的一項研究將深度學習運用到了囊括超過2000 種不同疾病的13 萬張皮膚病學圖像中,這個醫學數據庫是以前的10 倍大。該研究的網絡被訓練用于診斷“測試集”(test set,它從未見過的新圖像集)中的各種疾病。它在新圖像上的診斷表現與21 位皮膚科專家的結論基本一致,甚至在某些情況下還要更準確。在不久的將來,任何一個擁有智能手機的人都可以拍下疑似皮膚病變的照片,并立即進行診斷——而現在要完成同樣的過程,我們需要先去看醫生,耐心等待病變被專家篩查出來,然后再支付一大筆賬單。這一進步將大大擴大皮膚病護理的范圍,提升護理質量。如果個體可以很快得到專家診斷,他們會在皮膚病的早期階段,也就是更容易治療的時候就開始就醫。借助深度學習,所有的醫生都將更準確地診斷罕見的皮膚病。
l 深入癌癥
如果專家在轉移性乳腺癌的淋巴結活檢切片圖像上判斷錯誤,就有可能導致致命的后果。這是一種深度學習擅長的模式識別問題。實際上,一個經過大量結論清晰的切片數據訓練出來的深度學習網絡能達到0.925 的準確度,還不錯,但還不及人類專家在同一測試集上達到的0.966。然而,把深度學習與人類專家的預測結合起來,準確度達到了0.995,幾近完美。由于深度學習網絡和人類專家查看相同
的數據的方式不同,二者相結合的效果比單獨預測要好。這樣一來,更多的生命得以被挽救。這表明在未來,人類與機器將是合作而非競爭的關系。
l 深入睡眠
如果你有嚴重的睡眠問題(70% 的人一生中都會遇到這個問題),你要等待幾個月才能見到你的醫生(除非問題十分緊急),然后你會被轉到一個睡眠診所。在那里,你需要在身上接幾十個能在你入睡時記錄你的腦電圖(EEG)和肌肉活動的電極,接受徹夜觀察。每個晚上,你會先進入慢波睡眠,然后定期進入快速眼動(REM)睡眠,在此期間,你會做夢,但是失眠、睡眠呼吸暫停綜合征、不寧腿綜合征以及許多其他睡眠障礙會干擾這種睡眠模式。如果你在家里就很難入睡,那么在一張陌生的床上,全身接滿了讓人不安的醫療設備進入睡眠狀態,絕對算得上真正的挑戰。睡眠專家會查看你的腦電圖記錄,以30 秒為單位標記睡眠階段,一段8 小時的睡眠要花幾個小時才能標記完。而最終你會得到一份有關睡眠模式異常情況的報告,以及一份2000 美元的賬單。
依據1968 年由安東尼·雷希特施芬(Anthony Rechtshaffen)和艾倫·卡萊斯(Alan Kales)設計的系統,睡眠專家將接受尋找表征不同睡眠階段特征跡象的培訓。但是由于這些特征常常不明確,也不一致,只有75% 的情況下專家們能在數據解讀上達成一致。相比之下,我實驗室之前的一名研究生菲利普·洛(Philip Low)使用無監督機器學習,花了不到一分鐘的計算機運算時間,以3 秒的時間分辨率自動檢測睡眠階段,和87%的人類專家達成了一致的結論。此外,這種方式只需要在頭部的單個位置做記錄,用不到那些觸點和接線,也節省了大量佩戴和摘除的時間。2007 年,我們創立了一家公司Neurovigil,想將這項技術引入睡眠診所,但診所對此沒有表現出多大興趣,因為靠人力標注能產生更多的現金流。實際上,依據保險號向患者開具賬單,會讓診所沒有動機采用更廉價的程序。Neurovigil 在大型制藥公司發現了另一個市場,這些公司在開展臨床試驗,需要測試他們的藥物對睡眠模式的影響。這項技術目前正在進入長期護理設施市場,幫助解決在老年人中更普遍的進行性睡眠問題。
睡眠診所模式是存在缺陷的,因為在這樣的限制條件下不能可靠地診斷出健康問題:每個人的生理基數都不同,而偏離這個基數的信息最重要。Neurovigil 已經有了一個小型設備iBrain,它可以在家里記錄你的腦電圖信息,將數據傳到網上并分析數據的長期趨勢和異常情況。這可以幫助醫生及早發現健康問題,在惡化前及時干預并阻止慢性疾病的發展。其他很多疾病的治療也將受益于持續監測,如1 型糖尿病,血糖水平可以被監測并通過胰島素進行調節。使用能夠連續記錄數據的廉價傳感器正在對其他慢性疾病的診斷和治療產生重大影響。
從Neurovigil 的發展過程中可以看出:
第一,即便擁有更好更廉價的技術,也不代表能輕易地將其轉化為有市場價值,甚至更優質的新產品或服務;
第二,當現有產品在市場中的地位根深蒂固,就會進一步開發出深入應用的二級市場,可以讓新技術產生更直接的影響,并爭取時間來改進,提升競爭力。太陽能和許多其他新興產業的技術就是這樣進入市場的。從長遠來看,已被證實具有優勢的睡眠監測和新技術將會覆蓋到家中的患者,并最終融入醫療實踐。?
評論