自20世紀80年代興起的神經網絡熱潮已經退去,神經網絡再次成為常規科學。托馬斯·庫恩(Thomas Kuhn)曾將科學革命之間的時間間隔描述為,科學家在一個已經確定的范式或解釋框架內進行理論推定、觀察和試驗的常規工作階段。1987 年,杰弗里·辛頓去了多倫多大學,并繼續著漸進式改進,雖然這些改進都沒有像曾經的玻爾茲曼機那樣展現出魔力。辛頓在21 世紀頭十年成為加拿大高等研究院(Canadian Institute for Advanced Research,簡稱CIFAR)神經計算和自適應感知項目(Neural Computation andAdaptive Perception,簡稱 NCAP)的帶頭人。該項目由來自加拿大和其他國家的約25 位研究人員組成,專注于解決機器學習的難題。我是由楊立昆擔任主席的NCAP 顧問委員會的成員,會在每年 NIPS 會議召開之前參加該項目的年會。神經網絡的先驅們在緩慢而穩定的過程中探索了機器學習的許多新策略。雖然他們的網絡有許多有價值的應用,但卻一直沒有滿足20 世紀 80 年代對該領域抱有的很高的期望。不過這并沒有動搖先驅者們的信念。回想起來,他們一直是在為飛躍性的突破奠定基礎。
機器學習的穩步發展
NIPS 會議是 20 世紀 80 年代神經網絡的孵化器,為其他可處理大型高維數據集的算法打開了大門。弗拉基米爾·瓦普尼克的支持向量機于1995 年引發了轟動,為 20 世紀 60 年代就被遺棄的感知器網絡開辟了一個新篇章。使支持向量機成為功能強大的分類器,并出現在每個神經網絡工作者工具包中的,是“內核技巧”(kernel trick),這是一種數學轉換,相當于將數據從其采樣空間重新映射到使其更容易被分離的超空間。托馬索·波吉奧開發了一種名為“HMAX”的分級網絡,可以對有限數量的對象進行分類。這表明,網絡的性能會隨著其深度的增加而提高。
在21 世紀的頭幾年里,圖形模型被開發出來,并與被稱為“貝葉斯網絡”(Bayes networks)的豐富的概率模型相結合,后者是基于18 世紀英國數學家托馬斯·貝葉斯(Thomas Bayes)提出的一個定理,該定理允許使用新的證據來更新先前的信念。加州大學洛杉磯分校的朱迪亞·珀爾,在早些時候曾將基于貝葉斯分析的“信念網絡”(belief networks)引入人工智能,通過開發能夠利用數據在網絡中學習概率的方法,對貝葉斯分析進行了加強和擴展。這些網絡以及其他網絡的算法為機器學習研究人員打造出了強大的工具。
隨著計算機的處理能力繼續呈指數增長,訓練更大規模的網絡成為可能。大家曾普遍認為,具有更多隱藏單元、更寬的神經網絡,比具有更多層數、更深的網絡的效果更好,但是對于逐層訓練的網絡來說并非如此,并且誤差梯度的消失問題(the vanishing error gradientproblem)被發現減慢了輸入層附近的學習速度。然而,當這個問題最終被克服的時候,我們已經可以對深度反向傳播網絡進行訓練了,而且該網絡在基準測試中表現得更好。隨著深度反向傳播網絡開始在計算機視覺領域挑戰傳統方法,2012 年的NIPS 大會上出現了這樣一句話:“神經信息處理系統”里的“神經”又回來了。
在20 世紀的最后10 年以及21 世紀前10 年的計算機視覺領域,在識別圖像中的對象方面取得的穩步進展,使得基準測試(用于比較不同方法)的性能每年能提高百分之零點幾。方法改進的速度十分緩慢,這是因為每個新類別的對象,都需要有關專家對能夠將它們與其他對象區分開來所需的與姿態無關的特征進行甄別。隨后,在2012年,杰弗里·辛頓和他的兩名學生艾力克斯·克里澤夫斯基(AlexKrizhevsky)和伊利婭·蘇特斯科娃向 NIPS 會議提交了一篇論文,關于使用深度學習訓練AlexNet 識別圖像中的對象,AlexNet 是本章要重點討論的深度卷積網絡。以擁有22 000 多個類別,超過1 500 萬個標記過的高分辨率圖像的ImageNet 數據庫作為基準,AlexNet 史無前例地將識別錯誤率降低到了18%。這次性能上的飛躍在計算機視覺社區中掀起了一股沖擊波,加速推動了更大規模網絡的發展,現在這些網絡幾乎已經達到了人類的水平。到2015 年,ImageNet 數據庫的錯誤率已降至3.6%。當時還在微軟研究院的何愷明及其同事使用的低錯誤率深度學習網絡,在許多方面都與視覺皮層十分相似;這類網絡由楊立昆最早提出,并最初把它命名為“Le Net”。
20 世紀 80 年代,杰弗里·辛頓和我第一次見到這個法國學生楊立昆(見圖9–1,右)。他9 歲時,就深受1968 年史詩級的科幻電影《2001 太空漫游》(2001: A Space Odyssey)中的任務計算機 HAL 9000的啟發,想要開發人工智能。他曾獨立發明了反向傳播誤差算法的一種版本,并記錄在他1987 年的博士論文中,10 之后他就搬到多倫多,加入了杰弗里的團隊。后來,他轉去了美國電話電報公司(AT&T)在新澤西州霍姆德爾(Holmdel)的貝爾實驗室,在那里他創造了一個可以讀取信件上的手寫郵政編碼的網絡,采用修訂的美國國家標準與技術研究院(Modified National Institute of Standards and Technology,簡稱MNIST)數據庫作為一種標記數據基準。每天有數百萬封信件需要遞送到信箱里;而今天,這個過程是完全自動化的。同樣的技術也可以用來自動讀取ATM 機上銀行支票的金額。有趣的是,最難的部分其實是查找支票上數字的位置,因為每張支票都有不同的格式。早在20 世紀 80 年代,楊立昆就顯露出了證明原理(學者們擅長的事情)并將之應用在現實世界中的非凡天賦。后者要求實際產品必須經過嚴格的測試,且表現穩健。
卷積網絡的漸進式改進
楊立昆在2003 年去了紐約大學后,仍繼續開發他的視覺網絡,現在被稱為卷積網絡(ConvNet)(見圖9–2)。這個網絡的基本結構是基于卷積的,卷積可以被想象成一個小的滑動濾波器,在滑過整張圖像的過程中創建一個特征層。例如,過濾器可以是一個定向邊緣檢測器,就像第5 章中介紹的那樣,只有當窗口對準圖像中具有正確方向或紋理的對象的邊緣時,才會產生大數值輸出。盡管第一層上的窗口只是圖像中的一小塊區域,但由于可以有多個濾波器,因此在每個圖塊中都能得到許多特征信息。第一層中與圖像卷積的濾波器,與大衛·休伯爾和托斯坦·威澤爾在初級視覺皮層中發現的“簡單細胞”類似(見圖9–3)。更高層次的濾波器則對更復雜的特征做出響應。在卷積網絡的早期版本中,每個濾波器的輸出都要通過一個非線性的Sigmoid 函數(輸出從 0 平穩地增加到 1),這樣可以抑制弱激活單元的輸出(見方框7.2 中的Sigmoid 函數)。第二層接收來自第一層的輸入,第二層的窗口覆蓋了更大的視野區域,這樣經過多層之后,就會存在一些能接收整個圖像輸入的單元。這個最頂層就類似于視覺層級的頂層,在靈長類動物中被稱為“下顳葉皮層”,并且具有覆蓋大部分視野的感受野。接著,頂層的單元被送入分類層,與其中的所有分類單元連接,再采用反向傳播誤差的方式訓練整個網絡,對圖像中的對象進行分類。
(上圖)(a,b)視覺皮層中的層級結構,從視網膜輸入到初級視覺皮層(V 1),經過丘腦(RGC, LGN)到下顳葉皮層(PIT,CIT,AIT),展示了視覺皮層區域和卷積網絡中層次的對應關系。(下圖)(c)左側圖像作為輸入映射到第一個卷積層,后者由幾個特征平面組成,每個特征平面代表一個濾波器,類似在視覺皮層中發現的定向簡單單元。這些濾波器的輸出經過閾值處理并匯集到第一層,再進行歸一化處理,以便在小塊區域中產生不變的響應,類似于視覺皮層中的復雜細胞(圖中方框:線性—非線性層中的操作)。以上操作在網絡的每個卷積層上重復。輸出層與來自上一個卷積層的全部輸入具有全面的連接(每個輸出單元都有上一層全部單元的輸入)。
每個濾波器都作用于視野中的一小塊圖像區域。頂部三排中濾波器的優選刺激像視覺皮層中的簡單細胞一樣具有定向性。底部三排顯示的優選刺激經過了擴展,并具有復雜的形狀。
卷積網絡多年來一直在經歷許多漸進式改進。一個重要的補充,是將一個區域上的每個特征聚合起來,叫作“池化”(pooling)。這種操作提供了一種平移不變性(translation invariance)的量度,類似于由休伯爾和威澤爾在初級視覺皮層中發現的復雜細胞,能夠通過一個圖塊對整個視野中相同方向的線做出響應。另一個有用的操作是增益歸一化(gain normalization),就是調整輸入的放大倍數,使每個單元都在其操作范圍內工作,在皮層中是通過反饋抑制(feedbackinhibition)實現的。Sigmoid 輸出函數也被線性整流函數(rectifiedlinear units,簡稱ReLUs)取代。在輸入達到一個閾值之前這些單元的輸出都為零,超過閾值之后則輸出和輸入呈線性增長。該操作的優點在于:低于閾值的單元被有效地排除在網絡外,這更接近真實神經元中閾值的作用。
卷積網絡的每一個性能的改進,其背后都有一個工程師可以理解的計算理由。但有了這些變化,它越來越接近20 世紀 60 年代我們所了解的視覺皮層的體系結構,盡管當時我們只能去猜測簡單和復雜單元的功能是什么,或者層級結構頂部的分布式表征的存在意味著什么。這說明了生物學與深度學習之間存在相得益彰的共生關系的潛力。
當深度學習遇到視覺層級結構
加州大學圣迭戈分校的帕特里夏·丘奇蘭德不僅是心靈哲學家,同時也研究神經哲學。知識最終取決于大腦如何表達知識的說法,顯然沒有人阻止哲學家認為知識是獨立于世界而存在的一種東西,用伊曼努爾·康德(Immanuel Kant)的話來說,就是“Ding an sich”(物自身)。但同樣清楚的是,如果我們(和其他動物一樣)要在現實世界中生存,背景知識就是必不可少的。經過訓練的多層神經網絡的隱藏單元之間的活動模式,與被逐次記錄下的大量生物神經之間的活動模式存在顯著的相似性。受到這種相似性的驅動,帕特里夏和我在1992 年編寫了《計算腦》(The Computational Brain)一書,為基于大量神經元的神經科學研究開發了一個概念框架。(該書現在已經出到第二版了,如果你想更多地了解大腦式的運算,這會是一本很好的入門參考。)麻省理工學院的詹姆斯·狄卡羅(James DiCarlo)最近比較了猴子視覺皮層層級結構中不同神經元和深度學習神經網絡中的單元,訓練它們識別相同圖片中的對象,分別觀察它們的響應。他得出結論:深度學習網絡中每層神經元的統計特性,與皮層層級結構中神經元的統計特性非常接近。
深度學習網絡中的單元與猴子視覺皮層中神經元性能存在相似性,但其原因仍然有待研究,尤其是考慮到猴子的大腦不太可能使用反向傳播方式來進行學習。反向傳播需要將詳細的錯誤信號反饋給神經網絡每層中的每個神經元,其精度比生物神經網絡中已知反饋連接的精度要高得多。但其他學習算法在生物學上似乎更合理,例如玻爾茲曼機學習算法,該算法使用了已經在皮層中被發現的赫布突觸可塑性。這引出了一個有趣的問題,是否存在一種深度學習的數學理論,能夠適用于一大類學習算法(包括皮層中的那些)呢?在第7 章中,我提到了對視覺層級結構的上層分類表面的分析,其決策表面比更低層級的表面更平坦。對決策表面的幾何分析可能會引出對深度學習網絡和大腦更深入的數學理解。
深度學習神經網絡的一個優點是,我們可以從網絡中的每個單元提取“記錄”,并追蹤信息流從一層到另一層的轉變。然后可以將分析這種網絡的策略用于分析大腦中的神經元。關于技術的一個奇妙之處在于,技術背后通常都有一個很好的解釋,并且有強烈的動機來得到這種解釋。第一臺蒸汽發動機是由工程師根據他們的直覺建造的;解釋發動機如何工作的熱力學理論隨后出現,并且幫助提升了發動機的效率。物理學家和數學家對深度學習網絡的分析也正在順利進行著。
有工作記憶的神經網絡
自20 世紀 60 年代以來,神經科學已經走過了漫長的道路,從我們目前對大腦的了解中可以獲得很多東西。1990 年,帕特里夏·高德曼–拉奇克(Patricia Goldman-Rakic)訓練了一只猴子來記住一個地點,作為提示,該地點會短暫地被一盞燈照亮;她還訓練這只猴子在一段時間的延遲之后,把眼睛移動到被記住的地點。在記錄了猴子前額葉皮層的活動后,她在報告中提到,一些最初對提示做出回應的神經元在延遲期間仍然保持活躍狀態。心理學家把人類的這種活動稱為“工作記憶”,也正因為有了工作記憶,我們在執行任務(比如撥打電話號碼)時,能夠記住7±2 項內容。
傳統的前饋網絡將輸入傳到網絡中,一次傳播一層網絡。結合工作記憶,可以使后續的輸入與之前的輸入在網絡中留下的痕跡進行交互。例如,把法語句子翻譯成英文時,網絡中的第一個法語單詞會影響后續英語單詞的順序。在網絡中實現工作記憶的最簡單方法,是添加人類皮層中常見的循環連接。神經網絡中某一層內的循環連接和之前那些層的反饋連接,使得輸入的時間序列可以在時間上整合起來。
這種網絡在20 世紀 80 年代被探索并廣泛應用于語音識別。在實踐中,它在具有短程依賴性的輸入方面效果很好,但當輸入之間的時間間隔很長,輸入的影響會隨著時間的推移發生衰減,網絡性能就會變差。1997 年,賽普·霍克萊特(Sepp Hochreiter)和尤爾根·施密德胡博(Jürgen Schmidhuber)找到了一種方法來克服衰變問題,他們稱之為“長短期記憶”(long short-term memory,簡稱 LSTM)。默認情況下,長短期記憶會傳遞原始信息,而不會發生衰減(這就是猴子前額葉皮層的延遲期中發生的事情),并且它也有一個復雜的方案來決定如何將新的輸入信息與舊信息整合。于是,遠程依賴關系可以被選擇性地保留。神經網絡中這種工作記憶版本沉寂了長達20 年之久,直到它在深度學習網絡中再次被喚醒和實現。長短期記憶和深度學習的結合在許多依賴輸入輸出序列的領域都取得了令人矚目的成功,例如電影、音樂、動作和語言。
施密德胡博是位于瑞士南部提契諾州(Ticino)曼諾小鎮的 Dalle Molle 人工智能研究所的聯合主任。該小鎮靠近阿爾卑斯山,周圍有一些絕佳的徒步地點。神經網絡領域的這位頗具創造性、特立獨行的“羅德尼·丹澤菲爾德”相信他的創造力并沒有得到足夠的贊譽。
因此,在蒙特利爾舉辦的2015 年NIPS 會議的一次小組討論會上,他再次向與會人員介紹了自己,“我,施密德胡博,又回來了”。而在巴塞羅那舉行的2016 年 NIPS 大會上,他因培訓宣講人沒有對自己的想法給予足夠的關注,而打亂對方的演講長達5 分鐘。
2015 年,Kelvin Xu 及其同事在用一個深度學習網絡識別圖像中對象的同時,還連接了一個長短期記憶循環網絡來標注圖片。使用來自深度學習網絡第一遍識別的場景中所有對象作為輸入,他們訓練長短期記憶循環網絡輸出一串英文單詞,能夠形容一個標注中的場景。他們還訓練了長短期記憶網絡來識別圖像中的位置,使其對應于標注中的每個單詞。該應用令人印象深刻的地方在于,長短期記憶網絡從未被訓練來理解標注中句子的含義,只是根據圖像中的對象及其位置輸出一個語法正確的單詞串。通過分析長短期記憶網絡也許會引出一種新的語言理論,它將闡明網絡的工作原理和自然語言的性質。
深度學習為圖片做標注。頂部的一組圖片說明了分析照片的步驟。ConvNet( CNN)在第一步中標記了照片中的對象,并將其傳遞給循環神經網絡(RNN)。RNN 被訓練輸出適當的英文單詞串。底部的四組圖片則闡明了進一步細化的過程,即使用注意力(白色云)來表示照片中單詞的指示對象。
生成式對抗網絡
在第7章中,玻爾茲曼機被當作一個生成模型進行了介紹,當輸出被鉗制到一個它已訓練識別的類型中,并且其活動模式向下滲透到輸入層時,就可以產生新的輸入樣本。伊恩·古德費洛(Ian Goodfellow)、約書亞·本吉奧(Yoshua Bengio)和他們在蒙特利爾大學的同事們表示,可以訓練前饋網絡,在對抗的背景(adversarialcontext)下生成更好的樣本。一個生成卷積網絡可以通過嘗試欺騙另一個卷積神經網絡來訓練生成優質的圖像樣本,后者必須決定一個輸入的圖像是真實的還是虛假的。生成網絡的輸出被用來作為一個經過訓練的判別卷積網絡(discriminative convolutional network)的輸入,后者只給出一個單一的輸出:如果輸入是真實圖像,就返回1,否則返回0。這兩個網絡會相互競爭。生成網絡試圖增加判別網絡的錯誤率,而判別網絡則試圖降低自身的錯誤率。由這兩個目標之間的緊張關系產生的圖像,擁有令人難以置信的照片級的真實感。
生成式對抗網絡(GAN)。頂部的示意圖展示了一個卷積網絡,用于生成一組樣本圖像,經過訓練后可以欺騙判別卷積網絡。左邊的輸入是100 維的隨機選取的連續值向量,用來生成不同的圖像;輸入的向量隨后激活空間尺度逐層變大的濾波器層。下方的圖顯示了通過訓練來自單個類別照片的生成式對抗網絡產生的樣本圖像。
別忘了,這些生成的圖像是合成的,它們中的對象并不存在。它們是訓練集中未標記圖像的泛化版本。請注意,生成式對抗網絡是無監督的,這使得它們可以使用無限的數據。這些網絡還有許多其他應用,包括清除具有超高分辨率的星系天文圖片中的噪聲,以及學習表達富有情感的言語。
用面部圖片訓練的生成式網絡的輸入混合后,產生了輸出(左圖),然后通過添加或減去選定的輸入向量進行輸出,就創建出了混合后的圖像(右圖)。因為混合是在最高的表征層完成的,所以部位和姿勢是無縫接合的,并不會經過變形過程中那樣的平均處理。
通過慢慢地改變生成式網絡的輸入向量,有可能逐漸改變圖像,使得部件或零碎物品(如窗戶)逐漸顯現或變成其他物體(如櫥柜)。更值得關注的是,有可能通過添加和減去表示網絡狀態的向量以獲得圖像中對象的混合效果,如圖9–6 所示。這些實驗的意義在于,生成網絡對圖像中空間的表征,正如我們如何描述場景的各個組成部分。這項技術正在迅速發展,其下一個前沿領域是生成逼真的電影。通過訓練一個反復演繹的生成式對抗網絡,與類似瑪麗蓮·夢露這樣的演員參演的電影進行對比,應該有可能創造出已過世的演員出演的新作品。
這是米蘭的時裝周,衣著光鮮的模特們帶著超凡脫俗的表情在T臺上走秀。時尚界正在經歷暗潮涌動:“‘很多工作正在消失,’西爾維婭·文圖里尼·芬迪(Silvia Venturini Fendi)在她的時裝秀開場前說道,‘機器人會承擔舊的工作,但它們唯一無法取代的就是我們的創造力和思維。’”現在想象一下經過訓練的新一代對抗網絡,它們可以生產新款式和高級時裝,式樣幾乎無窮無盡。時尚界可能正處于一個新時代的邊緣,而許多其他依賴創意的行業也面臨著相同的處境。
應對現實社會的復雜性
當前的大多數學習算法是在25 年前開發的,為什么它們需要那么長的時間才能對現實世界產生影響呢?20 世紀 80 年代的研究人員使用的計算機和標記數據,只能證明玩具問題的原理。盡管取得了一些似乎頗有前景的成果,但我們并不知道網絡學習及其性能如何隨著單元和連接數量的增加而增強,以適應現實世界問題的復雜性。人工智能中的大多數算法縮放性很差,從未跳出解決玩具級別問題的范疇。我們現在知道,神經網絡學習的縮放性很好,隨著網絡規模和層數的不斷增加,其性能也在不斷增強。特別是反向傳播技術,它的縮放性非常好。
我們應該對此感到驚訝嗎?大腦皮層是哺乳動物的一項發明,在靈長類動物,尤其是人類中得到了高度發展。隨著它的擴展,更多的功能慢慢出現,并且更多層次被添加到了關聯區域,以實現更高階的表征。很少有復雜系統可以實現如此高級的縮放。互聯網是為數不多的已經被擴大了100 萬倍的工程系統之一。一旦通信數據包協議建立起來,互聯網就會開始進化,正如DNA 中的遺傳密碼使細胞演化成為可能一樣。
使用相同的一組數據訓練許多深度學習網絡,會導致生成大量不同的網絡,它們都具有大致相同的平均性能水平。我們想知道的是,所有這些同等優秀的網絡有哪些共同之處,而對單個網絡進行分析并不能揭示這一點。理解深度學習原理的另一種方法是進一步探索學習算法的空間;我們只在所有學習算法的空間中對幾個位置進行了抽樣嘗試。從更廣泛的探索中可能會出現一種學習計算理論,該理論與其他科學領域的理論一樣深奧,可能為從自然界中發現的學習算法提供更多的解釋。
蒙特利爾大學的約書亞·本吉奧,和楊立昆一起,接替杰弗里·辛頓,成為CIFAR 神經計算和NCAP 項目的主任,該項目在通過十年評估后更名為“機器學習和大腦學習”項目(Learning in Machines and Brains)。約書亞率領蒙特利爾大學的一個團隊,致力于應用深度學習來處理自然語言,這將成為“機器學習和大腦學習”項目新的研究重點。在十多年的會議中,這個由20 多名教師和研究員組成的小組開啟了深度學習的研究。過去5 年來,深度學習在過去難以解決的許多問題上取得了實質性進展,這些進展歸功于小組成員的努力,他們當然只是一個更龐大社區中的一小部分人。
約書亞·本吉奧是 CIFAR“機器學習和大腦學習”項目的聯合主任。這位在法國出生的加拿大籍計算機科學家,一直是應用深度學習處理自然語言問題這個領域的領導者。杰弗里·辛頓、楊立昆和約書亞·本吉奧所取得的進展,為深度學習的成功奠定了基礎。圖片來源:約書亞·本吉奧。
盡管深度學習網絡的能力已經在許多應用中得到了證明,但如果單靠自身,它們在現實世界中永遠都無法存活下來。29 它們受到了研究者的青睞,后者為其提供數據,調整超參數,例如學習速度、層數和每層中的單元數量,以改善收斂效果,還為其提供了大量計算資源。另一方面,如果沒有大腦和身體的其他部分提供支持和自主權,大腦皮層也無法在現實世界中存活。在一個不確定的世界中,這種支持和自主權是一個比模式識別更難解決的問題。
-
機器視覺
+關注
關注
163文章
4503瀏覽量
122104 -
圖像識別
+關注
關注
9文章
526瀏覽量
38869 -
卷積
+關注
關注
0文章
95瀏覽量
18677
原文標題:卷積學習與圖像識別的技術發展
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論