神經網絡的真實原理到底是什么?神經網絡語言處理工作原理又是如何?據悉有研究人員已經尋到了更好的解釋。
神經網絡通過分析大量的訓練數據來學習并執行任務,這是近期人工智能領域最令人印象深刻的進展,包括語音識別和自動翻譯系統。
然而,在訓練過程中,神經網絡以甚至其創造者都無法解釋的方式來不斷調整其內部設置。計算機科學最近的許多工作都聚焦于千方百計的弄清楚神經網絡的工作原理。
在最近的幾篇論文,來自麻省理工學院計算機科學人工智能實驗室(CSAIL)和卡塔爾計算研究所的研究人員已經使用了新開發的解釋技術,來分析神經網絡做機器翻譯和語音識別的訓練過程,該新技術已被應用于其他領域。
他們對神經網絡的工作原理有了基本認知。例如,這些系統似乎專注于較低級別的任務,如聲音識別或部分語音識別,然后再轉到更高級別的任務,如轉錄或語義解釋。
但是研究人員也發現了翻譯網絡處理數據類型的一個驚人的遺漏,他們指出糾正這種遺漏會提高網絡的性能。這種改進是適度的,但它指出了對神經網絡的分析可能有助于提高人工智能系統的準確性。
“從歷史角度看,在機器翻譯里,有一個具有不同層次的金字塔,” CSAIL一位高級研究科學家說。這位科學家在是麻省理工學院電氣工程和計算機科學的畢業生,曾參與Yonatan Belinkov項目?!痹谧畹蛯佑形淖?,表層形式,金字塔的頂層是一種語際表示,在做語法和語義時會達到不同的層次。這是一個非常抽象的概念,意思是你在金字塔中爬得越高,就越容易翻譯成一種新的語言,然后你就再往下走。所以Yonata所做的部分工作是找出在神經網絡中這種概念的會是什么樣的編碼?!?/p>
近期在國際自然語言處理聯合會議上發表了兩篇論文。Belinkov是第一作者,Glass是資深作者。另一篇,Belinkov是一個聯合作者。
他們都是來自卡塔爾計算研究所的研究人員,包括Lluís Màrquez,Hassan Sajjad,Nadir Durrani,Fahim Dalvi和Stephan Vogel。Belinkov和格拉斯是分析的語音識別系統的唯一作者。這篇文章是Belinkov上周神經信息處理會議上提出的。
分層處理
神經網絡之所以得名,是因為它們大致接近人腦的結構。通常,它們被分層,每個層由許多簡單的處理單元節點組成,每個節點都連接到上面和下面的層中的幾個節點。數據被送入最低層,其節點處理它并將其傳遞給下一層。層之間的連接具有不同的“權重”,它決定了任何一個節點的輸出轉化到到下一個節點的計算量是多少。
在訓練過程中,節點之間的權重不斷調整。在網絡被訓練后,它的創建者可以確定所有連接的權重,但有成千上萬個甚至多個節點,甚至它們之間有更多的連接,推斷出這些權重編碼的算法幾乎是不可能的。
麻省理工和卡塔爾計算研究所研究人員的技術包括訓練一個神經網絡和使用它的每一層的輸出,通過個別的培訓案例,培養其他的神經網絡來執行特定的任務。這使他們能夠確定每個層優化的任務是什么。
在語音識別網絡的案例中,Belinkov和Glass使用的單個層輸出訓練系統識別“語音”,區別于口語的發音單元。例如,“T”的發音在“Tea”“Tree”和“But”,是不同的,但語音識別系統已經把他們都用字母“T”轉錄。事實上,Belinkov和Glass發現,低層次的網絡比高層次網絡語言識別能力更強。在那里,可能區別是不重要的。
同樣的,Glass, Belinkov和他們卡塔爾計算研究所的同事于去年夏天在語言協會年度大會上發布的文章表明,機器翻譯網絡的低層善于識別詞類和形態,比如時態、數字和共軛。
語義理解
但是在新的論文中,他們表明網絡的更高層次在語義標注方面更好。Belinkov解釋說,一部分語音標簽,能認識到“herself”是一個代詞,但這個代詞的語義的意義,在句子“she bought the book herself”和“she herself bought the book”是不同的。語義標注會分配不同的標簽,給這兩句話中的“herself“,就像一個機器翻譯系統可能在一個給定的目標語言為它們找到不同的翻譯。
最好的機器翻譯系統使用所謂的編碼解碼模式,和麻省理工和卡塔爾計算研究所研究人員的神經網絡一樣。在這樣的系統中,源語言中的輸入經過幾個被稱為編碼器的網絡層來產生一個向量,一組數字代表某種輸入的語義內容。該向量通過多個網絡層的解碼器來產生目標語言中的譯文。
雖然編碼器和解碼器在一起訓練,但它們可以被認為是獨立的網絡。研究人員發現,奇怪的是,編碼器的低層善于區分形態,但解碼器的更高層不是。所以Belinkov和卡塔爾計算研究所研究人員在訓練網絡時,不僅僅根據翻譯的準確性,也根據目標語言中的形態分析來判定性能。從本質上講,他們迫使解碼器更好地區分形態。
使用這種技術,他們培訓網絡將英語翻譯成德語,發現其精度提高3%。這不是一個革命性的進步,但這表明,探尋神經網絡的本質可能不僅僅是一項學術活動。
評論