大部分人不會喜歡遺忘的感覺。回到家順手把鑰匙丟在一個角落就再也想不起來放在哪兒了,街角偶遇一個同事卻怎么拍腦袋也叫不出他的名字……我們害怕遺忘,討厭遺忘。
然而,生而為人,健忘其實是種關鍵能力。對于人類而言,遺忘絕不僅僅是“想不起來”,而是一個幫助大腦吸收新信息并鍛煉有效決策的積極過程。現(xiàn)在,數(shù)據(jù)科學家們正在嘗試應用神經(jīng)科學原理來改進機器學習,并且堅信人類大腦能夠解鎖圖靈完備的人工智能。
人腦為什么需要遺忘
我們的大腦被普遍認作為信息過濾器。先放入一大堆亂七八糟的數(shù)據(jù),篩選有用的信息,然后清理任何不相關的細節(jié),用以陳述故事或作出決策。清除沒用的細節(jié)是為了給新數(shù)據(jù)騰出儲存空間,類似在計算機上運行磁盤清理。
用神經(jīng)生物學的術語來說,遺忘發(fā)生于神經(jīng)元之間的突觸連接減弱或者消失之時,同時隨著新神經(jīng)元的發(fā)育,他們又會重新連接海馬回路,覆蓋現(xiàn)有記憶。
對于人類來說,遺忘有兩個好處:
通過減少過時信息對我們決策的影響來增強靈活性
防止過度擬合過去的特定事件和促進概括能力
為了有效地適應環(huán)境,人類需要有策略性遺忘的能力。
計算機也需要遺忘?
計算機的遺忘與人類的不同,這是人工智能面臨的一大挑戰(zhàn)。深度神經(jīng)網(wǎng)絡在完成機器學習任務方面非常成功,但它們的遺忘方式也與我們不一樣。
舉一個簡單的例子,如果你教一個講英語的孩子學習西班牙語,這個孩子會在學習過程中應用英語學習的技巧,比如名詞、動詞動態(tài)、句子建立方法等。同時他會忘記那些不相關的部分,比如口音、嘟囔、語調等。如此,這個孩子可以在策略性遺忘的同時逐漸學習和建立新的思維方式。
相比之下,如果你已經(jīng)訓練了一個神經(jīng)網(wǎng)絡去學習英語,那么它的參數(shù)則已經(jīng)適應了英語問題的解法。此時你要教它學習西班牙語,它就會生成新的適應系統(tǒng)并覆蓋以前為學習英語所獲得的知識,刪除所有內容并重新開始。這被稱作“災難性遺忘”,并被認為是“神經(jīng)網(wǎng)絡的一個根本局限”。
雖然這還是一個新領域,最近科學家們已經(jīng)在探索克服這種限制的潛在理論,并取得了長足的進步。
3個方法教AI學會遺忘
長短期記憶網(wǎng)絡(LSTM)
LSTM是一種循環(huán)神經(jīng)網(wǎng)絡,它使用特定的學習機制來決定在任意一個節(jié)點哪些信息需要記住,哪些需要更新,哪些需要關注。
LSTM工作機制如何?一個簡單的解釋是拿電影來做類比:假設一個計算機正在嘗試通過分析先前的場景來預測電影中接下來會發(fā)生的事。一個場景是一個女人拿著一把刀,計算機會猜測她是一個廚師還是兇手呢?另一個場景中,一個女人和一個男人在金色拱門下吃壽司:計算機會猜他們是在日本還是麥當勞呢?或者其實他們是在圣路易斯?
大拱門是美國圣路易斯的標志性建筑
LSTM通過以下3步提升神經(jīng)網(wǎng)絡:
遺忘/記憶
“當場景結束,模型應該忘記當前場景的位置,所處時間,并重置任何特定場景的信息;然而,如果場景中的一個角色死亡了,機器則應該繼續(xù)記住他不再活著的事實。因此,我們希望機器能學習掌握一個相互獨立的遺忘/記憶機制,這樣當新信息進來時,它知道什么觀念該保留什么該丟棄。”
——Edwin Chen
保存
當模型看到一張新圖像,它需要了解這個圖像是否有什么信息值得被使用和保存。如果一個女人在某個場景中路過廣告牌,機器應該記住這個廣告牌還是將其視作噪聲數(shù)據(jù)忽略掉呢?
劃重點
我們可能需要記住電影中的這個女人是個母親這一信息點,因為我們稍后會看見她的孩子們,但是這個信息在她不出現(xiàn)的場景里可能并不重要,所以在那些場景里我們不需要重點關注。同樣,并非所有存儲在神經(jīng)網(wǎng)絡的長期記憶中的內容都是立即相關的,所以LSTM所做的就是在安全保存所有信息備用的同時,幫助決定哪一部分在哪一時刻被重點關注。
彈性權重固化(EWC)
EWC是由谷歌旗下DeepMind的研究人員于2017年3月創(chuàng)建的一種算法,旨在模擬一種被稱為突觸整合的神經(jīng)科學過程。在突觸整合過程中,我們的大腦評估一項任務,計算許多用于執(zhí)行任務的神經(jīng)元的重要性,同時權衡哪些神經(jīng)元對正確執(zhí)行任務更為重要。
這些關鍵的神經(jīng)元被編譯為重要的,并且在隨后的任務中相對不可能被覆蓋。同樣,在神經(jīng)網(wǎng)絡中,多個連接(如神經(jīng)元)被用于執(zhí)行任務。EWC將一些連接編譯為至關重要的,從而保護他們不被覆蓋/遺忘。
在下面的圖表中,你可以看到研究人員將EWC應用于Atari游戲時發(fā)生了什么。藍線表示標準的深度學習過程,紅線及棕線則由EWC提供以顯示改進后的結果:
瓶頸理論
瓶頸理論由耶路撒冷希伯來大學的計算機科學家和神經(jīng)科學家Naftali Tishby在2017年秋提出。這個構想是,網(wǎng)絡擺脫了嘈雜的無關細節(jié)的輸入數(shù)據(jù),就好比用瓶頸將信息擠壓,只保留與基本概念最相關的特征。
Tishby解釋說,神經(jīng)網(wǎng)絡經(jīng)歷了兩個階段的學習——擬合與壓縮。在擬合過程中,網(wǎng)絡標記其訓練數(shù)據(jù);而在更漫長的壓縮過程中,它“丟棄關于數(shù)據(jù)的信息,只跟蹤最強大的特征”,也即是那些最能幫助它泛化的特征。通過這種方式,壓縮成為策略性遺忘的一種方式,掌控這一瓶頸也可能成為AI研究人員用于構建未來更強大神經(jīng)網(wǎng)絡的新目標和體系的一個工具。
正如Tishby所說:“遺忘才是學習過程中最重要的一部分。”
人類大腦和遺忘的過程中,有可能藏著通往強AI的密碼。但科學家們仍在上下求索。
-
計算機
+關注
關注
19文章
7632瀏覽量
90214 -
AI
+關注
關注
87文章
34274瀏覽量
275463
原文標題:教機器遺忘或許比學習更重要:讓AI健忘的三種方式
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
【「零基礎開發(fā)AI Agent」閱讀體驗】+讀《零基礎開發(fā)AI Agent》掌握扣子平臺開發(fā)智能體方法
【「零基礎開發(fā)AI Agent」閱讀體驗】+ 入門篇學習
飛騰+天津大學,飛騰產教融合案例獲 “2024年度電子信息產教融合典型案例”

AI端側部署開發(fā)(SC171開發(fā)套件V3)
AI演進的核心哲學:使用通用方法,然后Scale Up!

評論