阿基米德基于對物體體積的抽象理解,悟到了物體的體積與物體浮力之間的關系。這就是抽象推理的魔力。基于神經網絡的機器學習模型取得了驚人的成績,但是測量其推理抽象概念的能力卻是非常困難的。雖然人工智能已經可以在策略游戲的對戰中戰勝人類,但是卻在一些簡單任務方面“無能為力”,特別是需要在新環境中發現并重新構建抽象概念。
舉個例子,如果你只訓練AI計算三角形的屬性,那么,你訓練的AI系統永遠無法計算正方形或者其他沒有訓練過的形狀的屬性。
又比如下邊這道簡單的IQ測試題。
IQ測試給了DeepMind靈感,是不是也能用其測量AI的推理能力呢?
在以往解決通用學習系統努力的基礎上,DeepMind最新論文提出了一種如何測量機器模型認知能力的方法,并表達了關于泛化的一些重要見解。
要構建更好、更智能的系統,使得神經網絡能夠處理抽象概念,需要對其進行改進。
此方法的靈感來源于IQ測試。
創建抽象推理數據集
標準的人類智商測試中,通常要求測試者通過應用他們日常經驗學習的原則來解釋感知上簡單的視覺場景。
例如,人類測試者可能已經通過觀察植物或建筑物的增長,通過在數學課上學習加法,或通過跟蹤銀行余額獲取利息增長的情況來了解“漸進”(一些屬性能夠增加的概念)。
然后把這些感性認識上升到理性認識,從而對測試題進行推斷預測,例如圖形的數量、大小,甚至沿著序列增加顏色強度。
現在機器學習仍然無法理解一些看似簡單的“日常體驗”,這意味著,人類無法輕易地衡量AI將知識從現實世界轉移到視覺推理測試的能力。
基于此認知,DeepMind設計一個實驗,希望使人類視覺推理測試得到很好的利用。這一研究不是從日常生活到視覺推理問題(如人類測試)的知識轉移,而是研究知識從一組受控的視覺推理問題轉移到另一組問題。
為實現這一目標,DeepMind構建了一個用于創建矩陣問題的生成器,涉及一組抽象因子,包括“漸進”之類的關系以及“顏色”和“大小”等屬性。 雖然問題生成器使用了一小組潛在因子,但它仍然會產生大量獨特的問題。
接下來,DeepMind約束生成器可用的因子或組合,以便創建用于訓練和測試模型的不同問題集,以度量模型可以推廣到留存的測試集的程度。
例如,創建了一組謎題訓練集,其中只有在應用于線條顏色時才會遇到漸進關系,而在應用于形狀大小時會遇到測試集。如果模型在該測試集上表現良好,它將提供推斷和應用抽象概念的能力的證據,即使在之前從未見過進展的情況下也是如此。
有希望的抽象推理證據
在機器學習評估中應用的典型的泛化機制中,訓練和測試數據來自于相同的基礎分布,測試的所有網絡都表現出良好的泛化誤差,其中一些在略高于75%的情況下實現了令人印象深刻的絕對性能。性能最佳的網絡明確地計算了不同圖像面板之間的關系,并且并行地評估了每個潛在答案的適用性。DeepMind將此架構稱為Wild RelationNetwork(WReN)。
當需要在先前看到的屬性值之間使用屬性值“插值”來推理,以及在不熟悉的組合中應用已知的抽象關系時,模型的泛化效果顯著。然而,在“外推”機制中,同樣的網絡表現得糟糕得多,在這種情況下,測試集中的屬性值并不與訓練中看到的值處于相同的范圍內。
這種事情發生在當訓練集中有深顏色的物體而測試集中是淺顏色的物體的謎題中。當模型被訓練來應用以前所見的關系(比如形狀的數量)到一個新的屬性(如大小)時,泛化性能也會更糟。
最后,當訓練模型不僅預測正確的答案,而且還預測答案的“原因”(即應該考慮解決這個難題的特定關系和屬性)時,DeepMind稱觀察到了改進的泛化性能。
有趣的是,在中性分割中(the neutral split),模型的準確性與它推斷矩陣下正確關系的能力密切相關:當解釋正確時,模型會選擇當時正確的答案的概率為87%,但當它的解釋錯誤時,性能下降到只有32%。這表明,當模型正確地推斷出任務背后的抽象概念時,能夠獲得更好的性能。
更微妙的泛化方法
目前的文獻關注于基于神經網絡的機器學習方法的優缺點,通常是基于它們的能力或泛化的失敗。DeepMind的結果表明,得出關于泛化的普遍結論可能是沒有幫助的:測試的神經網絡在某些泛化狀態下表現得很好,而在其他狀態下表現得很差。
它們的成功是由一系列因素決定的,包括所使用的模型的架構,以及模型是否被訓練為其選擇的答案提供可解釋的“原因”。在幾乎所有的情況下,當需要推斷出超出其經驗的輸入或處理完全陌生的屬性時,系統表現很差;在這個至關重要的研究領域為未來的工作創造一個清晰的重點。
-
神經網絡
+關注
關注
42文章
4809瀏覽量
102829 -
AI
+關注
關注
87文章
34294瀏覽量
275480 -
DeepMind
+關注
關注
0文章
131瀏覽量
11385
原文標題:學界 | DeepMind想用IQ題測試AI的抽象思維能力,進展還不錯
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
當我問DeepSeek AI爆發時代的FPGA是否重要?答案是......
生成式AI推理技術、市場與未來

評論