女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

是時候結束BERT學了

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-14 20:48 ? 次閱讀

本文最初發表于 Medium 博客,經原作者 Walid Saba 博士授權,InfoQ 中文站翻譯并分享。

背 景

基于三個技術(理論上的、科學上的)原因,由數據驅動 / 定量 / 統計 / 機器學習的方法(我統稱為 BERT 學(BERTology)),是完全毫無希望的、徒勞的努力,至少在語言理解方面是如此。我明白,這是個很大的主張,特別是鑒于當前的趨勢、媒體的誤導性宣傳,以及科技巨頭們在這一完全有缺陷的范式上花費了巨額資金。正如我在自己的出版物、研討會和帖子中所反復提到的那樣,人們常常跟我說:“但是,所有那些人真的都錯了嗎?”好吧,現在我要統一地回答:“是的,他們確實可能都錯了?!蔽沂且詡ゴ蟮臄祵W家 / 邏輯學家波特蘭·羅素(Bertrand Russell)的智慧說出這番話的。羅素曾經這樣說過:

一個觀點已被廣泛持有的事實并不能證明它不是荒謬絕倫的。(The fact that an opinion has been widely held is no evidence whatsoever that it is not utterly absurd.)

然而,在開始之前,我們必須強調,我們的討論是針對 BERT 學在 NLU(自然語言理解,Natural Language Understanding)的使用,這里的“U”(Understanding,理解)是至關重要的,也就是說,正如下面將要闡述的那樣,BERT 學可能在某些自然語言處理任務中很有用(如文本摘要、搜索、關鍵短語提取、文本相似性和 / 或聚類等),因為這些任務都是以某種形式“壓縮”的,而機器學習能夠成功地應用于這些任務。但是,我們認為自然語言處理(本質上只是文本處理)和自然語言理解是截然不同的兩個問題?;蛟S就人類的思想理解而言,自然語言理解應該被人類思想理解(Human Thought Understanding,HuTU)所取代,因為自然語言理解涉及理解我們語言語句背后的思想(你可能也想閱讀這篇討論這一具體問題的短文《NLU 并非 NLP++》(NLU is not NLP++)。

因此,總結一下我們的介紹:我們在這里要辯護的主張是,BERT 學對自然語言理解來說是徒勞的(事實上,它是無關緊要的),而且這一主張并不涉及自然語言處理的某些任務,而只涉及到對特定于普通口語的真正理解,這種理解就像我們每天與甚至不認識的人、或者與沒有任何領域特定知識的年幼兒童進行交談時所做的那樣!

現在,我們可以開始談正事了。

MTP:文字缺失現象

讓我們首先從描述一種現象開始,這種現象是自然語言理解中所有挑戰的核心,我們稱之為“文字缺失現象”(Missing Text Phenomenon。MTP)。

語言交流:講者將思想“編碼”成某種語言的語句(使用某種語言),然后聽者將這個語言“解碼”成(希望)講者想要傳達的思想!這一過程就是自然語言理解中的“理解”,也就是說,理解語言語句背后的思想正是在解碼過程中所發生的事情。而這些恰恰是自然語言理解困難的原因。讓我來詳述。

在這種復雜的交流中,有兩種可能的優化或有效交流的方法:(i)講者可以壓縮(并最小化)在思想編碼中發送的信息量,并希望聽者在解碼(解壓縮)過程中做一些額外的工作;或者(ii)講者將做艱苦的工作并發送所有需要的信息來傳達思想,這將使聽者幾乎無事可做(有關此過程的完整描述,請參見此文《語言結構文化演變中的壓縮與交流》(Compression and communication in the cultural evolution of linguistic structure)。這一過程的自然演變,似乎已經形成了適當的平衡,使講者和聽者的總工作量都得到了優化。這種優化導致講者只需最少的可能信息進行編碼,而忽略了可以安全地假定為聽者可用的所有其他信息。我們往往忽略的信息通常是我們可以放心地認為講者和聽者都可用的信息,而這正是我們通常所說的共同背景知識的信息。

為了理解這一過程的復雜性,請考慮以下(未經優化)的交流:

顯然,我們肯定不會這樣交流。事實上,上述思想通常是這樣表達的:

這條短得多的信息,也就是我們通常說話的方式,傳達了與那條長信息相同的思想。因為我們都知道了,所以我們沒有明確地陳述所有其他的東西。

也就是說,為了有效地交流,我們不能假定我們都知道的東西!正因為如此,我們都會傾向于忽略同樣的信息——因為我們都知道每個人都知道什么,這就是“共同”背景知識。這種天才的優化過程,人類在大約 20 萬年的進化過程中發展起來的,并且非常有效,而這恰恰是因為我們都知道我們所知道的一切。在人工智能 / 自然語言理解領域中,問題就出在這里。機器并不知道我們遺漏了什么,因為它們不知道我們所知道的一切。那最終結果是什么?自然語言理解是非常困難的,因為一個軟件程序要想完全理解我們語言表達背后的意思,就必須能夠以某種方式“發現”人們在語言交流中假定和忽略的一切。實際上,這是自然語言理解面臨的挑戰(而不是解析、詞干分析、詞性標注等等)。事實上,自然語言理解面臨著一些眾所周知的挑戰——而這些問題在計算語言學中經常被提及。我在這里展示(只是其中的一部分)用紅色高亮顯示的缺失文字:

在自然語言理解中,所有上述眾所周知的挑戰都是源于這樣一個事實:即挑戰就是發現(或揭示)那些缺失的信息,并隱式地假定這些信息是共享的、共同的背景知識。

既然我們(希望如此)確信,由于文字缺失現象,自然語言理解是困難的,也就是說,因為我們日常話語中的普通口語被高度(如果不是最佳的話)壓縮,因此在“理解”方面的挑戰在于將缺失的文字進行解壓縮(或揭示),我可以說出第一個技術原因:為什么 BERT 學與自然語言理解不相關。

(機器)可學習性(ML)和可壓縮性(COMP)之間的等價性已經在數學上建立起來了。也就是說,已經確定了只有當數據是高度可壓縮的(即數據有大量冗余)時,才能從數據集中實現可學習性,反之亦然(參見這篇文章《從壓縮的角度談統計學習》(On statistical learning via the lens of compression)和 2019 年發表在《自然》(Nature)雜志上的重要文章《可學習性不可判定》(Learnability can be Undecidable)),但是文字缺失現象告訴我們,自然語言理解是一個關于解壓縮的問題。以下是我們所掌握的情況:

原因 1 證畢。

內涵(帶有“s”)

內涵(Intension)是我要討論的另一個現象,在我討論第二個證據之前,即 BERT 學甚至與自然語言理解不相關。我將從所謂的內涵三角形說起,如下面的例子所示:

所以,每一個“事物”(或者說每一個認知對象)都有三個部分:一個指代某一概念的符號,而這個概念(有時)有實例。有時候我會說,因為“獨角獸”這個概念并沒有“實際的”例子,至少在我們生活的世界里是如此!這個概念本身就是它所有潛在實例的理想化模板(因此它接近柏拉圖的理想化形式!)你可以想象,哲學家、邏輯學家和認知科學家如何在幾個世紀以來一直在爭論概念的本質及其定義方式。不管爭議有多大,我們都可以達成一個共識:一個概念(通常由某個符號 / 標簽所指代),是由一組屬性定義的,或許還包括公理和既定事實等。然而,概念并不同于實際(不完美的)實例。這同樣適用于完美的數學世界。因此,舉例來說,雖然下面的算術表達式都有同樣的擴展,但是它們的內涵卻不相同:

所以,雖然所有表達式的結果都為 16,因此在某種意義上是相等的(它們的VALUE),但這只是它們的一個屬性而已。事實上,上面的表達式還有其他一些屬性,比如其句法結構(這就是為什么 (a) 和 (d) 不同),運算符的數量,操作數的數量等等。VALUE(只是一個屬性)被稱為擴展,而所有屬性的集合就是內涵。而在應用科學(工程學、經濟學等等)中,如果它們的VALUE相等,我們就可以放心地認為它們是相等的,但在認知(尤其是語言理解)中,這種相等就失效了!下面是一個簡單的例子:

假定 (1) 為真,也就是說,假設 (1) 確實發生了,而且我們也親眼目睹了這一事實。不過,這并不意味著我們就可以假設 (2) 為真。盡管我們所做的只是將 (1) 中的“16”替換為(假定)等于它的值。那么發生了什么事兒?我們用一個假定與之相等的對象替換了一個真實語句中的一個對象,然后我們從真實的對象中推斷出了一些不真實的對象!事實是這樣的:盡管在自然科學中,我們可以輕易地用一個等于它的屬性來替換一個對象,但這在認知中卻是行不通的!下面是另一個示例:

通過簡單地將“the tutor of Alexander the Great”替換為閾值相等的值,即“Aristotle”,我們就得到了 (2),這顯然是荒謬的。同樣,雖然“the tutor of Alexander the Great”和“Aristotle”在某種意義上是等同的,但這兩個思想對象在許多其他方面卻是不同的。

我不再贅述對于什么是“內涵”,以及它在高級推理,尤其是在自然語言理解中的重要性。有興趣的讀者可以看看這篇短文《在自然語言理解中,忽視內涵,自負風險》(In NLU, you ignore intenSion at your peril),我在這篇文章曾引用過其他參考資料。

那么,從這場關于“內涵”的討論中,有哪些觀點呢?在自然語言中,內涵現象是非常普遍的,這是因為語言所傳達的思想對象具有不可忽視的內涵性。但是,在所有的變體中,語料庫都是一個純粹的外延擴展,只能處理擴展(數值),因此它不能對內涵進行建模或解釋,也就不能對語言中的各種現象進行建模。

原因 2 證畢。

順帶一提,BERT 學是一種純粹的可擴展范式,它并不能解釋“內涵”,這是深度學習中所謂的“對抗性樣本”的來源。這個問題與這樣一個事實有關:一旦張量(高維向量)合稱為一個張量,結果張量現在可以用無限多種方式分解為分量(這意味著分解是不可判定的),也就是說,一旦輸入張量合成,我們就失去了原始結構(簡單地說:10 可以是 2×5 的值,但也可以是 8+1+1 的結果,9+1+0 的結果等等)。神經網絡 總是 會受到對抗性樣本的攻擊,因為通過反向優化,我們總是可以在任何層上獲得預期的輸出,而不是從預期的組件獲得預期的輸出。但這是另外一個討論了,不在本文范疇之內。

統計學意義

虛詞是語料庫中最主要的統計學意義的問題之一,在語料庫中,虛詞只能被忽略,而被稱為“停用詞”。這些詞在每個上下文中都具有相同的概率,因此必須將其刪除,因為它們會擾亂整個概率空間。但是,不管 BERT 學家喜歡與否,虛詞都是那些最終將最終意義粘合在一起的詞??纯聪旅孢@對句子的區別就知道了。

在 (2a) 中,我們指的是 50 個組,而在 (2b) 中只有 1 個。我們如何理解量詞、介詞、情態動詞等,會極大改變目標語(和意圖)的意義,因此,如果不考慮虛詞的話,就不可能有任何真正的語言理解。而且,在 BERT 學中,這些虛詞也不能(適當地)進行建模。

我們本可以到此為止,那就是原因 3 證畢,我們證明了 BERT 學甚至與自然語言理解不相關。但是還有很多……

從本質上說,BERT 學是一種基于在數據中發現某種模式(相關性)的范式。因此,這種范式要求自然語言中的各種現象在統計學上存在顯著的差異,否則它們將被視為本質上是相同的。但是,要考慮以下幾點 [ 有關這些例子的討論,請參見《Winograd 模式挑戰》(The Winograd Schema Challenge)和《論 Winograd 模式:將語言理解置于數據 - 信息 - 知識連續體中》(On the Winograd Schema: Situating Language Understanding in the Data-Information-Knowledge Continuum),因為它與 Winograd 模式挑戰相關] :

請注意,像“small”和“big”(或“open”和“close”等)的反義詞 / 對立詞在相同的上下文中具有相等的概率。因此,(1a) 和 (1b) 在統計學上是等效的,但即使對于一個 4 歲的孩子 (1a) 和 (1b) 來說也有很大的不同:(1a) 中的“it”指的是“the suitcase”,而 (1b) 中的“it”指的是“the trophy”?;旧希诤唵蔚恼Z言中,(1a) 和 (1b) 在統計學上的等價的,盡管在語義上相距甚遠。因此,統計學分析并不能對語義進行建模(甚至近似也不能)——就這么簡單!

但是,讓我們看看,如果堅持使用 BERT 學來學習正確解析這類結構中的“it”,我們需要多少個樣本。首先,在 BERT 學中,并沒有類型的概念(也沒有任何符號知識)。因此,下面的情況都是不同的。

也就是說,在 BERT 學中,沒有類型層次結構允許我們將“big”、“suitcase”、“briefcase”等概括為“container”的所有子類型。因此,在純數據驅動的范式中,上述每一個都是不同的,必須分開來看。如果我們將上述模式的所有輕微句法差異加上語義差異(比如將“because”更改為“thought”,這也將正確的指稱項更改為“it”),那么粗略的計算就會告訴我們,BERT 學系統將需要類似上述的 4 千萬個變體,而所有這些僅僅是為了在 (1) 中的結構中解析類似“it”的指稱項。假如有的話,這在計算上是不可信的。正如 Fodor 和 Pylyshyn 曾經引用著名的認知科學家 George Miller 的名言:為了捕捉自然語言理解系統所需要的所有句法和語義變化,神經網絡可能需要的特征數量比宇宙中的原子數量還要多![我會向任何對認知科學感興趣的讀者推薦這篇經典而精彩的論文:《聯結主義與認知架構:批判性分析》(Connectionism and Cognitive Architecture: A: Critical Analysis)]。

為總結本節,自然語言中通常沒有統計學意義上可以解釋不通的解釋,而這正是因為證明統計顯著性所需的信息并不在數據中,而是在其他地方可以獲得的信息,在上面的例子中,所需的信息是這樣的:not(FIT(x,y)),則 LARGER(y,x) 比 LARGER(x,y) 更有可能。簡而言之,BERT 學中唯一的信息來源必須是可以從數據中獲得的信息,但通常正確解釋所需的信息并不在數據中,你甚至都找不到數據中不存在的信息。

至此,原因 3 證畢。

結 語

我已經討論了三個原因,證明了 BERT 學甚至與自然語言理解不相關(盡管它可能在本質上是壓縮任務的文本處理任務)。以上三個原因中的每一個都足以讓這列名為 BERT 學的失控列車停下來。
自然語言可不僅僅是數據!

本文轉自 公眾號:AI前線 ,作者Walid Saba

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48645

    瀏覽量

    246141
  • 自然語言
    +關注

    關注

    1

    文章

    291

    瀏覽量

    13594
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    將DMACB寄存器中的RC位設置為1來在DMA傳輸結束時重新加載計數器,什么時候將需要重新加載的值存儲在FM3中?

    我嘗試通過將 DMACB 寄存器中的 RC 位設置為 1 來在 DMA 傳輸結束時重新加載計數器。 什么時候將需要重新加載的值存儲在 FM3 中? - 當我將 1 寫入 EM 位時是否如此
    發表于 04-30 07:33

    易靈思2025 FPGA技術研討會北京站圓滿結束

    易靈思2025FPGA技術研討會北京站于4月10日在北京麗亭華苑酒店圓滿結束!本次研討會吸引了來自全國各地的行業專家、工程師及企業代表踴躍參與,現場座無虛席,氣氛熱烈。
    的頭像 發表于 04-16 09:14 ?428次閱讀

    為什么學了C語言,卻寫不出像樣的項目?

    一些問題:學了不少語法,指針、數組、結構體都能看懂,但一到真正寫程序時就不知道該如何下手;看了不少教程,甚至能背下來一些代碼模板,但遇到新問題時還是會卡住;想做個完整的
    的頭像 發表于 03-14 17:37 ?333次閱讀
    為什么<b class='flag-5'>學了</b>C語言,卻寫不出像樣的項目?

    請問ADS7864采樣結束怎么控制?

    看了ADS7864的手冊,采樣開始是通過將HOLDX引腳拉低引起的,那么采樣結束是不是要將HOLDX引腳拉高啊?采樣時間(決定采多少個點)是不是就是下降沿與上升沿之間的間隔?
    發表于 01-16 07:24

    調試ADS1258過程中,當START輸入高電平的時候, /DRDY信號一直為高,無低電平輸出,為什么?

    在調試ADS1258過程中,配置都是正確的了,但是當START輸入高電平的時候, /DRDY信號一直為高,無低電平輸出,這問題怎么分析,沒什么頭緒,芯片配置正常后,應該啟動START為高的時候,轉換結束后/DRDY就應該有低電
    發表于 12-27 06:42

    初始化ADS1255的時候,總是不能正確配置寄存器,怎么解決?

    ,所否一定要在ADS1255的一次轉換結束ready拉低后,才可以配置? 2、在寫SYNC命令的時候,是否也一定要在一次轉換結束ready拉低后,才進行寫?寫SYNC命令后,是否要延時一段時間,才寫
    發表于 12-03 07:41

    高壓容器實驗結束后如何處理

    1. 實驗結束后的初步檢查 安全檢查 :確保所有實驗人員都已撤離到安全區域。 設備檢查 :檢查高壓容器是否有泄漏、變形或其他損壞的跡象。 2. 壓力釋放 緩慢減壓 :逐漸降低容器內的壓力,避免因壓力
    的頭像 發表于 10-17 10:19 ?1777次閱讀

    內置誤碼率測試儀(BERT)和采樣示波器一體化測試儀器安立MP2110A

    BERTWave MP2110A是一款內置誤碼率測試儀(BERT)和采用示波器的一體化測量儀器,支持光模塊的誤碼率(BERT)測量、眼圖模式測試、眼圖分析等評估操作
    的頭像 發表于 09-23 14:34 ?728次閱讀
    內置誤碼率測試儀(<b class='flag-5'>BERT</b>)和采樣示波器一體化測試儀器安立MP2110A

    M8020A J-BERT 高性能比特誤碼率測試儀

    M8020A 比特誤碼率測試儀 J-BERT M8020A 高性能 BERT 產品綜述 Keysight J-BERT M8020A 高性能比特誤碼率測試儀能夠快速、準確地表征傳輸速率高達 16 或
    的頭像 發表于 08-21 17:13 ?427次閱讀

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調制格式越來越復雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業界領先的高帶寬、高采樣率的AWG和高性能的BERT。
    的頭像 發表于 08-06 17:27 ?1132次閱讀

    消息稱三星電子與Naver將結束AI加速芯片開發合作

    據韓國媒體最新報道,三星電子與韓國互聯網巨頭Naver在AI加速器開發領域的合作關系即將迎來重大轉折。雙方共同研發的Mach-1芯片即將面世,而這也意味著雙方長達一段時間的緊密合作將在Mach-1推出后實質結束。
    的頭像 發表于 08-06 11:15 ?677次閱讀

    鎧俠結束NAND閃存減產,工廠開工率已恢復至100%

    隨著存儲器市場的逐步復蘇,日本半導體巨頭鎧俠(Kioxia)已正式結束其NAND閃存減產策略。這一戰略調整基于市場需求增長和公司財務狀況的改善。
    的頭像 發表于 06-20 11:29 ?1125次閱讀

    SPEA合作伙伴會議圓滿結束

    圓滿結束。SPEAhostedasuccessfulmeetingwithkeysalespartnersfromtheSouthEuropeandMediter
    的頭像 發表于 06-13 08:27 ?659次閱讀
    SPEA合作伙伴會議圓滿<b class='flag-5'>結束</b>

    自己收集的最新AD版本的軟件與學習教程,感覺很實用,我學了幾天就上手干活了。

    本帖最后由 jf_44510017 于 2024-6-20 17:26 編輯 自己收集的最新AD版本的軟件與學習教程,感覺很實用,我學了幾天就上手干活了。特分享給大家。 鏈接:https
    發表于 06-08 14:57

    迪文科技2024世環會之行圓滿結束

    迪文科技2024世環會之行圓滿結束
    的頭像 發表于 06-06 08:13 ?555次閱讀
    迪文科技2024世環會之行圓滿<b class='flag-5'>結束</b>