女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟在EMNLP2020上發(fā)表最新工作

深度學習自然語言處理 ? 來源:NLPCAB ? 作者:NLPCAB ? 2020-10-22 11:19 ? 次閱讀

來自:NLPCAB

句子表示在很多任務中都是重要的一環(huán)。尤其是在大數據量的場景下,很多場景都需要召回+排序兩個步驟,如果第一個環(huán)節(jié)沒有召回候選結果,那最后的排序模型再怎么優(yōu)秀也沒法給出正確答案。

今天就給大家介紹一個微軟在EMNLP2020上發(fā)表的最新工作,利用transformer生成更高質量的句子編碼。

雖然BERT式模型的出現解決了很多判別問題,但直接用無監(jiān)督語料訓練出的BERT做句子表示并不理想:

如果只取CLS,這個表示是針對NSP進行優(yōu)化的,表示的信息有限

如果取平均或最大池化,可能會把無用信息計算進來,增加噪聲

所以作者的改進目的是設計一個下游任務,直接優(yōu)化得到的句子embedding。

那怎么設計目標才能充分利用無監(jiān)督數據呢?

作者給出了一個巧妙的方法,就是用周邊其他句子的表示預測當前句子的token。

具體的做法是:先利用Transformer抽取句子表示,再對句子表示進行attention,選取相關的句子預測當前token。有點Hierarchical Attention的意思。

比如在預測上圖中最后一句的黃藍兩個token時,明顯第一句的信息就夠用了,那目標函數的設置會讓第一句的權重變大,也會讓抽取出的句子表示去包含這些信息。

接下來詳細介紹一下預訓練和精調的步驟,以及作者加入的其他tricks。

Cross-Thought模型

預訓練

下圖是預訓練的模型結構,計算的步驟是:

將段落按順序拆成獨立短句,通過12層Transformer(藍色半透明的矩形)分別進行編碼。在實際的預訓練中,每個sample包含500個長度為64的短句,batch size是128(16張V100)

取出 ... 等special token的輸出(大紅點)作為句子表示

把每列句子表示作為一個序列輸入到cross-sequence transformer(藍色弧線,每一列的cross-sequence transformer參數都不同),輸出attention分數加權后的新表示

將新的句子表示與第一步的token表示進行拼接,經過一層transformer,預測被mask的15%個token(每個句子都這么處理,圖中只畫了第一個句子的)

整體流程理解起來比較簡單,作者還用了一些額外的tricks提升效果:

為了抽取更多的信息,在句子開頭加入了多個占位token(之前BERT只有一個[CLS]),在實驗結論中發(fā)現5個占位的表現較好(但占位token的增加會加大計算量)

占位token的位置表示是固定的,而真實token是隨機從0-564中抽取連續(xù)的64個,這樣可以訓練更多的位置表示,方便之后對更長的序列進行編碼

精調

精調主要是考慮和下游任務的銜接。作者選擇了問答和句子對分類來驗證模型的表現。

對于問答任務,假設答案句子的表示都已經編碼好了:

輸入問題,經過12層Transformer得到問題表示

利用cross-sequence transformers,對問題表示與答案表示進行計算,得到各個答案的權重 (每列都會得到一個,作者對所有列取了平均)

根據gold answer的index m,計算Ranking loss(代表第0個答案的權重)

對于句子對分類任務比較簡潔,輸入兩個句子A和B:

分別對A和B進行編碼,取出句子表示,輸入cross-sequence transformers得到融合后的句子表示

將兩個句子的所有表示拼接起來,得到2Nxd的矩陣(N是占位token的個數,d是表示的維度)

把第二步得到的表示flatten,得到一個長度 2Nd 的一維向量,輸入到分類層

實驗效果

作者在不少數據集上都驗證了效果,單純從輸出句子表示的效果來看,不僅是句間關系還是問答的候選召回上都有不小的提升,尤其是召回:

除了指標對比外,作者還展示了兩個無監(jiān)督預訓練模型的打分結果:

總結

近兩年句子表示的研究越來越少了,因為句子表示經常用于句間關系判斷的任務,而交互式的判別顯然比雙塔效果要好。所以研究者們要不在研究更輕量的句間匹配模型(比如RE2、Deformer),要不就是繼續(xù)用BERT類模型做出更好的效果。但對于業(yè)界來說,句子表示在召回上的速度還是最快的,效果也比單純的字面匹配要好。

為了充分利用無監(jiān)督數據、得到更高質量的句子表示,Cross-Thought提供了一個新的預訓練思路:用句子表示預測token。同時也給我們展現出了它在候選召回上的巨大潛力,添加的額外cross-sequence transformer對速度的影響也不會太大。另外,作者只使用了wiki語料進行預訓練,如果有更多語料相信效果會更好。

目前源碼還未放出,希望開源社區(qū)的富有大佬們早日訓一個中文的Cross-Thought~

原文標題:【EMNLP2020】超越MLM,微軟打造全新預訓練任務

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6673

    瀏覽量

    105389
  • 函數
    +關注

    關注

    3

    文章

    4371

    瀏覽量

    64238

原文標題:【EMNLP2020】超越MLM,微軟打造全新預訓練任務

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    微軟科技重磅發(fā)布兩款企業(yè)級AI應用

    和智能體功能,旨在借助AI技術革新工作效率,助力企業(yè)的智能化轉型。新增功能涵蓋了定制化智能體、銷售自動化、客戶服務集成和ERP創(chuàng)新等。
    的頭像 發(fā)表于 05-12 15:32 ?229次閱讀

    晶科能源受邀擔任B20南非工業(yè)轉型與創(chuàng)新工作組聯席主席

    日前,作為唯一光伏企業(yè),晶科能源受邀擔任B20南非“工業(yè)轉型與創(chuàng)新工作組”的聯席主席。B20是G20的官方工商論壇,匯集了全球工商界塑造國際經濟政策方面的建言獻策,以推動可持續(xù)和包容性增長。
    的頭像 發(fā)表于 04-21 17:44 ?382次閱讀

    無人機消防巡檢的新工作日志

    ? ? ? ?無人機消防巡檢的新工作日志 ? ? ? ?二十層樓高的寫字樓外墻,盤旋著四個旋翼的銀色飛行器。它沿著建筑輪廓勻速移動,鏡頭對準每扇窗戶仔細掃描。這并非科幻電影場景,而是現代城市里每天
    的頭像 發(fā)表于 03-10 17:34 ?263次閱讀

    RT-Thread睿賽德出席中國工博會科技論壇,共話開源硬件與新工業(yè)革命

    行業(yè)領袖和技術專家,共同探討開源硬件推動新工業(yè)革命中的重要作用。RT-Thread睿賽德作為上海開源信息技術協會理事長單位出席本次論壇,并發(fā)表主題演講。RT-Th
    的頭像 發(fā)表于 01-22 18:53 ?446次閱讀
    RT-Thread睿賽德出席中國工博會科技論壇,共話開源硬件與<b class='flag-5'>新工</b>業(yè)革命

    芯盛智能榮獲2024年信息技術應用創(chuàng)新工作委員會卓越貢獻成員單位

    日前,中國電子工業(yè)標準化技術協會信息技術應用創(chuàng)新工作委員會(以下簡稱 “信創(chuàng)工委會”)2024 年度總結座談會于北京隆重舉行。此次會議對信創(chuàng)工作中作出突出貢獻的成員單位予以表彰。江蘇芯盛智能
    的頭像 發(fā)表于 01-20 09:56 ?531次閱讀

    微軟尋求365 Copilot中引入非OpenAI模型

    擔心企業(yè)用戶使用365 Copilot時面臨的成本和速度問題,因此正在尋求更多樣化的技術來源。盡管微軟與OpenAI之間有著緊密的合作關系,并允許微軟定制OpenAI的模型,但微軟
    的頭像 發(fā)表于 12-25 10:41 ?553次閱讀

    微軟美國面臨反壟斷調查

    近日,美國聯邦貿易委員會(FTC)宣布已正式對微軟公司啟動了一項廣泛的反壟斷調查。此次調查旨在深入了解微軟多個領域的市場行為,以判斷其是否存在濫用市場支配地位的行為。 據悉,調查內容涵蓋了
    的頭像 發(fā)表于 11-28 10:47 ?617次閱讀

    微軟發(fā)布Azure AI Foundry,推動云服務增長

    。 Azure AI Foundry為用戶提供了一個更為便捷的平臺,使得支持人工智能的大型語言模型之間切換變得輕松自如。這一創(chuàng)新工具的發(fā)布,無疑將極大地降低AI應用的開發(fā)門檻,進一步推動AI技術的普及與應用。 11月19日于
    的頭像 發(fā)表于 11-21 11:32 ?804次閱讀

    微軟東京開設日本首個研究基地

    近日,微軟東京正式啟用了其日本首個研究基地——微軟亞洲研究院東京分院。作為微軟全球技術實驗室網絡中的最新成員,該基地將專注于人工智能和機
    的頭像 發(fā)表于 11-19 16:26 ?534次閱讀

    NVIDIA ResearchECCV 2024展示多項創(chuàng)新成果

    米蘭舉行的歐洲計算機視覺國際會議 (ECCV) ,NVIDIA Research 展示了多項突破性的創(chuàng)新成果,共發(fā)表了 14 篇論文。
    的頭像 發(fā)表于 11-19 15:07 ?675次閱讀

    微軟高管談AI將如何改變工作方式

    企業(yè)領導者們渴望了解AI將如何改變工作方式,微軟愿意為他們提供所需的幫助。整個公司范圍內,智能 Copilot 副駕駛(國際版)已成為我們提升工作效率、重塑涵蓋客戶服務至銷售等多個環(huán)
    的頭像 發(fā)表于 11-15 14:00 ?625次閱讀

    經緯恒潤功能安全AI 智能體論文成功入選EMNLP 2024!

    近日,經緯恒潤智能體(AIAgent)領域再獲佳績,其論文《Aegis
    的頭像 發(fā)表于 10-18 08:00 ?633次閱讀
    經緯恒潤功能安全AI 智能體論文成功入選<b class='flag-5'>EMNLP</b> 2024!

    【P2020無法電】付費咨詢

    P2020RDB-PCA NXP加載Linux時卡死,斷電重啟后無法電。P2020通過TFTP的方式加載Linux鏡像和設備樹,一般情況下卡死后斷電可正常重啟并加載uboot,但某次斷電后再也
    發(fā)表于 10-16 10:55

    讓smartconfigESP-03運行,CWSMARTSTART不工作是哪里的問題?

    我正在嘗試讓 smartconfig ESP-03 運行。我已經從 github 存儲庫構建了最新的 android 應用程序。我正在使用 AT 0.50 (sdk 1.4.0)。 當我執(zhí)行
    發(fā)表于 07-17 08:18

    微軟禁止中國員工用安卓機

    近日,微軟全球范圍內推進的“安全未來計劃”中國市場引發(fā)了廣泛關注。據國外媒體報道,微軟已正式通知其中國地區(qū)的數百名員工,自今年9月起,工作
    的頭像 發(fā)表于 07-09 09:55 ?783次閱讀