女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

揭秘Prompt的前世今生

自然語言處理愛好者 ? 來源:RUC AI Box ? 作者:閔映乾 ? 2021-09-01 10:28 ? 次閱讀

作者|閔映乾機構|中國人民大學信息學院碩士方向 | 自然語言處理 來自 | RUC AI Box

導讀:本文目標是對近期火爆異常的Prompt相關研究作一些追溯和展望,內容主要參考論文《Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing》,并摻雜了筆者的一些個人見解,歡迎大家積極討論~

論文的arxiv鏈接如下:

https://arxiv.org/abs/2107.13586

一、Prompt的產生和興起

近幾年來,有關預訓練語言模型(PLM)的研究比比皆是,自然語言處理(NLP)也借著這股春風獲得了長足發展。尤其是在2017-2019年間,研究者們的重心逐漸從傳統task-specific的有監督模式轉移到預訓練上。基于預訓練語言模型的研究思路通常是“pre-train, fine-tune”,即將PLM應用到下游任務上,在預訓練階段和微調階段根據下游任務設計訓練對象并對PLM本體進行調整。

隨著PLM體量的不斷增大,對其進行fine-tune的硬件要求、數據需求和實際代價也在不斷上漲。除此之外,豐富多樣的下游任務也使得預訓練和微調階段的設計變得繁瑣復雜,因此研究者們希望探索出更小巧輕量、更普適高效的方法,Prompt就是一個沿著此方向的嘗試。

融入了Prompt的新模式大致可以歸納成”pre-train, prompt, and predict“,在該模式中,下游任務被重新調整成類似預訓練任務的形式。例如,通常的預訓練任務有Masked Language Model, 在文本情感分類任務中,對于 “I love this movie.” 這句輸入,可以在后面加上prompt “The movie is ___” 這樣的形式,然后讓PLM用表示情感的答案填空如 “great”、“fantastic” 等等,最后再將該答案轉化成情感分類的標簽,這樣以來,通過選取合適的prompt,我們可以控制模型預測輸出,從而一個完全無監督訓練的PLM可以被用來解決各種各樣的下游任務。

因此,合適的prompt對于模型的效果至關重要。大量研究表明,prompt的微小差別,可能會造成效果的巨大差異。研究者們就如何設計prompt做出了各種各樣的努力——自然語言背景知識的融合、自動生成prompt的搜索、不再拘泥于語言形式的prompt探索等等,筆者將會在第三節進行進一步討論。

二、什么是Prompt

Prompt剛剛出現的時候,還沒有被叫做Prompt,是研究者們為了下游任務設計出來的一種輸入形式或模板,它能夠幫助PLM“回憶”起自己在預訓練時“學習”到的東西,因此后來慢慢地被叫做Prompt了。

對于輸入的文本,有函數,將轉化成prompt的形式,即:

該函數通常會進行兩步操作:

使用一個模板,模板通常為一段自然語言,并且包含有兩個空位置:用于填輸入的位置和用于生成答案文本的位置。

把輸入填到的位置。

還用前文提到的例子。在文本情感分類的任務中,假設輸入是

“ I love this movie.”

使用的模板是

“ [X] Overall, it was a [Z] movie.”

那么得到的就應該是 “I love this movie. Overall it was a [Z] movie.”

在實際的研究中,prompts應該有空位置來填充答案,這個位置一般在句中或者句末。如果在句中,一般稱這種prompt為cloze prompt;如果在句末,一般稱這種prompt為prefix prompt。和的位置以及數量都可能對結果造成影響,因此可以根據需要靈活調整。

另外,上面的例子中prompts都是有意義的自然語言,但實際上其形式并不一定要拘泥于自然語言。現有相關研究使用虛擬單詞甚至直接使用向量作為prompt,筆者將會在第三節講到。

下一步會進行答案搜索,顧名思義就是LM尋找填在處可以使得分數最高的文本 。最后是答案映射。有時LM填充的文本并非任務需要的最終形式,因此要將此文本映射到最終的輸出。例如,在文本情感分類任務中,“excellent”, “great”, “wonderful” 等詞都對應一個種類 “++”,這時需要將詞語映射到標簽再輸出。

三、Prompt的設計

Prompt大致可以從下面三個角度進行設計:

Prompt的形狀

手工設計模板

自動學習模板

Prompt的形狀

Prompt的形狀主要指的是和的位置和數量。上文提到過cloze prompt和prefix prompt的區別,在實際應用過程中選擇哪一種主要取決于任務的形式和模型的類別。cloze prompts和Masked Language Model的訓練方式非常類似,因此對于使用MLM的任務來說cloze prompts更加合適;對于生成任務來說,或者使用自回歸LM解決的任務,prefix prompts就會更加合適;Full text reconstruction models較為通用,因此兩種prompt均適用。另外,對于文本對的分類,prompt模板通常要給輸入預留兩個空,和。

手工設計模板

Prompt最開始就是從手工設計模板開始的。手工設計一般基于人類的自然語言知識,力求得到語義流暢且高效的模板。例如,Petroni等人在著名的LAMA數據集中為知識探針任務手工設計了cloze templates;Brown等人為問答、翻譯和探針等任務設計了prefix templates。手工設計模板的好處是較為直觀,但缺點是需要很多實驗、經驗以及語言專業知識,代價較大。

自動學習模板

為了解決手工設計模板的缺點,許多研究開始探究如何自動學習到合適的模板。自動學習的模板又可以分為離散(Discrete Prompts)和連續(Continuous Prompts)兩大類。離散的主要包括 Prompt Mining, Prompt Paraphrasing, Gradient-based Search, Prompt Generation 和 Prompt Scoring;連續的則主要包括Prefix Tuning, Tuning Initialized with Discrete Prompts 和 Hard-Soft Prompt Hybrid Tuning。

離散Prompts

自動生成離散Prompts指的是自動生成由自然語言的詞組成的Prompt,因此其搜索空間是離散的。目前大致可以分成下面幾個方法:

Prompt Mining. 該方法需要一個大的文本庫支持,例如Wikipedia。給定輸入和輸出,要找到和之間的中間詞或者依賴路徑,然后選取出現頻繁的中間詞或依賴路徑作為模板,即“[X] middle words [Z]”。

Prompt Paraphrasing. Paraphrasing-based方法是基于釋義的,主要采用現有的種子prompts(例如手動構造),并將其轉述成一組其他候選prompts,然后選擇一個在目標任務上達到最好效果的。一般的做法有:將提示符翻譯成另一種語言,然后再翻譯回來;使用同義或近義短語來替換等。

Gradient-based Search. 梯度下降搜索的方法是在單詞候選集里選擇詞并組合成prompt,利用梯度下降的方式不斷嘗試組合,從而達到讓PLM生成需要的詞的目的。

Prompt Generation. 既然Prompt也是一段文本,那是否可以用文本生成的方式來生成Prompt呢?該類方法就是將標準的自然語言生成的模型用于生成prompts了。例如,Gao等人將T5引入了模板搜索的過程,讓T5生成模板詞;Ben-David 等人提出了一種域自適應算法,訓練T5為每個輸入生成一種唯一的域相關特征,然后把輸入和特征連接起來組成模板再用到下游任務中。

Prompt Scoring. Davison等人在研究知識圖譜補全任務的時候為三元組輸入(頭實體,關系,尾實體)設計了一種模板。首先人工制造一組模板候選,然后把相應的[X]和[Z]都填上成為prompts,并使用一個雙向LM給這些prompts打分,最后選取其中的高分prompt。

連續Prompts

既然構造Prompt的初衷是能夠找到一個合適的方法,讓PLM更“聽話”地得出我們想要的結果,那就不必把prompt的形式拘泥于人類可以理解的自然語言了,只要機器可以理解就好了。因此,還有一些方法探索連續型prompts——直接作用到模型的embedding空間。連續型prompts去掉了兩個約束條件:

模板中詞語的embedding可以是整個自然語言的embedding,不再只是有限的一些embedding。

模板的參數不再直接取PLM的參數,而是有自己獨立的參數,可以通過下游任務的訓練數據進行調整。

目前的連續prompts方法大致可以分為下面幾種:

Prefix Tuning. Prefix Tuning最開始由Li等人提出,是一種在輸入前添加一串連續的向量的方法,該方法保持PLM的參數不動,僅訓練合適的前綴(prefix)。它的形式化定義是,在給定一個可訓練的前綴矩陣和一個固定的參數化為的PLM的對數似然目標上進行優化。

141c316e-fd9a-11eb-9bcf-12bb97331649.png

其中

146d48ba-fd9a-11eb-9bcf-12bb97331649.png

指的是所有神經網絡層在第i個時間步的連接。如果對應的時間步在前綴中,則它可以直接從前綴矩陣中復制過來;否則需要使用PLM進行計算。

類似地,Lester等人在輸入序列前面加上特殊的token來組成一個模板,然后直接調整這些token的embedding。 和上面的Prefix Tuning的方法相比,他們的方法相對來說參數較少,因為沒有在每一層網絡中引入額外的參數。

Tuing Initialized with Discrete Prompts. 這類方法中連續prompts是用已有的prompts初始化的,已有的prompts可以是手工設計的,也可以是之前搜索發現的離散prompts。Zhong 等人先用一個離散prompt搜索方法定義了一個模板,然后基于該模板初始化虛擬的token,最后微調這些token的embedding以提高準確率。

Hard-Soft Prompt Hybrid Tuning. 這類方法可以說是手工設計和自動學習的結合,它通常不單純使用可學習的prompt模板,而是在手工設計的模板中插入一些可學習的embedding。Liu等人提出了“P-Tuning”方法,通過在input embedding中插入可訓練的變量來學習連續的prompts。

并且,該方法使用BiLSTM的輸出來表示prompt embeddings,以便讓prompt tokens之間有一定的交互。P-tuning還引入了任務相關的anchor tokens(例如關系提取中的“capital”)來進一步提高效果,這些anchor tokens不參與后續的調優。

Han等人提出了Prompt Tunning with Rules(PTR)方法,使用手工指定的子模板按照邏輯規則組裝成完整的模板。為了增強生成的模板的表示能力,該方法還插入了幾個虛擬token,這些虛擬token的embeddings可以和PLM的參數一起被調整,PTR的模板token既有實際token也有虛擬token 。實驗結果證明了該方法在關系分類任務中的有效性。

四、Prompt的挑戰與展望

盡管Prompt相關研究搞得如火如荼,但目前仍存在許多問題,值得研究者們去探索。

Prompt的設計問題。目前使用Prompt的工作大多集中育分類任務和生成任務,其它任務則較少,因為如何有效地將預訓練任務和prompt聯系起來還是一個值得探討的問題。另外,模板和答案的聯系也函待解決。模型的表現同時依賴于使用的模板和答案的轉化,如何同時搜索或者學習出兩者聯合的最好效果仍然很具挑戰性。

Prompt的理論分析和可解釋性。盡管Prompt方法在很多情況下都取得了成功,但是目前prompt-based learning的理論分析和保證還很少,使得人們很難了解Prompt為什么能達到好的效果,又為什么在自然語言中意義相近的Prompt有時效果卻相差很大。

Prompt在PLM debias方面的應用。由于PLM在預訓練過程中見過了大量的人類世界的自然語言,所以很自然地受到了影響。拿一個簡單的例子來說,可能不太恰當,比如說訓練語料中有很多的“The capital of China is ”Beijing.“,導致模型認為下次看到”capital“ 的時候都會預測出”Beijing“,而不是著重看到底是哪個國家的首都。

在應用的過程中,Prompt還暴露了PLM學習到的很多其它bias,比如種族歧視、恐怖主義、性別對立等等。已有相關研究關注是否可以利用Prompt來對這些bias進行修正,但還處在比較初級的階段,這也會是一個值得研究的方向。

五、引用

[1] Liu P, Yuan W, Fu J, et al. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing[J]。 arXiv preprint arXiv:2107.13586, 2021.

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PLM
    PLM
    +關注

    關注

    2

    文章

    135

    瀏覽量

    21298
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22476
  • prompt
    +關注

    關注

    0

    文章

    15

    瀏覽量

    2745

原文標題:NLP新寵——淺談Prompt的前世今生

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    火力全開,ModbusTCP/RTU轉ethernet ip協議網關的不同應用大揭秘

    火力全開,ModbusTCP/RTU轉ethernet ip協議網關的不同應用揭秘
    的頭像 發表于 05-22 10:22 ?87次閱讀
    火力全開,ModbusTCP/RTU轉ethernet ip協議網關的不同應用大<b class='flag-5'>揭秘</b>

    一文詳解無線電波的前世今生

    在忙碌一天后,您回到裝有智能家居設備的家里。手機會自動連接到本地網絡,室內溫度也很舒適,不冷也不熱。當您坐在最喜歡的沙發上,插上耳機準備聆聽一首動聽的樂曲的時候,家里人走過來讓您連接設備共享給他一些文件。在這個等待傳輸過程中,你被一臺曾經屬于你祖母的舊收音機吸引了目光。剎那間,一切都悵然若失了,你瞥見了過去,回想著過去十年的林林總總,那時還沒有這些短程無線技術。
    的頭像 發表于 03-14 17:56 ?608次閱讀
    一文詳解無線電波的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>

    從銅絲迷宮到指尖宇宙:揭秘PCBA加工的起源故事

    將銅絲纏繞成復雜的蛛網——這是現代PCBA最早的胚胎 , ** 那么今天四川英特麗小編就來PCBA的前世今生吧。 戰爭催生的電路革命 : 1943年深秋的倫敦空襲中,雷達作員瓊斯發現設備頻繁失靈。潮濕的地下工事里,手工焊接的電路接頭像受
    的頭像 發表于 02-26 10:19 ?279次閱讀

    開源項目是怎么練成的:Horizen EDA 的前世今生

    “ ?很多人都知道 KiCad,但 Horizen 卻鮮有人知。同樣是開源的 PCB工具,為什么有了 KiCad 之后還要做 Horizen 呢?Lucas 的演講讓我感慨良多,分享給大家。? ” ? 有興趣的小伙伴可以先看下作者 Lucas 在 FOSDEM 上的演講: Horizen 簡介 和 KiCad 一樣,Horizen 也是一個 PCB 設計套件,包括元器件管理、原理圖繪制和 PCB Layout。 Horizen EDA 是 GPL3 的 License,官網的地址在這里: https://horizon-eda.org/ Github 的倉庫在這里: https://github.com/horizon-eda/horizon 有意思的是,Horizen最核
    的頭像 發表于 02-19 19:29 ?505次閱讀
    開源項目是怎么練成的:Horizen EDA 的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>

    物聯網智能——家用智能控制系統的“前世今生

    ?物聯網是基于互聯網延伸和擴展的網絡,將各種信息傳感設備與互聯網結合起來實現在任何時間、任何地點,人、機、物的互聯互通。而家用智能控制系統在物聯網的放大之下,在安防、監控、家用設備控制方面從服務范圍到方式,都有了很大的提升,提高了人們的生活質量。 ? 離線語音電動窗簾開關 ??????家用智能控制系統是指在無人干預的情況下能自主地驅動智能機器實現控制目標的自動控制技術,借助網絡將復雜的控制效果智能化計算和分析
    的頭像 發表于 02-14 15:27 ?305次閱讀
    物聯網智能——家用智能控制系統的“<b class='flag-5'>前世</b><b class='flag-5'>今生</b>”

    安泰功率放大器應用:納米材料的前世今生

    ,因此在各個領域具有廣泛的應用前景。那么你知道納米材料是如何被發現,又是如何走入我們的生活,獲得長足發展的嗎?今天Aigtek安泰電子帶大家詳細了解一下。 納米材料的前世今生 1861年,隨著膠體化學的建立,科學家們開始了對直徑為
    的頭像 發表于 01-02 14:05 ?394次閱讀
    安泰功率放大器應用:納米材料的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>

    深入了解Java泛型——從前世今生到PECS原則

    本文主要介紹泛型誕生的前世今生,特性,以及著名PECS原則的由來。 在日常開發中,必不可少的會使用到泛型,這個過程中經常會出現類似“為什么這樣會編譯報錯?”,“為什么這個列表無法添加
    的頭像 發表于 11-21 11:45 ?465次閱讀
    深入了解Java泛型——從<b class='flag-5'>前世</b><b class='flag-5'>今生</b>到PECS原則

    400Hz中頻電源前世今生未來

    400Hz中頻電源是一種能夠產生頻率為400Hz的交流電的裝置,過功率電子器件對電網提供的工頻交流電進行整流、濾波、逆變等一系列處理,最終輸出穩定的400Hz交流電。400Hz中頻電源廣泛用于航空、軍事等領域,具有輸入輸出電壓穩定、頻率響應快等特點,能高效節能,易于集成控制,應用于航空、船舶、鐵路、醫療等領域。
    的頭像 發表于 11-08 09:41 ?823次閱讀

    AI對話魔法 Prompt Engineering 探索指南

    作者:京東物流 李雪婷 一、什么是 Prompt Engineering? 想象一下,你在和一個智能助手聊天,你需要說出非常清晰和具體的要求,才能得到你想要的答案。Prompt
    的頭像 發表于 11-07 10:11 ?1331次閱讀
    AI對話魔法 <b class='flag-5'>Prompt</b> Engineering 探索指南

    帶你揭秘:功率放大器的前世今生~

    關于功率放大器功率放大器,作為一種可放大交直流信號,在給定失真率條件下,能產生最大功率輸出以驅動某一負載的實驗室儀器,在MEMS測試、超聲波測試、電磁場驅動、無線電能傳輸、院校電子實驗測試等領域都有良好應用,那么你知道功放的發展史嗎?今天Aigtek就給大家分享一下~功率放大器發展史功率放大器的發展史可以追溯至20世紀初,隨著電子技術的不斷進步,功率放大器也
    的頭像 發表于 11-07 08:00 ?2005次閱讀
    帶你<b class='flag-5'>揭秘</b>:功率放大器的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>~

    揭秘共模電感漏感對使用有影響嗎

    電子發燒友網站提供《揭秘共模電感漏感對使用有影響嗎.docx》資料免費下載
    發表于 09-30 14:45 ?1次下載

    LDO噪聲揭秘

    電子發燒友網站提供《LDO噪聲揭秘.pdf》資料免費下載
    發表于 09-21 09:13 ?0次下載
    LDO噪聲<b class='flag-5'>揭秘</b>

    DM368 NAND Flash啟動揭秘

    電子發燒友網站提供《DM368 NAND Flash啟動揭秘.pdf》資料免費下載
    發表于 08-27 09:22 ?0次下載
    DM368 NAND Flash啟動<b class='flag-5'>揭秘</b>

    揭秘中國汽車芯片市場:主要企業有哪些?

    揭秘中國汽車芯片市場:主要企業有哪些?
    的頭像 發表于 07-19 10:12 ?824次閱讀
    <b class='flag-5'>揭秘</b>中國汽車芯片市場:主要企業有哪些?

    EMC大揭秘 PCB設計必備指南

    EMC大揭秘 PCB設計必備指南
    的頭像 發表于 06-15 16:29 ?3381次閱讀
    EMC大<b class='flag-5'>揭秘</b> PCB設計必備指南