女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于VQVAE的長文本生成 利用離散code來建模文本篇章結構的方法

深度學習自然語言處理 ? 來源:瀾舟科技 楊二光 ? 作者:瀾舟科技 楊二光 ? 2022-12-01 17:07 ? 次閱讀

寫在前面

近年來,多個大規模預訓練語言模型 GPT、BART、T5 等被提出,這些預訓練模型在自動文摘等多個文本生成任務上顯著優于非預訓練語言模型。但對于開放式生成任務,如故事生成、新聞生成等,其輸入信息有限,而要求輸出內容豐富,經常需要生成多個句子或段落,在這些任務上預訓練語言模型依然存在連貫性較差、缺乏常識等問題。本次與大家分享一篇建模長文本篇章結構的工作,用以提升生成文本的連貫性。

論文題目

《DISCODVT: Generating Long Text with Discourse-Aware Discrete Variational Transformer》

論文作者

Haozhe Ji, Minlie Huang

論文單位

清華大學

論文鏈接

https://github.com/cdjhz/DiscoDVT,EMNP2021/

1

動機(Motivation)

文本的全局連貫性一般表現為:

內容表達的流暢度;

內容之間的自然過渡。

如下圖示例文本中的話語關系詞(after, then, and, but 等),這些篇章關系詞將連續的文本片段(text span)進行合理安排,從而形成結構、邏輯較好的文本。雖然預訓練語言模型在關聯與主題相關的內容時表現較好,但用好的篇章結構來安排內容仍然存在很多挑戰。針對此問題,研究者提出建模文本內部片段與片段之間的篇章關系,利用篇章結構指導生成,以期能夠改進生成文本的連貫性。

19a5cdd6-6cc3-11ed-8abf-dac502259ad0.png

圖 1 EDU片段和篇章關系示例

2

方法(Method)

任務定義

首先,長文本生成的任務可以定義為:給定輸入 ,模型自動生成的過程,即。 基于以上的討論,該工作基于 VQVAE 的方法提出 DiscoDVT(Discourse-aware Discrete Variational Transformer),首先引入一個離散code序列,學習文本中每個局部文本片段(span)的高層次結構,其中每一個從大小為的 code vocabulary 中得到。隨后作者進一步提出一個篇章關系預測目標,使離散 code 能夠捕獲相鄰文本片段之間顯式的篇章關系,比如圖 1 中的篇章關系,after,then 等。 整個方法包括后驗網絡、生成器和先驗網絡,使用類似 VAE 的學習目標,該方法通過最大化 ELBO 來優化。 19c45ac6-6cc3-11ed-8abf-dac502259ad0.png ? 訓練過程分為兩個階段:

第一階段聯合訓練后驗網絡和生成器,使后驗網絡根據推導出離散的code序列,其中要求能夠學習到的高層次結構,生成器則根據和 code 序列重構;

第二階段訓練先驗網絡,使其能夠根據,預測離散 code 序列。

兩階段訓練完成之后,在生成階段,先驗網絡首先根據預測離散 code 序列,隨后用于指導生成文本,中帶有篇章結構信息,因此能夠提升生成文本的連貫性。

學習離散隱變量

19dbfe56-6cc3-11ed-8abf-dac502259ad0.png

圖 2 模型整體框架 這部分主要解決如何學習隱變量 code 序列,使其能夠保留文本的篇章結構。模型框架如上圖所示,在編碼階段,首先使用編碼器編碼得到語境化的表示,隨后使用 CNN 和 Discrete Variational Bottleneck 技術得到離散 code 序列;在解碼階段,首先使用 transposed cnn 將 code embedding 序列的長度重新調整到文本的長度,然后添加到解碼器的嵌入層中進行 step-wise 的控制,重構生成。重構生成的優化目標能夠使離散 code 序列保存文本中高層次的結構信息。 具體計算過程如下: 定義 code vocabulary 的大小為,以及隨機初始化的 code embedding matrix 為:

首先使用 Bart encoder 編碼得到語境化的表;

為了抽象出與文本的全局結構相對應的 high-level feature, 使用多層 CNN 對進行卷積操作,得到 span-level 的表示;

隨后使用 Discrete Variational Bottleneck 技術獲得離散 code。具體地,將 CNN 的輸出線性映射到離散空間:

訓練階段通過 gumbel-softmax 方法采樣得到 soft categorical distribution : 隨后 categorical distribution 與相乘得到 code embedding 。 在推理階段則通過 argmax 方式得到離散 code 序列:

為了使每個 code 能夠指導局部文本的生成,首先利用 Transposed CNN 網絡(與步驟2中使用的CNN對稱),將code embedding 重新調整到。(這里類似上采樣的操作,將離散的 code embedding 序列的長度,恢復到原始文本的長度,可以看到的長度恢復為。)之后,與解碼器輸入的 token embedding 相加用于重構文本。重構優化目標如下:

篇章關系建模 為了將文本的篇章結構抽象為 latent representation,作者設計了一個輔助的篇章關系感知目標,將篇章關系嵌入到離散化的 code 中。使用 bi-affine 建模相鄰 EDU 片段和的篇章關系,使得和EDU 片段對應的 latent representation 能夠預測出兩者之間的篇章關系。 最大化下述的對數概率: 其中,和分別表示第個和個EDU 片段的隱表示(latent representation)。 正則化隱變量 此外,作者在前期的實驗中發現模型傾向于僅利用這個 code vocabulary 中少量的離散 code,這種現象會損害離散 code 的表達能力。為了鼓勵模型盡可能等概率的利用離散 code,作者還引入基于熵的正則方法。
訓練目標 在第一階段中,聯合上述的幾個優化目標來訓練后驗網絡和生成器,總的優化目標為: 離散 code 學習完成之后,作者使用額外的一個基于編碼-解碼的先驗網絡來學習給定條件下離散 code 的先驗分布,優化目標如下: 這里因為離散 code 已經學習完成,得到后驗網絡,對于原始的數據集 中的每一個,可以通過后驗網絡得到離散 code 序列,從而形成一個數據集,該數據集用于訓練先驗網絡。

3

實驗

數據集

作者在公開的故事生成數據集 WritingPrompts 和 Wikiplots 數據集上評測所提方法,數據統計信息如下表所示。

1a0d0528-6cc3-11ed-8abf-dac502259ad0.png

baseline 模型對比

對比的 baseline 模型如下:

Seq2Seq:它是采用與 Bart 相同框架的編碼-解碼模型,沒有經過預訓練;

Bart:采用預訓練 Bart 模型,并在下游數據集上對其微調;

Bart-LM:同樣采用預訓練 Bart 模型,先使用 bookcorpus 數據對其繼續訓練,隨后在下游數據集進行微調;

BART-CVAE:基于 CVAE 的框架,引入連續隱變量到 Bart 模型,將隱變量加到解碼器的 embedding 層指導生成文本;

Aristotelian Rescoring:它采用內容規劃的方法,給定輸入,它首先生成一個基于SRL 的情節,然后根據情節打分模型修改情節,最后基于修改的情節生成文本。

結果分析

下表展示了所有模型在兩個數據集的自動評測結果。

1a3d7b18-6cc3-11ed-8abf-dac502259ad0.png

可以看到,在兩個數據集上,在基于參考的指標上,DiscoDVT 生成的文本獲得最高的n-gram 重疊度(BLEU)和相似度(MSJ)。多樣性方面,DiscoDVT 在 distinct 指標上略微低于 BART-CVAE,這里作者進一步檢查了 BART-CVAE 的生成文本,發現BART-CVAE 會生成不出現在參考文本中的虛假單詞,從而提高了多樣性。在重復度方面,由于 DiscoDVT 使用了 step-wise 的控制,因此 rep-有較大幅度領先。 基于規劃的方法 AR 可以獲得較高的多樣性,但在基于參考的指標上 BLEU、MSJ、rB 上的結果較低,這可能是多階段方法中的暴露偏差,對生成質量有負面影響。

1a682fa2-6cc3-11ed-8abf-dac502259ad0.png

人工評測結果顯示,在生成文本的連貫性和信息度方面,大多數 DiscoDVT 生成文本的質量要優于 BART, BART-LM 和 BART-CAVE baseline。

1aaf3fc8-6cc3-11ed-8abf-dac502259ad0.png

如上圖所示,作者進一步對學習的 code 進行分析,可以發現離散的 code 確實能夠學習到篇章關系,比如 and, so, when, however 等。

1ace09b2-6cc3-11ed-8abf-dac502259ad0.png

作者利用 discourse marker classifification 任務評測生成的篇章關系詞是否正確,如上圖所示。在讓步、因果、時序和連接 4 種篇章關系上,DiscoDVT 生成文本中的篇章關系準確率最高,說明 DiscoDVT 生成的文本在篇章關系上質量更好。當去掉篇章關系建模的優化目標,生成的篇章關系準確率有明顯下降,從而證明了篇章關系建模方法的有效性。

4

結語

本次分享展示了一種利用離散 code 來建模文本篇章結構的方法。該方法引入一個離散 code 序列學習文本的篇章結構,隨后采用 step-wise 解碼指導生成文本。為了建模顯式的篇章關系,作者進一步提出了篇章關系建模優化目標。自動評測和人工評測結果證明了該方法的有效性。對于 code 的分析實驗驗證了離散 code 確實能夠保留篇章關系的信息。

文本連貫性是自然語言生成的重要課題,目前改進的方法包括基于規劃、建模高層次結構等方面,主要流程是首先生成文本大綱,再根據大綱生成完整的文本,其中大綱可以由關鍵詞序列或者事件序列構成。整體來看,長文本生成中的篇章結構建模還仍不夠成熟,存在諸多問題,期待未來有更多的工作取得改進。

作者來自:瀾舟科技楊二光 在此特別鳴謝!

北京交通大學自然語言處理實驗室四年級博士生,導師為張玉潔教授,研究方向為可控文本生成、復述生成、故事生成。在瀾舟科技實習期間主要從事長文本生成、營銷文案生成等課題。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Code
    +關注

    關注

    0

    文章

    70

    瀏覽量

    15699
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    15929
  • cnn
    cnn
    +關注

    關注

    3

    文章

    354

    瀏覽量

    22627
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22477
  • edu
    edu
    +關注

    關注

    0

    文章

    15

    瀏覽量

    1849

原文標題:基于 VQVAE 的長文本生成

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    如何構建文本生成器?如何實現馬爾可夫鏈以實現更快的預測模型

    文本生成器簡介文本生成在各個行業都很受歡迎,特別是在移動、應用和數據科學領域。甚至新聞界也使用文本生成輔助寫作過程。在日常生活中都會接觸到一些文本
    發表于 11-22 15:06

    三菱Q系列PLC編程手冊(結構文本篇

    Q系列PLC編程手冊(結構文本篇
    發表于 03-07 18:00 ?39次下載

    KUKA-C4機器人如何導出/導入長文本

    字段文字。 長文本可導出到一個 U 盤或機器人數據窗口的網絡存檔路徑欄位中所確定的目錄里。相同的目錄也作為導入來源使用。 僅限于導入: 1.長文本名稱在 TXT 或 CSV 文件中。 2.文件的結構確保文件可導入。 從
    的頭像 發表于 12-23 17:11 ?4702次閱讀

    如何優雅地使用bert處理長文本

    這是今年清華大學及阿里巴巴發表在NIPS 2020上的一篇論文《CogLTX: Applying BERT to Long Texts》,介紹了如何優雅地使用bert處理長文本。作者同時開源了
    的頭像 發表于 12-26 09:17 ?9070次閱讀
    如何優雅地使用bert處理<b class='flag-5'>長文本</b>

    給KUKA-C4機器人導入長文本方法

    字段文字。 長文本可導出到一個 U 盤或機器人數據窗口的網絡存檔路徑欄位中所確定的目錄里。相同的目錄也作為導入來源使用。 僅限于導入: 1.長文本名稱在 TXT 或 CSV 文件中。 2.文件的結構確保文件可導入。 從
    的頭像 發表于 02-09 13:49 ?2177次閱讀
    給KUKA-C4機器人導入<b class='flag-5'>長文本</b><b class='flag-5'>方法</b>

    面向搜索的微博短文本語義建模方法綜述

    面向搜索的微博短文本語義建模方法綜述
    發表于 06-24 14:30 ?3次下載

    文本生成任務中引入編輯方法文本生成

    4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出的文本生成
    的頭像 發表于 07-23 16:56 ?1913次閱讀
    <b class='flag-5'>文本生成</b>任務中引入編輯<b class='flag-5'>方法</b>的<b class='flag-5'>文本生成</b>

    受控文本生成模型的一般架構及故事生成任務等方面的具體應用

    來自:哈工大訊飛聯合實驗室 本期導讀:本文是對受控文本生成任務的一個簡單的介紹。首先,本文介紹了受控文本生成模型的一般架構,點明了受控文本生成模型的特點。然后,本文介紹了受控文本生成
    的頭像 發表于 10-13 09:46 ?3789次閱讀
    受控<b class='flag-5'>文本生成</b>模型的一般架構及故事<b class='flag-5'>生成</b>任務等方面的具體應用

    基于GPT-2進行文本生成

    文本生成是自然語言處理中一個重要的研究領域,具有廣闊的應用前景。國內外已經有諸如Automated Insights、Narrative Science以及“小南”機器人和“小明”機器人等文本生成
    的頭像 發表于 04-13 08:35 ?5120次閱讀

    KUKA-C4機器人導出/導入長文本

    長文本導出中生成的文件,已自動具有相應結構,確保其可被重新導入。如果應手動將名稱寫入一個文件,則建議首先在機器人控制系統中分配幾個虛擬長文本,然后導出并將名稱寫入文件。
    的頭像 發表于 07-26 15:55 ?2717次閱讀

    MELSEC Q/L結構體編程手冊(結構文本篇)

    MELSEC-Q/L結構體編程手冊(結構文本篇) 產品規格書
    發表于 08-25 14:33 ?2次下載
    MELSEC Q/L<b class='flag-5'>結構</b>體編程手冊(<b class='flag-5'>結構</b>化<b class='flag-5'>文本篇</b>)

    ETH提出RecurrentGPT實現交互式超長文本生成

    RecurrentGPT 則另辟蹊徑,是利用大語言模型進行交互式長文本生成的首個成功實踐。它利用 ChatGPT 等大語言模型理解自然語言指令的能力,通過自然語言模擬了循環神經網絡(RNNs)的循環計算機制。
    的頭像 發表于 05-29 14:34 ?1087次閱讀
    ETH提出RecurrentGPT實現交互式超<b class='flag-5'>長文本生成</b>

    面向結構化數據的文本生成技術研究

    今天我們要講的文本生成是現在最流行的研究領域之一。文本生成的目標是讓計算機像人類一樣學會表達,目前看基本上接近實現。這些突然的技術涌現,使得計算機能夠撰寫出高質量的自然文本,滿足特定的需求。
    的頭像 發表于 06-26 14:39 ?891次閱讀
    面向<b class='flag-5'>結構</b>化數據的<b class='flag-5'>文本生成</b>技術研究

    Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

    今天,Meta發布了Code Llama,一款可以使用文本提示生成代碼的大型語言模型(LLM)。
    的頭像 發表于 08-25 09:06 ?1831次閱讀
    Meta發布一款可以使用<b class='flag-5'>文本</b>提示<b class='flag-5'>生成</b>代碼的大型語言模型<b class='flag-5'>Code</b> Llama

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現,取決于你是否愿意在本地運行模型或者使用現成的API
    的頭像 發表于 10-27 14:21 ?952次閱讀