女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

檢索增強(qiáng)型語(yǔ)言表征模型預(yù)訓(xùn)練

Tensorflowers ? 來(lái)源:TensorFlow ? 2020-09-27 14:50 ? 次閱讀

自然語(yǔ)言處理的最新進(jìn)展以 無(wú)監(jiān)督預(yù)訓(xùn)練 為基礎(chǔ),使用大量文本訓(xùn)練通用語(yǔ)言表征模型 (Language Representation Models),無(wú)需人工標(biāo)注或標(biāo)簽。這些預(yù)訓(xùn)練模型,如 BERT和 RoBERTa,經(jīng)證明可以記憶大量世界知識(shí),例如“the birthplace of Francesco Bartolomeo Conti”、“the developer of JDK”和“the owner of Border TV”。

RoBERTa
https://arxiv.org/abs/1907.11692

經(jīng)證明可以記憶大量世界知識(shí)
https://arxiv.org/pdf/1909.01066.pdf

雖然知識(shí)編碼能力對(duì)于某些自然語(yǔ)言處理任務(wù)(如問(wèn)題回答、信息檢索和文本生成等)尤為重要,但這些模型是 隱式地 記憶知識(shí),也就是說(shuō)世界知識(shí)在模型權(quán)重中以抽象的方式被捕獲,導(dǎo)致已存儲(chǔ)的知識(shí)及其在模型中的位置都難以確定。此外,存儲(chǔ)空間以及模型的準(zhǔn)確率也受到網(wǎng)絡(luò)規(guī)模的限制。為了獲取更多的世界知識(shí),標(biāo)準(zhǔn)做法是訓(xùn)練更大的網(wǎng)絡(luò),這可能非常緩慢或非常昂貴。

如果有一種預(yù)訓(xùn)練方法可以 顯式地 獲取知識(shí),如引用額外的大型外部文本語(yǔ)料庫(kù),在不增加模型大小或復(fù)雜性的情況下獲得準(zhǔn)確結(jié)果,會(huì)怎么樣?

例如,模型可以引用外部文集中的句子“Francesco Bartolomeo Conti was born in Florence”來(lái)確定這位音樂(lè)家的出生地,而不是依靠模型隱晦的訪問(wèn)存儲(chǔ)于自身參數(shù)中的某個(gè)知識(shí)。像這樣檢索包含顯性知識(shí)的文本,將提高預(yù)訓(xùn)練的效率,同時(shí)使模型能夠在不使用數(shù)十億個(gè)參數(shù)的情況下順利完成知識(shí)密集型任務(wù)。

在 2020 ICML 我們介紹的 “REALM: Retrieval-Augmented Language Model Pre-Training”中,我們分享了一種語(yǔ)言預(yù)訓(xùn)練模型的新范例,用 知識(shí)檢索器 (Knowledge Retriever) 增強(qiáng)語(yǔ)言模型,讓 REALM 模型能夠從原始文本文檔中 顯式 檢索文本中的世界知識(shí),而不是將所有知識(shí)存儲(chǔ)在模型參數(shù)中。我們還開(kāi)源了 REALM 代碼庫(kù),以演示如何聯(lián)合訓(xùn)練檢索器和語(yǔ)言表示。

REALM: Retrieval-Augmented Language Model Pre-Training
https://arxiv.org/abs/2002.08909

REALM 代碼庫(kù)
https://github.com/google-research/language/tree/master/language/realm

背景:預(yù)訓(xùn)練語(yǔ)言表征模型

要了解標(biāo)準(zhǔn)語(yǔ)言表征模型記憶世界知識(shí)的方式,首先應(yīng)該回顧這些模型的預(yù)訓(xùn)練過(guò)程。自從 BERT 問(wèn)世以來(lái),稱為遮蔽語(yǔ)言建模 (Masked Language Modeling) 的填空任務(wù)已廣泛用于預(yù)訓(xùn)練語(yǔ)言表征模型。給定某些單詞被遮蓋的文本,任務(wù)是填充缺失的單詞。任務(wù)的樣本如下所示:

I am so thirsty. I need to __ water.

預(yù)訓(xùn)練期間,模型將遍歷大量樣本并調(diào)整參數(shù),預(yù)測(cè)缺失的單詞(上述樣本中的答案:answer: drink)。于是,填空任務(wù)使模型記住了世界中的某些事實(shí)。例如,在以下樣本中,需要了解愛(ài)因斯坦的出生地才能填補(bǔ)缺失單詞:

Einstein was a __-born scientist. (answer: German)

但是,模型捕獲的世界知識(shí)存儲(chǔ)在模型權(quán)重中,因此是抽象的,難以模型到底理解存儲(chǔ)了哪些信息。

檢索增強(qiáng)型語(yǔ)言表征模型預(yù)訓(xùn)練

與標(biāo)準(zhǔn)語(yǔ)言表征模型相比,REALM 通過(guò) 知識(shí)檢索器 增強(qiáng)語(yǔ)言表征模型,首先從外部文檔集中檢索另一段文本作為支持知識(shí),在實(shí)驗(yàn)中為 Wikipedia 文本語(yǔ)料庫(kù),然后將這一段支持文本與原始文本一起輸入語(yǔ)言表征模型。

Wikipedia 文本語(yǔ)料庫(kù)
https://archive.org/details/wikimediadownloads

REALM 的關(guān)鍵理念是檢索系統(tǒng)應(yīng)提高模型填補(bǔ)缺失單詞的能力。因此,應(yīng)該獎(jiǎng)勵(lì)提供了更多上下文填補(bǔ)缺失單詞的檢索。如果檢索到的信息不能幫助模型做出預(yù)測(cè),就應(yīng)該進(jìn)行阻攔,為更好的檢索騰出空間。

假定預(yù)訓(xùn)練期間只有未標(biāo)記的文本,那么該如何訓(xùn)練知識(shí)檢索器?事實(shí)證明,可以使用填補(bǔ)單詞的任務(wù)來(lái)間接訓(xùn)練知識(shí)檢索器,無(wú)需任何人工標(biāo)注。假設(shè)查詢的輸入為:

We paid twenty __ at the Buckingham Palace gift shop.

在沒(méi)有檢索的情況下,很難填補(bǔ)句子中缺失的單詞 (answer: pounds),因?yàn)槟P托枰[式存儲(chǔ)白金漢宮所在國(guó)家和相關(guān)貨幣的知識(shí),并在兩者之間建立聯(lián)系。如果提供了一段與從外部語(yǔ)料庫(kù)中檢索的必要知識(shí)顯式連接的段落,模型會(huì)更容易填補(bǔ)缺失的單詞。

在此例中,檢索器會(huì)因?yàn)闄z索以下句子獲得獎(jiǎng)勵(lì)。

Buckingham Palace is the London residence of the British monarchy.

由于檢索步驟需要添加更多上下文,因此可能會(huì)有多個(gè)檢索目標(biāo)對(duì)填補(bǔ)缺失單詞有所幫助,例如“The official currency of the United Kingdom is the Pound.”。下圖演示了整個(gè)過(guò)程:

REALM 的計(jì)算挑戰(zhàn)

擴(kuò)展 REALM 預(yù)訓(xùn)練使模型從數(shù)百萬(wàn)個(gè)文檔中檢索知識(shí)具有一定挑戰(zhàn)性。在 REALM 中,最佳文檔選擇為最大內(nèi)積搜索 (Maximum Inner Product Search,MIPS)。檢索前,MIPS 模型需要首先對(duì)集合中的所有文檔進(jìn)行編碼,使每個(gè)文檔都有一個(gè)對(duì)應(yīng)的文檔向量。輸入到達(dá)時(shí)會(huì)被編碼為一個(gè)查詢向量。在 MIPS 中,給定查詢就會(huì)檢索出集合中文檔向量和查詢向量之間具有最大內(nèi)積值的文檔,如下圖所示:

REALM 采用 ScaNN軟件包高效執(zhí)行 MIPS,在預(yù)先計(jì)算文檔向量的情況下,相對(duì)降低了尋找最大內(nèi)積值的成本。但是,如果在訓(xùn)練期間更新了模型參數(shù),通常有必要對(duì)整個(gè)文檔集重新編碼文檔向量。為了解決算力上的挑戰(zhàn),檢索器經(jīng)過(guò)結(jié)構(gòu)化設(shè)計(jì)可以緩存并異步更新對(duì)每個(gè)文檔執(zhí)行的計(jì)算。另外,要實(shí)現(xiàn)良好性能并使訓(xùn)練可控,應(yīng)每 500 個(gè)訓(xùn)練步驟更新文檔向量而不是每步都更新。

將 REALM 應(yīng)用于開(kāi)放域問(wèn)答

將 REALM 應(yīng)用于開(kāi)放域問(wèn)答 (Open-QA) 評(píng)估其有效性,這是自然語(yǔ)言處理中知識(shí)最密集的任務(wù)之一。任務(wù)的目的是回答問(wèn)題,例如“What is the angle of the equilateral triangle(等邊三角形的一角是多少度)?”

在標(biāo)準(zhǔn)問(wèn)答任務(wù)中(例如 SQuAD 或 Natural Questions),支持文檔是輸入的一部分,因此模型只需要在給定文檔中查找答案。Open-QA 中沒(méi)有給定文檔,因此 Open-QA 模型需要自主查找知識(shí),這就使 Open-QA 成為檢查 REALM 有效性的絕佳任務(wù)。

SQuAD
https://arxiv.org/abs/1606.05250

Natural Questions
https://ai.google.com/research/NaturalQuestions/

下圖是 OpenQA 版本 Natural Question 的結(jié)果。我們主要將結(jié)果與 T5 進(jìn)行比較,T5 是另一種無(wú)需標(biāo)注文檔即可訓(xùn)練模型的方法。從圖中可以清楚地看到,REALM 預(yù)訓(xùn)練生成了非常強(qiáng)大的 Open-QA 模型,僅使用少量參數(shù) (300M),性能就比更大的 T5 (11B) 模型要高出近 4 個(gè)點(diǎn)。

結(jié)論

REALM 有助于推動(dòng)人們對(duì)端到端檢索增強(qiáng)型模型的關(guān)注,包括最近的一個(gè)檢索增強(qiáng)型生成模型。我們期待以多種方式擴(kuò)展這一工作范圍,包括 :

將類(lèi)似 REALM 的方法應(yīng)用于需要知識(shí)密集型推理和可解釋出處的新應(yīng)用(超越 Open-QA)

了解對(duì)其他形式的知識(shí)進(jìn)行檢索的好處,例如圖像、知識(shí)圖譜結(jié)構(gòu)甚至其他語(yǔ)言的文本。我們也很高興看到研究界開(kāi)始使用開(kāi)源 REALM 代碼庫(kù)!

檢索增強(qiáng)型生成模型
https://arxiv.org/abs/2005.11401

REALM 代碼庫(kù)
https://github.com/google-research/language/tree/master/language/realm

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3483

    瀏覽量

    49987
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4886

    瀏覽量

    70248
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14007

原文標(biāo)題:REALM:將檢索集成到語(yǔ)言表征模型,搞定知識(shí)密集型任務(wù)!

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 03-21 18:24 ?1022次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對(duì)大
    的頭像 發(fā)表于 02-19 16:10 ?849次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    騰訊公布大語(yǔ)言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了一項(xiàng)名為“大語(yǔ)言模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊在大語(yǔ)言模型
    的頭像 發(fā)表于 02-10 09:37 ?339次閱讀

    檢索增強(qiáng)型生成(RAG)系統(tǒng)詳解

    成流暢且類(lèi)似人類(lèi)的文本方面表現(xiàn)出色,但它們有時(shí)在事實(shí)準(zhǔn)確性上存在困難。當(dāng)準(zhǔn)確性非常重要時(shí),這可能是一個(gè)巨大的問(wèn)題。 那么,這個(gè)問(wèn)題的解決方案是什么呢?答案是檢索增強(qiáng)型生成(RAG)系統(tǒng)。 RAG集成了像GPT這樣的模型的強(qiáng)大功能
    的頭像 發(fā)表于 12-24 10:44 ?848次閱讀
    <b class='flag-5'>檢索</b><b class='flag-5'>增強(qiáng)型</b>生成(RAG)系統(tǒng)詳解

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類(lèi)型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶友好 API 和對(duì)易用性的重視而聞名,始終處于這一動(dòng)向的前沿。Keras 擁有專用的內(nèi)
    的頭像 發(fā)表于 12-20 10:32 ?431次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.2w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    使用TMS320C6000增強(qiáng)型DMA的應(yīng)用

    電子發(fā)燒友網(wǎng)站提供《使用TMS320C6000增強(qiáng)型DMA的應(yīng)用.pdf》資料免費(fèi)下載
    發(fā)表于 10-23 09:48 ?0次下載
    使用TMS320C6000<b class='flag-5'>增強(qiáng)型</b>DMA的應(yīng)用

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?520次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    增強(qiáng)型HotRod QFN封裝:實(shí)現(xiàn)低EMI性能

    電子發(fā)燒友網(wǎng)站提供《增強(qiáng)型HotRod QFN封裝:實(shí)現(xiàn)低EMI性能.pdf》資料免費(fèi)下載
    發(fā)表于 08-26 11:37 ?0次下載
    <b class='flag-5'>增強(qiáng)型</b>HotRod QFN封裝:實(shí)現(xiàn)低EMI性能

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí),還包括對(duì)語(yǔ)言的深層次理解,如文化背景、語(yǔ)境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量無(wú)標(biāo)簽文本數(shù)據(jù)上學(xué)習(xí)語(yǔ)
    發(fā)表于 08-02 11:03

    增強(qiáng)型MOS管的結(jié)構(gòu)解析

    增強(qiáng)型MOS管(Enhancement MOSFET)是一種重要的場(chǎng)效應(yīng)晶體管,具有高輸入阻抗、低輸入電流、高速開(kāi)關(guān)和低噪聲等優(yōu)點(diǎn),被廣泛應(yīng)用于電子設(shè)備中。以下是對(duì)增強(qiáng)型MOS管結(jié)構(gòu)的詳細(xì)解析。
    的頭像 發(fā)表于 07-24 10:51 ?2599次閱讀

    mos管增強(qiáng)型與耗盡的區(qū)別是什么

    MOSFET(金屬-氧化物-半導(dǎo)體場(chǎng)效應(yīng)晶體管)是一種廣泛應(yīng)用于電子設(shè)備中的半導(dǎo)體器件,具有高輸入阻抗、低驅(qū)動(dòng)功率和良好的線性特性等優(yōu)點(diǎn)。根據(jù)導(dǎo)電溝道的形成方式,MOSFET可以分為增強(qiáng)型和耗盡
    的頭像 發(fā)表于 07-14 11:32 ?6137次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?879次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

    在人工智能和自然語(yǔ)言處理(NLP)領(lǐng)域,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱LLM)的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過(guò)在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)
    的頭像 發(fā)表于 07-10 11:03 ?2686次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?4166次閱讀