女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

有關(guān)語(yǔ)義匹配和推理

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:CS的陋室 ? 作者:CS的陋室 ? 2021-03-14 09:32 ? 次閱讀

先把論文放出來(lái):Enhanced LSTM for Natural Language Inference,說(shuō)實(shí)話這篇論文不算新了,但是在語(yǔ)義相似度方至今仍流傳著他的傳說(shuō),因此我還是把這篇論文拿著讀了起來(lái)。近期也是看了很多文章,但是終究不如讀論文來(lái)的過(guò)癮,大部分博客對(duì)這篇論文的模型核心做了很多介紹,但各個(gè)操作的出發(fā)點(diǎn)和一些獨(dú)到的見(jiàn)解卻寫(xiě)的不多,這次我會(huì)在介紹ESIM的過(guò)程中討論一下。

當(dāng)然,還是建議大家好好品讀原論文,更有味道。

另外給點(diǎn)代碼,看論文不清楚的看看論文也挺好:

https://blog.csdn.net/wcy23580/article/details/84990923。

https://github.com/weekcup/ESIM。

有關(guān)語(yǔ)義匹配和推理

一般地,向量召回主要用的表征模型,但是表征模型沒(méi)有用到交互特征,因此匹配的準(zhǔn)確率上肯定比不過(guò)交互模型,所以一般工程上用表征模型召回,然后用交互模型來(lái)做精排,這樣能保證整個(gè)搜索系統(tǒng)的效果更加穩(wěn)定可靠(看到?jīng)],準(zhǔn)召分離的思路又來(lái)了),而交互模型這塊,比較可靠的基線,應(yīng)該就要數(shù)ESIM了。

ESIM里,我比較欣賞的是這幾點(diǎn):

LSTM抽取上下文信息。Tree-LSTM的嘗試也為信息抽取帶來(lái)啟發(fā)。

把Decomposable attention作為交互特征的思路有機(jī)組合起來(lái)了。

多種交互形式的特征concat起來(lái)。

當(dāng)然具體閱讀后,我還提煉了一些新的idea,在文末。有了這些思路,先讓我們來(lái)看看具體的模型,其實(shí)論文的行文里討論了很多思路,我們先來(lái)看整體論文思路,然后再來(lái)提煉里面的獨(dú)到之處。

模型整體

論文的模型其實(shí)沒(méi)有想象中的困難,在很早就把整篇論文給到了:

輸入層是embedding+LSTM的組合。

Local Inference Modeling層,用的Decomposable Attention來(lái)體現(xiàn)兩者的交互型。

Inference composition層則把上面一層的結(jié)果進(jìn)行多種組合計(jì)算,得到多種特征,說(shuō)白了就是比較。

輸出層就不多說(shuō)了,大家都懂的。

輸入層

一般的輸入層只會(huì)是簡(jiǎn)單的word2vector,但這里其實(shí)加了一個(gè)LSTM,還是雙向的,就是用來(lái)獲取各路信息。來(lái)看看代碼,這個(gè)還是比較清晰的:

i1=Input(shape=(SentenceLen,),dtype='float32') i2=Input(shape=(SentenceLen,),dtype='float32') x1=Embedding([CONFIG])(i1) x2=Embedding([CONFIG])(i2) x1=Bidirectional(LSTM(300,return_sequences=True))(x1) x2=Bidirectional(LSTM(300,return_sequences=True))(x2)

Local Inference Modeling

中文翻譯應(yīng)該是局部推理層,我的理解這一層是用于抽取局部信息的,作者用的方法應(yīng)該來(lái)源于這篇論文:A Decomposable Attention Model for Natural Language Inference,這里其實(shí)是一個(gè)計(jì)算交互特征的過(guò)程,即一一分析兩個(gè)句子之間每個(gè)位置的相似度,最簡(jiǎn)單的方式就是點(diǎn)乘,而這篇論文就是使用的這個(gè)最簡(jiǎn)單的方式:

然后再把權(quán)重分散到各個(gè)位置,其實(shí)形態(tài)就很像softmax了:

這個(gè)其實(shí)就是做了一個(gè)交叉,計(jì)算整個(gè)句子的權(quán)重,然后用類(lèi)似softmax的形式整上,非常討巧,相信ESIM的成功很大程度上就和這個(gè)有關(guān)。

而這并沒(méi)結(jié)束,作者進(jìn)行了進(jìn)一步的強(qiáng)化,對(duì)比Decomposable Attention前后的變化,進(jìn)行了組合。

Inference Composition

推理層應(yīng)該是進(jìn)入最終預(yù)測(cè)之前的最后一層了。這一層的操作同樣沒(méi)那么簡(jiǎn)單,大部分人可能flatten、maxpool、avgpool之類(lèi)的就直接全連接了,但是這里并不是,而是做了一系列的再提取和再處理,最終才完成預(yù)測(cè)向量的:

作者是真的把信息抽取和特征的組合做到了極致,對(duì)上面構(gòu)造的兩個(gè)組合特征再進(jìn)行了一次特征提取,用的依舊是熟悉的Bilstm,值得注意的是他操作的維度,來(lái)看一個(gè)ESIM的開(kāi)源代碼吧:

classInferenceCompositionLayer(object): """ Layertocomposethelocalinferenceinformation. """ def__init__(self,hidden_units,max_length=100,dropout=0.5, activation='tanh',sequences=True): self.hidden_units=hidden_units self.max_length=max_length self.dropout=dropout self.activation=activation self.sequences=sequences def__call__(self,input): composition=Bidirectional(LSTM(self.hidden_units, activation=self.activation, return_sequences=self.sequences, recurrent_dropout=self.dropout, dropout=self.dropout))(input) reduction=TimeDistributed(Dense(self.hidden_units, kernel_initializer='he_normal', activation='relu'))(composition) returnDropout(self.dropout)(reduction)

這里用到另一個(gè)我沒(méi)見(jiàn)過(guò)的keras層,即TimeDistributed,有興趣可以了解下。

此后,非常精髓的使用avg-pool和max-pool的組合,有關(guān)池化,max和avg一直打得火熱,沒(méi)有人能給出非常穩(wěn)定的結(jié)論,因此作者就用了兩者的組合:

啟示

整篇文章其實(shí)沒(méi)有構(gòu)造出非常高端的結(jié)構(gòu),只是一些非常樸素的操作,但是綜合起來(lái)成了現(xiàn)在也非常推薦用的基線,是有很多有借鑒意義的東西的,我這里一一列舉,大家可以直接在里面選擇需要的來(lái)用。

BiLSTM似乎還挺好用的。當(dāng)然私以為CNN其實(shí)也可以嘗試的。

花式concat,多種信息抽取方式進(jìn)行組合,小孩子才做選擇,大人全都要。

attention的使用,其實(shí)有出處A Decomposable Attention Model for Natural Language Inference,思想其實(shí)是兩者一一對(duì)比得到交互矩陣,利用該交互矩陣構(gòu)造類(lèi)似softmax的權(quán)重,為各自的關(guān)鍵信息進(jìn)行加權(quán),重點(diǎn)提取。

信息的對(duì)比來(lái)自于可以來(lái)自減和乘,減直接計(jì)算兩者的差距,類(lèi)似歐氏距離,乘的使用則來(lái)源于余弦距離,既然要對(duì)比特征,那就把這兩個(gè)用到極致。

avg和max哪個(gè)好,別爭(zhēng)了,都用,哪個(gè)比較重要交給后面的全連接層來(lái)決定吧。

我的這篇文章里面沒(méi)有講tree-lstm,主要是因?yàn)槲覀兤綍r(shí)比較難用到,原因是這個(gè)樹(shù)不好構(gòu)建,需要依賴(lài)依存句法,但是的確是一個(gè)挺有意思的思想,只有真的去讀論文的人才能知道。

參考資料

論文原文:Enhanced LSTM for Natural Language Inference

論文解讀:https://blog.csdn.net/wcy23580/article/details/84990923

keras版本代碼:https://github.com/weekcup/ESIM/blob/master/src/model.py

依舊推薦大家直接去讀論文,文章對(duì)他為什么做這些操作有很明確的思想,其實(shí)在我看來(lái)這些思想比操作本身還要重要,畢竟思想是需要啟發(fā)的,在這些思想的指導(dǎo)下,我在思考解決方案的時(shí)候就能有參考,方案可以借鑒,但是這個(gè)思想的實(shí)現(xiàn)并不局限在一個(gè)方法上。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3488

    瀏覽量

    50020
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4888

    瀏覽量

    70274
  • eSIM
    +關(guān)注

    關(guān)注

    3

    文章

    247

    瀏覽量

    27068

原文標(biāo)題:【語(yǔ)義相似度】ESIM:語(yǔ)義相似度領(lǐng)域小模型的尊嚴(yán)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語(yǔ)言模型(LLM)的推理能力成了最熱門(mén)的話題之一,大量?jī)?yōu)化推理能力的新策略開(kāi)始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)習(xí)、開(kāi)展監(jiān)督微調(diào)和進(jìn)行提煉等。本文將深入探討LLM
    的頭像 發(fā)表于 04-03 12:09 ?317次閱讀
    詳解 LLM <b class='flag-5'>推理</b>模型的現(xiàn)狀

    使用OpenVINO?進(jìn)行推理時(shí)的內(nèi)存泄漏怎么解決?

    使用 OpenVINO? 進(jìn)行推理時(shí),內(nèi)存會(huì)隨著時(shí)間的推移而增加,并導(dǎo)致程序崩潰。
    發(fā)表于 03-06 08:29

    如何使用多攝像頭作為OpenVINO?推理的輸入?

    無(wú)法確定如何使用多攝像頭作為OpenVINO?推理的輸入
    發(fā)表于 03-06 07:30

    在采用異構(gòu)模式推理時(shí),如何檢查每層使用的設(shè)備是什么?

    在異構(gòu)模式推理時(shí),無(wú)法檢查每層使用的設(shè)備是什么
    發(fā)表于 03-06 06:49

    無(wú)法調(diào)用GPU插件推理的遠(yuǎn)程張量API怎么解決?

    運(yùn)行了使用 GPU 插件的遠(yuǎn)程張量 API 的推理。但是,它未能共享 OpenCL* 內(nèi)存,但結(jié)果不正確。
    發(fā)表于 03-06 06:13

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?624次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理</b>性能

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語(yǔ)義增強(qiáng)

    語(yǔ)義同步定位與建圖(SLAM)系統(tǒng)在對(duì)鄰近的語(yǔ)義相似物體進(jìn)行建圖時(shí)面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語(yǔ)義增強(qiáng)(SEO-SLAM)的新型SLAM系統(tǒng),借助視覺(jué)語(yǔ)言模型
    的頭像 發(fā)表于 12-05 10:00 ?1148次閱讀
    利用VLM和MLLMs實(shí)現(xiàn)SLAM<b class='flag-5'>語(yǔ)義</b>增強(qiáng)

    高效大模型的推理綜述

    大模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開(kāi)發(fā)旨在提高大模型推理效率的技術(shù)。本文對(duì)現(xiàn)有的關(guān)于高效
    的頭像 發(fā)表于 11-15 11:45 ?1311次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    使用語(yǔ)義線索增強(qiáng)局部特征匹配

    視覺(jué)匹配是關(guān)鍵計(jì)算機(jī)視覺(jué)任務(wù)中的關(guān)鍵步驟,包括攝像機(jī)定位、圖像配準(zhǔn)和運(yùn)動(dòng)結(jié)構(gòu)。目前最有效的匹配關(guān)鍵點(diǎn)的技術(shù)包括使用經(jīng)過(guò)學(xué)習(xí)的稀疏或密集匹配器,這需要成對(duì)的圖像。這些神經(jīng)網(wǎng)絡(luò)對(duì)兩幅圖像的特征有很好的總體理解,但它們經(jīng)常難以
    的頭像 發(fā)表于 10-28 09:57 ?767次閱讀
    使用<b class='flag-5'>語(yǔ)義</b>線索增強(qiáng)局部特征<b class='flag-5'>匹配</b>

    手冊(cè)上新 |迅為RK3568開(kāi)發(fā)板NPU例程測(cè)試

    安裝 2.1.2 conda虛擬環(huán)境安裝 2.1.3 docker環(huán)境安裝 2.2 rknn-toolkit2功能演示 2.2.1 模型轉(zhuǎn)換 2.2.2 連板推理 第3章
    發(fā)表于 10-23 14:06

    手冊(cè)上新 |迅為RK3568開(kāi)發(fā)板NPU例程測(cè)試

    安裝 2.1.2 conda虛擬環(huán)境安裝 2.1.3 docker環(huán)境安裝 2.2 rknn-toolkit2功能演示 2.2.1 模型轉(zhuǎn)換 2.2.2 連板推理 第3章
    發(fā)表于 08-12 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    匹配 模型可能結(jié)合高效檢索技術(shù)來(lái)快速定位與問(wèn)題相關(guān)的信息源。通過(guò)匹配算法和索引技術(shù),模型可以從海量數(shù)據(jù)中篩選出最相關(guān)的文本片段作為候選答案。 3. 推理與生成 在獲得候選答案后,模型會(huì)進(jìn)行進(jìn)一步的
    發(fā)表于 08-02 11:03

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割是一種重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類(lèi)別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語(yǔ)義分割的基本原理 1.1
    的頭像 發(fā)表于 07-17 09:56 ?817次閱讀

    迅為RK3568手冊(cè)上新 | RK3568開(kāi)發(fā)板NPU例程測(cè)試

    虛擬環(huán)境安裝 2.1.3 docker環(huán)境安裝 2.2 rknn-toolkit2功能演示 2.2.1 模型轉(zhuǎn)換 2.2.2 連板推理 第3章 rknn-toolkit-lite2環(huán)境搭建
    發(fā)表于 07-12 14:44

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像分割與語(yǔ)義分割中發(fā)揮著至關(guān)重要的作用。本文將從CNN模型的基本原理、在圖像分
    的頭像 發(fā)表于 07-09 11:51 ?1774次閱讀