女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

天池公益賽“新冠疫情相似句對(duì)判定大賽”NLP賽道top指南

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:Giant ? 2021-02-10 17:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020年初,新冠疫情席卷全球。除了“待在家,不亂跑”,我想還能從哪為抗擊疫情出點(diǎn)微薄之力呢?

碰巧室友推送了一個(gè)天池公益賽“新冠疫情相似句對(duì)判定大賽”,秉持“重在參與”的心態(tài)參加了比賽。經(jīng)過半個(gè)月的努力,最終結(jié)果勉強(qiáng)不錯(cuò)(第6),收割了一臺(tái)Kindle。

2021年1月,疫情形勢(shì)依然嚴(yán)峻,幸運(yùn)的是國(guó)家不僅及時(shí)穩(wěn)住了疫情,還研發(fā)出了有效的疫苗。借助疫情主題的比賽,我希望幫助更多讀者,入門自然語言處理的基本任務(wù)——文本匹配。

開源代碼:

https://github.com/yechens/COVID-19-sentence-pair

01 數(shù)據(jù)分析

任務(wù)背景非常直觀,主辦方給定了“肺炎”、“支氣管炎”、“上呼吸道感染”等醫(yī)療背景下的用戶真實(shí)提問,要求選手通過算法識(shí)別任意2個(gè)問題,是否表達(dá)同一個(gè)意思。舉例:

問題1:“輕微感冒需不需要吃藥?”

問題2:“輕微感冒需要吃什么藥?”

問題1關(guān)心“是否得吃藥”,問題2關(guān)心“該吃什么藥”,側(cè)重點(diǎn)不同所以意思不同。

數(shù)據(jù)集樣本都是三元組(query1, query2, label)。為了降低難度,每一個(gè)問題的長(zhǎng)度被控制在20字以內(nèi)。

c331baa2-603d-11eb-8b86-12bb97331649.png

比賽的訓(xùn)練集、驗(yàn)證集分別包含8746、2001條三元組。我們從dev中隨機(jī)保留了800條樣本作為最終dev,其余均加入訓(xùn)練。

數(shù)據(jù)增強(qiáng)

拿到數(shù)據(jù)簡(jiǎn)單分析后,我發(fā)現(xiàn)數(shù)據(jù)集已經(jīng)過清洗,竟然異常的干凈整齊(沒有雜亂的符號(hào)、不通順的句子),label分布幾乎也接近1:1。

再觀察數(shù)據(jù),相同的query1總是按順序排列在一起,隨后跟著不同的query2。這種分布很容易想到一種數(shù)據(jù)增強(qiáng)策略:相似傳遞性。

c6750660-603d-11eb-8b86-12bb97331649.png

A <-> B 相似 and A <-> C 相似 => B <-> C 相似

最終我額外獲得了5000條高質(zhì)量的數(shù)據(jù),比賽準(zhǔn)確率因此提升了0.5%。

實(shí)體替換

此外,我們也嘗試了訓(xùn)練一個(gè)NER模型挖掘文本中的醫(yī)療實(shí)體,如“胸膜炎”、“肺氣腫”,再通過word2vec查找最接近的實(shí)體進(jìn)行替換。

但這種方式并沒有提升最終結(jié)果。我覺得原因有2個(gè):

1W條樣本規(guī)模偏小,NER模型識(shí)別誤差較大

詞向量沒有針對(duì)醫(yī)療場(chǎng)景訓(xùn)練,包含的醫(yī)療實(shí)體很少

02匹配方法實(shí)現(xiàn)

文本匹配有非常多簡(jiǎn)單又實(shí)用的方法,例如:

基于字符統(tǒng)計(jì):字符串匹配、編輯距離、Jaccards距離

基于語言模型:word2vec/glove詞向量、BERT

基于神經(jīng)網(wǎng)絡(luò):孿生網(wǎng)絡(luò)、TextCNN、DSSM、FastText等

由于比賽需要盡可能獲得高分,這里主要介紹基于神經(jīng)網(wǎng)絡(luò)和BERT的文本匹配算法。

BERT[1]是一種預(yù)訓(xùn)練語言模型,通過海量文本、Transformer架構(gòu)和MLM訓(xùn)練任務(wù)在眾多NLP任務(wù)上取得了優(yōu)異成果。對(duì)BERT不了解的讀者,可以參考我之前的文章“從BERT、XLNet到MPNet,細(xì)看NLP預(yù)訓(xùn)練模型發(fā)展變遷史”[2]。

比賽中我們測(cè)試了5-6種不同的神經(jīng)網(wǎng)絡(luò)方法,并最終選擇了3種在dev上表現(xiàn)最好的模型加權(quán)融合。具體可以參考文件。

文本CNN(TextCNN)

TextCNN是Yoon Kim[3]在2014年提出的用于句子分類的卷積神經(jīng)網(wǎng)絡(luò)。文本匹配任務(wù)本質(zhì)上可以理解成二分類任務(wù)(0:不相似,1:相似),所以一般的分類模型也能滿足匹配需求。

c738a11a-603d-11eb-8b86-12bb97331649.png

與圖像中的二維卷積不同,TextCNN采用的是一維卷積,每個(gè)卷積核的大小為(h為卷積核窗口,k為詞向量維度)。文中采用了不同尺寸的卷積核,來提取不同文本長(zhǎng)度的特征。

然后,作者對(duì)于卷積核的輸出進(jìn)行最大池化操作,只保留最重要的特征。各個(gè)卷積核輸出經(jīng)MaxPooling后拼接形成一個(gè)新向量,最后輸出到全連接層分類器(Dropout + Linear + Softmax)實(shí)現(xiàn)分類。

我們知道,文本中的關(guān)鍵詞對(duì)于判斷2個(gè)句子是否相似有很大影響,而CNN局部卷積的特效能很好的捕捉這種關(guān)鍵特征。同時(shí)TextCNN還具有參數(shù)量小,訓(xùn)練穩(wěn)定等優(yōu)點(diǎn)。

文本RNN(TextRCNN)

相比TextCNN,TextRCNN的模型結(jié)構(gòu)看起來復(fù)雜一些。

c7774c80-603d-11eb-8b86-12bb97331649.png

簡(jiǎn)單瀏覽論文后,會(huì)發(fā)現(xiàn)它的思路其實(shí)簡(jiǎn)單,粗暴。

首先通過詞向量獲得字符編碼,隨后將其通過雙向RNN學(xué)習(xí)上下文特征,編碼得到兩個(gè)方向的特征。

再將詞向量和、拼接得到新向量,輸入經(jīng)tanh函數(shù)激活的全連接網(wǎng)絡(luò)。最后,將網(wǎng)絡(luò)的輸出最大池化,并輸入另一個(gè)全連接分類器完成分類。

RNN模型對(duì)于長(zhǎng)文本有較好的上下文“記憶”能力,更適合處理文本這種包含時(shí)間序列的信息。

BERT+MLP(fine-tune)

最后一種方法,直接用語言模型BERT最后一層Transformer的輸出,接一層Dense實(shí)現(xiàn)文本匹配。

c8824ee0-603d-11eb-8b86-12bb97331649.png

實(shí)驗(yàn)中我們發(fā)現(xiàn),對(duì)最終輸出的每個(gè)token特征取平均(MeanPooling)效果好于直接使用首字符“[CLS]”的特征。

模型權(quán)重上,崔一鳴等人[5]發(fā)布的中文roberta_wwm_ext_large模型效果要好于BERT_large。

c97a8a6a-603d-11eb-8b86-12bb97331649.png

最后,我們根據(jù)這三種模型在dev上的準(zhǔn)確率設(shè)置了不同比重,通過自動(dòng)搜索找到最優(yōu)權(quán)重組合,在線上測(cè)試集取得了96.26%的準(zhǔn)確率。

讀者可以在“NLP情報(bào)局”后臺(tái)回復(fù)“文本匹配”直接下載模型論文。

03漲分trick

做一個(gè)深度學(xué)習(xí)主導(dǎo)的算法比賽,除了分析數(shù)據(jù)與模型,一些trick也是獲得高分的重要因素。這里羅列了一些常用策略。

數(shù)據(jù)增強(qiáng)[6]

標(biāo)簽平滑

自蒸餾

文本對(duì)抗訓(xùn)練[7]

模型融合

特征篩選

使用多個(gè)學(xué)習(xí)率[8]

針對(duì)這次文本匹配任務(wù),數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑、模型融合、多學(xué)習(xí)率都被證明是有效的。

04總結(jié)

過去將近1年的天池“新冠疫情相似句對(duì)判定大賽”,任務(wù)并不復(fù)雜,是入門NLP項(xiàng)目實(shí)戰(zhàn),提升編程能力的很好鍛煉機(jī)會(huì)。

比賽雖然結(jié)束了,疫情猶在。大家一定要保護(hù)好自己哦!

[1] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.?

[2] 從BERT、XLNet到MPNet,細(xì)看NLP預(yù)訓(xùn)練模型發(fā)展變遷史: https://zhuanlan.zhihu.com/p/166013414

[3]Convolutional Neural Networks for Sentence Classification.

[4]Recurrent Convolutional Neural Networks for Text Classification.

[5] Chinese-BERT-wwm:https://github.com/ymcui/Chinese-BERT-wwm

[6]一文了解NLP中的數(shù)據(jù)增強(qiáng)方法:https://zhuanlan.zhihu.com/p/145521255

[7]【煉丹技巧】功守道:NLP中的對(duì)抗訓(xùn)練 + PyTorch實(shí)現(xiàn): https://zhuanlan.zhihu.com/p/91269728

[8]稱霸Kaggle的十大深度學(xué)習(xí)技巧:https://zhuanlan.zhihu.com/p/41379279

責(zé)任編輯:xj

原文標(biāo)題:天池NLP賽道top指南

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13654
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22613

原文標(biāo)題:天池NLP賽道top指南

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    TPU編程競(jìng)賽系列|2025中國(guó)國(guó)際大學(xué)生創(chuàng)新大賽產(chǎn)業(yè)命題賽道,算能11項(xiàng)命題入選!

    參賽者使用和選擇,我們誠(chéng)摯邀請(qǐng)廣大開發(fā)者前來挑戰(zhàn)!算能命題2025中國(guó)國(guó)際大學(xué)生創(chuàng)新大賽產(chǎn)業(yè)命題賽道——算能命題序號(hào)題名稱2453基于RISC-V架構(gòu)的AI計(jì)算
    的頭像 發(fā)表于 06-05 17:03 ?664次閱讀
    TPU編程競(jìng)賽系列|2025中國(guó)國(guó)際大學(xué)生創(chuàng)新<b class='flag-5'>大賽</b>產(chǎn)業(yè)命題<b class='flag-5'>賽道</b>,算能11項(xiàng)命題入選!

    第九屆華為ICT大賽收官:AI賦能教育轉(zhuǎn)型,助力ICT人才培養(yǎng)

    。經(jīng)過國(guó)家、區(qū)域層層比拼,最終48個(gè)國(guó)家和地區(qū)的179支隊(duì)伍成功晉級(jí)全球總決賽。 本屆ICT大賽是華為公司舉辦的第九屆賽事,經(jīng)過在實(shí)踐、創(chuàng)新
    的頭像 發(fā)表于 05-26 17:05 ?632次閱讀

    2025電子發(fā)燒友開發(fā)板評(píng)測(cè)大賽開啟!三大賽道火力全開,頂級(jí)開發(fā)板等你來戰(zhàn)!

    技術(shù)人的狂歡,開發(fā)者的盛宴! 2025年最值得期待的硬核賽事——電子發(fā)燒友開發(fā)板評(píng)測(cè)大賽正式啟動(dòng)!無論你是開源生態(tài)的探索者、芯片架構(gòu)的極客,還是物聯(lián)網(wǎng)領(lǐng)域的創(chuàng)新達(dá)人,本次大賽大賽道
    發(fā)表于 05-15 15:09

    夢(mèng)之墨助力2025年中國(guó)大學(xué)生工程實(shí)踐與創(chuàng)新能力大賽

    2025年3月,2025年中國(guó)大學(xué)生工程實(shí)踐與創(chuàng)新能力大賽選拔在全國(guó)各省市陸續(xù)開賽,本次大賽以“交叉融合工程創(chuàng)新育新質(zhì),立德樹人強(qiáng)國(guó)建設(shè)勇?lián)?dāng)”為主題,設(shè)置新能源車、“智能+”和虛擬仿真三個(gè)
    的頭像 發(fā)表于 04-08 09:50 ?464次閱讀

    第九屆華為ICT大賽中國(guó)總決賽圓滿落幕

    第九屆華為ICT大賽中國(guó)總決賽各賽道的獲獎(jiǎng)名單,其中獲得實(shí)踐、創(chuàng)新、編程的84支隊(duì)伍將晉級(jí)5月在深圳舉辦的全球總決賽,與來自世界其他國(guó)
    的頭像 發(fā)表于 04-03 14:16 ?564次閱讀

    題發(fā)布】2025集創(chuàng)中科億海微賽道正式啟動(dòng)!

    近日,由工信部人才交流中心主辦的第九屆全國(guó)大學(xué)生集成電路創(chuàng)新創(chuàng)業(yè)大賽(簡(jiǎn)稱“集創(chuàng)”)現(xiàn)已正式拉開帷幕!集創(chuàng)是國(guó)內(nèi)集成電路領(lǐng)域最大規(guī)模、最高檔次的全國(guó)性高校賽事。中科億海微公司作為行業(yè)內(nèi)的知名企業(yè)
    的頭像 發(fā)表于 01-24 10:36 ?7376次閱讀
    【<b class='flag-5'>賽</b>題發(fā)布】2025集創(chuàng)<b class='flag-5'>賽</b>中科億海微<b class='flag-5'>賽道</b>正式啟動(dòng)!

    TPU編程競(jìng)賽|2024 CCF BDCI大賽圓滿結(jié)束!算能賽道“常務(wù)副SOTA”團(tuán)隊(duì)榮獲最佳算法能力獎(jiǎng)

    ”團(tuán)隊(duì)脫穎而出,榮獲大賽最佳算法能力獎(jiǎng)。本屆CCFBDCI大賽中,算能賽道推出了“基于TPU平臺(tái)的OCR模型性能優(yōu)化”的題,旨在探索如何通過高效的TPU硬件平臺(tái)
    的頭像 發(fā)表于 01-08 08:33 ?604次閱讀
    TPU編程競(jìng)賽|2024 CCF BDCI<b class='flag-5'>大賽</b>圓滿結(jié)束!算能<b class='flag-5'>賽道</b>“常務(wù)副SOTA”團(tuán)隊(duì)榮獲最佳算法能力獎(jiǎng)

    昇騰AI創(chuàng)新大賽2024總決賽圓滿落幕

    12月19日,昇騰AI創(chuàng)新大賽2024全國(guó)總決賽在福建廈門成功舉辦。本屆賽事歷時(shí)8個(gè)月,吸引了全國(guó)25個(gè)賽區(qū)的開發(fā)者踴躍報(bào)名參賽。經(jīng)過層層遴選,來自企業(yè)賽道和高校賽道的83支隊(duì)在總決
    的頭像 發(fā)表于 12-24 17:08 ?1001次閱讀
    昇騰AI創(chuàng)新<b class='flag-5'>大賽</b>2024總決賽圓滿落幕

    CET中電技術(shù)獲第二屆能源電子產(chǎn)業(yè)創(chuàng)新大賽重點(diǎn)終端應(yīng)用專題三等獎(jiǎng)

    12月6日,由工業(yè)和信息化部產(chǎn)業(yè)發(fā)展促進(jìn)中心和杭州市發(fā)展和改革委員會(huì)聯(lián)合主辦的第二屆能源電子產(chǎn)業(yè)創(chuàng)新大賽重點(diǎn)終端應(yīng)用賽道專題在杭州閉幕,CET中電技術(shù)的建筑光儲(chǔ)直柔解決方案及其項(xiàng)目應(yīng)用獲智能微電網(wǎng)
    的頭像 發(fā)表于 12-11 01:06 ?1020次閱讀
    CET中電技術(shù)獲第二屆能源電子產(chǎn)業(yè)創(chuàng)新<b class='flag-5'>大賽</b>重點(diǎn)終端應(yīng)用專題<b class='flag-5'>賽</b>三等獎(jiǎng)

    CET中電技術(shù)獲2024年“數(shù)據(jù)要素×”大賽寧夏分水利應(yīng)用賽道三等獎(jiǎng)

    2024年“數(shù)據(jù)要素x”大賽寧夏分水利應(yīng)用賽道三等獎(jiǎng)。2024年“數(shù)據(jù)要素×”大賽寧夏分由國(guó)家數(shù)據(jù)局、寧夏回族自治區(qū)人民政府指導(dǎo),寧夏回
    的頭像 發(fā)表于 11-08 01:07 ?671次閱讀
    CET中電技術(shù)獲2024年“數(shù)據(jù)要素×”<b class='flag-5'>大賽</b>寧夏分<b class='flag-5'>賽</b>水利應(yīng)用<b class='flag-5'>賽道</b>三等獎(jiǎng)

    CCF開源創(chuàng)新大賽決賽結(jié)果發(fā)布!OpenHarmony應(yīng)用開發(fā)賽道盡展風(fēng)采

    經(jīng)過數(shù)月的激烈比拼與項(xiàng)目展示,第七屆CCF開源創(chuàng)新大賽決賽結(jié)果揭榜!其中,深開鴻的“OpenHarmony應(yīng)用開發(fā)-開源項(xiàng)目貢獻(xiàn)賽道星光熠熠,表現(xiàn)突出。在此,發(fā)布頒獎(jiǎng)典禮通知,讓我們共同見證開源
    的頭像 發(fā)表于 11-07 08:07 ?669次閱讀
    CCF開源創(chuàng)新<b class='flag-5'>大賽</b>決賽結(jié)果發(fā)布!OpenHarmony應(yīng)用開發(fā)<b class='flag-5'>賽道</b>盡展風(fēng)采

    50萬獎(jiǎng)金池!開放原子大賽——第二屆OpenHarmony創(chuàng)新應(yīng)用挑戰(zhàn)正式啟動(dòng)

    第二屆OpenHarmony創(chuàng)新應(yīng)用挑戰(zhàn)作為開放原子大賽旗下的重要項(xiàng),聚焦 OpenHarmony應(yīng)用開發(fā),致力提升開發(fā)者的動(dòng)手實(shí)踐能力與開發(fā)創(chuàng)新應(yīng)用的能力。 項(xiàng)要求開發(fā)者
    發(fā)表于 10-24 15:40

    工信部第二屆能源電子產(chǎn)業(yè)創(chuàng)新大賽正式啟動(dòng),御芯微承辦“WIoTa能源物聯(lián)網(wǎng)應(yīng)用”專題

    【江蘇溧陽】2024年9月26日,由工業(yè)和信息化部產(chǎn)業(yè)發(fā)展促進(jìn)中心主辦的第二屆能源電子產(chǎn)業(yè)創(chuàng)新大賽暨第三屆先進(jìn)儲(chǔ)能技術(shù)創(chuàng)新挑戰(zhàn)啟動(dòng)會(huì)在江蘇溧陽隆重召開,會(huì)上針對(duì)本次大賽的賽事目標(biāo)、賽道
    的頭像 發(fā)表于 09-28 08:04 ?1011次閱讀
    工信部第二屆能源電子產(chǎn)業(yè)創(chuàng)新<b class='flag-5'>大賽</b>正式啟動(dòng),御芯微承辦“WIoTa能源物聯(lián)網(wǎng)應(yīng)用”專題<b class='flag-5'>賽</b>

    上海智位機(jī)器人榮獲2024全球數(shù)字貿(mào)易創(chuàng)新大賽機(jī)器人與人工智能賽道銅獎(jiǎng)

    9月25日,為期4天的2024全球數(shù)字貿(mào)易創(chuàng)新大賽(以下簡(jiǎn)稱“數(shù)貿(mào)大賽”)在浙江杭州拉開帷幕。在首日舉行的“機(jī)器人與人工智能”賽道決賽中,上海智位機(jī)器人股份有限公司榮膺銅獎(jiǎng)。頒獎(jiǎng)儀式在當(dāng)晚舉辦
    的頭像 發(fā)表于 09-27 09:22 ?558次閱讀

    10萬獎(jiǎng)金池!CCF開源創(chuàng)新大賽-OpenHarmony應(yīng)用開發(fā)大賽,等你來戰(zhàn)!

    生態(tài)建設(shè)的高質(zhì)量發(fā)展。深開鴻發(fā)布“OpenHarmony應(yīng)用開發(fā)-開源項(xiàng)目貢獻(xiàn)賽道,旨在通過開發(fā)開源鴻蒙北向應(yīng)用、擴(kuò)展開源鴻蒙開發(fā)工具鏈的方式,讓更多的開發(fā)者更低
    的頭像 發(fā)表于 07-17 08:33 ?1176次閱讀
    10萬獎(jiǎng)金池!CCF開源創(chuàng)新<b class='flag-5'>大賽</b>-OpenHarmony應(yīng)用開發(fā)<b class='flag-5'>大賽</b>,等你來戰(zhàn)!