女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在多模態(tài)的語(yǔ)境中利用Transformer強(qiáng)大的表達(dá)能力?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-03-29 16:47 ? 次閱讀

曾幾何時(shí),多模態(tài)預(yù)訓(xùn)練已經(jīng)不是一個(gè)新的話題,各大頂會(huì)諸多論文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT層出不窮,傻傻分不清楚。..。..這些年NLPer在跨界上忙活的不亦樂(lè)乎,提取視覺(jué)特征后和文本詞向量一同輸入到萬(wàn)能的Transformer中,加大力度預(yù)訓(xùn)練,總有意想不到的SOTA。

如何在多模態(tài)的語(yǔ)境中更細(xì)致準(zhǔn)確地利用Transformer強(qiáng)大的表達(dá)能力呢?Facebook最新的 Transformer is All You Need 也許可以給你答案。

a12e796a-8e8f-11eb-8b86-12bb97331649.png

這篇貌似標(biāo)題黨的文章開(kāi)宗明義,針對(duì)文本+視覺(jué)的多模態(tài)任務(wù),用好Transformer就夠了,與許多前作不同,這次提出的模型一個(gè)模型可以解決多個(gè)任務(wù):目標(biāo)檢測(cè)、自然語(yǔ)言理解、視覺(jué)問(wèn)答,各個(gè)模型板塊各司其職、條理清晰:視覺(jué)編碼器、文本編碼器、特征融合解碼器,都是建立在多層Transformer之上,最后添加為每個(gè)任務(wù)設(shè)計(jì)的處理器,通過(guò)多任務(wù)訓(xùn)練,一舉刷新了多個(gè)任務(wù)的榜單。

a1a44924-8e8f-11eb-8b86-12bb97331649.png

文本編碼器用Transformer提取文本特征是個(gè)老生常談的問(wèn)題,從BERT石破天驚開(kāi)始,純文本領(lǐng)域近乎已被Transformer蠶食殆盡,所以該文也不能免俗,直接借用BERT的結(jié)構(gòu)提取文本內(nèi)容,區(qū)別在于,為了解決多個(gè)任務(wù),在文本序列前添加了一個(gè)針對(duì)不同任務(wù)的參數(shù)向量,在最后輸出隱藏狀態(tài)到解碼器時(shí)再去掉。

視覺(jué)編碼器本文將Transformer強(qiáng)大的表達(dá)能力運(yùn)用到視覺(jué)特征的提取中,由于圖片像素點(diǎn)數(shù)量巨大,首先通過(guò)基于卷積神經(jīng)網(wǎng)絡(luò)的ResNet-50提取卷積特征,極大程度上地降低了特征數(shù)量,最終得到的feature map大小為,然后用全聯(lián)接層調(diào)整單個(gè)特征的維度到,再利用多層Transformer中的注意力機(jī)制提取各個(gè)feature之間的關(guān)系,由于Transformer的輸入是序列,文章將拉成一條長(zhǎng)為的序列,另外和文本編碼器類似,同樣添加了與下游任務(wù)相關(guān)的。

其中是調(diào)整維度的全聯(lián)接層,是多層Transformer編碼器。

模態(tài)融合解碼器多模態(tài)的關(guān)鍵之一就在于怎么同時(shí)利用多個(gè)模態(tài),在本文中是通過(guò)Transformer的解碼器實(shí)現(xiàn)的,這個(gè)解碼器首先將任務(wù)相關(guān)的query做self-attention,再將結(jié)果與文本編碼器和視覺(jué)編碼器的結(jié)果做cross-attention,針對(duì)單一模態(tài)的任務(wù),選取對(duì)應(yīng)編碼器的輸出即可,針對(duì)多模態(tài)的任務(wù),取兩個(gè)編碼器輸出的拼接。

任務(wù)處理器(task-specific output head)之前多模態(tài)預(yù)訓(xùn)練模型往往只針對(duì)某一項(xiàng)任務(wù),而本文提出的一個(gè)模型可以解決多個(gè)文本+視覺(jué)任務(wù),與BERT可以解決多個(gè)文本任務(wù)類似,本文的模型在模態(tài)融合解碼器的結(jié)果上添加為每個(gè)任務(wù)設(shè)計(jì)的處理器,這個(gè)處理器相對(duì)簡(jiǎn)單,用于從隱藏狀態(tài)中提取出與特定任務(wù)相匹配的特征。

目標(biāo)檢測(cè):添加box_head和class_head兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)從最后一層隱藏狀態(tài)中提取特征用來(lái)確定目標(biāo)位置和預(yù)測(cè)目標(biāo)類型。

自然語(yǔ)言理解、視覺(jué)問(wèn)答:通過(guò)基于全聯(lián)接層的分類模型實(shí)現(xiàn),將模態(tài)融合解碼器結(jié)果的第一位隱藏狀態(tài)輸入到兩層全聯(lián)接層并以GeLU作為激活函數(shù),最后計(jì)算交叉熵?fù)p失。

實(shí)驗(yàn)與總結(jié)本文提出的多模態(tài)預(yù)訓(xùn)練模型各個(gè)板塊劃分明確,通過(guò)多層Transformer分別提取特征,再利用解碼器機(jī)制融合特征并完成下游任務(wù),同時(shí)借助最后一層任務(wù)相關(guān)的處理器,可以通過(guò)一個(gè)模型解決多個(gè)任務(wù),同時(shí)也讓多任務(wù)預(yù)訓(xùn)練成為可能,并在實(shí)驗(yàn)中的各個(gè)數(shù)據(jù)集上得到了論文主要進(jìn)行了兩部分實(shí)驗(yàn):

多任務(wù)學(xué)習(xí):

這里的多任務(wù)涉及目標(biāo)檢測(cè)和視覺(jué)問(wèn)答兩個(gè)任務(wù),在目標(biāo)檢測(cè)上運(yùn)用COCO和VG兩個(gè)數(shù)據(jù)集,在視覺(jué)問(wèn)答上運(yùn)用VQAv2數(shù)據(jù)集。對(duì)比了單一任務(wù)和多任務(wù)同時(shí)訓(xùn)練的結(jié)果,同時(shí)對(duì)比了不同任務(wù)共用解碼器的結(jié)果。

a1f97444-8e8f-11eb-8b86-12bb97331649.png

從結(jié)果中我們可以看出,單純的使用多任務(wù)訓(xùn)練并不一定可以提高結(jié)果,不同任務(wù)間雖然相關(guān)但是卻不完全相同,這可能是任務(wù)本身差異或者數(shù)據(jù)集的特性所導(dǎo)致,第二行和第五行可以很明顯地看出COCO上的目標(biāo)檢測(cè)和VQAv2的視覺(jué)問(wèn)答相結(jié)合后,結(jié)果有顯著的下降,然而VG上的目標(biāo)檢測(cè)卻能夠和視覺(jué)問(wèn)答很好地結(jié)合,通過(guò)三個(gè)數(shù)據(jù)集上的共同訓(xùn)練,可以得到最高的結(jié)果。

多模態(tài)學(xué)習(xí):

這一實(shí)驗(yàn)中,為了體現(xiàn)所提出模型能夠有效解決多個(gè)多種模態(tài)的不同任務(wù),論文作者在之前COCO、VG、VQAv2的基礎(chǔ)上,增加了單一文本任務(wù)GLUE的幾個(gè)數(shù)據(jù)集(QNLI、QQP、MNLI、SST-2)和視覺(jué)推斷數(shù)據(jù)集SNLI-VE,從數(shù)據(jù)集的數(shù)量上可以看出本文模型的全能性。與本文對(duì)比的有純文本的BERT、基于Transformer的視覺(jué)模型DETR、多模態(tài)預(yù)訓(xùn)練模型VisualBERT。

a2736164-8e8f-11eb-8b86-12bb97331649.png

仔細(xì)看各個(gè)數(shù)據(jù)集上的結(jié)果,不難看出本文提出的模型其實(shí)并不能在所有數(shù)據(jù)集多上刷出SOTA,比如COCO上遜色于DETR,SNLI-VE遜色于VisualBERT,SST-2遜色于BERT,其他數(shù)據(jù)集上都有一定的提高,但是模型卻勝在一個(gè)“全”字,模型的結(jié)構(gòu)十分清晰明了,各個(gè)板塊的作用十分明確,同時(shí)針對(duì)不同任務(wù)的處理器也對(duì)后續(xù)多模態(tài)任務(wù)富有啟發(fā)性。

原文標(biāo)題:【Transformer】沒(méi)有什么多模態(tài)任務(wù)是一層Transformer解決不了的!

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3775

    瀏覽量

    137194
  • Transforme
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8870
  • 多模
    +關(guān)注

    關(guān)注

    1

    文章

    30

    瀏覽量

    11007

原文標(biāo)題:【Transformer】沒(méi)有什么多模態(tài)任務(wù)是一層Transformer解決不了的!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    設(shè)備預(yù)測(cè)性維護(hù)進(jìn)入2.0時(shí)代:模態(tài)AI如何突破誤報(bào)困局

    三號(hào)生產(chǎn)線傳感器報(bào)警頻發(fā),模態(tài) AI 技術(shù)為解決難題提供新思路。工廠升級(jí)數(shù)據(jù)層、決策層、應(yīng)用層,實(shí)現(xiàn)故障預(yù)測(cè),系統(tǒng)上線后立即顯現(xiàn)強(qiáng)大能力,解決設(shè)備問(wèn)題。
    的頭像 發(fā)表于 04-22 09:24 ?225次閱讀
    設(shè)備預(yù)測(cè)性維護(hù)進(jìn)入2.0時(shí)代:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI如何突破誤報(bào)困局

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺(jué)語(yǔ)言)模態(tài)AI大模型。這一突破性進(jìn)展表明,搭載移遠(yuǎn)任意智能模組的終端設(shè)備,均可無(wú)縫融合模態(tài)AI大模型的
    的頭像 發(fā)表于 03-20 19:03 ?362次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗(yàn)

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過(guò)多種感官通道(如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等)或多種交互方式(如語(yǔ)音、手勢(shì)、觸控、眼動(dòng)等)與計(jì)算機(jī)系統(tǒng)進(jìn)行自然、
    的頭像 發(fā)表于 03-17 15:12 ?1597次閱讀

    北京大學(xué)兩部 DeepSeek 秘籍新出爐!(附全集下載)

    機(jī)器人 圖像生成工具 音頻工具 視頻生成工具 搜索工具 就以目前火熱的聊天機(jī)器人來(lái)看,DeepSeek-R1 的主要優(yōu)勢(shì)還在于 強(qiáng)大的推理能力 ,但其并不具備模態(tài)
    發(fā)表于 02-27 17:57

    字節(jié)跳動(dòng)發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動(dòng)近日發(fā)布了一項(xiàng)重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢(shì)在于其強(qiáng)大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結(jié)合一段輸入音頻
    的頭像 發(fā)表于 02-07 17:50 ?705次閱讀

    2025年Next Token Prediction范式會(huì)統(tǒng)一模態(tài)

    訓(xùn)練方法與推理策略 性能評(píng)測(cè)體系 現(xiàn)存挑戰(zhàn)與未來(lái)方向 綜述的完整目錄如下: 模態(tài)的 Tokenization 我們認(rèn)為模態(tài)的 Tokenization 是 MMNTP 的基石和最重
    的頭像 發(fā)表于 01-21 10:11 ?380次閱讀
    2025年Next Token Prediction范式會(huì)統(tǒng)一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    模態(tài)融合的創(chuàng)新與突破 機(jī)器人控制技術(shù)的另一個(gè)重要突破在于模態(tài)大模型的應(yīng)用。相比于僅通過(guò)文字進(jìn)行人機(jī)交互的傳統(tǒng)方法,現(xiàn)代機(jī)器人能夠融合視覺(jué)、聲音、定位等
    發(fā)表于 12-29 23:04

    商湯日日新模態(tài)大模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?857次閱讀

    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

    視覺(jué)語(yǔ)言模型(VLM)通過(guò)將文本和圖像投射到同一個(gè)嵌入空間,將基礎(chǔ)大語(yǔ)言模型(LLM)強(qiáng)大的語(yǔ)言理解能力與視覺(jué) transformer(ViT)的視覺(jué)能力相結(jié)合。VLM 可以處理非結(jié)構(gòu)
    的頭像 發(fā)表于 11-19 15:37 ?736次閱讀
    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)<b class='flag-5'>能力</b>

    未來(lái)AI大模型的發(fā)展趨勢(shì)

    上得到了顯著提升。未來(lái),算法和架構(gòu)的進(jìn)一步優(yōu)化將推動(dòng)AI大模型在性能上實(shí)現(xiàn)新的突破。 多頭自注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)等關(guān)鍵技術(shù)的改進(jìn),將增強(qiáng)模型的表達(dá)能力和泛化能力模態(tài)融合 :
    的頭像 發(fā)表于 10-23 15:06 ?1750次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),模態(tài)
    的頭像 發(fā)表于 10-18 09:39 ?1078次閱讀

    云知聲山海模態(tài)大模型UniGPT-mMed登頂MMMU測(cè)評(píng)榜首

    近日,模態(tài)人工智能模型基準(zhǔn)評(píng)測(cè)集MMMU更新榜單,云知聲山海模態(tài)大模型UniGPT-mMed以通用能力、醫(yī)療專業(yè)
    的頭像 發(fā)表于 10-12 14:09 ?608次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型UniGPT-mMed登頂MMMU測(cè)評(píng)榜首

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    習(xí)語(yǔ)言的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本缺失的部分或下一個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語(yǔ)言模型通常基于
    發(fā)表于 08-02 11:03

    科普講座 | 讓AIGC提高你的專業(yè)表達(dá)和創(chuàng)作能力

    的專題講座,激發(fā)工程師專業(yè)文章創(chuàng)作靈感,提高個(gè)人的專業(yè)表達(dá)能力,從而在電力電子領(lǐng)域展現(xiàn)更加卓越的才華!舉辦時(shí)間7月2日1900講座內(nèi)容:技術(shù):AIGC時(shí)代到來(lái)方法:讓A
    的頭像 發(fā)表于 06-23 08:14 ?518次閱讀
    科普講座 | 讓AIGC提高你的專業(yè)<b class='flag-5'>表達(dá)</b>和創(chuàng)作<b class='flag-5'>能力</b>