女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于圖文多模態(tài)領(lǐng)域典型任務(wù)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2022-09-01 17:14 ? 次閱讀

圖文多模態(tài)領(lǐng)域典型任務(wù)如img-text retrieval、VQA、captioning、grounding等,目前的學(xué)術(shù)設(shè)定難度尚可。但是, 一旦知識(shí)范圍擴(kuò)展,到了open-ended scenario,任務(wù)難度立刻劇增 。但是DeepMind的Flamingo模型在這些挑戰(zhàn)場(chǎng)景中使用同一個(gè)模型便做到了。當(dāng)時(shí)看到論文中的這些例子,十分驚訝!

d0502f50-2915-11ed-ba43-dac502259ad0.png

可以看到,F(xiàn)lamingo模型不僅可以做到open-ended captioning、VQA等,甚至可以計(jì)數(shù)、算數(shù)。其中很多額外的知識(shí),比如火烈鳥(niǎo)的發(fā)源地等知識(shí),對(duì)于單模態(tài)的語(yǔ)言模型如GPT-3、T5、Chinchilla等可以說(shuō)是難度不大。

但是對(duì)于傳統(tǒng)的多模態(tài)模型而言,很難通過(guò)傳統(tǒng)的img-text pair學(xué)到如此廣闊的外部知識(shí),因?yàn)楹芏嘀R(shí)是蘊(yùn)含在基于文本的單模態(tài)中的(如維基百科) 。所以,DeepMind在多模態(tài)領(lǐng)域的發(fā)力點(diǎn)就在 站人語(yǔ)言模型的巨人肩膀上,凍住超大規(guī)模訓(xùn)練的語(yǔ)言模型,將多模態(tài)模型設(shè)計(jì)向NLP大模型靠攏。

Frozen

要介紹Flamingo模型,不得不先介紹DeepMind在NeurIPS 2021發(fā)表的前作Frozen。Frozen模型十分簡(jiǎn)單,作者使用一個(gè)預(yù)訓(xùn)練好的語(yǔ)言模型,并且完全凍結(jié)參數(shù),只訓(xùn)練visual encoder。

模型結(jié)構(gòu):其中LM模型是在C4數(shù)據(jù)上訓(xùn)練的包含7B參數(shù)的transformer結(jié)構(gòu),visual encoder是NF-ResNet50。訓(xùn)練數(shù)據(jù):訓(xùn)練時(shí)只采用了CC3M數(shù)據(jù)集,包含300萬(wàn)img-text pair,預(yù)訓(xùn)練數(shù)據(jù)量不大。Frozen框架如下。其中視覺(jué)特征可以看作是LM模型的prompt,凍結(jié)的語(yǔ)言模型就在視覺(jué)特征的“提示”下,做出應(yīng)答。

d0915886-2915-11ed-ba43-dac502259ad0.png

Frozen模型結(jié)構(gòu)

可以看到,通過(guò)一些img-text pair的約束,unfrozen的visual encoder是朝著frozen LM靠攏和對(duì)齊的。該算法在預(yù)訓(xùn)練時(shí)只使用了captioning語(yǔ)料CC3M,并且知識(shí)的豐富度也有限。那么,F(xiàn)rozen模型能做什么呢?

d0b8bcaa-2915-11ed-ba43-dac502259ad0.png

Frozen模型在下游場(chǎng)景的應(yīng)用

雖然由caption數(shù)據(jù)(CC3M)訓(xùn)練,它竟然可以做VQA甚至基于知識(shí)的VQA,比如上圖,你告訴它飛機(jī)是萊特兄弟發(fā)明的,它就能類(lèi)比出蘋(píng)果手機(jī)是喬布斯創(chuàng)造的。很顯然, 這種外部知識(shí)肯定不是CC3M中有限的img-text pair能夠給予的,無(wú)非是來(lái)源于從始至終未參與訓(xùn)練、凍結(jié)的LM模型 。接下來(lái)作者做了一系列實(shí)驗(yàn),可以看到,其實(shí)Frozen距離SOTA模型仍十分遙遠(yuǎn)。

d0eb882e-2915-11ed-ba43-dac502259ad0.png

Frozen實(shí)驗(yàn)結(jié)果

可以看到,F(xiàn)rozen模型距離VQA和OKVQA數(shù)據(jù)集上的SOTA算法仍有十分巨大的gap。

幾個(gè)有意思的現(xiàn)象:

如果模型看不到圖片(blind模型),只依賴于LM模型,效果尚可,但是明顯低于看得見(jiàn)圖片的模型。 說(shuō)明Frozen確實(shí)對(duì)img-text模態(tài)進(jìn)行了對(duì)齊,學(xué)習(xí)到了如何參考圖片信息再做出應(yīng)答

few-shot甚至zero-shot就可以達(dá)到還不錯(cuò)的性能;

end-to-end finetune LM模型效果會(huì)下降,說(shuō)明由大量單模態(tài)訓(xùn)練出的LM模型參數(shù)很容易被少量的img-text數(shù)據(jù)破壞掉。證明了本文觀點(diǎn),LM模型需要Frozen才能保留文本信息學(xué)到的知識(shí)!

Flamingo

介紹完了Frozen,那么DeepMind團(tuán)隊(duì)再接再厲,創(chuàng)造效果驚艷的Flamingo模型就順理成章了。相比于Frozen,F(xiàn)lamingo模型的幾點(diǎn)改進(jìn):

更強(qiáng)的LM模型: 70B參數(shù)的語(yǔ)言模型Chinchilla;

更多的可訓(xùn)練參數(shù): visual encoder這次也凍結(jié)了,但是圖片特征采樣模型可以訓(xùn)練,更重要的是LM模型的各層中也嵌入了可學(xué)習(xí)的參數(shù),可訓(xùn)練參數(shù)總量高達(dá)10B;

更恐怖的訓(xùn)練數(shù)據(jù):不僅加入了ALIGN算法的18億img-text pair,數(shù)百萬(wàn)的video-text pair。此外,還有大量的不匹配的圖文信息,來(lái)源于MultiModal MassiveWeb (M3W) dataset,其中圖片數(shù)量上億,文本大概有182 GB。可以使用unpaired img-text數(shù)據(jù)進(jìn)行訓(xùn)練也是Flamingo模型的一大亮點(diǎn)。總而言之,它的數(shù)據(jù)量十分恐怖,已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)目前業(yè)界的多模態(tài)算法比如CLIP、ALIGN、SimVLM、BLIP等。

下面看看Flamingo的模型結(jié)構(gòu):

d119f61e-2915-11ed-ba43-dac502259ad0.png

Flamingo模型結(jié)構(gòu)

可以看到, 不同于Frozen,這一次visual encoder也是凍結(jié)的。參數(shù)可以學(xué)習(xí)的就兩部分,一個(gè)是Perceiver Resampler,一個(gè)是嵌入在LM模型中的Gated Block。Perceiver Resampler結(jié)構(gòu)如下:

d14359aa-2915-11ed-ba43-dac502259ad0.png

Perceiver Resampler結(jié)構(gòu)

Perceiver Resampler結(jié)構(gòu)一目了然,一些可學(xué)習(xí)的embedding作為query,然后圖片特征或者時(shí)續(xù)的視頻特征attend到query上,作為最后的輸出。

d17ae7bc-2915-11ed-ba43-dac502259ad0.png

gated xattn-dense結(jié)構(gòu)

嵌入在LM模型中的gated xattn-dense的結(jié)構(gòu)同樣一目了然,使用文本信息作為query去aggregate視覺(jué)信息。其中text embedding作為query,visual embedding作為key和value。類(lèi)比于transformer結(jié)構(gòu),唯一小的差別就是cross-attention和FFN之后額外加了一個(gè)gate。

介紹完了Flamingo的模型結(jié)構(gòu),簡(jiǎn)單看看它的爆表性能吧,可以說(shuō),下游場(chǎng)景中只用few-shot的情況下做到這種程度,讓人驚訝...... 在一些答案集合固定的任務(wù)中,比如傳統(tǒng)的VQAv2中優(yōu)勢(shì)不明顯, 但是open-ended的knowledge-based VQA任務(wù)中,比如OKVQA,只用few-shot就可以刷新當(dāng)前SOTA 在盲人場(chǎng)景的VizWiz以及OCR信息特別多的TextVQA等任務(wù)中,效果同樣可圈可點(diǎn)。一些基于視頻的QA比如NextQA和iVQA效果同樣刷新當(dāng)前最好性能......

d19fff34-2915-11ed-ba43-dac502259ad0.png

如果Flamingo不使用few-shot模式,而進(jìn)行fine-tune模式,論文中顯示,同樣可以刷新不少業(yè)界SOTA指標(biāo),這里就不列舉了。最后再列出幾個(gè)讓人驚嘆的示例結(jié)束本文,準(zhǔn)備再去好好研究一番論文細(xì)節(jié)。

多模態(tài)描述,多模態(tài)問(wèn)答,多模態(tài)對(duì)話,多模態(tài)推薦……以前很多人覺(jué)得很遙遠(yuǎn),但是近年來(lái)進(jìn)展飛速,距離實(shí)際場(chǎng)景的gap也在逐步縮小,未來(lái)可期~

d1e3fb1c-2915-11ed-ba43-dac502259ad0.png

d215a90a-2915-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    558

    瀏覽量

    10647
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1222

    瀏覽量

    25259
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22464

原文標(biāo)題:站在NLP巨人模型的肩膀才是多模態(tài)的未來(lái)?

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場(chǎng)景下的模態(tài)情感識(shí)別

    自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價(jià)值.本文探討了在文化場(chǎng)景下的模態(tài)情感識(shí)別問(wèn)題.我們從語(yǔ)音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制
    發(fā)表于 12-18 14:47 ?0次下載

    如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?

    一個(gè)模型完成了CV,NLP方向的7個(gè)任務(wù),每個(gè)任務(wù)上表現(xiàn)都非常好。 ? Transformer架構(gòu)在自然語(yǔ)言處理和其他領(lǐng)域的機(jī)器學(xué)習(xí)(ML)任務(wù)中表現(xiàn)出了巨大的成功,但大多僅限于單個(gè)
    的頭像 發(fā)表于 03-08 10:30 ?3008次閱讀
    如何讓Transformer在多種<b class='flag-5'>模態(tài)</b>下處理不同<b class='flag-5'>領(lǐng)域</b>的廣泛應(yīng)用?

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    簡(jiǎn)述文本與圖像領(lǐng)域模態(tài)學(xué)習(xí)有關(guān)問(wèn)題

    來(lái)自:哈工大SCIR 本期導(dǎo)讀:近年來(lái)研究人員在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理方向均取得了很大進(jìn)展,因此融合了二者的模態(tài)深度學(xué)習(xí)也越來(lái)越受到關(guān)注。本期主要討論結(jié)合文本和圖像的模態(tài)
    的頭像 發(fā)表于 08-26 16:29 ?7121次閱讀

    如何使用模態(tài)信息做prompt

    Multimodal Conditionality for Natural Language Generation 研究的任務(wù)場(chǎng)景則是以模態(tài)信息作為條件做 conditional 的 NLG
    的頭像 發(fā)表于 11-03 09:39 ?2058次閱讀
    如何使用<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息做prompt

    DocumentAI的模型、任務(wù)和基準(zhǔn)數(shù)據(jù)集

    隨著最近幾年模態(tài)大火的,越來(lái)越多的任務(wù)都被推陳出新為模態(tài)版本。譬如,傳統(tǒng)對(duì)話任務(wù),推出了考慮
    的頭像 發(fā)表于 08-22 09:55 ?2064次閱讀

    一個(gè)真實(shí)閑聊模態(tài)數(shù)據(jù)集TikTalk

    隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對(duì)話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。
    的頭像 發(fā)表于 02-09 09:31 ?2279次閱讀

    中文模態(tài)對(duì)話數(shù)據(jù)集

    隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對(duì)話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的
    的頭像 發(fā)表于 02-22 11:03 ?1637次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對(duì)話數(shù)據(jù)集

    如何利用LLM做模態(tài)任務(wù)

    大型語(yǔ)言模型LLM(Large Language Model)具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開(kāi)放模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)。因此,現(xiàn)階段,如何利用LLM做一些
    的頭像 發(fā)表于 05-11 17:09 ?1115次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>任務(wù)</b>?

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)大模型開(kāi)源,在模態(tài)序列中「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對(duì)模態(tài)大模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺(jué)語(yǔ)言模型 Flamingo ,它使用單一視覺(jué)語(yǔ)言模型處理多項(xiàng)
    的頭像 發(fā)表于 07-16 20:45 ?928次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開(kāi)源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    基于視覺(jué)的模態(tài)觸覺(jué)感知系統(tǒng)

    傳統(tǒng)的模態(tài)/多任務(wù)觸覺(jué)感知系統(tǒng)通過(guò)集成多種傳感單元來(lái)達(dá)到模態(tài)觸覺(jué)信息的解耦,但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性,以及需要應(yīng)對(duì)來(lái)自不同刺激間的干
    發(fā)表于 10-18 11:24 ?1333次閱讀
    基于視覺(jué)的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>觸覺(jué)感知系統(tǒng)

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場(chǎng)景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個(gè)備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類(lèi)型的數(shù)據(jù)和信息進(jìn)行融合,以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹
    的頭像 發(fā)表于 12-15 14:28 ?1.2w次閱讀

    海康威視發(fā)布模態(tài)大模型文搜存儲(chǔ)系列產(chǎn)品

    模態(tài)大模型為安防行業(yè)帶來(lái)重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,海康威視將大參數(shù)量、大樣本量的圖文模態(tài)大模型與嵌入式智能硬件深度融合,發(fā)布
    的頭像 發(fā)表于 02-18 10:33 ?483次閱讀