女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多模態(tài)圖像合成與編輯方法

OpenCV學(xué)堂 ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-08-23 09:12 ? 次閱讀

本篇綜述通過(guò)對(duì)現(xiàn)有的多模態(tài)圖像合成與編輯方法的歸納總結(jié),對(duì)該領(lǐng)域目前的挑戰(zhàn)和未來(lái)方向進(jìn)行了探討和分析。

近期 OpenAI 發(fā)布的 DALLE-2 和谷歌發(fā)布的 Imagen 等實(shí)現(xiàn)了令人驚嘆的文字到圖像的生成效果,引發(fā)了廣泛關(guān)注并且衍生出了很多有趣的應(yīng)用。而文字到圖像的生成屬于多模態(tài)圖像合成與編輯領(lǐng)域的一個(gè)典型任務(wù)。 近日,來(lái)自馬普所和南洋理工等機(jī)構(gòu)的研究人員對(duì)多模態(tài)圖像合成與編輯這一大領(lǐng)域的研究現(xiàn)狀和未來(lái)發(fā)展做了詳細(xì)的調(diào)查和分析。

d78635d0-2230-11ed-ba43-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2112.13592.pdf

項(xiàng)目地址:https://github.com/fnzhan/MISE

d79dbe8a-2230-11ed-ba43-dac502259ad0.png

在第一章節(jié),該綜述描述了多模態(tài)圖像合成與編輯任務(wù)的意義和整體發(fā)展,以及本論文的貢獻(xiàn)與總體結(jié)構(gòu)。 在第二章節(jié),根據(jù)引導(dǎo)圖片合成與編輯的數(shù)據(jù)模態(tài),該綜述論文介紹了比較常用的視覺(jué)引導(dǎo)(比如 語(yǔ)義圖,關(guān)鍵點(diǎn)圖,邊緣圖),文字引導(dǎo),語(yǔ)音引導(dǎo),場(chǎng)景圖(scene graph)引導(dǎo)和相應(yīng)模態(tài)數(shù)據(jù)的處理方法以及統(tǒng)一的表示框架。 在第三章節(jié),根據(jù)圖像合成與編輯的模型框架,該論文對(duì)目前的各種方法進(jìn)行了分類,包括基于 GAN 的方法,自回歸方法,擴(kuò)散模型方法,和神經(jīng)輻射場(chǎng)(NeRF)方法。

d7c3cb8e-2230-11ed-ba43-dac502259ad0.png

d7d3ffe0-2230-11ed-ba43-dac502259ad0.png

由于基于 GAN 的方法一般使用條件 GAN 和 無(wú)條件 GAN 反演,因此該論文將這一類別進(jìn)一步分為模態(tài)內(nèi)條件(例如語(yǔ)義圖,邊緣圖),跨模態(tài)條件(例如文字和語(yǔ)音),和 GAN 反演(統(tǒng)一模態(tài))并進(jìn)行了詳細(xì)描述。

d7e7efe6-2230-11ed-ba43-dac502259ad0.png

相比于基于 GAN 的方法,自回歸模型方法能夠更加自然的處理多模態(tài)數(shù)據(jù),以及利用目前流行的 Transformer 模型。自回歸方法一般先學(xué)習(xí)一個(gè)向量量化編碼器將圖片離散地表示為 token 序列,然后自回歸式地建模 token 的分布。由于文本和語(yǔ)音等數(shù)據(jù)都能表示為 token 并作為自回歸建模的條件,因此各種多模態(tài)圖片合成與編輯任務(wù)都能統(tǒng)一到一個(gè)框架當(dāng)中。

d7f91f32-2230-11ed-ba43-dac502259ad0.png

d80fe2f8-2230-11ed-ba43-dac502259ad0.png

近期,火熱的擴(kuò)散模型也被廣泛應(yīng)用于多模態(tài)合成與編輯任務(wù)。例如效果驚人的 DALLE-2 和 Imagen 都是基于擴(kuò)散模型實(shí)現(xiàn)的。相比于 GAN,擴(kuò)散式生成模型擁有一些良好的性質(zhì),比如靜態(tài)的訓(xùn)練目標(biāo)和易擴(kuò)展性。該論文依據(jù)條件擴(kuò)散模型和預(yù)訓(xùn)練擴(kuò)散模型對(duì)現(xiàn)有方法進(jìn)行了分類與詳細(xì)分析。

d8239028-2230-11ed-ba43-dac502259ad0.png

d83650f0-2230-11ed-ba43-dac502259ad0.png

以上方法主要聚焦于 2D 圖像的多模態(tài)合成與編輯。近期隨著神經(jīng)輻射場(chǎng)(NeRF)的迅速發(fā)展,3D 感知的多模態(tài)合成與編輯也吸引了越來(lái)越多的關(guān)注。由于需要考慮多視角一致性,3D 感知的多模態(tài)合成與編輯是更具挑戰(zhàn)性的任務(wù)。本文針對(duì)單場(chǎng)景優(yōu)化 NeRF,生成式 NeRF 和 NeRF 反演的三種方法對(duì)現(xiàn)有工作進(jìn)行了分類與總結(jié)。 隨后,該綜述對(duì)以上四種模型方法的進(jìn)行了比較和討論。總體而言,相比于 GAN,目前最先進(jìn)的模型更加偏愛(ài)自回歸模型和擴(kuò)散模型。而 NeRF 在多模態(tài)合成與編輯任務(wù)的應(yīng)用為這個(gè)領(lǐng)域的研究打開(kāi)了一扇新的窗戶。

d84df174-2230-11ed-ba43-dac502259ad0.png

在第四章節(jié),該綜述匯集了多模態(tài)合成與編輯領(lǐng)域流行的數(shù)據(jù)集以及相應(yīng)的模態(tài)標(biāo)注,并且針對(duì)各模態(tài)典型任務(wù)(語(yǔ)義圖像合成,文字到圖像合成,語(yǔ)音引導(dǎo)圖像編輯)對(duì)當(dāng)前方法進(jìn)行了定量的比較。 在第五章節(jié),該綜述對(duì)此領(lǐng)域目前的挑戰(zhàn)和未來(lái)方向進(jìn)行了探討和分析,包括大規(guī)模的多模態(tài)數(shù)據(jù)集,準(zhǔn)確可靠的評(píng)估指標(biāo),高效的網(wǎng)絡(luò)架構(gòu),以及 3D 感知的發(fā)展方向。 在第六和第七章節(jié),該綜述分別闡述了此領(lǐng)域潛在的社會(huì)影響和總結(jié)了文章的內(nèi)容與貢獻(xiàn)。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6223

    瀏覽量

    107569
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7242

    瀏覽量

    91042
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1092

    瀏覽量

    41038

原文標(biāo)題:多模態(tài)圖像合成與編輯這么火,馬普所、南洋理工等出了份詳細(xì)綜述

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    基于通道分類合成的SAR圖像分類研究

    利用SVM對(duì)不同通道的數(shù)據(jù)分別進(jìn)行分類,然后利用粒度合成理論對(duì)不同的分類結(jié)果進(jìn)行合并,最后實(shí)現(xiàn)通道SAR數(shù)據(jù)圖像分類。本文重點(diǎn)論述了利用該方法進(jìn)行SAR
    發(fā)表于 04-23 11:52

    高分辨率合成孔徑雷達(dá)圖像的直線特征尺度提取方法

    針對(duì)傳統(tǒng)的合成孔徑雷達(dá)(SAR)尺度邊緣提取方法中直線提取連續(xù)性和完整性不好的特點(diǎn),提出了一個(gè)由粗到精的多分辨率SAR圖像直線特征多級(jí)提取框架,利用
    發(fā)表于 05-06 09:04

    尺度形態(tài)濾波模態(tài)混疊抑制方法

    尺度形態(tài)濾波模態(tài)混疊抑制方法_曹瑩
    發(fā)表于 01-07 18:21 ?0次下載

    基于超圖的模態(tài)關(guān)聯(lián)特征處理方法

    傳統(tǒng)的模式識(shí)別方法認(rèn)為特征是相互獨(dú)立的,容易忽略模態(tài)特征之間多元的關(guān)聯(lián)性,從而造成識(shí)別的誤差。為此,基于超圖模型,提出一種新的特征整合方法。定義共享熵的計(jì)算
    發(fā)表于 03-07 11:01 ?2次下載
    基于超圖的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>關(guān)聯(lián)特征處理<b class='flag-5'>方法</b>

    基于雙殘差超密集網(wǎng)絡(luò)的模態(tài)醫(yī)學(xué)圖像融合方法

    Networks, DRHDNS)的模態(tài)醫(yī)學(xué)圖像融合方法。 DRHDNS分為特征提取和特征融合兩部分。特征提取部分通過(guò)將超密集連接與殘差學(xué)習(xí)相結(jié)合,構(gòu)造出雙殘差超密集塊,用于提取特
    發(fā)表于 04-14 11:18 ?19次下載
    基于雙殘差超密集網(wǎng)絡(luò)的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>醫(yī)學(xué)<b class='flag-5'>圖像</b>融合<b class='flag-5'>方法</b>

    基于聯(lián)合壓縮感知的模態(tài)目標(biāo)統(tǒng)一跟蹤方法

    針對(duì)模態(tài)目標(biāo)跟蹤中大多僅考慮單個(gè)圖像的異種特征融合或不同模態(tài)圖像的同種特征融合,為了使得這兩者間能自然集成,提出基于聯(lián)合壓縮感知的
    發(fā)表于 04-27 15:59 ?0次下載
    基于聯(lián)合壓縮感知的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>目標(biāo)統(tǒng)一跟蹤<b class='flag-5'>方法</b>

    簡(jiǎn)述文本與圖像領(lǐng)域的模態(tài)學(xué)習(xí)有關(guān)問(wèn)題

    來(lái)自:哈工大SCIR 本期導(dǎo)讀:近年來(lái)研究人員在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理方向均取得了很大進(jìn)展,因此融合了二者的模態(tài)深度學(xué)習(xí)也越來(lái)越受到關(guān)注。本期主要討論結(jié)合文本和圖像
    的頭像 發(fā)表于 08-26 16:29 ?7147次閱讀

    ImageBind:跨模態(tài)之王,將6種模態(tài)全部綁定!

    最近,很多方法學(xué)習(xí)與文本、音頻等對(duì)齊的圖像特征。這些方法使用單對(duì)模態(tài)或者最多幾種視覺(jué)模態(tài)。最終嵌入僅限于用于訓(xùn)練的
    的頭像 發(fā)表于 05-11 09:30 ?1382次閱讀
    ImageBind:跨<b class='flag-5'>模態(tài)</b>之王,將6種<b class='flag-5'>模態(tài)</b>全部綁定!

    圖像對(duì)齊所有模態(tài),Meta開(kāi)源感官AI基礎(chǔ)模型,實(shí)現(xiàn)大一統(tǒng)

    最近,很多方法學(xué)習(xí)與文本、音頻等對(duì)齊的圖像特征。這些方法使用單對(duì)模態(tài)或者最多幾種視覺(jué)模態(tài)。最終嵌入僅限于用于訓(xùn)練的
    的頭像 發(fā)表于 05-26 15:45 ?1139次閱讀
    用<b class='flag-5'>圖像</b>對(duì)齊所有<b class='flag-5'>模態(tài)</b>,Meta開(kāi)源<b class='flag-5'>多</b>感官AI基礎(chǔ)模型,實(shí)現(xiàn)大一統(tǒng)

    VisCPM:邁向多語(yǔ)言模態(tài)大模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn)。總體而言,面向
    的頭像 發(fā)表于 07-10 10:05 ?920次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時(shí)代

    模態(tài)大模型最全綜述來(lái)了!

    其中最后一個(gè)表示監(jiān)督信號(hào)是從圖像本身中挖掘出來(lái)的,流行的方法包括對(duì)比學(xué)習(xí)、非對(duì)比學(xué)習(xí)和masked image建模。在這些方法之外,文章也進(jìn)一步討論了
    的頭像 發(fā)表于 09-26 16:42 ?2881次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型最全綜述來(lái)了!

    探究編輯模態(tài)大語(yǔ)言模型的可行性

    不同于單模態(tài)模型編輯模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單
    發(fā)表于 11-09 14:53 ?729次閱讀
    探究<b class='flag-5'>編輯</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言模型的可行性

    大模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語(yǔ)音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)
    的頭像 發(fā)表于 12-13 13:55 ?2431次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)<b class='flag-5'>方法</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?1081次閱讀