女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

任意文本、視覺(jué)、音頻混合生成,多模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-12-03 20:20 ? 次閱讀
研究者表示,CoDi-2 標(biāo)志著在開(kāi)發(fā)全面的多模態(tài)基礎(chǔ)模型領(lǐng)域取得了重大突破。

今年 5 月,北卡羅來(lái)納大學(xué)教堂山分校、微軟提出一種可組合擴(kuò)散(Composable Diffusion,簡(jiǎn)稱(chēng) CoDi)模型,讓一種模型統(tǒng)一多種模態(tài)成為可能。CoDi 不僅支持從單模態(tài)到單模態(tài)的生成,還能接收多個(gè)條件輸入以及多模態(tài)聯(lián)合生成。

近日,UC 伯克利、微軟 Azure AI、Zoom、北卡羅來(lái)納大學(xué)教堂山分校等多個(gè)機(jī)構(gòu)的研究者將 CoDi 升級(jí)到了 CoDi-2。

wKgaomVsc6OAeaxrAAEl2u7reAU239.png

  • 論文地址:https://arxiv.org/pdf/2311.18775.pdf

  • 項(xiàng)目地址:https://codi-2.github.io/

項(xiàng)目 demo

論文一作 Zineng Tang 表示,「CoDi-2 遵循復(fù)雜的多模態(tài)交錯(cuò)上下文指令,以零樣本或少樣本交互的方式生成任何模態(tài)(文本、視覺(jué)和音頻)。」

wKgaomVsc6OAYmXrAAI_ZkWK0sY869.png

圖源:https://twitter.com/ZinengTang/status/1730658941414371820

可以說(shuō),作為一種多功能、交互式的多模態(tài)大語(yǔ)言模型(MLLM),CoDi-2 能夠以 any-to-any 輸入-輸出模態(tài)范式進(jìn)行上下文學(xué)習(xí)、推理、聊天、編輯等任務(wù)。通過(guò)對(duì)齊編碼與生成時(shí)的模態(tài)與語(yǔ)言,CoDi-2 使 LLM 不僅可以理解復(fù)雜的模態(tài)交錯(cuò)指令和上下文示例, 還能在連續(xù)的特征空間內(nèi)自回歸地生成合理和連貫的多模態(tài)輸出。

而為了訓(xùn)練 CoDi-2,研究者構(gòu)建了一個(gè)大規(guī)模生成數(shù)據(jù)集,包含了跨文本、視覺(jué)和音頻的上下文多模態(tài)指令。CoDi-2 展示了一系列多模態(tài)生成的零樣本能力,比如上下文學(xué)習(xí)、推理以及通過(guò)多輪交互對(duì)話(huà)實(shí)現(xiàn)的 any-to-any 模態(tài)生成組合。其中在主題驅(qū)動(dòng)圖像生成、視覺(jué)轉(zhuǎn)換和音頻編輯等任務(wù)上超越了以往領(lǐng)域特定的模型。

wKgaomVsc6OATom_AAWunzoj2p0816.png

人類(lèi)與 CoDi-2 的多輪對(duì)話(huà)為圖像編輯提供了上下文多模態(tài)指令。

模型架構(gòu)

CoDi-2 在設(shè)計(jì)時(shí)旨在處理上下文中的文本、圖像和音頻等多模態(tài)輸入,利用特定指令促進(jìn)上下文學(xué)習(xí)并生成相應(yīng)的文本、圖像和音頻輸出。CoDi-2 模型架構(gòu)圖如下所示。

wKgaomVsc6OAdK65AAKOrejz7vs577.png

將多模態(tài)大語(yǔ)言模型作為基礎(chǔ)引擎

這種 any-to-any 基礎(chǔ)模型可以消化交錯(cuò)式模態(tài)輸入,理解和推理復(fù)雜指令(如多輪對(duì)話(huà)、上下文示例),并與多模態(tài)擴(kuò)散器交互,實(shí)現(xiàn)這一切的前提是需要一個(gè)強(qiáng)大的基礎(chǔ)引擎。研究者提出將 MLLM 作為這個(gè)引擎,它的構(gòu)建需要為僅文本的 LLM 提供多模態(tài)感知。

利用對(duì)齊的多模態(tài)編碼器映射,研究者可以無(wú)縫地使 LLM 感知到模態(tài)交錯(cuò)的輸入序列。具體地,在處理多模態(tài)輸入序列時(shí),他們首先使用多模態(tài)編碼器將多模態(tài)數(shù)據(jù)映射到特征序列,然后特殊 token 被添加到特征序列的前后,比如「?audio? [audio feature sequence] ?/audio?」。

基于 MLLM 的多模態(tài)生成

研究者提出將擴(kuò)散模型(DM)集成到 MLLM 中,從而生成多模態(tài)輸出,這里遵循細(xì)致入微的多模態(tài)交錯(cuò)指令和提示。擴(kuò)散模型的訓(xùn)練目標(biāo)如下所示:

wKgaomVsc6SAdyM-AAB6GX4e-Ac131.png

接著他們提出訓(xùn)練 MLLM 以生成條件式特征 c = C_y (y),該特征被饋入到擴(kuò)散模型中以合成目標(biāo)輸出 x。這樣一來(lái),擴(kuò)散模型的生成損失被用來(lái)訓(xùn)練 MLLM。

任務(wù)類(lèi)型

本文提出的模型在以下示例任務(wù)類(lèi)型中顯示出強(qiáng)大的能力,它提供了一種獨(dú)特的方法來(lái)提示模型生成或轉(zhuǎn)換上下文中的多模態(tài)內(nèi)容,包括本文、圖像、音頻、視頻及其組合。

1. 零樣本提示。零樣本提示任務(wù)要求模型在沒(méi)有任何先前示例的情況下進(jìn)行推理并生成新內(nèi)容。

2. 一次/少量樣本提示。一次或少量樣本提示為模型提供了一個(gè)或幾個(gè)示例,以便在執(zhí)行類(lèi)似任務(wù)之前從中學(xué)習(xí)。這種方法在以下任務(wù)中很明顯:模型將學(xué)習(xí)到的概念從一個(gè)圖像應(yīng)用到另一個(gè)圖像,或者通過(guò)理解所提供示例中描述的風(fēng)格來(lái)創(chuàng)建一個(gè)新的藝術(shù)品。

(1)范例學(xué)習(xí)在要求模型將此學(xué)習(xí)應(yīng)用于新實(shí)例之前,向模型顯式顯示期望輸出的示例。(2)概念學(xué)習(xí)涉及模型從這些給定示例的共享概念/屬性中學(xué)習(xí),例如藝術(shù)風(fēng)格或模式,然后創(chuàng)建展示類(lèi)似概念/屬性的新內(nèi)容。(3)主題驅(qū)動(dòng)的學(xué)習(xí)側(cè)重于根據(jù)一組提供的圖像生成新的內(nèi)容。

實(shí)驗(yàn)及結(jié)果

模型設(shè)置

本文模型的實(shí)現(xiàn)基于 Llama2,特別是 Llama-2-7b-chat-hf。研究者使用 ImageBind ,它具有對(duì)齊的圖像、視頻、音頻、文本、深度、thermal 和 IMU 模式編碼器。研究者使用 ImageBind 對(duì)圖像和音頻特征進(jìn)行編碼,并通過(guò)多層感知器(MLP)將其投射到 LLM(Llama-2-7b-chat-hf)的輸入維度。MLP 由線(xiàn)性映射、激活、歸一化和另一個(gè)線(xiàn)性映射組成。當(dāng) LLM 生成圖像或音頻特征時(shí),他們通過(guò)另一個(gè) MLP 將其投射回 ImageBind 特征維度。本文圖像擴(kuò)散模型基于 StableDiffusion2.1 (stabilityai/stable-diffusion-2-1-unclip)、AudioLDM2 和 zeroscope v2。

對(duì)于需要更高保真原始輸入的圖像或音頻,研究者還將原始圖像或音頻輸入到擴(kuò)散模型中,同時(shí)通過(guò)連接擴(kuò)散噪聲生成特征。這種方法在保留輸入內(nèi)容的最大感知特征方面尤為有效,添加新內(nèi)容或改變風(fēng)格等指令編輯也是如此。

圖像生成評(píng)估

下圖展示了 Dreambench 上主題驅(qū)動(dòng)圖像生成的評(píng)估結(jié)果和 MSCOCO 上的 FID 分?jǐn)?shù)。本文方法實(shí)現(xiàn)了極具競(jìng)爭(zhēng)力的零樣本性能,顯示了其對(duì)未知新任務(wù)的泛化能力。

wKgaomVsc6SAdPG5AAGrw4P79Wg155.png

音頻生成評(píng)估

表 5 展示了音頻處理任務(wù)的評(píng)估結(jié)果,即添加、刪除和替換音軌中的元素。從表中可以明顯看出,與之前的方法相比,本文方法表現(xiàn)出了卓越的性能。值得注意的是,在所有三個(gè)編輯任務(wù)中,它在所有指標(biāo) — 對(duì)數(shù)譜距離(LSD)、Kullback-Leibler(KL)發(fā)散和 Fréchet Dis- tance(FD)上都取得了最低得分。

wKgaomVsc6SAfoACAAIrPGvX02A094.png


原文標(biāo)題:任意文本、視覺(jué)、音頻混合生成,多模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:任意文本、視覺(jué)、音頻混合生成,多模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)模態(tài)大模型

    InternVL2.5-1B/8B/MPO,Huggingface推出的全球最小模態(tài)大模型SmloVLM-256M。為工業(yè)界提供離線(xiàn)部署模態(tài)
    的頭像 發(fā)表于 04-21 10:56 ?1110次閱讀
    愛(ài)芯通元NPU適配Qwen2.5-VL-3B<b class='flag-5'>視覺(jué)</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型

    一種模態(tài)駕駛場(chǎng)景生成框架UMGen介紹

    端到端自動(dòng)駕駛技術(shù)的快速發(fā)展對(duì)閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場(chǎng)景生成方法大多側(cè)重于圖像模態(tài),忽略
    的頭像 發(fā)表于 03-24 15:57 ?758次閱讀
    一種<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>駕駛場(chǎng)景<b class='flag-5'>生成</b>框架UMGen介紹

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    全系智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺(jué)語(yǔ)言)模態(tài)AI大模型。這一突破性進(jìn)展表明,搭載移遠(yuǎn)任意智能模組的終端設(shè)備,均可無(wú)縫融合
    發(fā)表于 03-21 14:12 ?222次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗(yàn)

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺(jué)語(yǔ)言)模態(tài)AI大模型。這一突破性進(jìn)展表明,搭載移遠(yuǎn)任意智能模組的終端設(shè)備,均可無(wú)縫融合
    的頭像 發(fā)表于 03-20 19:03 ?338次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗(yàn)

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?2618次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b>語(yǔ)言模型)?詳細(xì)解析

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過(guò)多種感官通道(如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等)或多種交互方式(如語(yǔ)音
    的頭像 發(fā)表于 03-17 15:12 ?1471次閱讀

    階躍星辰開(kāi)源模態(tài)模型,天數(shù)智芯迅速適配

    近日,頭部大模型創(chuàng)業(yè)公司階躍星辰在行業(yè)內(nèi)引起了軒然大波,宣布正式開(kāi)源兩款Step系列模態(tài)模型——Step-Video-T2V視頻生成模型和Step-Audio語(yǔ)音交互模型。這一消息迅
    的頭像 發(fā)表于 02-19 14:30 ?411次閱讀

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1456次閱讀
    一文詳解<b class='flag-5'>視覺(jué)</b>語(yǔ)言模型

    字節(jié)跳動(dòng)即將推出模態(tài)視頻生成模型OmniHuman

    字節(jié)跳動(dòng)旗下一站式AI創(chuàng)作平臺(tái)即夢(mèng)AI即將迎來(lái)重大更新,全新模態(tài)視頻生成模型OmniHuman即將上線(xiàn)。這款模型是字節(jié)跳動(dòng)自研的閉源模型,其強(qiáng)大的功能令人矚目:僅需一張圖片與一段
    的頭像 發(fā)表于 02-08 10:53 ?643次閱讀

    字節(jié)跳動(dòng)發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動(dòng)近日發(fā)布一項(xiàng)重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢(shì)在于其強(qiáng)大的視頻
    的頭像 發(fā)表于 02-07 17:50 ?695次閱讀

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    高通與智譜推動(dòng)模態(tài)生成式AI體驗(yàn)的終端側(cè)部署

    此前,驍龍峰會(huì)首日,智譜與高通技術(shù)公司宣布合作將GLM-4V端側(cè)視覺(jué)大模型,面向驍龍8至尊版進(jìn)行深度適配和推理優(yōu)化,支持豐富的模態(tài)交互方式,進(jìn)一步推動(dòng)
    的頭像 發(fā)表于 11-08 09:55 ?554次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō)
    的頭像 發(fā)表于 10-18 09:39 ?1050次閱讀

    Meta發(fā)布模態(tài)LLAMA 3.2人工智能模型

    Meta Platforms近日宣布一項(xiàng)重要技術(shù)突破,成功推出了模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息,還實(shí)現(xiàn)
    的頭像 發(fā)表于 09-27 11:44 ?617次閱讀

    基于Qwen-Agent與OpenVINO構(gòu)建本地AI智能體

    Qwen2 是阿里巴巴集團(tuán) Qwen 團(tuán)隊(duì)研發(fā)的大語(yǔ)言模型和大型模態(tài)模型系列。Qwen2 具備自然語(yǔ)言理解、文本生成、
    的頭像 發(fā)表于 07-26 09:54 ?1181次閱讀
    基于Qwen-Agent與OpenVINO構(gòu)建本地AI智能體