女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌新作Muse:通過掩碼生成Transformer進行文本到圖像生成

CVer ? 來源:機器之心 ? 2023-01-09 10:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圖像生成領域越來越卷了!

文本到圖像生成是 2022 年最火的 AIGC 方向之一,被《science》評選為 2022 年度十大科學突破。最近,谷歌的一篇文本到圖像生成新論文《Muse: Text-To-Image Generation via Masked Generative Transformers》又引起高度關注。

e250c8d6-8f6d-11ed-bfe3-dac502259ad0.png

Muse: Text-To-Image Generation via Masked Generative Transformers

論文地址:https://arxiv.org/abs/2301.00704

項目地址:https://muse-model.github.io/

該研究提出了一種使用掩碼圖像建模方法進行文本到圖像合成的新模型,其中的圖像解碼器架構以來自預訓練和 frozen T5-XXL 大型語言模型 (LLM) 編碼器的嵌入為條件。

與谷歌先前的 Imagen 模型類似,該研究發現基于預訓練 LLM 進行調整對于逼真、高質量的圖像生成至關重要。Muse 模型是建立在 Transformer (Vaswani et al., 2017) 架構之上。

與建立在級聯像素空間(pixel-space)擴散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了離散 token,效率顯著提升。與 SOTA 自回歸模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解碼而效率更高。

基于在 TPU-v4 上的實驗結果,研究者估計 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者認為:Muse 比 Stable Diffusion 推理速度更快是因為 Stable Diffusion v1.4 中使用了擴散模型,在推理時明顯需要更多次迭代。

另一方面,Muse 效率的提升沒有造成生成圖像質量下降、模型對輸入文本 prompt 的語義理解能力降低的問題。該研究根據多個標準評估了 Muse 的生成結果,包括 CLIP 評分 (Radford et al., 2021) 和 FID (Heusel et al., 2017)。Muse-3B 模型在 COCO (Lin et al., 2014) 零樣本驗證基準上取得了 0.32 的 CLIP 分數和 7.88 的 FID 分數。

下面我們看看 Muse 生成效果:

文本 - 圖像生成:Muse 模型從文本提示快速生成高質量的圖像(在 TPUv4 上,對于 512x512 分辨率的圖像需要時間為 1.3 秒,生成 256x256 分辨率的圖像需要時間為 0.5 秒)。例如生成「一只熊騎著自行車,一只鳥棲息在車把上」:

Muse 模型通過對文本提示條件下的圖像 token 進行迭代重新采樣,為用戶提供了零樣本、無掩碼編輯(mask-free editing)。

e26c3f76-8f6d-11ed-bfe3-dac502259ad0.gif

Muse 還提供了基于掩碼的編輯,例如「在美麗的秋葉映照下,有一座涼亭在湖上」。

e27be764-8f6d-11ed-bfe3-dac502259ad0.png

模型簡介

Muse 建立在許多組件之上,圖 3 提供了模型體系架構概述。

e28c6774-8f6d-11ed-bfe3-dac502259ad0.png

具體而言所包含的組件有:

預訓練文本編碼器:該研究發現利用預訓練大型語言模型(LLM)可以提高圖像生成質量。他們假設,Muse 模型學會了將 LLM 嵌入中的豐富視覺和語義概念映射到生成的圖像。給定一個輸入文本字幕,該研究將其通過凍結的 T5-XXL 編碼器,得到一個 4096 維語言嵌入向量序列。這些嵌入向量線性投影到 Transformer 模型。

使用 VQGAN 進行語義 Tokenization:該模型的核心組件是使用從 VQGAN 模型獲得的語義 token。其中,VQGAN 由一個編碼器和一個解碼器組成,一個量化層將輸入圖像映射到一個學習碼本中的 token 序列。該研究全部使用卷積層構建編碼器和解碼器,以支持對不同分辨率圖像進行編碼。

基礎模型:基礎模型是一個掩碼 transformer,其中輸入是投影到 T5 的嵌入和圖像 token。該研究保留所有的文本嵌入(unmasked),隨機掩碼不同比例的圖像 token,并用一個特殊的 [mask] token 替換它們。

超分辨率模型:該研究發現使用級聯模型是有益的:首先是生成 16 × 16 潛在映射(對應于 256 × 256 圖像)的基礎模型,然后是將基礎的潛在映射上采樣到的超分辨率模型,也就是 64 × 64 的潛在映射(對應于一個 512 × 512 的圖像)。

e2d550ce-8f6d-11ed-bfe3-dac502259ad0.png

解碼器微調:為了進一步提高模型生成精細細節的能力,該研究通過添加更多的殘差層和通道來增加 VQGAN 解碼器的容量,同時保持編碼器容量不變。然后微調新的解碼器層,同時凍結 VQGAN 編碼器權重、碼本和 transformer(即基礎模型和超分辨率模型)。

除了以上組件外,Muse 還包含可變掩碼比率組件、在推理時迭代并行解碼組件等。

實驗及結果

如下表所示,與其他模型相比,Muse 縮短了推理時間。

e410e53e-8f6d-11ed-bfe3-dac502259ad0.png

下表為不同模型在 zero-shot COCO 上測量的 FID 和 CLIP 得分:

e41c1ff8-8f6d-11ed-bfe3-dac502259ad0.png

如下表所示,Muse(632M (base)+268M (super-res) 參數模型)在 CC3M 數據集上訓練和評估時得到了 6.06 的 SOTA FID 分數。

e4245308-8f6d-11ed-bfe3-dac502259ad0.png

下圖是 Muse 與 Imagen、DALL-E 2 在相同 prompt 下生成結果的例子。

e4339d7c-8f6d-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3520

    瀏覽量

    50421
  • 圖像生成
    +關注

    關注

    0

    文章

    25

    瀏覽量

    7037
  • Transformer
    +關注

    關注

    0

    文章

    151

    瀏覽量

    6519

原文標題:比Imagen更高效!谷歌新作Muse:通過掩碼生成Transformer進行文本到圖像生成

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    關于鴻蒙App上架中“AI文本生成模塊的資質證明文件”的情況說明

    檢查結果為“通過”或審核狀態為“審核通過”。 那么對于這個問題,我也是嘗試去解決……這里分享一下我了解的情況和方法 首先,這個政策雖然說是針對AI文本生成模塊,但實際上,針對的是所有
    發表于 06-30 18:37

    利用NVIDIA 3D引導生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術突飛猛進,從早期模型會生成手指過多的人類圖像,到現在能創造出令人驚嘆的逼真視覺效果。即使取得了如此飛躍,仍然存在一個挑戰:實現創意掌控。
    的頭像 發表于 06-05 09:24 ?387次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發者現在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出。
    的頭像 發表于 05-14 16:53 ?440次閱讀

    如何使用離線工具od SPSDK生成完整圖像

    對我來說,完整圖像是指包含 keyblob、FCB 等的圖像。換句話說,圖像包含 0x30000000 0x30000FFF 之間的大約 4KB。 如果我理解正確,使用 SPT(以
    發表于 03-28 06:51

    使用OpenVINO GenAI和LoRA適配器進行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無奇的文本提示詞轉換為令人驚艷的視覺效果。
    的頭像 發表于 03-12 13:49 ?849次閱讀
    使用OpenVINO GenAI和LoRA適配器<b class='flag-5'>進行</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b>

    借助谷歌Gemini和Imagen模型生成高質量圖像

    在快速發展的生成式 AI 領域,結合不同模型的優勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創意的提示,然后使用 Imagen 3 模型根據這些提示生成高質
    的頭像 發表于 01-03 10:38 ?896次閱讀
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen模型<b class='flag-5'>生成</b>高質量<b class='flag-5'>圖像</b>

    AIGC與傳統內容生成的區別 AIGC的優勢和挑戰

    、AIGC與傳統內容生成的區別 數據類型與處理 : AIGC主要面向非結構化數據的生成,如自然語言文本圖像、音頻、視頻等。這類數據規模更大,內在結構更復雜,對處理技術提出了更高要求。
    的頭像 發表于 11-22 16:04 ?1426次閱讀

    RNN在圖片描述生成中的應用

    隨著深度學習技術的飛速發展,圖像描述生成(Image Captioning)作為計算機視覺和自然語言處理的交叉領域,受到了越來越多的關注。圖像描述生成任務旨在自動
    的頭像 發表于 11-15 09:58 ?955次閱讀

    生成式AI工具作用

    生成式AI工具是指那些能夠自動生成文本圖像、音頻、視頻等多種類型數據的人工智能技術。在此,petacloud.ai小編為您整理生成式AI工具作用。
    的頭像 發表于 10-28 11:19 ?748次閱讀

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現,取決于你是否愿意在本地運行模型或者使用現成的API
    的頭像 發表于 10-27 14:21 ?1085次閱讀

    AIGC生成內容的優勢與挑戰

    人工智能生成內容(AIGC,Artificial Intelligence Generated Content)是指利用人工智能技術自動生成文本圖像、音頻和視頻等內容的過程。隨著深度學習、自然語言
    的頭像 發表于 10-25 15:36 ?1781次閱讀

    AIGC與傳統內容生成的區別

    AIGC : 主要面向非結構化數據的生成,如自然語言文本圖像、音頻、視頻等。 這類數據規模更大,內在結構更復雜,對處理技術提出了更高要求。 傳統內容生成 : 主要處理結構化數據,如
    的頭像 發表于 10-25 15:13 ?1255次閱讀

    labview工程文件如何生成exe

    生成可執行文件(EXE)是LabVIEW程序開發過程中的一個重要步驟,它允許用戶在沒有安裝LabVIEW的計算機上運行程序。以下是步驟和注意事項: 1. 準備工作 在開始生成EXE文件之前,確保您
    的頭像 發表于 09-04 17:09 ?3227次閱讀

    labview怎么生成可執行文

    生成可執行文件(EXE)是LabVIEW程序開發中的一個重要步驟,它允許用戶將LabVIEW項目打包成一個獨立的應用程序,便于在沒有安裝LabVIEW的計算機上運行。 1. 準備工作 在開始生成
    的頭像 發表于 09-04 17:07 ?1857次閱讀

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設計資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這一里程碑式的發布標志著AI圖像創作領域邁入了一個全新的高度
    的頭像 發表于 08-30 16:23 ?1581次閱讀