女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

北大&華為提出:多模態基礎大模型的高效微調

CVer ? 來源:CVer ? 2023-11-08 16:20 ? 次閱讀

很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用!

0a78a91c-7d2c-11ee-939d-92fbcf53809c.png

https://arxiv.org/abs/2305.08381

這是我們第一篇拓展至多模態領域的高效微調的工作,在該工作中我們首次采用模式逼近(mode apprximation)的方法來進行大模型的輕量化高效微調,僅需訓練預訓練大模型0.04%的參數。同時我們設計了兩個啟發性模塊來增強高效微調時極低參數條件下的模態對齊。實驗上,我們在六大跨模態基準測試集上進行全面評估顯示,我們的方法不僅超越當前的sota, 還在一些任務上優于全量微調方法。

論文的相關代碼也會開源在這個GitHub項目:

github.com/WillDreamer/Aurora

大模型的高效微調是一個非常新且日漸繁榮的task,歡迎小伙伴們一起學習交流~

一、背景

深度學習的大模型時代已經來臨,越來越多的大規模預訓練模型在文本、視覺和多模態領域展示出杰出的生成和推理能力。然而大模型巨大的參數量有兩個明顯缺點。第一,它帶來巨大的計算和物理存儲成本,使預訓練和遷移變得非常昂貴。第二,微調限制了預訓練知識在小規模數據量的下游任務中的應用效果。這兩點阻礙了大模型從特定數據集擴展到更廣泛場景。

為緩解預訓練大模型的高昂成本,一系列參數高效微調方法相繼提出。其通用范式是凍結大模型的骨干網絡,并引入少量額外參數。最近,一些工作開始關注多模態領域的高效微調任務,例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語言處理領域的現有架構用于多模態模型并組合使用,然后直接在單模態和多模態分支的骨干網絡中插入可訓練參數以獲得良好表現。直接、簡單的設計無法將參數高效遷移的精髓融入多模態模型。此外,還有兩個主要挑戰需要面對: (1)如何在極輕量級高效微調框架下進行知識遷移;(2)在極低參數環境下如何提高各模態間的對齊程度。

0a83d436-7d2c-11ee-939d-92fbcf53809c.jpg

圖1:與現有主流的高效微調方法的對比

在這篇文章中,我們嘗試解決這兩種挑戰,貢獻可以總結為:

介紹了名為Aurora的多模態基礎大模型高效微調框架,它解決了當前大規模預訓練和微調策略的局限性。

提出了模式近似(mode approximation)方法來生成輕量級可學習參數,并提出了兩個啟發性模塊來更好地增強模態融合。

通過六個跨模態任務和兩個零樣本任務進行實驗驗證,結果顯示Aurora相比其他方法取得了最先進的性能,同時也只使用最少的可學習參數。

二、高效微調的輕量化架構的設計

0a9c301c-7d2c-11ee-939d-92fbcf53809c.png

0aa7d0e8-7d2c-11ee-939d-92fbcf53809c.jpg

Aurora的整體過程示意圖。

三、高效微調的模態對齊的設計

3.1 Informative Context Enhancement

該模塊的目標是為了實現更好的模態對齊,在交叉注意力模塊后的融合特征中提供提示文本來更好的激活。受“上下文學習”這一領域的進步啟發,我們意識到為提示詞提供示范模板是很重要的。最直觀的方法是對圖像與文本對進行對齊,以獲得更多跨模態上下文信息。但是,即使與相關圖像區域匹配,描述這些區域的文本可能還是有多個選擇。一些文本可能準確概括圖像內容,而另一些可能不行。在沒有事先匹配文本信息的先驗情況下,我們決定引入上下文增強模塊來涵蓋各個方面的可能的文本信息。

0ab5ae84-7d2c-11ee-939d-92fbcf53809c.png

四、實驗結果

4.1 實驗設置

數據集與基準比較。我們在六個跨模態任務領域的benchmark上評估了Aurora,這些任務包括圖片文本檢索、問答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類方法進行比較:完全微調后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細節請參閱附錄。

實現細節。我們的實現基于Salesforce開源代碼庫。與UniAdapter一致,我們使用BLIP-base作為所有多模態下游任務的視覺語言初始化權重。我們使用PyTorch在8臺NVIDIA V100 GPU(32G)設備上實現所有實驗。我們使用AdamW優化器,設置權重衰減為0.05,學習率通過網格搜索得到為1e-4。需要注意的是,在微調過程中,參數組只更新交叉注意模塊的權重, backbone初始化權重不更新。

4.2 實驗結果

0ac0ab9a-7d2c-11ee-939d-92fbcf53809c.jpg

Image-Text Retrieval

0acbc44e-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text Retrieval

0ae334da-7d2c-11ee-939d-92fbcf53809c.jpg

VQA

0aee2c1e-7d2c-11ee-939d-92fbcf53809c.jpg

實驗氣泡圖

4.3 消融實驗

0b151b8a-7d2c-11ee-939d-92fbcf53809c.jpg

How Rank of CP Decomposition Affects Aurora?

0b2deebc-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Informative Context Enhancement

0b4231f6-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Gated Query Transformation?

0b467522-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Parameter Sharing?

4.4 可視化分析

0b59e8a0-7d2c-11ee-939d-92fbcf53809c.jpg

參數分布可視化

0b694610-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text retrieval cases on MSRVTT

0b74c512-7d2c-11ee-939d-92fbcf53809c.jpg

Video Question Answering cases on MSRVTT-QA

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 框架
    +關注

    關注

    0

    文章

    404

    瀏覽量

    17783
  • 深度學習
    +關注

    關注

    73

    文章

    5554

    瀏覽量

    122461
  • 大模型
    +關注

    關注

    2

    文章

    3020

    瀏覽量

    3804

原文標題:NeurIPS 2023 | 北大&華為提出:多模態基礎大模型的高效微調

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態模型

    InternVL2.5-1B/8B/MPO,Huggingface推出的全球最小模態模型SmloVLM-256M。為工業界提供了離線部署模態
    的頭像 發表于 04-21 10:56 ?1113次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    今天學習&amp;lt;基于大模型的RAG應用開發與優化&amp;gt;這本書。大模型微調是深度學習領域中的一項關鍵技術,它指的是在已經預訓
    發表于 01-14 16:51

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    單張消費級顯卡微調模態模型

    把大模型的訓練門檻打下來!我們在單張消費級顯卡上實現了模態模型(LaVIN-7B, LaVIN-13B)的適配和訓練
    的頭像 發表于 06-30 10:43 ?2927次閱讀
    單張消費級顯卡<b class='flag-5'>微調</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    VisCPM:邁向多語言模態模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態能力的突飛猛進,模態模型
    的頭像 發表于 07-10 10:05 ?903次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態模型開源,在模態序列中「補全一切」

    當前學界和工業界都對模態模型研究熱情高漲。去年,谷歌的 Deepmind 發布了模態視覺語言模型
    的頭像 發表于 07-16 20:45 ?952次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全一切」

    中科大&amp;amp;字節提出UniDoc:統一的面向文字場景的模態模型

    如上圖所示,UniDoc基于預訓練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、模態理解等四個任務,通過多模態
    的頭像 發表于 08-31 15:29 ?1842次閱讀
    中科大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字節<b class='flag-5'>提出</b>UniDoc:統一的面向文字場景的<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    探究編輯模態大語言模型的可行性

    不同于單模態模型編輯,模態模型編輯需要考慮更多的模態信息。文章出發點依然從單
    發表于 11-09 14:53 ?712次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>的可行性

    用語言對齊模態信息,北大騰訊等提出LanguageBind,刷新多個榜單

    目前的 VL 預訓練方法通常僅適用于視覺和語言模態,而現實世界中的應用場景往往包含更多的模態信息,如深度圖、熱圖像等。如何整合和分析不同模態的信息,并且能夠在多個模態之間建立準確的語義
    的頭像 發表于 11-23 15:46 ?948次閱讀
    用語言對齊<b class='flag-5'>多</b><b class='flag-5'>模態</b>信息,<b class='flag-5'>北大</b>騰訊等<b class='flag-5'>提出</b>LanguageBind,刷新多個榜單

    基于AX650N芯片部署MiniCPM-V 2.0高效端側模態模型

    今年4月份,面壁智能&amp;清華大學自然語言處理實驗室推出MiniCPM系列的最新模態版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構建
    的頭像 發表于 07-15 09:34 ?1380次閱讀
    基于AX650N芯片部署MiniCPM-V 2.0<b class='flag-5'>高效</b>端側<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?1053次閱讀

    商湯“日日新”融合大模型登頂大語言與模態雙榜單

    據弗若斯特沙利文(Frost &amp; Sullivan, 簡稱“沙利文”)聯合頭豹研究院發布的《2025年中國大模型年度評測》結果顯示:在語言和模態核心能力測評中,商湯“日日新”
    的頭像 發表于 03-18 10:35 ?454次閱讀