女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文理解多模態大語言模型——下

jf_23871869 ? 來源:Sebastian Raschka 博士 ? 作者:Sebastian Raschka 博士 ? 2024-12-03 15:18 ? 次閱讀

?

作者:Sebastian Raschka 博士,

翻譯:張晶,Linux Fundation APAC Open Source Evangelist

編者按:本文并不是逐字逐句翻譯,而是以更有利于中文讀者理解的目標,做了刪減、重構和意譯,并替換了多張不適合中文讀者的示意圖。

原文地址:https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

《一文理解多模態大語言模型 - 上》介紹了什么是多模態大語言模型,以及構建多模態 LLM 有兩種主要方式之一:統一嵌入解碼器架構(Unified Embedding Decoder Architecture)。本文將接著介紹第二種構建多模態 LLM 的方式:跨模態注意架構(Cross-modality Attention Architecture approach)。

一,跨模態注意架構

《一文理解多模態大語言模型 - 上》討論了通過統一嵌入解碼器架構來構建多模態大語言模型(LLM)的方法,并且理解了圖像編碼背后的基本概念,下面介紹另一種通過交叉注意力機制實現多模態LLM的方式,如下圖所示:

wKgZO2dOtyiACm8SAAQZToNs9ng951.png

在上圖所示的跨模態注意力架構方法中,我們仍然使用之前介紹的圖像向量化方式。然而,與直接將圖像向量作為LLM的輸入不同,我們通過交叉注意力機制在多頭注意力層中連接輸入的圖像向量。

這個想法與2017年《Attention Is All You Need》論文中提出的原始Transformer架構相似,在原始《Attention Is All You Need》論文中的Transformer最初是為語言翻譯開發的。因此,它由一個文本編碼器(下圖的左部分)組成,該編碼器接收要翻譯的句子,并通過一個文本解碼器(圖的右部分)生成翻譯結果。在多模態大語言模型的背景下,圖的右部分的編碼器由之前的文本編碼器,更換為圖像編碼器(圖像編碼后的向量)。

文本和圖像在進入大語言模型前都編碼為嵌入維度和尺寸(embedding dimensions and size)一致的向量。

“我們可以把多模態大語言模型看成“翻譯”文本和圖像,或文本和其它模態數據 --- 譯者。”

wKgZPGdOtymAWrlVAAZyVdmo3go015.png

二,統一解碼器和交叉注意力模型訓練

與傳統僅文本的大語言模型(LLM)的開發類似,多模態大語言模型的訓練也包含兩個階段:預訓練和指令微調。然而,與從零開始不同,多模態大語言模型的訓練通常以一個預訓練過且已經過指令微調的大語言模型作為基礎模型。

對于圖像編碼器,通常使用CLIP,并且在整個訓練過程中往往保持不變,盡管也存在例外,我們稍后會探討這一點。在預訓練階段,保持大語言模型部分凍結也是常見的做法,只專注于訓練投影器(Projector)——一個線性層或小型多層感知器。鑒于投影器的學習能力有限,通常只包含一兩層,因此在多模態指令微調(第二階段)期間,大語言模型通常會被解凍,以允許進行更全面的更新。然而,需要注意的是,在基于交叉注意力機制的模型(方法B)中,交叉注意力層在整個訓練過程中都是解凍的。

在介紹了兩種主要方法(方法A:統一嵌入解碼器架構和方法B:跨模態注意力架構)之后,你可能會好奇哪種方法更有效。答案取決于具體的權衡:

統一嵌入解碼器架構(方法A)通常更容易實現,因為它不需要對LLM架構本身進行任何修改。

跨模態注意力架構(方法B)通常被認為在計算上更高效,因為它不會通過額外的圖像分詞(Token)來過載輸入上下文,而是在后續的交叉注意力層中引入這些標記。此外,如果在訓練過程中保持大語言模型參數凍結,這種方法還能保持原始大語言模型的僅文本性能。

下圖總結了常見多模態大語言模型使用的組件和技術:

wKgZO2dOtymATdmPAANHQf7jd4Y003.png

三,總結

“多模態LLM可以通過多種不同的方式成功構建,核心思路在于把多模態數據編碼為嵌入維度和尺寸一致的向量,使得原始大語言模型可以對多模態數據“理解并翻譯”。--- 譯者”。

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:[email protected]

更多精彩內容請關注“算力魔方?”!

?審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    558

    瀏覽量

    10668
  • LLM
    LLM
    +關注

    關注

    1

    文章

    319

    瀏覽量

    679
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    文理解模態語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態語言模型的論文和博客,在此基礎上,推薦了
    的頭像 發表于 12-02 18:29 ?986次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文理解</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——上

    VisCPM:邁向多語言模態模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態能力的突飛猛進,模態模型
    的頭像 發表于 07-10 10:05 ?914次閱讀
    VisCPM:邁向多<b class='flag-5'>語言</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態模型開源,在模態序列中「補全切」

    當前學界和工業界都對模態模型研究熱情高漲。去年,谷歌的 Deepmind 發布了模態視覺語言
    的頭像 發表于 07-16 20:45 ?955次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全<b class='flag-5'>一</b>切」

    中科大&amp;字節提出UniDoc:統的面向文字場景的模態模型

    如上圖所示,UniDoc基于預訓練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、模態
    的頭像 發表于 08-31 15:29 ?1849次閱讀
    中科大&amp;字節提出UniDoc:統<b class='flag-5'>一</b>的面向文字場景的<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    DreamLLM:多功能模態大型語言模型,你的DreamLLM~

    由于固有的模態缺口,如CLIP語義主要關注模態共享信息,往往忽略了可以增強多模態理解模態特定知識。因此,這些研究并沒有充分認識到
    的頭像 發表于 09-25 17:26 ?1035次閱讀
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模態</b>大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>,你的DreamLLM~

    探究編輯模態語言模型的可行性

    不同于單模態模型編輯,模態模型編輯需要考慮更多的模態信息。文章出發點依然從單
    發表于 11-09 14:53 ?720次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的可行性

    機器人基于開源的模態語言視覺大模型

    ByteDance Research 基于開源的模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作
    發表于 01-19 11:43 ?605次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>語言</b>視覺大<b class='flag-5'>模型</b>

    韓國Kakao宣布開發模態語言模型“蜜蜂”

    韓國互聯網巨頭Kakao最近宣布開發了種名為“蜜蜂”(Honeybee)的模態大型語言模型。這種創新
    的頭像 發表于 01-19 16:11 ?961次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    文本生成、語言理解、圖像識別及視頻生成等模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新
    發表于 04-18 17:01 ?812次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?1064次閱讀

    詳解視覺語言模型

    視覺語言模型(VLM)是模態、生成式 AI 模型,能夠
    的頭像 發表于 02-12 11:13 ?1481次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    海康威視發布模態模型搜存儲系列產品

    模態模型為安防行業帶來重大技術革新,基于觀瀾大模型技術體系,海康威視將大參數量、大樣本量的圖文模態
    的頭像 發表于 02-18 10:33 ?513次閱讀

    商湯“日日新”融合大模型登頂大語言模態雙榜單

    據弗若斯特沙利(Frost & Sullivan, 簡稱“沙利”)聯合頭豹研究院發布的《2025年中國大模型年度評測》結果顯示:在語言
    的頭像 發表于 03-18 10:35 ?460次閱讀

    百度發布心大模型4.5和文心大模型X1

    心大模型4.5是百度自主研發的新代原生模態基礎大模型,通過多個
    的頭像 發表于 03-18 16:29 ?382次閱讀

    基于MindSpeed MM玩轉Qwen2.5VL模態理解模型

    模態理解模型是讓AI像人類樣,通過整合多維度信息(如視覺、語言、聽覺等),
    的頭像 發表于 04-18 09:30 ?620次閱讀
    基于MindSpeed MM玩轉Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>