女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:NLP PaperWeekly ? 2023-12-28 11:19 ? 次閱讀

前段時(shí)間Google推出Gemini多模態(tài)大模型,展示了不凡的對(duì)話能力和多模態(tài)能力,其表現(xiàn)究竟如何呢?

本文對(duì)Gemini報(bào)告進(jìn)行分析,總的來說Gemini模型在圖像、音頻視頻和文本理解方面表現(xiàn)出卓越的能力。其包括 Ultra、Pro 和 Nano 尺寸,能夠適用于從復(fù)雜推理任務(wù)到設(shè)備內(nèi)存受限用例的各種應(yīng)用。

不像OpenAI接入多模態(tài)能力需要利用多個(gè)不同的模型,Google直接在預(yù)訓(xùn)練階段直接接受多模態(tài)的輸入是Gemini的特點(diǎn)之一,它能夠直接處理多模態(tài)的數(shù)據(jù),并且各項(xiàng)指標(biāo)都還不錯(cuò)。另外可以看出具備圖文理解等能力后,再結(jié)合大模型的對(duì)話能力,能夠帶來更驚艷的效果體驗(yàn)。

一、概述

1Motivation

發(fā)布Google的能與GPT4競(jìng)爭(zhēng)的大模型,同時(shí)兼具多模態(tài)能力,包括文字、圖像、視頻、音頻識(shí)別與理解能力。

2Methods

1 Gemini模型支持4種格式輸入,2種格式輸出

2f30a1b2-a3d6-11ee-8b88-92fbcf53809c.png

特點(diǎn):同時(shí)支持text文本,image圖像,video視頻和audio音頻輸入,支持文本和圖片的輸出。可以直接處理音頻文件,不需要將音頻轉(zhuǎn)為文字等。

猜測(cè)的訓(xùn)練方法:

多模態(tài)訓(xùn)練方法:Gemini是幾種模態(tài)一起聯(lián)合從頭訓(xùn)練的,包括文本、圖片、音頻、視頻等。這與目前通常的多模態(tài)做法不太一樣,目前的多模態(tài)模型一般是使用現(xiàn)成的語(yǔ)言大模型或者經(jīng)過預(yù)訓(xùn)練過的圖片模型(比如CLIP的圖片編碼部分),然后利用多模態(tài)訓(xùn)練數(shù)據(jù)在此基礎(chǔ)上加上新的網(wǎng)絡(luò)層訓(xùn)練;如果是幾個(gè)模態(tài)從頭開始一起訓(xùn)練,那么按理說應(yīng)該都遵循next token prediction的模式,就應(yīng)該是LVM的那個(gè)路子,其它模態(tài)的數(shù)據(jù)打成token,然后圖片、視頻等平面數(shù)據(jù)先轉(zhuǎn)換成比如16*16=256個(gè)token,然后搞成一維線性輸入,讓模型預(yù)測(cè)next token,這樣就把不同模態(tài)在訓(xùn)練階段統(tǒng)一起來。

解碼結(jié)構(gòu):Decoder only的模型結(jié)構(gòu),針對(duì)結(jié)構(gòu)和優(yōu)化目標(biāo)做了優(yōu)化,優(yōu)化目的是大規(guī)模訓(xùn)練的時(shí)候的訓(xùn)練和推理的穩(wěn)定性,所以大結(jié)構(gòu)應(yīng)該是類似GPT的Decoder-only預(yù)測(cè)next token prediction的模式。目前支持32K上下文。

命令理解方面:和GPT一樣,采用多模態(tài)instruct數(shù)據(jù)進(jìn)行SFT+RM+RLHF三階段,這里的RM部分在訓(xùn)練打分模型的時(shí)候,采用了加權(quán)的多目標(biāo)優(yōu)化,三個(gè)目標(biāo)helpfulness factuality和 safety,猜測(cè)應(yīng)該是對(duì)于某個(gè)prompt,模型生成的結(jié)果,按照三個(gè)指標(biāo)各自給了一個(gè)排序結(jié)果。

模型大小:從硬件描述部分來看,意思是動(dòng)用了前所未有的TPU集群,所以推測(cè)Gemini Ultra的模型規(guī)模應(yīng)該相當(dāng)大,猜測(cè)如果是MOE大概要對(duì)標(biāo)到GPT 4到1.8T的模型容量,如果是Dense模型估計(jì)要大于200B參數(shù)。考慮到引入視頻音頻(當(dāng)然是來自于Youtube了,難道會(huì)來自TikTok么)多模態(tài)數(shù)據(jù),所以總數(shù)據(jù)量*模型參數(shù),會(huì)是非常巨大的算力要求,技術(shù)報(bào)告說可以一周或者兩周做一次訓(xùn)練。

訓(xùn)練細(xì)節(jié):可能分成多個(gè)階段,最后階段提高了領(lǐng)域數(shù)據(jù)的混合配比,猜測(cè)應(yīng)該指的是邏輯和數(shù)學(xué)類的訓(xùn)練數(shù)據(jù)增加了配比,目前貌似很多這么做的,對(duì)于提升模型邏輯能力有直接幫助。

代碼能力:AlphaCode2是在Gemini pro基礎(chǔ)上,使用編程競(jìng)賽的數(shù)據(jù)fine-tune出來的,效果提升很明顯,在編程競(jìng)賽上排名超過85%的人類選手,之前的AlphaCode1超過50%的人類選手;

2 Gemini模型有多個(gè)版本,最小有1.8B

2f4ab408-a3d6-11ee-8b88-92fbcf53809c.png

特點(diǎn):其中Nano首先從大模型蒸餾,然后4bit量化。Gemini Nano包含兩個(gè)版本:1.8B面向低端手機(jī),3.25B面向高端手機(jī)。

3 Conclusion

1 文本理解:Ultra性能超過了GPT4

2f6478f2-a3d6-11ee-8b88-92fbcf53809c.png

Ultra比gpt4效果好,pro比gpt3.5效果好,MMNLU第一次超過人類專家水平。

Gemini Ultra 在六個(gè)不同數(shù)據(jù)集上都是最佳。Gemini Pro是Gemini系列中的第二大模型,效率更高的同時(shí)也頗具競(jìng)爭(zhēng)力。

2 圖像理解:zero-shot效果超過很多微調(diào)后的模型

2f796316-a3d6-11ee-8b88-92fbcf53809c.png

3 視頻理解:超過之前的few-shot SoTA模型

2f8f90dc-a3d6-11ee-8b88-92fbcf53809c.png

也是取得了SoTA,特別是英語(yǔ)視頻字幕數(shù)據(jù)集(VATEXT、YouCook2)上提升比較大,其他感覺提升沒那么大。相關(guān)評(píng)估指標(biāo)如下:視頻字幕 -> CIDER,NextQA -> WUPS,Perception Test -> top-1 accuracy,ActivityNet-QA -> ActivityNet-QA。

4 不同版Genmini模型的性能

2fb6b9be-a3d6-11ee-8b88-92fbcf53809c.png

“事實(shí)性” :涵蓋開放/閉卷檢索和問題回答任務(wù);

“長(zhǎng)文本” :涵蓋長(zhǎng)篇摘要、檢索和問題回答任務(wù);

“數(shù)學(xué)/科學(xué)” :包括數(shù)學(xué)問題解決、定理證明和科學(xué)考試等任務(wù);

“推理” :需要算術(shù)、科學(xué)和常識(shí)推理的任務(wù);

“多語(yǔ)言” :用于多語(yǔ)言翻譯、摘要和推理的任務(wù)。

2fce511e-a3d6-11ee-8b88-92fbcf53809c.png

Nano2模型很多超過了Pro版本的50%,部分達(dá)到90的水平,效果還不錯(cuò)。

5 多語(yǔ)種翻譯:性能超過GPT4

2fe2ccfc-a3d6-11ee-8b88-92fbcf53809c.png

翻譯能力也是比GPT-4好,WMT23指標(biāo)中4個(gè)有3個(gè)超過GPT4的表現(xiàn)。

6 圖像理解數(shù)據(jù)集:MMMU數(shù)據(jù)集表現(xiàn)

2ff0d644-a3d6-11ee-8b88-92fbcf53809c.png

MMMU(Yue et al., 2023):是最近發(fā)布的評(píng)估基準(zhǔn),由6個(gè)學(xué)科的圖像問題組成,每個(gè)學(xué)科內(nèi)有多個(gè)主題,需要大學(xué)水平的知識(shí)來解決這些問題。

Gemini Ultra將最先進(jìn)的結(jié)果提高了 5 個(gè)百分點(diǎn)以上,6個(gè)學(xué)科中有5個(gè)學(xué)科中超越了之前的最佳成績(jī),展示了其多模態(tài)推理能力。

二、詳細(xì)內(nèi)容

1 多模態(tài)推理能力:識(shí)別手寫答案,對(duì)物理問題進(jìn)行解答

30009a34-a3d6-11ee-8b88-92fbcf53809c.png

特點(diǎn):識(shí)別書寫結(jié)果,這個(gè)和OpenAI之前演示的根據(jù)草圖寫前端代碼是一樣的,不過識(shí)別的準(zhǔn)確率是存疑的。

2 多模態(tài)推理能力:重新組織子圖順序

301ad34a-a3d6-11ee-8b88-92fbcf53809c.png

Gemini的多模態(tài)推理能力可生成用于重新排列子圖的matplotlib代碼。

Prompt:識(shí)別當(dāng)前子圖的結(jié)果,重新組織子圖的順序并解釋。

解決此任務(wù)需要模型具備以下能力:

(1) 識(shí)別圖中描繪的函數(shù);

(2) 逆向圖形來推斷生成子圖的代碼;

(3) 按照指令將子圖放置在所需的位置;

(4) 抽象推理,推斷指數(shù)圖必須留在原來的位置,因?yàn)檎覉D必須為 3 維圖移動(dòng)。

3 圖像生成能力:多模態(tài)理解+圖像生成

3039b904-a3d6-11ee-8b88-92fbcf53809c.png

要具備上面的功能需要以下能力:

(1)識(shí)別圖像中的顏色。這個(gè)難度不大。

(2)生成文字+圖片結(jié)果。這個(gè)難度好像也沒有那么大,可能有two-stage的實(shí)現(xiàn)方法或者end-to-end的實(shí)現(xiàn)方法。不太確定google用的哪種方法。

4 語(yǔ)音理解能力:具備語(yǔ)音識(shí)別和語(yǔ)音翻譯能力

3054eea4-a3d6-11ee-8b88-92fbcf53809c.png

對(duì)比的是OpenAI的Whisper,看著Gemini就是把多個(gè)SoTA模型包裝起來了。

5 多模態(tài)理解:支持圖片+音頻輸入

3068d78e-a3d6-11ee-8b88-92fbcf53809c.png

這個(gè)gptv+加個(gè)語(yǔ)音轉(zhuǎn)文字的模型可以做,這里的特點(diǎn)可能是直接用一個(gè)模型就可以解決?

三、多模態(tài)能力展示

1 幾何推理能力:求平行四邊形的高

30928bc4-a3d6-11ee-8b88-92fbcf53809c.png

2 視覺多模態(tài)推理能力:根據(jù)圖片確定地點(diǎn)

30a979c4-a3d6-11ee-8b88-92fbcf53809c.png

3 多語(yǔ)言常識(shí)推理:識(shí)別中文關(guān)系圖

30b7ebb2-a3d6-11ee-8b88-92fbcf53809c.png

4 視頻理解能力:分析視頻中的人如何提升足球技術(shù)

30cc1cea-a3d6-11ee-8b88-92fbcf53809c.png

四、總結(jié)

直接支持多模態(tài)的能力是Gemini的特點(diǎn),Google從預(yù)訓(xùn)練階段就統(tǒng)一了多模態(tài)大模型的訓(xùn)練,該策略也可能是后續(xù)大模型的發(fā)展趨勢(shì),但是其具體實(shí)現(xiàn)方法、帶來的增益、以及cost還未知。OpenAI多模態(tài)的能力是引入(支持語(yǔ)音)其他模型或者通過插件(支持圖像)來實(shí)現(xiàn)。

2f30a1b2-a3d6-11ee-8b88-92fbcf53809c.png

Gemini的多模態(tài)能力比GPT4-V要強(qiáng),科學(xué)推理能力可能稍微弱于GPT4。

2ff0d644-a3d6-11ee-8b88-92fbcf53809c.png

圖文理解+視頻理解等多模態(tài)能力與最新的大模型強(qiáng)強(qiáng)組合確實(shí)能帶來驚艷的效果,但是其穩(wěn)定性,是否真實(shí)能落地還有待進(jìn)一步觀察。例如結(jié)合圖像信息求平行四邊行的高,在教育領(lǐng)域相對(duì)于純文本可能會(huì)更有價(jià)值,但是OCR等技術(shù)還面臨魯棒性偏差的問題,Google的模型段時(shí)間應(yīng)該還是沒辦法解決這些問題。

30928bc4-a3d6-11ee-8b88-92fbcf53809c.png









審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SFT
    SFT
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6877
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    152

    瀏覽量

    21085
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    15951
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1202

    瀏覽量

    8650

原文標(biāo)題:Gemini技術(shù)報(bào)告解讀:從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,去年開始我們?cè)诙藗?cè)模態(tài)模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國(guó)內(nèi)最早開源的
    的頭像 發(fā)表于 04-21 10:56 ?1195次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    簡(jiǎn)單的模型進(jìn)行流固耦合的模態(tài)分析

      本次分享,對(duì)一個(gè)簡(jiǎn)單的模型進(jìn)行流固耦合的模態(tài)分析,有限元科技小編主要給大家演示如何使用Hypermesh與Nastran對(duì)流固耦合的結(jié)構(gòu)進(jìn)行模態(tài)分析,以及了解聲腔對(duì)結(jié)構(gòu)模態(tài)的影響。
    發(fā)表于 07-07 17:15

    VisCPM:邁向多語(yǔ)言模態(tài)模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)
    的頭像 發(fā)表于 07-10 10:05 ?920次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補(bǔ)全一切」

    熱度。Flamingo 具備強(qiáng)大的模態(tài)上下文少樣本學(xué)習(xí)能力。 Flamingo 走的技術(shù)路線是將大語(yǔ)言模型與一個(gè)預(yù)訓(xùn)練視覺編碼器結(jié)合,并插
    的頭像 發(fā)表于 07-16 20:45 ?962次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    北大&amp;華為提出:模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大
    的頭像 發(fā)表于 11-08 16:20 ?1565次閱讀
    北大&amp;華為提出:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>基礎(chǔ)大<b class='flag-5'>模型</b>的高效微調(diào)

    探究編輯模態(tài)大語(yǔ)言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然
    發(fā)表于 11-09 14:53 ?729次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言<b class='flag-5'>模型</b>的可行性

    模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語(yǔ)音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大
    的頭像 發(fā)表于 12-13 13:55 ?2430次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    機(jī)器人基于開源的模態(tài)語(yǔ)言視覺大模型

    ByteDance Research 基于開源的模態(tài)語(yǔ)言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?610次閱讀
    機(jī)器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語(yǔ)言視覺大<b class='flag-5'>模型</b>

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    李未可科技模態(tài) AI 大模型正式發(fā)布,積極推進(jìn) AI 在終端的場(chǎng)景應(yīng)用 ? 4月18日,2024中國(guó)生成式AI大會(huì)上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI
    發(fā)表于 04-18 17:01 ?815次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>

    商湯科技發(fā)布5.0模態(tài)模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo

    商湯科技發(fā)布5.0模態(tài)模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo 4月23日,商湯科技董事長(zhǎng)兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布了行業(yè)首個(gè)云、端、邊全棧大
    的頭像 發(fā)表于 04-24 16:49 ?1411次閱讀

    智譜AI發(fā)布全新模態(tài)開源模型GLM-4-9B

    近日,智譜AI在人工智能領(lǐng)域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態(tài)能力,再次刷新了業(yè)界對(duì)于大型語(yǔ)言
    的頭像 發(fā)表于 06-07 09:17 ?1080次閱讀

    云知聲山海模態(tài)模型UniGPT-mMed登頂MMMU測(cè)評(píng)榜首

    近日,模態(tài)人工智能模型基準(zhǔn)評(píng)測(cè)集MMMU更新榜單,云知聲山海模態(tài)模型UniGPT-mMed
    的頭像 發(fā)表于 10-12 14:09 ?609次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>UniGPT-mMed登頂MMMU測(cè)評(píng)榜首

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來說,
    的頭像 發(fā)表于 10-18 09:39 ?1080次閱讀

    商湯日日新模態(tài)模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?862次閱讀

    海康威視發(fā)布模態(tài)模型文搜存儲(chǔ)系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,海康威視將大參數(shù)量、大樣本量的圖文模態(tài)
    的頭像 發(fā)表于 02-18 10:33 ?530次閱讀