近日,多模態(tài)人工智能模型基準(zhǔn)評(píng)測(cè)集MMMU更新榜單,云知聲山海多模態(tài)大模型UniGPT-mMed以通用能力、醫(yī)療專(zhuān)業(yè)能力雙雙排名第一的優(yōu)異成績(jī)登頂榜首,力壓GPT-4V,充分彰顯其硬核實(shí)力。
作為國(guó)內(nèi)權(quán)威多模態(tài)基準(zhǔn)評(píng)測(cè),MMMU由IN.AI Research等多家機(jī)構(gòu)聯(lián)合構(gòu)建,專(zhuān)注于考量人工智能在解決大學(xué)層次多學(xué)科問(wèn)題時(shí)的多模態(tài)理解與推理能力。
該評(píng)測(cè)集涉及藝術(shù)與設(shè)計(jì)、商科、科學(xué)、健康與醫(yī)學(xué)、人文與社會(huì)科學(xué)、技術(shù)與工程等六個(gè)常見(jiàn)學(xué)科,包含 1.15 萬(wàn)個(gè)精心選取的多模態(tài)問(wèn)題,涵蓋 30 個(gè)不同的科目和183 個(gè)子領(lǐng)域。同時(shí),MMMU 中許多問(wèn)題都需要專(zhuān)家級(jí)的推理能力,例如,使用傅立葉變換或均衡理論來(lái)推導(dǎo)問(wèn)題的解,這在滿足評(píng)測(cè)內(nèi)容廣泛性的同時(shí),也確保了其深度。
此外,MMMU還提出了兩個(gè)獨(dú)特的挑戰(zhàn):一是其涵蓋多種圖像格式,從照片和繪畫(huà)等視覺(jué)場(chǎng)景到圖表和表格,可用于測(cè)試 LMM 的感知能力;二是MMMU的輸入形式是文本和圖像的混合,要求AI模型能夠?qū)D像和文本信息結(jié)合起來(lái)進(jìn)行深入理解,并在此基礎(chǔ)上執(zhí)行復(fù)雜推理。這不僅考驗(yàn)了模型的學(xué)科知識(shí)儲(chǔ)備,也對(duì)其綜合分析和應(yīng)用能力提出了更高要求。
評(píng)測(cè)結(jié)果顯示,云知聲山海多模態(tài)大模型UniGPT-mMed以總分57的優(yōu)異成績(jī)登頂榜首,并在健康與醫(yī)學(xué)細(xì)分賽道超越GPT-4V,力壓一眾大模型拔得頭籌,充分展現(xiàn)出其在擁有業(yè)內(nèi)一流的通用能力之外,更具備打造世界領(lǐng)先的行業(yè)大模型的能力。
UniGPT-mMed是云知聲基于山海大模型底座構(gòu)建的多模態(tài)大模型。其通過(guò)分析和整合海量論文、書(shū)籍及網(wǎng)站數(shù)據(jù),利用精細(xì)化數(shù)據(jù)處理技術(shù),自動(dòng)識(shí)別并提取圖片及其相關(guān)文本描述,并通過(guò)多模態(tài)分析技術(shù)評(píng)估圖片的質(zhì)量和圖文之間的匹配度,篩選出最優(yōu)數(shù)據(jù)。與此同時(shí),系統(tǒng)能夠參考圖片和上下文信息對(duì)圖片進(jìn)行重新描述,使得圖文數(shù)據(jù)更加對(duì)齊。
通過(guò)預(yù)設(shè)問(wèn)答場(chǎng)景,UniGPT-mMed能夠?qū)D文對(duì)齊數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的場(chǎng)景問(wèn)答數(shù)據(jù)集,并采用思維鏈和自我反思技術(shù),進(jìn)一步優(yōu)化生成數(shù)據(jù),最終構(gòu)建起一個(gè)包含數(shù)億條高質(zhì)量圖文問(wèn)答的數(shù)據(jù)集,進(jìn)而為用戶(hù)提供更加豐富、準(zhǔn)確和可靠的信息檢索和問(wèn)答服務(wù)。
此次評(píng)測(cè),是云知聲在多模態(tài)大模型賽道持續(xù)深耕、不斷技術(shù)創(chuàng)新的成果體現(xiàn)。
作為中國(guó)AGI技術(shù)產(chǎn)業(yè)化的先行者,云知聲于2016年開(kāi)始打造Atlas人工智能基礎(chǔ)設(shè)施,并以此為基礎(chǔ),構(gòu)建云知大腦(UniBrain)技術(shù)中臺(tái)——以山海(UniGPT)通用認(rèn)知大模型為核心,結(jié)合多模態(tài)感知與生成、知識(shí)圖譜、物聯(lián)平臺(tái)等智能組件,為云知聲智慧物聯(lián)、智慧醫(yī)療、智慧座艙、智慧交通等業(yè)務(wù)提供高效的產(chǎn)品化支撐,持續(xù)推動(dòng)“U(云知大腦)+X(應(yīng)用場(chǎng)景)”戰(zhàn)略布局,致力推動(dòng)千行百業(yè)的智慧化升級(jí)。
作為云知大腦的核心,山海大模型具備語(yǔ)言生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、代碼能力、數(shù)學(xué)能力、安全合規(guī)能力七項(xiàng)通用能力及插件擴(kuò)展、領(lǐng)域增強(qiáng)、企業(yè)定制三項(xiàng)行業(yè)落地能力,能夠滿足更多場(chǎng)景的應(yīng)用需求。今年8月,云知聲推出山海多模態(tài)大模型,通過(guò)整合跨模態(tài)信息,山海多模態(tài)大模型能夠接收文本、音頻、圖像等多種形式作為輸入,并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出,帶來(lái)實(shí)時(shí)多模態(tài)擬人交互體驗(yàn),開(kāi)啟AGI新范式。
目前,山海大模型已相繼在OpenCompass大模型評(píng)測(cè)、SuperCLUE中文大模型基準(zhǔn)測(cè)評(píng)、MedBench評(píng)測(cè)、Flageval大模型評(píng)測(cè)、SuperBench等多個(gè)權(quán)威評(píng)測(cè)中屢創(chuàng)佳績(jī),穩(wěn)居國(guó)內(nèi)大模型第一梯隊(duì);在醫(yī)療專(zhuān)業(yè)能力上,其基于山海大模型孵化的醫(yī)療大模型在CCKS 2023 PromptCBLUE醫(yī)療大模型評(píng)測(cè)中奪得通用賽道一等獎(jiǎng),并在MedBench評(píng)測(cè)中位列全球第一,各項(xiàng)指標(biāo)全面超越GPT-4。
登頂MMMU評(píng)測(cè)榜,充分印證了云知聲山海多模態(tài)大模型在通用能力、專(zhuān)業(yè)能力層面的突出實(shí)力,也將鞭策云知聲持續(xù)迭代多模態(tài)大模型技術(shù)底座,實(shí)現(xiàn)大模型技術(shù)在多領(lǐng)域場(chǎng)景下的滲透和應(yīng)用,以技術(shù)創(chuàng)新為各行各業(yè)帶來(lái)更多智能化變革。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48677瀏覽量
246219 -
云知聲
+關(guān)注
關(guān)注
0文章
219瀏覽量
8651 -
大模型
+關(guān)注
關(guān)注
2文章
3020瀏覽量
3798
原文標(biāo)題:引領(lǐng)多模態(tài)大模型新高度,山海UniGPT-mMed登頂MMMU權(quán)威測(cè)評(píng)榜
文章出處:【微信號(hào):云知聲,微信公眾號(hào):云知聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
云知聲四篇論文入選自然語(yǔ)言處理頂會(huì)ACL 2025

云知聲榮登甲子光年2025中國(guó)AI產(chǎn)業(yè)逐浪者榜單
云知聲再度登頂MedBench榜單
商湯“日日新”融合大模型登頂大語(yǔ)言與多模態(tài)雙榜單
騰訊混元文生圖登頂智源FlagEval評(píng)測(cè)榜首
云知聲與英內(nèi)物聯(lián)簽署戰(zhàn)略合作協(xié)議 探索基于云知聲山海大模型的多元智慧場(chǎng)景

云知聲榮登2024大模型企業(yè)TOP50榜單
基于AX650N/AX630C部署多模態(tài)大模型InternVL2-1B

云知聲山海大模型多項(xiàng)能力全球領(lǐng)跑

評(píng)論