女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AIGC時(shí)代的多模態(tài)知識(shí)工程思考與展望

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:知識(shí)工場(chǎng) ? 2023-04-14 10:24 ? 次閱讀

內(nèi)容簡(jiǎn)介:ChatGPT的火爆出圈使得AI生成(AIGC)技術(shù)受到了全社會(huì)前所未有的廣泛關(guān)注。此消彼長(zhǎng)之下,傳統(tǒng)的知識(shí)工程遭受了諸多質(zhì)疑。在多模態(tài)智能領(lǐng)域,AIGC的能力不斷提升,多模態(tài)知識(shí)工程工作應(yīng)該何去何從?是否仍有價(jià)值?在本次分享中,講者將探討當(dāng)前AIGC技術(shù)耀眼“光芒”背后的“暗面”,思考與展望AIGC時(shí)代的多模態(tài)知識(shí)工程研究。

關(guān)于AIGC時(shí)代的多模態(tài)知識(shí)工程思考與展望,我們將從以下六個(gè)方面展開(kāi)介紹:

第一部分,我們回顧一下AIGC技術(shù)的發(fā)展歷程和它帶來(lái)的劃時(shí)代影響力;

第二部分,我們對(duì)AIGC技術(shù)的不足(阿克琉斯之踵)之處進(jìn)行分析與總結(jié);

第三部分,我們將介紹多模態(tài)認(rèn)知智能的框架和兩種實(shí)現(xiàn)路徑,并進(jìn)行對(duì)比分析;

第四~六部分,我們會(huì)展望當(dāng)前AIGC大模型和MMKG多模態(tài)圖譜間如何競(jìng)與合。

01

AIGC時(shí)代:未來(lái)已來(lái)

d1dd9862-d9b9-11ed-bfe3-dac502259ad0.png

隨著人工智能總體階段的發(fā)展,生成式人工智能技術(shù)(AIGC)也在不斷迭代。從20世紀(jì)50年代到90年代中期,是AIGC的早期萌芽階段,這一時(shí)期受限于技術(shù)水平,AIGC僅限于小范圍實(shí)驗(yàn)。這一時(shí)期的AIGC典型事件包括:1950年,艾倫·圖靈提出的著名的“圖靈測(cè)試”,給出判斷機(jī)器是否具有“智能”的方法;1966年,世界上第一款可人機(jī)對(duì)話機(jī)器人“Eliza”的問(wèn)世;以及在80年代中期IBM公司創(chuàng)造的語(yǔ)音控制打字機(jī)“Tangora”的出現(xiàn)。

而從20世紀(jì)90年代到21世紀(jì)10年代中期,AIGC處于沉淀積累階段,這一階段的AIGC技術(shù)從實(shí)驗(yàn)性向?qū)嵱眯赞D(zhuǎn)變,但仍因受限于算法瓶頸,無(wú)法直接進(jìn)行內(nèi)容生成。這一階段的AIGC典型事件則包括2007年世界上第一部完全由人工智能創(chuàng)作的小說(shuō)《1 the road》的問(wèn)世;以及2012年微軟開(kāi)發(fā)的全自動(dòng)同聲傳譯系統(tǒng)的出現(xiàn),它能夠?qū)⒂⑽恼Z(yǔ)音自動(dòng)翻譯成中文語(yǔ)音。

自21世紀(jì)10年代中期至今,是AIGC快速發(fā)展的階段,得益于深度學(xué)習(xí)算法不斷迭代,人工智能生成內(nèi)容百花齊放。2014年,Goodfellow提出的生成對(duì)抗網(wǎng)絡(luò)GAN用于生成圖像;2019年,英偉達(dá)發(fā)布StyleGAN模型可以自動(dòng)生成高質(zhì)量圖片;2019年DeepMind發(fā)布DVD-GAN用于生成連續(xù)性視頻,直到2022年,OpenAI發(fā)布ChatGPT模型生成流暢的自然語(yǔ)言文本。

可以說(shuō),ChatGPT的爆紅出圈宣告了AIGC時(shí)代的到來(lái)。

d1ee876c-d9b9-11ed-bfe3-dac502259ad0.png

現(xiàn)在的AIGC技術(shù)可以生成的內(nèi)容包括文本、圖像、音頻和視頻等。如今,已經(jīng)有很多強(qiáng)大的算法被發(fā)明出來(lái),如用于圖像生成的Stable Diffusion算法。此外,還有很多走在技術(shù)前沿的創(chuàng)業(yè)公司不斷推動(dòng)AIGC技術(shù)的應(yīng)用落地,如Jasper AI的AI寫(xiě)作軟件和midjourney的AI繪畫(huà)工具的發(fā)明都在解放著人類(lèi)的內(nèi)容創(chuàng)作生產(chǎn)力。這些共同促進(jìn)了一個(gè)萬(wàn)物皆可AI生成的AIGC時(shí)代。

右圖是一張來(lái)自互聯(lián)網(wǎng)的趣味圖片——機(jī)器人一家三口在人類(lèi)博物館中觀賞人類(lèi)的最后一篇推文“GPT-5也沒(méi)啥了不起的”——表達(dá)了創(chuàng)作者對(duì)當(dāng)今AIGC技術(shù)飛速發(fā)展的隱隱擔(dān)憂。

d1f8083c-d9b9-11ed-bfe3-dac502259ad0.png

那么,我們首先看一下多模態(tài)大模型的分類(lèi)與發(fā)展脈絡(luò)。如上圖所示,多模態(tài)大模型發(fā)展非常迅速,我們可以將多模態(tài)大模型簡(jiǎn)單分為多模態(tài)統(tǒng)一大模型和多模態(tài)文圖生成大模型,前者用于統(tǒng)一的多模態(tài)生成和理解,后者特指具備強(qiáng)大的多模態(tài)文到圖生成能力的大模型。

d20094ca-d9b9-11ed-bfe3-dac502259ad0.png

當(dāng)前,文圖生成大模型已經(jīng)可以生成逼真、高清以及風(fēng)格化的意境圖像。

d20ca076-d9b9-11ed-bfe3-dac502259ad0.png

還有一些文圖生成大模型,如斯坦福大學(xué)提出的ControlNet,其生成能力更加精致、可控。它不僅可以生成各類(lèi)質(zhì)地細(xì)膩、細(xì)節(jié)精致的圖片,也可以通過(guò)簡(jiǎn)筆畫(huà)來(lái)對(duì)圖像生成進(jìn)行操控。

d216de06-d9b9-11ed-bfe3-dac502259ad0.png

AIGC大模型生成的視頻在某種程度上也可謂自然流暢、栩栩如生。

d2212636-d9b9-11ed-bfe3-dac502259ad0.png

我們還看到Google發(fā)布的PaLM-E模型,展現(xiàn)了多模態(tài)AIGC大模型驅(qū)動(dòng)的具身智能的情景。這個(gè)具備5620億參數(shù)的具身多模態(tài)大模型,可以將真實(shí)世界的傳感器信號(hào)與文本輸入相結(jié)合,建立語(yǔ)言和感知的鏈接,可以用自然語(yǔ)言操控機(jī)器人完成操作規(guī)劃、視覺(jué)問(wèn)答等任務(wù)。

d22bbdda-d9b9-11ed-bfe3-dac502259ad0.png

AIGC的驚艷效果不禁讓很多人對(duì)符號(hào)主義(知識(shí)工程)的研究產(chǎn)生了疑問(wèn)。Rich Sutton在著名文章《苦澀的教訓(xùn)》中提出,唯一導(dǎo)致AI進(jìn)步的因素是更多的數(shù)據(jù)和更有效的計(jì)算。而DeepMind的研究主任Nando de Freitas也宣稱(chēng),“AI現(xiàn)在完全取決于規(guī)模,AI領(lǐng)域更難的挑戰(zhàn)已經(jīng)解決了,游戲結(jié)束了!”。我們也看到,在大多數(shù)領(lǐng)域,大模型已經(jīng)(暫時(shí))戰(zhàn)勝了精心設(shè)計(jì)的知識(shí)工程。然而,AI的流派之爭(zhēng)真的結(jié)束了嗎?

02

AIGC的阿克琉斯之踵

第二部分,讓我們來(lái)看一下當(dāng)前AIGC大模型實(shí)際存在的一些問(wèn)題。

d23b02b8-d9b9-11ed-bfe3-dac502259ad0.png

盡管今天的ChatGPT(包括GPT-4)很強(qiáng)大,它的諸多問(wèn)題仍舊難以忽視:

第一、強(qiáng)語(yǔ)言弱知識(shí)的問(wèn)題,ChatGPT無(wú)法理解用戶(hù)查詢(xún)中的知識(shí)性錯(cuò)誤,它具備強(qiáng)大的語(yǔ)言能力,但知識(shí)能力仍舊較弱;

第二、實(shí)時(shí)信息自更新慢,新舊知識(shí)難以區(qū)分,目前ChatGPT的知識(shí)還停留在2021年,而每一次信息更新都需要成本高昂的重新訓(xùn)練;

第三、其邏輯推理能力并不可靠,應(yīng)該說(shuō)尚不具備復(fù)雜數(shù)學(xué)邏輯推理與專(zhuān)業(yè)邏輯推理能力;

第四、由于缺乏領(lǐng)域知識(shí),它也無(wú)法真正為領(lǐng)域類(lèi)問(wèn)題提供專(zhuān)業(yè)靠譜的答案。

d243380c-d9b9-11ed-bfe3-dac502259ad0.png

當(dāng)前的多模態(tài)大模型的跨模態(tài)生成能力也尚不完善。上圖是我們用文圖生成大模型Stable Diffusion生成的一些案例。具體來(lái)說(shuō),當(dāng)前的文圖生成存在組合泛化、屬性泄露、方位理解混亂、語(yǔ)義理解錯(cuò)誤等問(wèn)題。因此,盡管我們看到AIGC跨模態(tài)生成的視覺(jué)效果驚艷,但往往存在較大的模態(tài)間信息不對(duì)稱(chēng)問(wèn)題。

d24b9d80-d9b9-11ed-bfe3-dac502259ad0.png

此外,當(dāng)前多模態(tài)大模型的多模態(tài)理解能力也存在問(wèn)題。上圖是來(lái)自BLIP2進(jìn)行視覺(jué)問(wèn)答任務(wù)的錯(cuò)誤樣例。我們看到:

1)模型由于缺乏事實(shí)知識(shí),無(wú)法知曉球拍上的“w”圖案是品牌“Wilson”的logo,因而錯(cuò)誤回答成“nike”;

2)模型由于欠缺邏輯推理能力,不理解圖像場(chǎng)景和問(wèn)題的邏輯關(guān)系,因而回答錯(cuò)誤;

3)模型由于常識(shí)儲(chǔ)備不足,對(duì)某個(gè)具體場(chǎng)景(沖浪)下的意圖理解犯了常識(shí)性錯(cuò)誤。

d25614ea-d9b9-11ed-bfe3-dac502259ad0.png

讓我們?cè)賮?lái)看一下Google的具身多模態(tài)大模型PaLM-E,雖然依賴(lài)如此大規(guī)模的參數(shù)實(shí)現(xiàn)了初步的機(jī)器人操控,但其demo視頻中所展示的空間范圍、物品種類(lèi)、規(guī)劃和操作任務(wù)的復(fù)雜度等都非常有限。我們可以想象,如果要在真實(shí)世界的復(fù)雜場(chǎng)景中達(dá)到實(shí)用級(jí)別,PaLM-E的參數(shù)規(guī)模是否還需要增大百倍、千倍甚至萬(wàn)倍?如果一味用海量參數(shù)存儲(chǔ)所有知識(shí),那么智慧涌現(xiàn)的代價(jià)是否過(guò)于昂貴?

d2734ede-d9b9-11ed-bfe3-dac502259ad0.png

至此,我們對(duì)多模態(tài)大模型做個(gè)簡(jiǎn)單的小結(jié)。首先,多模態(tài)大模型的本質(zhì)是“用語(yǔ)言解釋視覺(jué),用視覺(jué)完善語(yǔ)言”。換句話說(shuō),我們要將文本中的語(yǔ)言符號(hào)知識(shí),與視覺(jué)中的可視化信息建立統(tǒng)計(jì)關(guān)聯(lián)。所謂“用語(yǔ)言解釋視覺(jué)”,就是將語(yǔ)言中蘊(yùn)含的符號(hào)知識(shí)體系和邏輯推理能力延伸至對(duì)視覺(jué)內(nèi)容的理解;而所謂“用視覺(jué)完善語(yǔ)言”,是指豐富的視覺(jué)信息可以成為符號(hào)知識(shí)體系和邏輯推理能力的重要完善和補(bǔ)充。

我們知道,多模態(tài)大模型能發(fā)揮重大作用的重要前提是:

1)具有海量高質(zhì)量圖文配對(duì)數(shù)據(jù);

2)文字富含事實(shí)知識(shí)和常識(shí);

3)其邏輯推理過(guò)程可顯式化被學(xué)習(xí)。

而我們所面臨的現(xiàn)實(shí)情況卻是:

1)數(shù)據(jù)量大但質(zhì)量差,信息不對(duì)稱(chēng);

2)純文字中的知識(shí)與常識(shí)也不完備;

3)其邏輯推理是隱性難以學(xué)習(xí)的。

正因?yàn)檫@些理想與現(xiàn)實(shí)間的差距,導(dǎo)致了前面提到的多模態(tài)大模型的種種問(wèn)題與不足。綜上,我們認(rèn)為,統(tǒng)計(jì)大模型始終難以較低成本,全面、準(zhǔn)確地掌握人類(lèi)知識(shí)、常識(shí)和邏輯推理能力。

03

多模態(tài)認(rèn)知智能

第三部分,我們引出多模態(tài)認(rèn)知智能,其研究旨在解決前一部分提到的問(wèn)題。

d27df2da-d9b9-11ed-bfe3-dac502259ad0.png

上圖是我們提出的一個(gè)多模態(tài)認(rèn)知智能的研究框架。總的來(lái)說(shuō),多模態(tài)認(rèn)知智能主要研究基于多模態(tài)數(shù)據(jù)的知識(shí)獲取、表示、推理與應(yīng)用。在多模態(tài)知識(shí)獲取層面,我們從語(yǔ)料中通過(guò)抽取、生成、群智等方法獲取知識(shí)或者從語(yǔ)言模型中萃取知識(shí)。在多模態(tài)知識(shí)表示層面,可以使用多模態(tài)圖譜、常識(shí)圖譜、語(yǔ)言模型、大規(guī)模知識(shí)網(wǎng)絡(luò)等方法進(jìn)行知識(shí)表示?;诙嗄B(tài)知識(shí)表示,可以進(jìn)一步支撐多模態(tài)理解、推理和元認(rèn)知等能力,從而賦能諸如跨模態(tài)搜索、推薦、問(wèn)答、生成等多模態(tài)知識(shí)的應(yīng)用。

d2858676-d9b9-11ed-bfe3-dac502259ad0.png

多模態(tài)認(rèn)知智能目前有兩種實(shí)現(xiàn)路徑。一種是多模態(tài)大模型,其代表了聯(lián)結(jié)主義和經(jīng)驗(yàn)主義的思想,從海量預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)概率關(guān)聯(lián),是簡(jiǎn)單而魯棒的,它屬于統(tǒng)計(jì)學(xué)習(xí)范疇,具備端到端、干預(yù)少和“數(shù)”盡其用的優(yōu)勢(shì),其劣勢(shì)在于難以學(xué)習(xí)到從因到果、從主到次、從整體到部分、從概括到具體、從現(xiàn)象到本質(zhì)、從具體到一般等邏輯關(guān)系。

另一種實(shí)現(xiàn)路徑是多模態(tài)知識(shí)工程,其代表了符號(hào)主義的思想,從精選數(shù)據(jù)和專(zhuān)家知識(shí)中學(xué)習(xí)符號(hào)關(guān)聯(lián),是精細(xì)而脆弱的,它往往通過(guò)專(zhuān)家系統(tǒng)和知識(shí)圖譜實(shí)現(xiàn),具備易推理、可控、可干預(yù)、可解釋的優(yōu)點(diǎn),但是它的劣勢(shì)主要在于將數(shù)據(jù)轉(zhuǎn)換成符號(hào)知識(shí)的過(guò)程往往伴隨著巨大的信息損失,而其中隱性知識(shí)等難以表達(dá)的知識(shí)往往是信息損失的主體。

結(jié)合多模態(tài)大模型和多模態(tài)知識(shí)工程的優(yōu)劣勢(shì)分析,我們認(rèn)為:在AIGC大模型時(shí)代,多模態(tài)知識(shí)工程依然不可或缺。

d293fa08-d9b9-11ed-bfe3-dac502259ad0.png

當(dāng)前,多模態(tài)知識(shí)工程的主要形式之一是多模態(tài)知識(shí)圖譜(MMKG)。多模態(tài)知識(shí)圖譜是在傳統(tǒng)知識(shí)圖譜的基礎(chǔ)上,增加多種模態(tài)數(shù)據(jù)以豐富符號(hào)知識(shí)表達(dá)的方法,其多模態(tài)數(shù)據(jù)包括但不限于圖像、視頻、語(yǔ)言、代碼等。多模態(tài)知識(shí)圖譜可以將符號(hào)接地到具象的視覺(jué)等模態(tài)對(duì)象上,實(shí)現(xiàn)跨模態(tài)語(yǔ)義對(duì)齊。

d2a5aea6-d9b9-11ed-bfe3-dac502259ad0.png

目前多模知識(shí)圖譜的主流形式有兩種。

一種是A-MMKG,其中多模態(tài)數(shù)據(jù)僅作為文字符號(hào)實(shí)體的關(guān)聯(lián)屬性存在;

另一種是N-MMKG,其中多模態(tài)數(shù)據(jù)也可作為圖譜中的實(shí)體存在,可與現(xiàn)有實(shí)體發(fā)生廣泛關(guān)聯(lián)。

d2b19b58-d9b9-11ed-bfe3-dac502259ad0.png

至此,我們進(jìn)一步分析AIGC多模態(tài)大模型和大規(guī)模多模態(tài)知識(shí)圖譜各自的優(yōu)缺點(diǎn)。

多模態(tài)大模型的優(yōu)點(diǎn)是:

1)關(guān)聯(lián)推理能力強(qiáng):可以學(xué)習(xí)掌握大量跨模態(tài)知識(shí)模式,隱空間的關(guān)聯(lián)推理能力強(qiáng),具有很強(qiáng)的泛化能力;

2)多任務(wù)通吃:一套大模型處理各類(lèi)跨模態(tài)任務(wù);

3)人工成本低:不依賴(lài)人工schema設(shè)計(jì)與數(shù)據(jù)標(biāo)注;

4)適配能力強(qiáng):可通過(guò)調(diào)優(yōu)訓(xùn)練或prompt對(duì)話等方式來(lái)適配新的領(lǐng)域和任務(wù)。

而其不足之處在于:

1)可靠程度低:所生成的內(nèi)容可靠性堪憂,存在誤差累積、隱私泄露等問(wèn)題,無(wú)法勝任高精度嚴(yán)肅場(chǎng)景需求;

2)知識(shí)推理弱:沒(méi)有真正掌握數(shù)據(jù)背后的知識(shí),缺乏知識(shí)推理能力,更無(wú)因果推理能力;

3)可解釋性弱:雖有CoT加持,但可解釋性仍然不足;

4)訓(xùn)練成本高:需要消耗大量計(jì)算資源和時(shí)間來(lái)進(jìn)行訓(xùn)練,需要強(qiáng)大的計(jì)算設(shè)備和高效的算法。

而與之對(duì)應(yīng)的,多模態(tài)知識(shí)圖譜的優(yōu)點(diǎn)是:

1)專(zhuān)業(yè)可信度高:其結(jié)構(gòu)和關(guān)系清晰,易于理解和解釋?zhuān)蔀槿祟?lèi)決策提供參考,通常為某個(gè)具體應(yīng)用場(chǎng)景構(gòu)建,可提供更精準(zhǔn)和針對(duì)性的知識(shí)支持;

2)可解釋性好:以結(jié)構(gòu)化形式表示知識(shí) ,知識(shí)的可訪問(wèn)性、可重用性、可解釋性好,對(duì)人類(lèi)友好;

3)可擴(kuò)展性強(qiáng):知識(shí)圖譜的內(nèi)容可以隨著應(yīng)用場(chǎng)景的需要進(jìn)行不斷擴(kuò)展和更新,可以不斷完善和改進(jìn)。

而多模態(tài)知識(shí)圖譜的缺點(diǎn)在于:

1)推理能力弱:只能表示已有的知識(shí)和關(guān)系,對(duì)于未知或不確定的領(lǐng)域難以進(jìn)行有效的知識(shí)建模和推理;

2)人工成本高:其構(gòu)建需要依賴(lài)于人工或半自動(dòng)的方式進(jìn)行知識(shí)抽取和建模,難以實(shí)現(xiàn)完全自動(dòng)化;

3)架構(gòu)調(diào)整難:其基本schema架構(gòu)通常是靜態(tài)的,不易根據(jù)新的數(shù)據(jù)或場(chǎng)景進(jìn)行修改和調(diào)整。

由上分析可見(jiàn):多模態(tài)大模型的優(yōu)點(diǎn)常常是多模態(tài)知識(shí)圖譜的不足,而多模態(tài)大模型的不足又往往是多模態(tài)知識(shí)圖譜的優(yōu)勢(shì)。因此,我們認(rèn)為:當(dāng)前階段,大模型與知識(shí)圖譜仍應(yīng)繼續(xù)保持競(jìng)合關(guān)系,互相幫助,互為補(bǔ)充。

04

AIGC for MMKG

第四部分,我們思考與展望一下AIGC大模型如何輔助MMKG的構(gòu)建與應(yīng)用。

d2bd29d2-d9b9-11ed-bfe3-dac502259ad0.png

第一,AIGC大模型為知識(shí)獲取降本增效。

(1)通過(guò)知識(shí)誘導(dǎo)(萃取),可以快速獲取大量知識(shí)或常識(shí)。例如,我們可以從語(yǔ)言大模型中誘導(dǎo)語(yǔ)言知識(shí)和關(guān)系知識(shí);我們也可以從多模態(tài)大模型中誘導(dǎo)跨模態(tài)對(duì)齊知識(shí)和視覺(jué)常識(shí)知識(shí)。

d2c5aa30-d9b9-11ed-bfe3-dac502259ad0.png

(2)AIGC大模型的出現(xiàn)使得零樣本、少樣本、開(kāi)放知識(shí)抽取成為可能。例如,我們可以利用ChatGPT對(duì)話大模型的理解和生成能力,從給定文本中抽取三元組知識(shí);我們也可以利用多模態(tài)AIGC大模型的跨模態(tài)生成和理解能力,從給定圖文數(shù)據(jù)中抽取多模態(tài)知識(shí)。

d2cdaef6-d9b9-11ed-bfe3-dac502259ad0.png

(3)AIGC大模型可以顯著增強(qiáng)垂域多模態(tài)知識(shí)獲取能力。GPT-4、ChatPDF模型等已經(jīng)顯示了強(qiáng)大的領(lǐng)域知識(shí)抽取能力,如基于多模態(tài)文檔的知識(shí)抽取。

d2d9fbe8-d9b9-11ed-bfe3-dac502259ad0.png

第二,AIGC大模型助圖譜設(shè)計(jì)一臂之力。

大模型在部分領(lǐng)域上擁有領(lǐng)域常識(shí)知識(shí),可以輔助完成schema的半自動(dòng)化設(shè)計(jì)。在多模態(tài)場(chǎng)景中,也有一些嘗試,例如可以用多模態(tài)AIGC大模型生成cms領(lǐng)域的schema。

d2e34270-d9b9-11ed-bfe3-dac502259ad0.png

第三,AIGC大模型為知識(shí)推理保駕護(hù)航。

基于大模型的跨模態(tài)生成與推理能力,可以輔助完成KG表示學(xué)習(xí)、圖譜補(bǔ)全等任務(wù)。

d2ed6c3c-d9b9-11ed-bfe3-dac502259ad0.png

第四,AIGC大模型為知識(shí)融合掃清障礙。

利用大模型的泛化能力和海量知識(shí),可以輔助完成多模態(tài)知識(shí)圖譜融合。利于對(duì)于兩個(gè)MMKG的對(duì)齊,多模態(tài)AIGC大模型在兩者之間可以生成實(shí)體知識(shí)或語(yǔ)義層面的特征,輔助完成實(shí)體對(duì)齊。

d2f4e7fa-d9b9-11ed-bfe3-dac502259ad0.png

第五,AIGC大模型為知識(shí)更新舔磚加瓦。

基于大模型的常識(shí)知識(shí)和通用抽取能力可以輔助MMKG進(jìn)行知識(shí)更新。可以利用多模態(tài)AIGC大模型從新事實(shí)中輔助抽取新知識(shí);當(dāng)新知識(shí)抽取完成后,可以借助多模態(tài)AIGC大模型輔助更新多模態(tài)知識(shí)圖譜。此外,還可以借助多模態(tài)AIGC大模型輔助過(guò)期事實(shí)檢測(cè),從而將過(guò)期知識(shí)從知識(shí)圖譜中刪除。

d2fdf4ee-d9b9-11ed-bfe3-dac502259ad0.png

第六,AIGC大模型為知識(shí)問(wèn)答錦上添花。

利用大模型的語(yǔ)言理解能力和解析能力,可以幫助更好的構(gòu)建多模態(tài)知識(shí)問(wèn)答系統(tǒng)。在ChatGPT的知識(shí)問(wèn)答評(píng)測(cè)結(jié)果顯示其在很多問(wèn)題類(lèi)型上效果顯著,且跨語(yǔ)言低資源情況下具有碾壓級(jí)效果,但是其數(shù)值類(lèi)問(wèn)題效果不及SOTA。因此,使用AIGC大模型助力MM-KGQA和K-VQA等任務(wù),可以提升問(wèn)題解析能力,強(qiáng)化知識(shí)推理能力,提供外部知識(shí)輔助等。

05

MMKG for AIGC

第五部分,我們總結(jié)與展望一下MMKG如何助力AIGC大模型的提升與完善。

d304f3ca-d9b9-11ed-bfe3-dac502259ad0.png

第一,MMKG參與AIGC大模型的生成能力評(píng)估。

基于多模態(tài)知識(shí)圖譜中的知識(shí)構(gòu)建測(cè)試集,可對(duì)大模型的生成能力進(jìn)行各方面評(píng)估。例如利用各類(lèi)百科知識(shí)圖譜進(jìn)行事實(shí)性檢驗(yàn)評(píng)估,也可以利用各類(lèi)MMKG構(gòu)建測(cè)試集進(jìn)行符號(hào)推理能力評(píng)估、視覺(jué)常識(shí)推理能力評(píng)估、非語(yǔ)言推理能力評(píng)估等。

d3123c60-d9b9-11ed-bfe3-dac502259ad0.png

第二,MMKG引導(dǎo)AIGC大模型的可控約束生成。

已有工作在文本AIGC模型中引入指定約束(如包含/避免某主題)進(jìn)行可控生成??梢哉雇磥?lái)會(huì)出現(xiàn)多模態(tài)知識(shí)引導(dǎo)大模型約束生成的工作。比如對(duì)于圖像生成,可通過(guò)將文本鏈接到多模態(tài)知識(shí)圖譜的具體實(shí)體,提供實(shí)體圖像信息,幫助正確生成實(shí)體對(duì)應(yīng)圖像;對(duì)于文本生成,通過(guò)鏈接到多模態(tài)知識(shí)圖譜的具體實(shí)體,提供實(shí)體關(guān)系屬性和實(shí)體圖像等實(shí)體畫(huà)像信息,幫助正確生成符合實(shí)體性質(zhì)和特點(diǎn)的文本。

d322c8b4-d9b9-11ed-bfe3-dac502259ad0.png

第三,MMKG幫助AIGC大模型進(jìn)行知識(shí)編輯。

目前已有在文本大模型上的知識(shí)編輯的相關(guān)工作。可以預(yù)見(jiàn),未來(lái)也會(huì)出現(xiàn)利用多模態(tài)知識(shí)圖譜來(lái)對(duì)多模態(tài)大模型進(jìn)行知識(shí)編輯的研究工作。

d32ddaba-d9b9-11ed-bfe3-dac502259ad0.png

第四,MMKG輔助AIGC大模型的領(lǐng)域(任務(wù))適配。

用多模態(tài)知識(shí)圖譜做領(lǐng)域知識(shí)微調(diào)可以將大模型的能力適配到領(lǐng)域任務(wù)。例如,在電商領(lǐng)域跨模態(tài)檢索場(chǎng)景,常常存在語(yǔ)義不匹配的問(wèn)題。這種情況下,大模型如何低成本、高效率地解決該領(lǐng)域的具體問(wèn)題是其應(yīng)用落地的關(guān)鍵。我們與阿里合作的這篇工作提出了通過(guò)微調(diào)大模型,加上多模態(tài)知識(shí)輔助的方式,實(shí)現(xiàn)了大模型的輕量級(jí)領(lǐng)域適配。

06

AIGC+MMKG

第六部分,我們展望一下AIGC大模型和MMKG如何進(jìn)一步合作。

d337a658-d9b9-11ed-bfe3-dac502259ad0.png

我們認(rèn)為,走向通用人工智能需要AIGC大模型和MMKG攜手并進(jìn)。在未來(lái),基于知識(shí)工程和統(tǒng)計(jì)模型的語(yǔ)言認(rèn)知和多模態(tài)感知將會(huì)相互結(jié)合,并且借助MMKG和AIGC大模型,共同走向多模態(tài)認(rèn)知的發(fā)展道路上。從視覺(jué)感知和語(yǔ)言認(rèn)知到多模態(tài)認(rèn)知,從連接主義和符號(hào)主義到神經(jīng)符號(hào)主義,通用人工智能必將是一條融合之路。

d33db142-d9b9-11ed-bfe3-dac502259ad0.png

AIGC和MMKG的第一種融合方式是注入知識(shí)以增強(qiáng)預(yù)訓(xùn)練大模型。目前知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型已有多種路徑實(shí)現(xiàn)。在多模態(tài)知識(shí)增強(qiáng)預(yù)訓(xùn)練的方向上,也有工作將場(chǎng)景圖知識(shí)融入視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的預(yù)訓(xùn)練過(guò)程中以增強(qiáng)跨模態(tài)語(yǔ)言理解能力。未來(lái)還有很多方式方法來(lái)將MMKG中的知識(shí)以更多方式融入到大模型當(dāng)中。

d347a8aa-d9b9-11ed-bfe3-dac502259ad0.png

AIGC和MMKG的第二種融合方式是基于知識(shí)檢索增強(qiáng)的多模態(tài)生成。例如,給定文本提示,訪問(wèn)外部多模態(tài)知識(shí)庫(kù)以檢索相關(guān)圖文對(duì),將其用作生成圖像的參考。

d3532a54-d9b9-11ed-bfe3-dac502259ad0.png

AIGC和MMKG的第三種融合方式是因果知識(shí)增強(qiáng)的多模態(tài)生成。已有工作利用因果圖譜中的因果關(guān)系和圖推理能力,輔助大模型的因果決策,通過(guò)在因果圖譜上的檢索、推理和融合將因果信息融入大模型推理中??梢哉雇磥?lái)因果知識(shí)也可被用在對(duì)多模態(tài)大模型的理解與生成能力優(yōu)化上。

d365289e-d9b9-11ed-bfe3-dac502259ad0.png

AIGC和MMKG的第四種融合方式是個(gè)性化知識(shí)接入的多模態(tài)生成。在未來(lái),或許每個(gè)個(gè)體或企業(yè)都會(huì)擁有AI私有化助手,那么如何管理個(gè)性化多模態(tài)知識(shí),諸如個(gè)人畫(huà)像知識(shí)圖譜、企業(yè)畫(huà)像知識(shí)圖譜、價(jià)值觀知識(shí)圖譜、自媒體知識(shí)圖譜等,將這些知識(shí)以一種可插拔式的方式接入AIGC大模型中,提高大模型的個(gè)性化生成能力將是非常值得探索的方向。

d36fd08c-d9b9-11ed-bfe3-dac502259ad0.png

實(shí)際上,Microsoft 365 Copilot就可以看作是知識(shí)庫(kù)與大模型良好協(xié)作的一款劃時(shí)代產(chǎn)品。借助Microsoft Graph(可以看做是一種知識(shí)庫(kù))與AIGC大模型的協(xié)作融合,助力Word、PowerPoint、Excel的生產(chǎn)力大提升。

d378b09e-d9b9-11ed-bfe3-dac502259ad0.png

此外,在行業(yè)落地層面,AIGC大模型和MMKG的融合更具價(jià)值。由于利用海量通用語(yǔ)料和通用知識(shí)訓(xùn)練的通用大模型與行業(yè)應(yīng)用場(chǎng)景之間依然存在鴻溝,因此需要進(jìn)行行業(yè)數(shù)據(jù)挖掘和行業(yè)特色知識(shí)獲取來(lái)進(jìn)一步訓(xùn)練更加實(shí)用的行業(yè)大模型。

d380f704-d9b9-11ed-bfe3-dac502259ad0.png

基于上述原因,行業(yè)落地往往需要多層次的模型,并有效與知識(shí)庫(kù)和外部工具進(jìn)行配合,才能真正解決好行業(yè)問(wèn)題。通用多模態(tài)預(yù)訓(xùn)練生成大模型、行業(yè)領(lǐng)域預(yù)訓(xùn)練模型、任務(wù)小模型以及行業(yè)知識(shí)庫(kù)、外部工具將構(gòu)成一個(gè)模型共同體,協(xié)作解決行業(yè)復(fù)雜問(wèn)題。

07

總 結(jié)

d38c726e-d9b9-11ed-bfe3-dac502259ad0.png

最后總結(jié)一下本次分享的主要觀點(diǎn)。首先,AIGC技術(shù)的發(fā)展必將加速邁向通用人工智能的步伐。但是僅憑AIGC技術(shù)無(wú)法真正實(shí)現(xiàn)通用人工智能。在多模態(tài)領(lǐng)域,MMKG的構(gòu)建與應(yīng)用仍具重要價(jià)值。我們認(rèn)為,AIGC和MMKG應(yīng)該相互借力,我們分別從AIGC用于MMKG、MMKG用于AIGC、MMKG和AIGC如何融合三方面給出了二者競(jìng)合方式的探索和展望。未來(lái),符號(hào)知識(shí)和統(tǒng)計(jì)模型的競(jìng)合方式有待進(jìn)一步深入探索。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    34146

    瀏覽量

    275262
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5554

    瀏覽量

    122458
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1586

    瀏覽量

    8784

原文標(biāo)題:AIGC時(shí)代的多模態(tài)知識(shí)工程思考與展望

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AIGC入門(mén)及鴻蒙入門(mén)

    人工智能和大數(shù)據(jù)技術(shù)的創(chuàng)新內(nèi)容生成工具,正逐漸成為矚目的焦點(diǎn)。它為創(chuàng)意性工作打開(kāi)了全新的大門(mén),尤其在文本和視覺(jué)內(nèi)容創(chuàng)作方面表現(xiàn)卓越。對(duì)于初學(xué)者來(lái)說(shuō),可以通過(guò)學(xué)習(xí)相關(guān)基礎(chǔ)知識(shí)和實(shí)踐操作來(lái)入門(mén)AIGC領(lǐng)域。同時(shí)
    發(fā)表于 01-13 10:32

    #新年新氣象,大家新年快樂(lè)!#AIGC入門(mén)及鴻蒙入門(mén)

    和大數(shù)據(jù)技術(shù)的創(chuàng)新內(nèi)容生成工具,正逐漸成為矚目的焦點(diǎn)。它為創(chuàng)意性工作打開(kāi)了全新的大門(mén),尤其在文本和視覺(jué)內(nèi)容創(chuàng)作方面表現(xiàn)卓越。對(duì)于初學(xué)者來(lái)說(shuō),可以通過(guò)學(xué)習(xí)相關(guān)基礎(chǔ)知識(shí)和實(shí)踐操作來(lái)入門(mén)AIGC領(lǐng)域。同時(shí)
    發(fā)表于 01-13 10:46

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場(chǎng)景下的模態(tài)情感識(shí)別

    自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價(jià)值.本文探討了在文化場(chǎng)景下的模態(tài)情感識(shí)別問(wèn)題.我們從語(yǔ)音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制
    發(fā)表于 12-18 14:47 ?0次下載

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    AI下一個(gè)風(fēng)口來(lái)臨 AIGC產(chǎn)業(yè)生態(tài)迎來(lái)發(fā)展快車(chē)道

    一是基礎(chǔ)的生成算法模型不斷突破創(chuàng)新;二是預(yù)訓(xùn)練模型引發(fā)了AIGC技術(shù)能力的質(zhì)變;三是模態(tài)技術(shù)推動(dòng)了AIGC的內(nèi)容多邊形,讓AIGC具有了更
    發(fā)表于 02-10 11:53 ?935次閱讀

    AIGC最新綜述:從GAN到ChatGPT的AI生成歷史

    本調(diào)查全面回顧了生成模型的歷史、基本組件、AIGC 從單模態(tài)交互和模態(tài)交互的最新進(jìn)展。我們從單峰性的角度介紹了文本和圖像的生成任務(wù)和相關(guān)模型。我們從
    的頭像 發(fā)表于 03-13 10:13 ?3142次閱讀

    ChatGPT/AIGC研究框架原理和應(yīng)用實(shí)踐

    隨著ChatGPT等語(yǔ)言大模型落地,AIGC技術(shù)落地在各行各業(yè)中得到發(fā)展和推進(jìn)。根據(jù)模型的分類(lèi),AIGC的應(yīng)用可被分為單模態(tài)模態(tài)兩類(lèi)。單
    發(fā)表于 03-30 10:35 ?814次閱讀

    如何利用LLM做模態(tài)任務(wù)?

    大型語(yǔ)言模型LLM(Large Language Model)具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開(kāi)放模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)
    的頭像 發(fā)表于 05-11 17:09 ?1131次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>任務(wù)?

    技術(shù)與市場(chǎng):為具身智能突破技術(shù)瓶頸:AIGC

    而進(jìn)入AIGC時(shí)代,GPT等AI大模型提供了新的解決方案,已有不少研究者嘗試將模態(tài)的大語(yǔ)言模型作為人類(lèi)與機(jī)器人溝通的橋梁。即通過(guò)將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,并引入
    的頭像 發(fā)表于 05-19 09:49 ?2119次閱讀
    技術(shù)與市場(chǎng):為具身智能突破技術(shù)瓶頸:<b class='flag-5'>AIGC</b>

    創(chuàng)芯派 | 專(zhuān)訪青丘片場(chǎng):AIGC技術(shù)驅(qū)動(dòng)下的創(chuàng)意視頻革新之路

    2022年,AIGC產(chǎn)品密集爆發(fā),利用人工智能生成內(nèi)容成為了網(wǎng)絡(luò)作品創(chuàng)作的新潮流。不再局限于文字生成,AI技術(shù)的助力正成為AIGC生態(tài)圈的重要部分,使AIGC時(shí)代的創(chuàng)作擴(kuò)展到“
    的頭像 發(fā)表于 07-04 19:30 ?628次閱讀
    創(chuàng)芯派 | 專(zhuān)訪青丘片場(chǎng):<b class='flag-5'>AIGC</b>技術(shù)驅(qū)動(dòng)下的創(chuàng)意視頻革新之路

    VisCPM:邁向多語(yǔ)言模態(tài)大模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn)。總體而言,面向圖像和文本的
    的頭像 發(fā)表于 07-10 10:05 ?902次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型<b class='flag-5'>時(shí)代</b>

    DreamLLM:多功能模態(tài)大型語(yǔ)言模型,你的DreamLLM~

    由于固有的模態(tài)缺口,如CLIP語(yǔ)義主要關(guān)注模態(tài)共享信息,往往忽略了可以增強(qiáng)多模態(tài)理解的模態(tài)特定知識(shí)。因此,這些研究并沒(méi)有充分認(rèn)識(shí)到
    的頭像 發(fā)表于 09-25 17:26 ?1030次閱讀
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大型語(yǔ)言模型,你的DreamLLM~

    華為戰(zhàn)略研究院院長(zhǎng)周紅:面向智能時(shí)代思考展望

    4月17日,華為分析師大會(huì)在深圳舉辦。華為戰(zhàn)略研究院院長(zhǎng)周紅發(fā)表了題為《面向智能時(shí)代思考展望》的主題演講。
    的頭像 發(fā)表于 04-18 09:38 ?1406次閱讀
    華為戰(zhàn)略研究院院長(zhǎng)周紅:面向智能<b class='flag-5'>時(shí)代</b>的<b class='flag-5'>思考</b>和<b class='flag-5'>展望</b>