2022午夜福利在线福利1000,日本一区二区三区不卡视频,免费AV高清在线观看网站

內(nèi)容簡(jiǎn)介：ChatGPT的火爆出圈使得AI生成（AIGC）技術(shù)受到了全社會(huì)前所未有的廣泛關(guān)注。此消彼長(zhǎng)之下，傳統(tǒng)的知識(shí)工程遭受了諸多質(zhì)疑。在多模態(tài)智能領(lǐng)域，AIGC的能力不斷提升，多模態(tài)知識(shí)工程工作應(yīng)該何去何從？是否仍有價(jià)值？在本次分享中，講者將探討當(dāng)前AIGC技術(shù)耀眼“光芒”背后的“暗面”，思考與展望AIGC時(shí)代的多模態(tài)知識(shí)工程研究。

關(guān)于AIGC時(shí)代的多模態(tài)知識(shí)工程思考與展望，我們將從以下六個(gè)方面展開(kāi)介紹：

第一部分，我們回顧一下AIGC技術(shù)的發(fā)展歷程和它帶來(lái)的劃時(shí)代影響力；

第二部分，我們對(duì)AIGC技術(shù)的不足（阿克琉斯之踵）之處進(jìn)行分析與總結(jié)；

第三部分，我們將介紹多模態(tài)認(rèn)知智能的框架和兩種實(shí)現(xiàn)路徑，并進(jìn)行對(duì)比分析；

第四~六部分，我們會(huì)展望當(dāng)前AIGC大模型和MMKG多模態(tài)圖譜間如何競(jìng)與合。

AIGC時(shí)代：未來(lái)已來(lái)

隨著人工智能總體階段的發(fā)展，生成式人工智能技術(shù)（AIGC）也在不斷迭代。從20世紀(jì)50年代到90年代中期，是AIGC的早期萌芽階段，這一時(shí)期受限于技術(shù)水平，AIGC僅限于小范圍實(shí)驗(yàn)。這一時(shí)期的AIGC典型事件包括：1950年，艾倫·圖靈提出的著名的“圖靈測(cè)試”，給出判斷機(jī)器是否具有“智能”的方法；1966年，世界上第一款可人機(jī)對(duì)話機(jī)器人“Eliza”的問(wèn)世；以及在80年代中期IBM公司創(chuàng)造的語(yǔ)音控制打字機(jī)“Tangora”的出現(xiàn)。

而從20世紀(jì)90年代到21世紀(jì)10年代中期，AIGC處于沉淀積累階段，這一階段的AIGC技術(shù)從實(shí)驗(yàn)性向?qū)嵱眯赞D(zhuǎn)變，但仍因受限于算法瓶頸，無(wú)法直接進(jìn)行內(nèi)容生成。這一階段的AIGC典型事件則包括2007年世界上第一部完全由人工智能創(chuàng)作的小說(shuō)《1 the road》的問(wèn)世；以及2012年微軟開(kāi)發(fā)的全自動(dòng)同聲傳譯系統(tǒng)的出現(xiàn)，它能夠?qū)⒂⑽恼Z(yǔ)音自動(dòng)翻譯成中文語(yǔ)音。

自21世紀(jì)10年代中期至今，是AIGC快速發(fā)展的階段，得益于深度學(xué)習(xí)算法不斷迭代，人工智能生成內(nèi)容百花齊放。2014年，Goodfellow提出的生成對(duì)抗網(wǎng)絡(luò)GAN用于生成圖像；2019年，英偉達(dá)發(fā)布StyleGAN模型可以自動(dòng)生成高質(zhì)量圖片；2019年DeepMind發(fā)布DVD-GAN用于生成連續(xù)性視頻，直到2022年，OpenAI發(fā)布ChatGPT模型生成流暢的自然語(yǔ)言文本。

可以說(shuō)，ChatGPT的爆紅出圈宣告了AIGC時(shí)代的到來(lái)。

現(xiàn)在的AIGC技術(shù)可以生成的內(nèi)容包括文本、圖像、音頻和視頻等。如今，已經(jīng)有很多強(qiáng)大的算法被發(fā)明出來(lái)，如用于圖像生成的Stable Diffusion算法。此外，還有很多走在技術(shù)前沿的創(chuàng)業(yè)公司不斷推動(dòng)AIGC技術(shù)的應(yīng)用落地，如Jasper AI的AI寫(xiě)作軟件和midjourney的AI繪畫(huà)工具的發(fā)明都在解放著人類(lèi)的內(nèi)容創(chuàng)作生產(chǎn)力。這些共同促進(jìn)了一個(gè)萬(wàn)物皆可AI生成的AIGC時(shí)代。

右圖是一張來(lái)自互聯(lián)網(wǎng)的趣味圖片——機(jī)器人一家三口在人類(lèi)博物館中觀賞人類(lèi)的最后一篇推文“GPT-5也沒(méi)啥了不起的”——表達(dá)了創(chuàng)作者對(duì)當(dāng)今AIGC技術(shù)飛速發(fā)展的隱隱擔(dān)憂。

那么，我們首先看一下多模態(tài)大模型的分類(lèi)與發(fā)展脈絡(luò)。如上圖所示，多模態(tài)大模型發(fā)展非常迅速，我們可以將多模態(tài)大模型簡(jiǎn)單分為多模態(tài)統(tǒng)一大模型和多模態(tài)文圖生成大模型，前者用于統(tǒng)一的多模態(tài)生成和理解，后者特指具備強(qiáng)大的多模態(tài)文到圖生成能力的大模型。

當(dāng)前，文圖生成大模型已經(jīng)可以生成逼真、高清以及風(fēng)格化的意境圖像。

還有一些文圖生成大模型，如斯坦福大學(xué)提出的ControlNet，其生成能力更加精致、可控。它不僅可以生成各類(lèi)質(zhì)地細(xì)膩、細(xì)節(jié)精致的圖片，也可以通過(guò)簡(jiǎn)筆畫(huà)來(lái)對(duì)圖像生成進(jìn)行操控。

AIGC大模型生成的視頻在某種程度上也可謂自然流暢、栩栩如生。

我們還看到Google發(fā)布的PaLM-E模型，展現(xiàn)了多模態(tài)AIGC大模型驅(qū)動(dòng)的具身智能的情景。這個(gè)具備5620億參數(shù)的具身多模態(tài)大模型，可以將真實(shí)世界的傳感器信號(hào)與文本輸入相結(jié)合，建立語(yǔ)言和感知的鏈接，可以用自然語(yǔ)言操控機(jī)器人完成操作規(guī)劃、視覺(jué)問(wèn)答等任務(wù)。

AIGC的驚艷效果不禁讓很多人對(duì)符號(hào)主義（知識(shí)工程）的研究產(chǎn)生了疑問(wèn)。Rich Sutton在著名文章《苦澀的教訓(xùn)》中提出，唯一導(dǎo)致AI進(jìn)步的因素是更多的數(shù)據(jù)和更有效的計(jì)算。而DeepMind的研究主任Nando de Freitas也宣稱(chēng)，“AI現(xiàn)在完全取決于規(guī)模，AI領(lǐng)域更難的挑戰(zhàn)已經(jīng)解決了，游戲結(jié)束了！”。我們也看到，在大多數(shù)領(lǐng)域，大模型已經(jīng)（暫時(shí)）戰(zhàn)勝了精心設(shè)計(jì)的知識(shí)工程。然而，AI的流派之爭(zhēng)真的結(jié)束了嗎？

AIGC的阿克琉斯之踵

第二部分，讓我們來(lái)看一下當(dāng)前AIGC大模型實(shí)際存在的一些問(wèn)題。

盡管今天的ChatGPT（包括GPT-4）很強(qiáng)大，它的諸多問(wèn)題仍舊難以忽視：

第一、強(qiáng)語(yǔ)言弱知識(shí)的問(wèn)題，ChatGPT無(wú)法理解用戶(hù)查詢(xún)中的知識(shí)性錯(cuò)誤，它具備強(qiáng)大的語(yǔ)言能力，但知識(shí)能力仍舊較弱；

第二、實(shí)時(shí)信息自更新慢，新舊知識(shí)難以區(qū)分，目前ChatGPT的知識(shí)還停留在2021年，而每一次信息更新都需要成本高昂的重新訓(xùn)練；

第三、其邏輯推理能力并不可靠，應(yīng)該說(shuō)尚不具備復(fù)雜數(shù)學(xué)邏輯推理與專(zhuān)業(yè)邏輯推理能力；

第四、由于缺乏領(lǐng)域知識(shí)，它也無(wú)法真正為領(lǐng)域類(lèi)問(wèn)題提供專(zhuān)業(yè)靠譜的答案。

當(dāng)前的多模態(tài)大模型的跨模態(tài)生成能力也尚不完善。上圖是我們用文圖生成大模型Stable Diffusion生成的一些案例。具體來(lái)說(shuō)，當(dāng)前的文圖生成存在組合泛化、屬性泄露、方位理解混亂、語(yǔ)義理解錯(cuò)誤等問(wèn)題。因此，盡管我們看到AIGC跨模態(tài)生成的視覺(jué)效果驚艷，但往往存在較大的模態(tài)間信息不對(duì)稱(chēng)問(wèn)題。

此外，當(dāng)前多模態(tài)大模型的多模態(tài)理解能力也存在問(wèn)題。上圖是來(lái)自BLIP2進(jìn)行視覺(jué)問(wèn)答任務(wù)的錯(cuò)誤樣例。我們看到：

1）模型由于缺乏事實(shí)知識(shí)，無(wú)法知曉球拍上的“w”圖案是品牌“Wilson”的logo，因而錯(cuò)誤回答成“nike”；

2）模型由于欠缺邏輯推理能力，不理解圖像場(chǎng)景和問(wèn)題的邏輯關(guān)系，因而回答錯(cuò)誤；

3）模型由于常識(shí)儲(chǔ)備不足，對(duì)某個(gè)具體場(chǎng)景（沖浪）下的意圖理解犯了常識(shí)性錯(cuò)誤。

讓我們?cè)賮?lái)看一下Google的具身多模態(tài)大模型PaLM-E，雖然依賴(lài)如此大規(guī)模的參數(shù)實(shí)現(xiàn)了初步的機(jī)器人操控，但其demo視頻中所展示的空間范圍、物品種類(lèi)、規(guī)劃和操作任務(wù)的復(fù)雜度等都非常有限。我們可以想象，如果要在真實(shí)世界的復(fù)雜場(chǎng)景中達(dá)到實(shí)用級(jí)別，PaLM-E的參數(shù)規(guī)模是否還需要增大百倍、千倍甚至萬(wàn)倍？如果一味用海量參數(shù)存儲(chǔ)所有知識(shí)，那么智慧涌現(xiàn)的代價(jià)是否過(guò)于昂貴？

至此，我們對(duì)多模態(tài)大模型做個(gè)簡(jiǎn)單的小結(jié)。首先，多模態(tài)大模型的本質(zhì)是“用語(yǔ)言解釋視覺(jué)，用視覺(jué)完善語(yǔ)言”。換句話說(shuō)，我們要將文本中的語(yǔ)言符號(hào)知識(shí)，與視覺(jué)中的可視化信息建立統(tǒng)計(jì)關(guān)聯(lián)。所謂“用語(yǔ)言解釋視覺(jué)”，就是將語(yǔ)言中蘊(yùn)含的符號(hào)知識(shí)體系和邏輯推理能力延伸至對(duì)視覺(jué)內(nèi)容的理解；而所謂“用視覺(jué)完善語(yǔ)言”，是指豐富的視覺(jué)信息可以成為符號(hào)知識(shí)體系和邏輯推理能力的重要完善和補(bǔ)充。

我們知道，多模態(tài)大模型能發(fā)揮重大作用的重要前提是：

1）具有海量高質(zhì)量圖文配對(duì)數(shù)據(jù)；

2）文字富含事實(shí)知識(shí)和常識(shí)；

3）其邏輯推理過(guò)程可顯式化被學(xué)習(xí)。

而我們所面臨的現(xiàn)實(shí)情況卻是：

1）數(shù)據(jù)量大但質(zhì)量差，信息不對(duì)稱(chēng)；

2）純文字中的知識(shí)與常識(shí)也不完備；

3）其邏輯推理是隱性難以學(xué)習(xí)的。

正因?yàn)檫@些理想與現(xiàn)實(shí)間的差距，導(dǎo)致了前面提到的多模態(tài)大模型的種種問(wèn)題與不足。綜上，我們認(rèn)為，統(tǒng)計(jì)大模型始終難以較低成本，全面、準(zhǔn)確地掌握人類(lèi)知識(shí)、常識(shí)和邏輯推理能力。

多模態(tài)認(rèn)知智能

第三部分，我們引出多模態(tài)認(rèn)知智能，其研究旨在解決前一部分提到的問(wèn)題。

上圖是我們提出的一個(gè)多模態(tài)認(rèn)知智能的研究框架。總的來(lái)說(shuō)，多模態(tài)認(rèn)知智能主要研究基于多模態(tài)數(shù)據(jù)的知識(shí)獲取、表示、推理與應(yīng)用。在多模態(tài)知識(shí)獲取層面，我們從語(yǔ)料中通過(guò)抽取、生成、群智等方法獲取知識(shí)或者從語(yǔ)言模型中萃取知識(shí)。在多模態(tài)知識(shí)表示層面，可以使用多模態(tài)圖譜、常識(shí)圖譜、語(yǔ)言模型、大規(guī)模知識(shí)網(wǎng)絡(luò)等方法進(jìn)行知識(shí)表示?；诙嗄B(tài)知識(shí)表示，可以進(jìn)一步支撐多模態(tài)理解、推理和元認(rèn)知等能力，從而賦能諸如跨模態(tài)搜索、推薦、問(wèn)答、生成等多模態(tài)知識(shí)的應(yīng)用。

多模態(tài)認(rèn)知智能目前有兩種實(shí)現(xiàn)路徑。一種是多模態(tài)大模型，其代表了聯(lián)結(jié)主義和經(jīng)驗(yàn)主義的思想，從海量預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)概率關(guān)聯(lián)，是簡(jiǎn)單而魯棒的，它屬于統(tǒng)計(jì)學(xué)習(xí)范疇，具備端到端、干預(yù)少和“數(shù)”盡其用的優(yōu)勢(shì)，其劣勢(shì)在于難以學(xué)習(xí)到從因到果、從主到次、從整體到部分、從概括到具體、從現(xiàn)象到本質(zhì)、從具體到一般等邏輯關(guān)系。

另一種實(shí)現(xiàn)路徑是多模態(tài)知識(shí)工程，其代表了符號(hào)主義的思想，從精選數(shù)據(jù)和專(zhuān)家知識(shí)中學(xué)習(xí)符號(hào)關(guān)聯(lián)，是精細(xì)而脆弱的，它往往通過(guò)專(zhuān)家系統(tǒng)和知識(shí)圖譜實(shí)現(xiàn)，具備易推理、可控、可干預(yù)、可解釋的優(yōu)點(diǎn)，但是它的劣勢(shì)主要在于將數(shù)據(jù)轉(zhuǎn)換成符號(hào)知識(shí)的過(guò)程往往伴隨著巨大的信息損失，而其中隱性知識(shí)等難以表達(dá)的知識(shí)往往是信息損失的主體。

結(jié)合多模態(tài)大模型和多模態(tài)知識(shí)工程的優(yōu)劣勢(shì)分析，我們認(rèn)為：在AIGC大模型時(shí)代，多模態(tài)知識(shí)工程依然不可或缺。

當(dāng)前，多模態(tài)知識(shí)工程的主要形式之一是多模態(tài)知識(shí)圖譜（MMKG）。多模態(tài)知識(shí)圖譜是在傳統(tǒng)知識(shí)圖譜的基礎(chǔ)上，增加多種模態(tài)數(shù)據(jù)以豐富符號(hào)知識(shí)表達(dá)的方法，其多模態(tài)數(shù)據(jù)包括但不限于圖像、視頻、語(yǔ)言、代碼等。多模態(tài)知識(shí)圖譜可以將符號(hào)接地到具象的視覺(jué)等模態(tài)對(duì)象上，實(shí)現(xiàn)跨模態(tài)語(yǔ)義對(duì)齊。

目前多模知識(shí)圖譜的主流形式有兩種。

一種是A-MMKG，其中多模態(tài)數(shù)據(jù)僅作為文字符號(hào)實(shí)體的關(guān)聯(lián)屬性存在；

另一種是N-MMKG，其中多模態(tài)數(shù)據(jù)也可作為圖譜中的實(shí)體存在，可與現(xiàn)有實(shí)體發(fā)生廣泛關(guān)聯(lián)。

至此，我們進(jìn)一步分析AIGC多模態(tài)大模型和大規(guī)模多模態(tài)知識(shí)圖譜各自的優(yōu)缺點(diǎn)。

多模態(tài)大模型的優(yōu)點(diǎn)是：

1）關(guān)聯(lián)推理能力強(qiáng)：可以學(xué)習(xí)掌握大量跨模態(tài)知識(shí)模式，隱空間的關(guān)聯(lián)推理能力強(qiáng)，具有很強(qiáng)的泛化能力；

2）多任務(wù)通吃：一套大模型處理各類(lèi)跨模態(tài)任務(wù)；

3）人工成本低：不依賴(lài)人工schema設(shè)計(jì)與數(shù)據(jù)標(biāo)注；

4）適配能力強(qiáng)：可通過(guò)調(diào)優(yōu)訓(xùn)練或prompt對(duì)話等方式來(lái)適配新的領(lǐng)域和任務(wù)。

而其不足之處在于：

1）可靠程度低：所生成的內(nèi)容可靠性堪憂，存在誤差累積、隱私泄露等問(wèn)題，無(wú)法勝任高精度嚴(yán)肅場(chǎng)景需求；

2）知識(shí)推理弱：沒(méi)有真正掌握數(shù)據(jù)背后的知識(shí)，缺乏知識(shí)推理能力，更無(wú)因果推理能力；

3）可解釋性弱：雖有CoT加持，但可解釋性仍然不足；

4）訓(xùn)練成本高：需要消耗大量計(jì)算資源和時(shí)間來(lái)進(jìn)行訓(xùn)練，需要強(qiáng)大的計(jì)算設(shè)備和高效的算法。

而與之對(duì)應(yīng)的，多模態(tài)知識(shí)圖譜的優(yōu)點(diǎn)是：

1）專(zhuān)業(yè)可信度高：其結(jié)構(gòu)和關(guān)系清晰，易于理解和解釋?zhuān)蔀槿祟?lèi)決策提供參考，通常為某個(gè)具體應(yīng)用場(chǎng)景構(gòu)建，可提供更精準(zhǔn)和針對(duì)性的知識(shí)支持；

2）可解釋性好：以結(jié)構(gòu)化形式表示知識(shí) ，知識(shí)的可訪問(wèn)性、可重用性、可解釋性好，對(duì)人類(lèi)友好；

3）可擴(kuò)展性強(qiáng)：知識(shí)圖譜的內(nèi)容可以隨著應(yīng)用場(chǎng)景的需要進(jìn)行不斷擴(kuò)展和更新，可以不斷完善和改進(jìn)。

而多模態(tài)知識(shí)圖譜的缺點(diǎn)在于：

1）推理能力弱：只能表示已有的知識(shí)和關(guān)系，對(duì)于未知或不確定的領(lǐng)域難以進(jìn)行有效的知識(shí)建模和推理；

2）人工成本高：其構(gòu)建需要依賴(lài)于人工或半自動(dòng)的方式進(jìn)行知識(shí)抽取和建模，難以實(shí)現(xiàn)完全自動(dòng)化；

3）架構(gòu)調(diào)整難：其基本schema架構(gòu)通常是靜態(tài)的，不易根據(jù)新的數(shù)據(jù)或場(chǎng)景進(jìn)行修改和調(diào)整。

由上分析可見(jiàn)：多模態(tài)大模型的優(yōu)點(diǎn)常常是多模態(tài)知識(shí)圖譜的不足，而多模態(tài)大模型的不足又往往是多模態(tài)知識(shí)圖譜的優(yōu)勢(shì)。因此，我們認(rèn)為：當(dāng)前階段，大模型與知識(shí)圖譜仍應(yīng)繼續(xù)保持競(jìng)合關(guān)系，互相幫助，互為補(bǔ)充。

AIGC for MMKG

第四部分，我們思考與展望一下AIGC大模型如何輔助MMKG的構(gòu)建與應(yīng)用。

第一，AIGC大模型為知識(shí)獲取降本增效。

（1）通過(guò)知識(shí)誘導(dǎo)（萃取），可以快速獲取大量知識(shí)或常識(shí)。例如，我們可以從語(yǔ)言大模型中誘導(dǎo)語(yǔ)言知識(shí)和關(guān)系知識(shí)；我們也可以從多模態(tài)大模型中誘導(dǎo)跨模態(tài)對(duì)齊知識(shí)和視覺(jué)常識(shí)知識(shí)。

（2）AIGC大模型的出現(xiàn)使得零樣本、少樣本、開(kāi)放知識(shí)抽取成為可能。例如，我們可以利用ChatGPT對(duì)話大模型的理解和生成能力，從給定文本中抽取三元組知識(shí)；我們也可以利用多模態(tài)AIGC大模型的跨模態(tài)生成和理解能力，從給定圖文數(shù)據(jù)中抽取多模態(tài)知識(shí)。

（3）AIGC大模型可以顯著增強(qiáng)垂域多模態(tài)知識(shí)獲取能力。GPT-4、ChatPDF模型等已經(jīng)顯示了強(qiáng)大的領(lǐng)域知識(shí)抽取能力，如基于多模態(tài)文檔的知識(shí)抽取。

第二，AIGC大模型助圖譜設(shè)計(jì)一臂之力。

大模型在部分領(lǐng)域上擁有領(lǐng)域常識(shí)知識(shí)，可以輔助完成schema的半自動(dòng)化設(shè)計(jì)。在多模態(tài)場(chǎng)景中，也有一些嘗試，例如可以用多模態(tài)AIGC大模型生成cms領(lǐng)域的schema。

第三，AIGC大模型為知識(shí)推理保駕護(hù)航。

基于大模型的跨模態(tài)生成與推理能力，可以輔助完成KG表示學(xué)習(xí)、圖譜補(bǔ)全等任務(wù)。

第四，AIGC大模型為知識(shí)融合掃清障礙。

利用大模型的泛化能力和海量知識(shí)，可以輔助完成多模態(tài)知識(shí)圖譜融合。利于對(duì)于兩個(gè)MMKG的對(duì)齊，多模態(tài)AIGC大模型在兩者之間可以生成實(shí)體知識(shí)或語(yǔ)義層面的特征，輔助完成實(shí)體對(duì)齊。

第五，AIGC大模型為知識(shí)更新舔磚加瓦。

基于大模型的常識(shí)知識(shí)和通用抽取能力可以輔助MMKG進(jìn)行知識(shí)更新。可以利用多模態(tài)AIGC大模型從新事實(shí)中輔助抽取新知識(shí)；當(dāng)新知識(shí)抽取完成后，可以借助多模態(tài)AIGC大模型輔助更新多模態(tài)知識(shí)圖譜。此外，還可以借助多模態(tài)AIGC大模型輔助過(guò)期事實(shí)檢測(cè)，從而將過(guò)期知識(shí)從知識(shí)圖譜中刪除。

第六，AIGC大模型為知識(shí)問(wèn)答錦上添花。

利用大模型的語(yǔ)言理解能力和解析能力，可以幫助更好的構(gòu)建多模態(tài)知識(shí)問(wèn)答系統(tǒng)。在ChatGPT的知識(shí)問(wèn)答評(píng)測(cè)結(jié)果顯示其在很多問(wèn)題類(lèi)型上效果顯著，且跨語(yǔ)言低資源情況下具有碾壓級(jí)效果，但是其數(shù)值類(lèi)問(wèn)題效果不及SOTA。因此，使用AIGC大模型助力MM-KGQA和K-VQA等任務(wù)，可以提升問(wèn)題解析能力，強(qiáng)化知識(shí)推理能力，提供外部知識(shí)輔助等。

MMKG for AIGC

第五部分，我們總結(jié)與展望一下MMKG如何助力AIGC大模型的提升與完善。

第一，MMKG參與AIGC大模型的生成能力評(píng)估。

基于多模態(tài)知識(shí)圖譜中的知識(shí)構(gòu)建測(cè)試集，可對(duì)大模型的生成能力進(jìn)行各方面評(píng)估。例如利用各類(lèi)百科知識(shí)圖譜進(jìn)行事實(shí)性檢驗(yàn)評(píng)估，也可以利用各類(lèi)MMKG構(gòu)建測(cè)試集進(jìn)行符號(hào)推理能力評(píng)估、視覺(jué)常識(shí)推理能力評(píng)估、非語(yǔ)言推理能力評(píng)估等。

第二，MMKG引導(dǎo)AIGC大模型的可控約束生成。

已有工作在文本AIGC模型中引入指定約束（如包含/避免某主題）進(jìn)行可控生成?？梢哉雇磥?lái)會(huì)出現(xiàn)多模態(tài)知識(shí)引導(dǎo)大模型約束生成的工作。比如對(duì)于圖像生成，可通過(guò)將文本鏈接到多模態(tài)知識(shí)圖譜的具體實(shí)體，提供實(shí)體圖像信息，幫助正確生成實(shí)體對(duì)應(yīng)圖像；對(duì)于文本生成，通過(guò)鏈接到多模態(tài)知識(shí)圖譜的具體實(shí)體，提供實(shí)體關(guān)系屬性和實(shí)體圖像等實(shí)體畫(huà)像信息，幫助正確生成符合實(shí)體性質(zhì)和特點(diǎn)的文本。

第三，MMKG幫助AIGC大模型進(jìn)行知識(shí)編輯。

目前已有在文本大模型上的知識(shí)編輯的相關(guān)工作。可以預(yù)見(jiàn)，未來(lái)也會(huì)出現(xiàn)利用多模態(tài)知識(shí)圖譜來(lái)對(duì)多模態(tài)大模型進(jìn)行知識(shí)編輯的研究工作。

第四，MMKG輔助AIGC大模型的領(lǐng)域（任務(wù)）適配。

用多模態(tài)知識(shí)圖譜做領(lǐng)域知識(shí)微調(diào)可以將大模型的能力適配到領(lǐng)域任務(wù)。例如，在電商領(lǐng)域跨模態(tài)檢索場(chǎng)景，常常存在語(yǔ)義不匹配的問(wèn)題。這種情況下，大模型如何低成本、高效率地解決該領(lǐng)域的具體問(wèn)題是其應(yīng)用落地的關(guān)鍵。我們與阿里合作的這篇工作提出了通過(guò)微調(diào)大模型，加上多模態(tài)知識(shí)輔助的方式，實(shí)現(xiàn)了大模型的輕量級(jí)領(lǐng)域適配。

AIGC+MMKG

第六部分，我們展望一下AIGC大模型和MMKG如何進(jìn)一步合作。

我們認(rèn)為，走向通用人工智能需要AIGC大模型和MMKG攜手并進(jìn)。在未來(lái)，基于知識(shí)工程和統(tǒng)計(jì)模型的語(yǔ)言認(rèn)知和多模態(tài)感知將會(huì)相互結(jié)合，并且借助MMKG和AIGC大模型，共同走向多模態(tài)認(rèn)知的發(fā)展道路上。從視覺(jué)感知和語(yǔ)言認(rèn)知到多模態(tài)認(rèn)知，從連接主義和符號(hào)主義到神經(jīng)符號(hào)主義，通用人工智能必將是一條融合之路。

AIGC和MMKG的第一種融合方式是注入知識(shí)以增強(qiáng)預(yù)訓(xùn)練大模型。目前知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型已有多種路徑實(shí)現(xiàn)。在多模態(tài)知識(shí)增強(qiáng)預(yù)訓(xùn)練的方向上，也有工作將場(chǎng)景圖知識(shí)融入視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的預(yù)訓(xùn)練過(guò)程中以增強(qiáng)跨模態(tài)語(yǔ)言理解能力。未來(lái)還有很多方式方法來(lái)將MMKG中的知識(shí)以更多方式融入到大模型當(dāng)中。

AIGC和MMKG的第二種融合方式是基于知識(shí)檢索增強(qiáng)的多模態(tài)生成。例如，給定文本提示，訪問(wèn)外部多模態(tài)知識(shí)庫(kù)以檢索相關(guān)圖文對(duì)，將其用作生成圖像的參考。

AIGC和MMKG的第三種融合方式是因果知識(shí)增強(qiáng)的多模態(tài)生成。已有工作利用因果圖譜中的因果關(guān)系和圖推理能力，輔助大模型的因果決策，通過(guò)在因果圖譜上的檢索、推理和融合將因果信息融入大模型推理中?？梢哉雇磥?lái)因果知識(shí)也可被用在對(duì)多模態(tài)大模型的理解與生成能力優(yōu)化上。

AIGC和MMKG的第四種融合方式是個(gè)性化知識(shí)接入的多模態(tài)生成。在未來(lái)，或許每個(gè)個(gè)體或企業(yè)都會(huì)擁有AI私有化助手，那么如何管理個(gè)性化多模態(tài)知識(shí)，諸如個(gè)人畫(huà)像知識(shí)圖譜、企業(yè)畫(huà)像知識(shí)圖譜、價(jià)值觀知識(shí)圖譜、自媒體知識(shí)圖譜等，將這些知識(shí)以一種可插拔式的方式接入AIGC大模型中，提高大模型的個(gè)性化生成能力將是非常值得探索的方向。

實(shí)際上，Microsoft 365 Copilot就可以看作是知識(shí)庫(kù)與大模型良好協(xié)作的一款劃時(shí)代產(chǎn)品。借助Microsoft Graph（可以看做是一種知識(shí)庫(kù)）與AIGC大模型的協(xié)作融合，助力Word、PowerPoint、Excel的生產(chǎn)力大提升。

此外，在行業(yè)落地層面，AIGC大模型和MMKG的融合更具價(jià)值。由于利用海量通用語(yǔ)料和通用知識(shí)訓(xùn)練的通用大模型與行業(yè)應(yīng)用場(chǎng)景之間依然存在鴻溝，因此需要進(jìn)行行業(yè)數(shù)據(jù)挖掘和行業(yè)特色知識(shí)獲取來(lái)進(jìn)一步訓(xùn)練更加實(shí)用的行業(yè)大模型。

基于上述原因，行業(yè)落地往往需要多層次的模型，并有效與知識(shí)庫(kù)和外部工具進(jìn)行配合，才能真正解決好行業(yè)問(wèn)題。通用多模態(tài)預(yù)訓(xùn)練生成大模型、行業(yè)領(lǐng)域預(yù)訓(xùn)練模型、任務(wù)小模型以及行業(yè)知識(shí)庫(kù)、外部工具將構(gòu)成一個(gè)模型共同體，協(xié)作解決行業(yè)復(fù)雜問(wèn)題。

總結(jié)

最后總結(jié)一下本次分享的主要觀點(diǎn)。首先，AIGC技術(shù)的發(fā)展必將加速邁向通用人工智能的步伐。但是僅憑AIGC技術(shù)無(wú)法真正實(shí)現(xiàn)通用人工智能。在多模態(tài)領(lǐng)域，MMKG的構(gòu)建與應(yīng)用仍具重要價(jià)值。我們認(rèn)為，AIGC和MMKG應(yīng)該相互借力，我們分別從AIGC用于MMKG、MMKG用于AIGC、MMKG和AIGC如何融合三方面給出了二者競(jìng)合方式的探索和展望。未來(lái)，符號(hào)知識(shí)和統(tǒng)計(jì)模型的競(jìng)合方式有待進(jìn)一步深入探索。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴