1 引言:
在這個AIGC爆發(fā)的時代,人人都可以利用AI算法生成高質量的文本,圖像,音頻內容。其中,由Midjourney, Stable Diffusion等圖像生成方法制作的圖像,其逼真程度讓人贊嘆。人眼已經(jīng)難以對其真假進行區(qū)分了。這不禁喚起了人們的隱憂:大量虛假圖片將會在互聯(lián)網(wǎng)上廣泛傳播。虛假圖片的泛濫會引發(fā)多種社會安全問題。例如,虛假新聞會擾亂社會秩序,混淆視聽。惡意的人臉圖片造假則會引發(fā)金融欺詐,造成信任危機。例如,下圖為Midjourney生成的特朗普被捕圖片。這類圖片在社交媒體上廣泛傳播,對政治領域造成了不良影響。因此,對這些AI生成的圖像進行有效監(jiān)管是非常有必要的。
圖2 AI生成的特朗普被捕圖片,來源于https://news.sina.com.cn/c/2023-04-15/doc-imyqmchz0199110.shtml
考慮到人眼已經(jīng)難以對真假圖片進行區(qū)分,我們急需一種AI生成圖像檢測器以區(qū)分AI制作的圖像和真實的圖像。然而,現(xiàn)在大規(guī)模數(shù)據(jù)集的缺失妨礙了檢測器的開發(fā)。因此,我們提出了百萬量級的GenImage數(shù)據(jù)集,致力于構建AIGC時代的ImageNet。
2 數(shù)據(jù)集介紹:
表1 虛假圖片檢測數(shù)據(jù)集概覽
過去業(yè)界也有推出一些數(shù)據(jù)集。他們主要有三個特點。第一個是數(shù)據(jù)規(guī)模小,第二個是都是基于GAN的,第三個是局限于人臉數(shù)據(jù)。隨著時間推移,數(shù)據(jù)規(guī)模慢慢地在增加,生成器也從GAN時代過渡到Diffusion時代,數(shù)據(jù)的范圍也在增加。但是一個大規(guī)模的,以Diffusion模型為主的,涵蓋各類通用圖像的數(shù)據(jù)集仍然是缺失的。
基于此,我們提出一個對標imagenet的genimage數(shù)據(jù)集。真實的圖片采用了ImageNet。虛假的圖片采用ImageNet的標簽進行生成。我們利用了八個先進的生成器來生成,分別是Midjourney, Stable Diffusion V1.4, Stable Diffusion V1.5, ADM, GLIDE, Wukong,VQDM和BigGAN。這些生成器生成的圖片總數(shù)基本與真實圖片一致。每個生成器生成的圖片數(shù)量也基本一致。每一類生成的圖片數(shù)量基本一致。
這個數(shù)據(jù)集具有以下優(yōu)勢:
1. 大量的數(shù)據(jù):超過百萬對圖片對。
2. 豐富的圖片內容:利用ImageNet進行構建,具有豐富的標簽
3. 先進的生成器:覆蓋Midjourney, Stable Diffusion等Diffusion生成器。
在真實世界中檢測器往往會遇到各種各樣的困難。我們經(jīng)過實驗發(fā)現(xiàn),檢測器往往在兩種情況下性能下降嚴重。第一種是面對訓練集中未出現(xiàn)的生成器生成的圖片時。第二種是面對退化的圖像。例如,CNNSpot在Stable Diffusion V1.4上訓練后,在Midjourney上測試僅有52.8的準確率。當訓練和測試生成器同為Stable Diffusion V1.4,在面對模糊的圖像時,CNNSpot準確率僅僅為77.9。基于此,我們在這個數(shù)據(jù)集基礎上對檢測器提出兩個挑戰(zhàn):
1. 交叉生成器:檢測器在一種生成器生成的數(shù)據(jù)上訓練,在其他生成器生成的數(shù)據(jù)上驗證。這個任務目的是考察檢測器在不同生成器上的泛化能力。
2. 退化圖像識別:檢測器需要對于低分辨率,模糊和壓縮圖像進行識別。這個任務主要考察檢測器在真實條件(如互聯(lián)網(wǎng)上傳播)中面對低質量圖像時的泛化問題。
我們相信這個數(shù)據(jù)集的提出將大大有助于人們開發(fā)AI生成圖片檢測器。
3 實驗:
我們做了一些實驗來考察這個數(shù)據(jù)集,我們發(fā)現(xiàn)在某個生成器上訓練的ResNet-50模型在其他的測試準確率會明顯降低。然而在真實情況下我們難以得知遇到的圖像的生成器是什么。因此檢測器對于不同生成器生成圖片的泛化能力很重要。
表2 使用ResNet 50在不同生成器上交叉驗證
我們對比了現(xiàn)有方法在Stable Diffusion V1.4上訓練,然后在各種生成器上測試的結果,見圖3。我們也評測了各種生成器上訓練,然后在各種生成器上測試的結果。見圖4。圖4中,Testing Subset那一列中的每一個數(shù)據(jù)點,都是在八個生成器上訓練,然后在一個生成器上測試得到的平均結果。然后我們將這些測試集上的結果平均,得到最右側的平均結果。
表3 在Stable Diffusion V1.4上訓練,不同測試集上測試
表4 在不同生成器上訓練,不同測試集上測試
我們對測試集進行退化處理,采用不同參數(shù)下的低分辨率,JPEG壓縮和高斯模糊,評測結果如下
表5 在不同退化圖像上驗證結果
那么采集這么多數(shù)據(jù)是不是有用呢?我們做了相關實驗,證明通過提升數(shù)據(jù)類比和每類的圖片數(shù)量,我們是可以提高性能的。
表6 提升圖片數(shù)量的結果
針對GenImage數(shù)據(jù)集對于不同圖片的泛化能力,我們發(fā)現(xiàn)他對于人臉和藝術類圖片也能達到很好的效果。
表7 泛化到藝術類和人臉類圖片的結果
圖3 測試所用的藝術類和人臉類圖片展示
4 展望
隨著AI生成圖片能力的不斷提升,對于AI生成的圖片實現(xiàn)有效檢測的需求將會越來越迫切。本數(shù)據(jù)集致力于為真實環(huán)境下的生成圖片檢測提供有效訓練數(shù)據(jù)。我們使用ResNet-50在本數(shù)據(jù)集中訓練,然后在真實推文中進行檢測。如下圖4,ResNet-50能夠有效識別真圖和假圖。這個結果證明了GenIamge可以用于訓練模型以判別真實世界的虛假信息。我們認為,該領域未來值得努力的方向是不斷提升檢測器在GenImage數(shù)據(jù)集上的準確率,并進而提升其在真實世界面對虛假信息的能力。
圖4.1 真實推文展示(真圖)
圖4.2 真實推文展示(假圖)
-
檢測器
+關注
關注
1文章
887瀏覽量
48418 -
數(shù)據(jù)集
+關注
關注
4文章
1223瀏覽量
25275 -
AIGC
+關注
關注
1文章
383瀏覽量
2218
原文標題:AIGC時代的ImageNet!百萬生成圖片助力AI生成圖片檢測器研發(fā)
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
LABVIEW怎么生成圖片,然后調用圖片?
改進的基于混沌理論的檢測器生成算法
基于VC++的生成公章圖片的簡易工具
如何使用TensorFlow Hub的ESRGAN模型來在安卓app中生成超分圖片
條件生成對抗模型生成數(shù)字圖片的教程
AIGC最新綜述:從GAN到ChatGPT的AI生成歷史
智慧有數(shù) 浪潮信息發(fā)布生成式AI存儲解決方案
IBM 謝東:IBM watsonx 助力生成式 AI 的企業(yè)應用

評論