如今,網(wǎng)絡(luò)中每天會(huì)產(chǎn)生海量的圖像文件,而對(duì)于這些圖片進(jìn)行安全性鑒定是非常有必要的。很多公司都會(huì)使用圖像鑒定API對(duì)裸露或違法照片進(jìn)行自動(dòng)過(guò)濾和修改。本文便實(shí)現(xiàn)并比較了谷歌、微軟、亞馬遜等公司的鑒定API能力。
掃黃打非,刻不容緩!
在智能手機(jī)時(shí)代,手機(jī)上裝有一個(gè)、兩個(gè)甚至更多的攝像頭,圖像(和視頻)已經(jīng)成為用戶(hù)與社交媒體互動(dòng)的最常見(jiàn)方式。
幾乎所有用戶(hù)生成的內(nèi)容,比如Yelp或TripAdvisor上的評(píng)論、Instagram和Facebook上的帖子、WhatsApp上的轉(zhuǎn)發(fā)等等,所有內(nèi)容的圖片數(shù)量都在不斷增加。最近一項(xiàng)2017年的數(shù)據(jù)顯示,僅Facebook每天就會(huì)上傳大約3.5億張圖片。這個(gè)數(shù)量是非常龐大的。
如果你的網(wǎng)站或者APP允許用戶(hù)生成內(nèi)容(UGC),例如評(píng)論、上傳可能帶圖片的帖子等等。但目前很現(xiàn)實(shí)的一個(gè)問(wèn)題是,一個(gè)troll可以將帶有色情或者可怕的照片在你的網(wǎng)站上公開(kāi)顯示,必定會(huì)帶來(lái)許多用戶(hù)的譴責(zé),甚至可能會(huì)承擔(dān)相應(yīng)的法律責(zé)任。
掃黃打非—手段是關(guān)鍵
公司處理這一類(lèi)問(wèn)題常見(jiàn)的方式是審核,在審核過(guò)程中,UGC的每個(gè)細(xì)節(jié)內(nèi)容都要通過(guò)人工操作,然后才能在網(wǎng)站或應(yīng)用中展示出來(lái)。許多公司雇用了數(shù)十名工作人員,他們?nèi)諒?fù)一日地過(guò)濾這些UGC。然后公司聘用這樣的團(tuán)隊(duì),實(shí)際上不僅花費(fèi)大量的金錢(qián),而且效率也是很低的。
在過(guò)去的幾年里,科技公司通過(guò)機(jī)器學(xué)習(xí)和使用ML算法來(lái)檢測(cè)“有害”的內(nèi)容,并自動(dòng)調(diào)節(jié)UGC來(lái)應(yīng)對(duì)這種威脅。最后機(jī)器無(wú)法自動(dòng)分類(lèi)或判別的內(nèi)容,將交于員工進(jìn)行人工操作。這就大幅度提高了效率。
開(kāi)發(fā)、構(gòu)建上述ML解決方案是一件非常困難的任務(wù),所以像谷歌、微軟這樣的大型技術(shù)公司或Clarifai這樣的小公司都會(huì)提供api來(lái)幫助用戶(hù)完成這項(xiàng)工作。由于大多數(shù)這些API提供了類(lèi)似的功能,我們希望相互測(cè)試這些API的有效性,特別是用于檢測(cè)圖像中的成人或色情內(nèi)容。我們比較了AWS rekognition、Microsoft moderation services、Google vision和Clarifai的鑒黃API的性能。
明確任務(wù)—邁向成功的關(guān)鍵
將用戶(hù)上傳的“有害”圖片標(biāo)記為含有成人或色情內(nèi)容,以便僅批準(zhǔn)安全圖像;
裸照等圖片會(huì)被自動(dòng)刪除;
沒(méi)有明確分類(lèi)的圖片會(huì)被發(fā)送給人工評(píng)估。
數(shù)據(jù)集介紹
我們使用了YACVID數(shù)據(jù)集的180幅圖像,其中90張圖像人工標(biāo)記為非裸照,90張圖像為裸照。我們用這4個(gè)API分別去測(cè)試這180張圖像,并記錄它們的分類(lèi)的情況。
數(shù)據(jù)集中的一個(gè)示例數(shù)據(jù)項(xiàng)
數(shù)據(jù)集中安全的示例圖像
實(shí)驗(yàn)結(jié)果一覽
在測(cè)試這些API時(shí),主要關(guān)注以下這些值:
真陽(yáng)性(True Positive,TP):給定一個(gè)安全照片,API鑒定結(jié)果也是安全的;
假陽(yáng)性(False Positive,F(xiàn)P):給定一個(gè)色情照片,API鑒定結(jié)果是安全的;
假陰性(False Negative,F(xiàn)N):給定一個(gè)安全照片,API鑒定結(jié)果是色情的;
真陰性(True Negative,TN):給定一個(gè)色情照片,API鑒定結(jié)果也是色情的;
理想情況下,人們肯定希望100% TP率和0% FP率。無(wú)論FP的值是多少,都是有害的,因?yàn)檫@有可能會(huì)在你的應(yīng)用或網(wǎng)站上展現(xiàn)一些色情的圖像。而FN的值若是過(guò)高,則說(shuō)明這個(gè)系統(tǒng)是無(wú)效的,便會(huì)導(dǎo)致一個(gè)企業(yè)投入更多的人力資源。
實(shí)驗(yàn)結(jié)果如下表所示:
星標(biāo)的表示集成使用API
最好的獨(dú)立API來(lái)自谷歌,精度為99%,召回率為94%。從表中可以看到,大部分API實(shí)驗(yàn)結(jié)果都非常良好,數(shù)值都達(dá)到了90以上。但是考慮到問(wèn)題的實(shí)際背景情況,即使準(zhǔn)確率如此之高,但對(duì)于許多情況也并非是萬(wàn)無(wú)一失的。
我們還試圖結(jié)合使用兩個(gè)或多個(gè)API來(lái)尋找解決問(wèn)題的最佳方案。在我們的數(shù)據(jù)集中,似乎將Google和AWS API結(jié)合起來(lái)可以提供最佳性能。即便如此,仍有10%的安全圖片需要人工驗(yàn)證才能共同構(gòu)建出一個(gè)萬(wàn)無(wú)一失的系統(tǒng)。
各個(gè)API介紹
Microsoft image moderation
這個(gè)API將色情圖像分類(lèi)為“成人”或“猥瑣”,我們將這兩類(lèi)都視為NSFW類(lèi)。以下是一些錯(cuò)誤地將安全圖片分類(lèi)為色情類(lèi)的圖片:
Google cloud vision
這個(gè)API將一個(gè)色情圖像分類(lèi)為“也許”、“可能”、“非常可能”,這三類(lèi)都被視作NSFW類(lèi)。以下是一些錯(cuò)誤地將安全圖片分類(lèi)為色情類(lèi)的圖片:
AWS Rekognition
這個(gè)API將一個(gè)色情圖像分類(lèi)為“明顯裸露”、“裸露”、“暗示”,這三類(lèi)都被視作NSFW類(lèi)。以下是一些錯(cuò)誤地將安全圖片分類(lèi)為色情類(lèi)的圖片:
Clarifai nudity moderation
這個(gè)API返回一個(gè)NSFW/SFW類(lèi)的置信度值。該API將NSFW值大于或等于0.85的圖像分類(lèi)為NSFW, NSFW值小于或等于0.15的圖像分類(lèi)為SFW。而處于0.15到0.85范圍之間的圖像被視為未知狀態(tài)(因?yàn)檎倩芈史浅5停R韵率且恍╁e(cuò)誤地將安全圖片分類(lèi)為色情類(lèi)的圖片:
The Black Swan
下面這張圖片,無(wú)論哪個(gè)API,都將其分類(lèi)為NSFW,但都被人工分類(lèi)為SFW。那么問(wèn)題來(lái)了,各位讀者,你們認(rèn)為它應(yīng)該屬于哪類(lèi)呢?
其它因素
我們還測(cè)量了API響應(yīng)時(shí)間,這是決定用戶(hù)選擇使用哪個(gè)API的一個(gè)因素。由于響應(yīng)時(shí)間可能受很多因素的影響,因此下表的值只是一個(gè)大概數(shù)字,而不是實(shí)際值。下表的統(tǒng)計(jì)數(shù)據(jù)是在Ubuntu系統(tǒng)的筆記本運(yùn)行試驗(yàn)而得到的(每個(gè)API調(diào)用180次)。
需要注意的一點(diǎn)是,所有這些API都訪問(wèn)了在Amazon S3上傳的圖像,AWS API在訪問(wèn)S3映像時(shí)會(huì)有一定不公平的優(yōu)勢(shì),因此響應(yīng)時(shí)間可能較短。
-
智能手機(jī)
+關(guān)注
關(guān)注
66文章
18609瀏覽量
183046 -
谷歌
+關(guān)注
關(guān)注
27文章
6223瀏覽量
107523 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25276
原文標(biāo)題:【機(jī)器學(xué)習(xí)看裸照】谷歌、微軟、亞馬遜,哪家圖像API鑒黃能力強(qiáng)?
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
如何獲取 OpenAI API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

工業(yè)網(wǎng)關(guān)哪家強(qiáng)?各大廠家簡(jiǎn)單測(cè)評(píng)

評(píng)論