前幾日,微軟靜悄悄地刪除了一個公開的名人圖片數(shù)據(jù)集。這個數(shù)據(jù)集包含了 10 萬張名人面部圖像,常被用來作為人臉識別的訓(xùn)練。對于微軟刪除的真實原因,我們不得而知,但其背后牽扯到的數(shù)據(jù)隱私問題,包括人臉識別技術(shù)的安全規(guī)范,都值得一番深思。
微軟在上周刪除了一個名人圖片數(shù)據(jù)集。這個本為世界上最大的公開人臉識別數(shù)據(jù)集,現(xiàn)在已經(jīng)不能通過微軟的渠道訪問。
在這次「靜默」刪除行為背后,又牽扯到了哪些問題呢?
微軟想解決的麻煩:MS Celeb 名人數(shù)據(jù)集
MS Celeb 1M 數(shù)據(jù)集,最早是微軟在 2016 年發(fā)布,其中共包含了 10 萬個名人,近 1000 萬張面部圖片,而這些數(shù)據(jù)都是從網(wǎng)絡(luò)上搜集而來。
從網(wǎng)絡(luò)中 100 萬個名人中,根據(jù)受歡迎程選出 10 萬個,然后利用搜索引擎,跳出每個人的大約 100 張圖片,就得到了這個龐大的數(shù)據(jù)集。
MS Celeb 數(shù)據(jù)集中的 Jobs 圖片,
其中綠色是年輕時代的圖片,紅色是合成圖像
而這個數(shù)據(jù)集最初是用來服務(wù)比賽的。MSR IRC 是世界上最高水平的圖像識別賽事之一,MS Celeb 1M 數(shù)據(jù)集最初就是這個賽事所用。
MS Celeb 1M常被用來做面部識別的訓(xùn)練。但對于這些圖片均來自網(wǎng)絡(luò),所以也曾受到了質(zhì)疑。而微軟則表示,是根據(jù)「知識共享許可 C.C 協(xié)議」,來抓取和獲得這些圖像的。
根據(jù)協(xié)議,可以將照片重新用于學(xué)術(shù)研究,(照片中的人物并不一定授權(quán)許可,而是版權(quán)所有者授權(quán)。)但微軟發(fā)布數(shù)據(jù)集后,卻并不能掌管它的使用。英國「金融時報」進(jìn)行了一項深入調(diào)查,結(jié)果表明數(shù)據(jù)被大量的用在了多個企業(yè)測試中。
包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用這個數(shù)據(jù)集的情況。
而這就涉及到了數(shù)據(jù)集使用的一些規(guī)范性問題,一位研究人員還指出,這涉及到人臉識別圖像數(shù)據(jù)集的倫理,起源和個人隱私等問題。
刪除原因:負(fù)責(zé)該數(shù)據(jù)集的員工離職?
微軟已經(jīng)在線上默默地刪除了MS Celeb 1M,并沒有特別的說明。
Github 上數(shù)據(jù)集的下載頁面已經(jīng)變成了 404
在金融時報的報道中,微軟表示「該網(wǎng)站主要目的是用于學(xué)術(shù),」而刪除它的原因是,「負(fù)責(zé)運營這個項目的員工離職了,不再與微軟合作,所以進(jìn)行了刪除。」
我們都相信肯定有其他原因,可能也有數(shù)據(jù)集圖片存在的問題。雖然微軟稱數(shù)據(jù)集均來自于公眾人物的照片。但其中還包括少量非知名人物。這部分人臉照片的所有者,對微軟使用他們的名稱和圖像信息,曾提出過質(zhì)疑和批評。
還有技術(shù)人員推測,微軟可能會因違反歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)而刪除數(shù)據(jù),該法規(guī)于去年生效,旨在建立起數(shù)據(jù)安全的保護(hù)措施。
GDPR對個人信息的保護(hù)及其監(jiān)管
達(dá)到了前所未有的高度
但微軟表示,它們沒有涉及到 GDPR 的條款,數(shù)據(jù)集相關(guān)網(wǎng)站退役只是因為,「曾經(jīng)的競賽已經(jīng)結(jié)束」。
當(dāng)然,此次微軟移除 MS Celeb 數(shù)據(jù)集,并不妨礙它在學(xué)術(shù)研究等途徑的正常使用。那些用于處理數(shù)據(jù)庫的工具,現(xiàn)在也可正常訪問。
常用公開數(shù)據(jù)集,也可能有隱私問題
在英國「金融時報」調(diào)查之后,還有另外兩個學(xué)術(shù)單位也刪除了相關(guān)的數(shù)據(jù)集:分別是杜克大學(xué)的 Duke MTMC 監(jiān)控數(shù)據(jù)集,和斯坦福大學(xué)的 Brainwash 數(shù)據(jù)集。
關(guān)于數(shù)據(jù)集和隱私問題,這不是第一次進(jìn)入人們的視野。在今年 1 月底,IBM 發(fā)布了百萬級別的無偏見「人臉多樣性」數(shù)據(jù)集,就曾引發(fā)了廣泛的爭議。
雖然 IBM 強調(diào)此舉是為減少面部識別中的「偏見」問題,但數(shù)據(jù)集的來源,人物的是知情度等問題,都引發(fā)了不少質(zhì)疑聲。
有媒體還報道, IBM 表示會按照被攝影者的意愿,刪除數(shù)據(jù)集里的相關(guān)照片,但都只是一面之詞,并沒有實際的行動。
今年 5 月,舊金山曾頒布法令
禁止政府機(jī)構(gòu)使用人臉識別技術(shù)
對于數(shù)據(jù)集的采集和使用規(guī)則,還是一個很不太明確的區(qū)域,尤其是網(wǎng)絡(luò)便利之后,很多機(jī)構(gòu)都能輕易地獲得大量圖片,用于面部識別等用途。
其實,對于數(shù)據(jù)集涉及的隱私問題,解決方案可以很簡單:關(guān)乎到用戶個人隱私信息時,應(yīng)保證用戶的知情權(quán),確保用戶是否愿意貢獻(xiàn)數(shù)據(jù)。
但似乎缺少的從來都不是方法,而是意識。
-
微軟
+關(guān)注
關(guān)注
4文章
6685瀏覽量
105731 -
隱私保護(hù)
+關(guān)注
關(guān)注
0文章
300瀏覽量
16769
原文標(biāo)題:微軟刪除知名數(shù)據(jù)集,撥開數(shù)據(jù)隱私的迷霧
文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
使用AICube導(dǎo)入數(shù)據(jù)集點創(chuàng)建后提示數(shù)據(jù)集不合法怎么處理?
數(shù)據(jù)集下載失敗的原因?
AI時代的隱私護(hù)盾:三星Knox Vault如何構(gòu)建數(shù)據(jù)安全防線
撥開迷霧:射頻連接器選型中的常見難題及解決方案


如何高效定制智能座艙內(nèi)合成數(shù)據(jù)集?加速測試車內(nèi)監(jiān)控系統(tǒng)安全# 座艙# 汽車# AD# 仿真# 安全# 合成數(shù)據(jù)
請問NanoEdge AI數(shù)據(jù)集該如何構(gòu)建?

AI艙內(nèi)監(jiān)控虛擬驗證平臺:巧破座艙數(shù)據(jù)集困境,速啟高效生成新程!#智能座艙#數(shù)據(jù)集#虛擬驗證#AI#AD
數(shù)據(jù)庫數(shù)據(jù)恢復(fù)——MySQL數(shù)據(jù)庫誤刪除表記錄的數(shù)據(jù)恢復(fù)案例

微軟否認(rèn)使用用戶數(shù)據(jù)訓(xùn)練AI模型
NetApp數(shù)據(jù)恢復(fù)—NetApp存儲WAFL文件系統(tǒng)下誤刪除的數(shù)據(jù)恢復(fù)案例
康謀分享 | 數(shù)據(jù)隱私和匿名化:PIPL與GDPR下,如何確保數(shù)據(jù)合規(guī)?(一)

Oracle數(shù)據(jù)恢復(fù)—Oracle數(shù)據(jù)庫delete刪除的數(shù)據(jù)恢復(fù)方法
NetApp數(shù)據(jù)恢復(fù)—NetApp存儲誤刪除的數(shù)據(jù)恢復(fù)案例

評論