微軟在日前刪除了一個(gè)名人圖片數(shù)據(jù)集。這個(gè)本為世界上最大的公開(kāi)人臉識(shí)別數(shù)據(jù)集,現(xiàn)在已經(jīng)不能通過(guò)微軟的渠道訪問(wèn)。
在這次「靜默」刪除行為背后,又牽扯到了哪些問(wèn)題呢?
微軟想解決的麻煩:MS Celeb 名人數(shù)據(jù)集
MS Celeb 1M 數(shù)據(jù)集,最早是微軟在 2016 年發(fā)布,其中共包含了10 萬(wàn)個(gè)名人,近 1000 萬(wàn)張面部圖片,而這些數(shù)據(jù)都是從網(wǎng)絡(luò)上搜集而來(lái)。
從網(wǎng)絡(luò)中 100 萬(wàn)個(gè)名人中,根據(jù)受歡迎程選出 10 萬(wàn)個(gè),然后利用搜索引擎,跳出每個(gè)人的大約 100 張圖片,就得到了這個(gè)龐大的數(shù)據(jù)集。
MS Celeb 數(shù)據(jù)集中的 Jobs 圖片,
其中綠色是年輕時(shí)代的圖片,紅色是合成圖像
而這個(gè)數(shù)據(jù)集最初是用來(lái)服務(wù)比賽的。MSR IRC是世界上最高水平的圖像識(shí)別賽事之一,MS Celeb 1M 數(shù)據(jù)集最初就是這個(gè)賽事所用。
MS Celeb 1M常被用來(lái)做面部識(shí)別的訓(xùn)練。但對(duì)于這些圖片均來(lái)自網(wǎng)絡(luò),所以也曾受到了質(zhì)疑。而微軟則表示,是根據(jù)「知識(shí)共享許可 C.C 協(xié)議」,來(lái)抓取和獲得這些圖像的。
根據(jù)協(xié)議,可以將照片重新用于學(xué)術(shù)研究,(照片中的人物并不一定授權(quán)許可,而是版權(quán)所有者授權(quán)。)但微軟發(fā)布數(shù)據(jù)集后,卻并不能掌管它的使用。英國(guó)「金融時(shí)報(bào)」進(jìn)行了一項(xiàng)深入調(diào)查,結(jié)果表明數(shù)據(jù)被大量的用在了多個(gè)企業(yè)測(cè)試中。
包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用這個(gè)數(shù)據(jù)集的情況。
而這就涉及到了數(shù)據(jù)集使用的一些規(guī)范性問(wèn)題,一位研究人員還指出,這涉及到人臉識(shí)別圖像數(shù)據(jù)集的倫理,起源和個(gè)人隱私等問(wèn)題。
刪除原因:負(fù)責(zé)該數(shù)據(jù)集的員工離職?
微軟已經(jīng)在線上默默地刪除了MS Celeb 1M,并沒(méi)有特別的說(shuō)明。
Github 上數(shù)據(jù)集的下載頁(yè)面已經(jīng)變成了 404
在金融時(shí)報(bào)的報(bào)道中,微軟表示「該網(wǎng)站主要目的是用于學(xué)術(shù),」而刪除它的原因是,「負(fù)責(zé)運(yùn)營(yíng)這個(gè)項(xiàng)目的員工離職了,不再與微軟合作,所以進(jìn)行了刪除。」
我們都相信肯定有其他原因,可能也有數(shù)據(jù)集圖片存在的問(wèn)題。雖然微軟稱(chēng)數(shù)據(jù)集均來(lái)自于公眾人物的照片。但其中還包括少量非知名人物。這部分人臉照片的所有者,對(duì)微軟使用他們的名稱(chēng)和圖像信息,曾提出過(guò)質(zhì)疑和批評(píng)。
還有技術(shù)人員推測(cè),微軟可能會(huì)因違反歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)而刪除數(shù)據(jù),該法規(guī)于去年生效,旨在建立起數(shù)據(jù)安全的保護(hù)措施。
GDPR對(duì)個(gè)人信息的保護(hù)及其監(jiān)管
達(dá)到了前所未有的高度
但微軟表示,它們沒(méi)有涉及到 GDPR 的條款,數(shù)據(jù)集相關(guān)網(wǎng)站退役只是因?yàn)椋冈?jīng)的競(jìng)賽已經(jīng)結(jié)束」。
當(dāng)然,此次微軟移除 MS Celeb 數(shù)據(jù)集,并不妨礙它在學(xué)術(shù)研究等途徑的正常使用。那些用于處理數(shù)據(jù)庫(kù)的工具,現(xiàn)在也可正常訪問(wèn)。
常用公開(kāi)數(shù)據(jù)集,也可能有隱私問(wèn)題
在英國(guó)「金融時(shí)報(bào)」調(diào)查之后,還有另外兩個(gè)學(xué)術(shù)單位也刪除了相關(guān)的數(shù)據(jù)集:分別是杜克大學(xué)的Duke MTMC 監(jiān)控?cái)?shù)據(jù)集,和斯坦福大學(xué)的Brainwash 數(shù)據(jù)集。
關(guān)于數(shù)據(jù)集和隱私問(wèn)題,這不是第一次進(jìn)入人們的視野。在今年 1 月底,IBM 發(fā)布了百萬(wàn)級(jí)別的無(wú)偏見(jiàn)「人臉多樣性」數(shù)據(jù)集,就曾引發(fā)了廣泛的爭(zhēng)議。
雖然 IBM 強(qiáng)調(diào)此舉是為減少面部識(shí)別中的「偏見(jiàn)」問(wèn)題,但數(shù)據(jù)集的來(lái)源,人物的是知情度等問(wèn)題,都引發(fā)了不少質(zhì)疑聲。
有媒體還報(bào)道, IBM 表示會(huì)按照被攝影者的意愿,刪除數(shù)據(jù)集里的相關(guān)照片,但都只是一面之詞,并沒(méi)有實(shí)際的行動(dòng)。
今年 5 月,舊金山曾頒布法令
禁止政府機(jī)構(gòu)使用人臉識(shí)別技術(shù)
對(duì)于數(shù)據(jù)集的采集和使用規(guī)則,還是一個(gè)很不太明確的區(qū)域,尤其是網(wǎng)絡(luò)便利之后,很多機(jī)構(gòu)都能輕易地獲得大量圖片,用于面部識(shí)別等用途。
其實(shí),對(duì)于數(shù)據(jù)集涉及的隱私問(wèn)題,解決方案可以很簡(jiǎn)單:關(guān)乎到用戶(hù)個(gè)人隱私信息時(shí),應(yīng)保證用戶(hù)的知情權(quán),確保用戶(hù)是否愿意貢獻(xiàn)數(shù)據(jù)。
但似乎缺少的從來(lái)都不是方法,而是意識(shí)。
-
微軟
+關(guān)注
關(guān)注
4文章
6673瀏覽量
105384 -
數(shù)據(jù)采集
+關(guān)注
關(guān)注
40文章
6963瀏覽量
115734 -
人臉識(shí)別
+關(guān)注
關(guān)注
76文章
4069瀏覽量
83694
發(fā)布評(píng)論請(qǐng)先 登錄
撥開(kāi)迷霧:射頻連接器選型中的常見(jiàn)難題及解決方案


如何高效定制智能座艙內(nèi)合成數(shù)據(jù)集?加速測(cè)試車(chē)內(nèi)監(jiān)控系統(tǒng)安全# 座艙# 汽車(chē)# AD# 仿真# 安全# 合成數(shù)據(jù)
請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)集該如何構(gòu)建?

AI艙內(nèi)監(jiān)控虛擬驗(yàn)證平臺(tái):巧破座艙數(shù)據(jù)集困境,速啟高效生成新程!#智能座艙#數(shù)據(jù)集#虛擬驗(yàn)證#AI#AD
數(shù)據(jù)庫(kù)數(shù)據(jù)恢復(fù)——MySQL數(shù)據(jù)庫(kù)誤刪除表記錄的數(shù)據(jù)恢復(fù)案例

微軟暫停OpenAI威斯康星州數(shù)據(jù)中心建設(shè)
微軟否認(rèn)使用用戶(hù)數(shù)據(jù)訓(xùn)練AI模型
NetApp數(shù)據(jù)恢復(fù)—NetApp存儲(chǔ)WAFL文件系統(tǒng)下誤刪除的數(shù)據(jù)恢復(fù)案例
康謀分享 | 數(shù)據(jù)隱私和匿名化:PIPL與GDPR下,如何確保數(shù)據(jù)合規(guī)?(一)

Oracle數(shù)據(jù)恢復(fù)—Oracle數(shù)據(jù)庫(kù)delete刪除的數(shù)據(jù)恢復(fù)方法
NetApp數(shù)據(jù)恢復(fù)—NetApp存儲(chǔ)誤刪除的數(shù)據(jù)恢復(fù)案例

Oracle數(shù)據(jù)恢復(fù)—Oracle刪除數(shù)據(jù)不用怕!這些數(shù)據(jù)恢復(fù)方法了解一下
平衡創(chuàng)新與倫理:AI時(shí)代的隱私保護(hù)和算法公平
PyTorch如何訓(xùn)練自己的數(shù)據(jù)集
服務(wù)器數(shù)據(jù)恢復(fù)—EMC Isilon存儲(chǔ)中虛擬機(jī)數(shù)據(jù)恢復(fù)案例

評(píng)論