近日,何愷明團(tuán)隊(duì)所在的Facebook AI推出ResNeXt-101模型,利用Instagram上的用戶標(biāo)記圖片作為預(yù)訓(xùn)練數(shù)據(jù)集,省去了人工標(biāo)記數(shù)據(jù)的巨額成本,而且使用中只需微調(diào),性能即超越了ImageNet任務(wù)的SOTA水平。
目前,幾乎所有最先進(jìn)的視覺感知算法都依賴于相同的范式:(1)在手動(dòng)注釋的大型圖像分類數(shù)據(jù)集上預(yù)訓(xùn)練卷積網(wǎng)絡(luò),(2)在較小的特定任務(wù)的數(shù)據(jù)集上微調(diào)網(wǎng)絡(luò)。這個(gè)模式已經(jīng)廣泛使用了好多年,并取得了明顯的進(jìn)展。比如:物體檢測,語義分割,人體姿勢估計(jì),視頻識(shí)別,單眼深度估計(jì)等。
事實(shí)上,如果沒有有監(jiān)督式預(yù)訓(xùn)練,很多方法現(xiàn)在還被認(rèn)為是一種蠻干 ImageNet數(shù)據(jù)集實(shí)際上是預(yù)訓(xùn)練數(shù)據(jù)集。我們現(xiàn)在實(shí)際上對(duì)數(shù)據(jù)集的預(yù)訓(xùn)練了解相對(duì)較少。其原因很多:比如現(xiàn)存的預(yù)訓(xùn)練數(shù)據(jù)集數(shù)量很少,構(gòu)建新數(shù)據(jù)集是勞動(dòng)密集型的工作,需要大量的計(jì)算資源來進(jìn)行實(shí)驗(yàn)。然而,鑒于預(yù)訓(xùn)練過程在機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的核心作用,擴(kuò)大我們?cè)谶@一領(lǐng)域的科學(xué)知識(shí)是非常重要的。
本文試圖通過研究一個(gè)未開發(fā)的數(shù)據(jù)體系來解決這個(gè)復(fù)雜的問題:使用外部社交媒體上數(shù)十億的帶有標(biāo)簽的圖像作為數(shù)據(jù)源。該數(shù)據(jù)源具有大而且不斷增長的優(yōu)點(diǎn),而且是“免費(fèi)”注釋的,因?yàn)閿?shù)據(jù)不需要手動(dòng)標(biāo)記。顯而易見,對(duì)這些數(shù)據(jù)的訓(xùn)練將產(chǎn)生良好的遷移學(xué)習(xí)結(jié)果。
本文的主要成果是,在不使用手動(dòng)數(shù)據(jù)集管理或復(fù)雜的數(shù)據(jù)清理的情況下,利用數(shù)千個(gè)不同主題標(biāo)簽作為標(biāo)記的數(shù)十億幅Instagram圖像進(jìn)行訓(xùn)練的模型,表現(xiàn)出了優(yōu)異的傳輸學(xué)習(xí)性能。在目標(biāo)檢測和圖像分類任務(wù)上實(shí)現(xiàn)了對(duì)當(dāng)前SOTA性能的提升。在ImageNet-1k圖像分類數(shù)據(jù)集上獲得single-crop 最高準(zhǔn)確率達(dá)到了85.4%,AP達(dá)到了45.2%。當(dāng)在ImageNet-1k上訓(xùn)練(或預(yù)訓(xùn)練)相同模型時(shí),分?jǐn)?shù)分別為79.8%和43.7%。然而,我們的主要目標(biāo)是提供關(guān)于此前未開發(fā)的制度的新實(shí)驗(yàn)數(shù)據(jù)。為此,我們進(jìn)行了大量實(shí)驗(yàn),揭示了一些有趣的趨勢。
表1:圖像分類數(shù)據(jù)集的摘要。每個(gè)數(shù)據(jù)集標(biāo)明數(shù)據(jù)來源和功能(訓(xùn)練集,驗(yàn)證集,測試集),圖像數(shù)量I和標(biāo)簽數(shù)量L。
ImageNet數(shù)據(jù)集和模型
除了標(biāo)準(zhǔn)的IN-1k數(shù)據(jù)集之外,我們還嘗試了包含1420萬幅圖像和22000標(biāo)簽的完整ImageNet2011完整版本的更大子集。我們構(gòu)建了包含5k和9k標(biāo)簽的訓(xùn)練集和驗(yàn)證集。
對(duì)于5k標(biāo)簽集組,我們使用現(xiàn)在標(biāo)準(zhǔn)的IN-5k(6.6M訓(xùn)練圖像)。對(duì)于9k標(biāo)簽集,我們遵循用于構(gòu)建IN-5k數(shù)據(jù)集的相同協(xié)議,采用下一個(gè)最頻繁的4k標(biāo)簽和所有相關(guān)圖像(10.5M訓(xùn)練圖像)。在兩種情況下,均使用50個(gè)圖像進(jìn)行驗(yàn)證。
我們使用具有分組卷積層的殘差網(wǎng)絡(luò)ResNeXt 。實(shí)驗(yàn)中使用ResNeXt-101 32×Cd,它有101層,32組,組寬分別為:4(8B乘加FLOPs,43M參數(shù)),8(16B,88M),16(36B,193M), 32(87B,466M)和48(153B,829M)。我們認(rèn)為實(shí)驗(yàn)結(jié)果可以推廣到其他架構(gòu)。
與ImageNet相比,我們使用的Instagram數(shù)據(jù)集可能包含每個(gè)圖像的多個(gè)標(biāo)簽(因?yàn)橛脩糁付硕鄠€(gè)主題標(biāo)簽)。每個(gè)圖像的平均標(biāo)簽數(shù)量因數(shù)據(jù)集而異;例如,train-IG-1B-17k每個(gè)圖像最多包含2個(gè)主題標(biāo)簽。
實(shí)驗(yàn)結(jié)果與性能
表2:使用不同規(guī)模、不同參數(shù)配置的ResNeXt-101模型獲得的不同性能結(jié)果比較
圖1:使用不同規(guī)模和參數(shù)配置的ResNeXt-101模型在ImageNet和Instagram標(biāo)記數(shù)據(jù)集的分類性能的比較
運(yùn)行實(shí)例及相關(guān)代碼
# Download an example image from the pytorch websiteimport urlliburl, filename = ("https://github.com/pytorch/hub/raw/master/dog.jpg", "dog.jpg")try: urllib.URLopener().retrieve(url, filename)except: urllib.request.urlretrieve(url, filename)
# sample execution (requires torchvision)from PIL import Imagefrom torchvision import transformsinput_image = Image.open(filename)preprocess = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),])input_tensor = preprocess(input_image)input_batch = input_tensor.unsqueeze(0) # create a mini-batch as expected by the model# move the input and model to GPU for speed if availableif torch.cuda.is_available(): input_batch = input_batch.to('cuda') model.to('cuda')with torch.no_grad(): output = model(input_batch)# Tensor of shape 1000, with confidence scores over Imagenet's 1000 classesprint(output[0])# The output has unnormalized scores. To get probabilities, you can run a softmax on it.print(torch.nn.functional.softmax(output[0], dim=0))
-
圖像分類
+關(guān)注
關(guān)注
0文章
96瀏覽量
12105 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8488瀏覽量
134010 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1222瀏覽量
25263
原文標(biāo)題:何愷明團(tuán)隊(duì)新作ResNext:Instagram圖片預(yù)訓(xùn)練,挑戰(zhàn)ImageNet新精度
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Facebook手機(jī)明年或上市 采用Firefox OS系統(tǒng)
Facebook 最新推出的虛擬現(xiàn)實(shí)世界,簡直好玩到炸裂
蘋果音箱月產(chǎn)大跌 Facebook智能音箱延至10月
Facebook智能音箱可能先在國際市場推出 隱私問題受到關(guān)注
如何加速電信領(lǐng)域AI開發(fā)?
Bloomsbury AI團(tuán)隊(duì)加入Facebook團(tuán)隊(duì),共同構(gòu)建新的自然語言杜絕假新聞
Facebook推出ONNX,旨在為不同編程框架的神經(jīng)網(wǎng)絡(luò)創(chuàng)建共享模型
Facebook重組Building 8,原團(tuán)隊(duì)項(xiàng)目將分?jǐn)傊羶蓚€(gè)團(tuán)隊(duì)
Facebook構(gòu)建虛擬空間訓(xùn)練AI
Facebook推出新款AI打牌機(jī)器人 可打敗專業(yè)對(duì)手
Facebook推出新AI模型,希望給計(jì)算機(jī)視覺領(lǐng)域帶來一次“革命”
耐能團(tuán)隊(duì)上線新款AI模型體驗(yàn)工具Showroom
NVIDIA 為全球企業(yè)帶來生成式 AI 推出用于創(chuàng)建大型語言模型和視覺模型的云服務(wù)

開源大模型FLM-101B:訓(xùn)練成本最低的超100B參數(shù)大模型

評(píng)論