3月5日消息,F(xiàn)acebook的研究人員推出了一種新的AI模型,該模型可以從網(wǎng)上任何未標記圖像的中學習,這是一項突破,盡管該團隊的研究仍處于早期階段,但他們希望給計算機視覺領(lǐng)域帶來一次“革命”。
該模型被稱為SEER(SElf-SupERvised),被饋入了10億張公開可用的Instagram圖像,這些圖像未經(jīng)過手動標記。但是,即使沒有通常在AI算法訓練中使用的標簽和注釋,SEER仍能夠自主地訓練數(shù)據(jù)集,不斷進行學習,并最終在諸如對象檢測之類的任務上達到最高的準確性。
圖片來自Facebook AI
這種被稱為自監(jiān)督學習(self-supervised learning)的方法在AI領(lǐng)域已經(jīng)很成熟:它由可以直接從給定信息中學習的系統(tǒng)組成,而不必依賴經(jīng)過仔細標記的數(shù)據(jù)集來教他們?nèi)绾螆?zhí)行諸如識別照片中的對象或翻譯文本之類的任務。
自監(jiān)督式學習近來引起了很多關(guān)注,因為這意味著需要手工標記數(shù)據(jù)的工作要少很得,這對大多數(shù)研究人員而言是費時費力的工作。無需管理數(shù)據(jù)集的同時,自監(jiān)督模型可以處理更大,更多樣化的數(shù)據(jù)集。
在某些領(lǐng)域,特別是自然語言處理中,該方法已經(jīng)取得了突破。在數(shù)量越來越多的未標記文本上訓練算法已使諸如問答、機器翻譯、自然語言推理等應用程序取得了進展。
相反,計算機視覺尚未完全進入自監(jiān)督的學習革命。正如Facebook AI Research的軟件工程師Priya Gopal解釋的那樣,SEER是該領(lǐng)域的首創(chuàng)。她告訴ZDNet:“與現(xiàn)有的在ImageNet數(shù)據(jù)集上訓練的計算機視覺的自監(jiān)督模型相比,SEER是第一個可以隨機訓練互聯(lián)網(wǎng)上圖像上的完全自監(jiān)督的計算機視覺模型。”
ImageNet是一個大規(guī)模數(shù)據(jù)庫,包含研究人員標記的數(shù)百萬張圖片,并向較大的計算機視覺社區(qū)開放,以促進AI的發(fā)展。
該項目的數(shù)據(jù)庫被Facebook的研究人員用作評估SEER性能的基準,他們發(fā)現(xiàn)自監(jiān)督模型在諸如低空拍攝、物體檢測、分割和圖像分類等任務上優(yōu)于最新的監(jiān)督AI系統(tǒng)。
Goyal說:“通過僅對隨機圖像進行訓練,SEER優(yōu)于現(xiàn)有的自監(jiān)督模型。這一結(jié)果表明,我們不需要像ImageNet這樣的高度精選的數(shù)據(jù)集,對隨機圖像的自監(jiān)督學習就可以產(chǎn)生非常高質(zhì)量的模型。”
隨著自監(jiān)督學習復雜度的提高,研究人員的工作并非沒有挑戰(zhàn)。在文本方面,AI模型的任務是為單詞賦予含義。但是對于圖像,該算法必須決定每個像素如何與一個概念相對應,同時考慮到其在不同圖片中拍攝角度、視圖和形狀的差別。
換句話說,研究人員需要大量數(shù)據(jù),并且需要一個能夠從這種復雜的信息池中推導出所有可能的視覺概念。
為了完成此任務,Goyal和她的團隊從Facebook AI在自監(jiān)督學習中的現(xiàn)有工作中改編了一種新算法,稱為SwAV,該算法將顯示相似的圖像聚集到單獨的組中。科學家還設計了卷積網(wǎng)絡,也就是一種深度學習算法,算法對人腦中神經(jīng)元的連接模式進行建模,根據(jù)重要性分配給圖像中的不同對象。
至少可以說,借助Instagram的10億張圖片的數(shù)據(jù)集,該系統(tǒng)的規(guī)模很大。Facebook的團隊使用了具有32GB RAM的V100 Nvidia GPU,并且隨著模型尺寸的增加,必須將模型放入可用的RAM中。但是Goyal解釋說,進一步的研究將對確保計算功能適應新系統(tǒng)很有用。
“隨著我們在越來越多的GPU上訓練模型,這些GPU之間的通信需要快速進行。可以通過開發(fā)軟件來解決給定的內(nèi)存和運行時間帶來的挑戰(zhàn)。”她說。
盡管仍有許多工作要做,但是,在可以將SEER應用于現(xiàn)實世界的用例之前,Goyal認為不應低估該技術(shù)的影響。她說:“借助SEER,我們現(xiàn)在可以通過大量隨機的互聯(lián)網(wǎng)上的圖像訓練大型模型,在計算機視覺方面取得更大的進步。”
“這一突破可以實現(xiàn)計算機視覺的自監(jiān)督學習革命,類似于我們在自然語言處理文本中所看到的。”
在Facebook內(nèi)部,SEER可用于各種計算機視覺任務,從自動生成圖像描述到幫助識別違反政策的內(nèi)容。在公司外部,該技術(shù)還可用于圖像和元數(shù)據(jù)有限的領(lǐng)域,例如醫(yī)學成像。
Facebook的團隊呼吁開展更多工作,以將SEER推進到其下一階段的開發(fā)。作為研究的一部分,該團隊開發(fā)了一種基于PyTorch的全能庫,用于自監(jiān)督學習,稱為VISSL,該庫是開源的,鼓勵更多的AI社區(qū)成員對該技術(shù)進行測試。
當被問及是否已通知Instagram用戶使用其圖像來訓練SEER或用戶是否有機會選擇其圖像不被用來學習時,Goyal指出,F(xiàn)acebook在其數(shù)據(jù)政策中告知Instagram帳戶持有人,其使用圖片等信息來支持研究,其中包括支持SEER的研究。也就是說,F(xiàn)acebook并不打算分享這些圖片或SEER模型本身,部分原因是該模型可能包含無意識的偏見。
Facebook在一篇博客文章中寫道:“自我監(jiān)督學習一直是Facebook人工智能的重點,因為它使機器可以直接從世界上大量可用的信息中學習,而不僅僅是從專門為人工智能研究創(chuàng)建的訓練數(shù)據(jù)中學習。就像在其他研究領(lǐng)域一樣,自我監(jiān)督學習對未來的計算機視覺有著不可思議的影響。消除了對人工注釋和元數(shù)據(jù)的需要,使計算機視覺社區(qū)能夠處理更大、更多樣化的數(shù)據(jù)集,從隨機公共圖像中學習,并可能減輕數(shù)據(jù)管理中出現(xiàn)的一些偏見。自我監(jiān)督學習還可以幫助在圖像或元數(shù)據(jù)有限的領(lǐng)域(如醫(yī)學成像)對模型進行專門研究。無需人工提前標記,模型可以更快地創(chuàng)建和部署,能夠?qū)焖僮兓那闆r做出更快、更準確的反應。”
編輯:lyn
-
AI
+關(guān)注
關(guān)注
88文章
35143瀏覽量
279818
發(fā)布評論請先 登錄
任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?
軟通計算機重磅發(fā)布DeepSeek大模型一體機產(chǎn)品

NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機視覺的支持

虹軟推出新一代視覺大模型ArcMuse 2025 V1.1
NVIDIA推出個人AI超級計算機Project DIGITS
新思科技如何應對量子計算機的威脅
【小白入門必看】一文讀懂深度學習計算機視覺技術(shù)及學習路線

評論