實(shí)例分割是檢測(cè)和分割目標(biāo)的一個(gè)核心視覺(jué)識(shí)別問(wèn)題。在過(guò)去幾年中,該領(lǐng)域一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的圣杯之一,其應(yīng)用范圍廣泛,包括自動(dòng)駕駛汽車( AV )、機(jī)器人技術(shù)、視頻分析、智能家居、數(shù)字人類和醫(yī)療保健。
注釋是對(duì)圖像或視頻中的每個(gè)對(duì)象進(jìn)行分類的過(guò)程,是實(shí)例分割的一個(gè)具有挑戰(zhàn)性的組成部分。訓(xùn)練 面具 R-CNN 等傳統(tǒng)實(shí)例分割方法需要同時(shí)使用對(duì)象的類標(biāo)簽、邊界框和分割遮罩。
然而,獲取分割掩模既昂貴又耗時(shí)。例如, 可可數(shù)據(jù)集 需要大約 70000 小時(shí)的時(shí)間來(lái)注釋 200k 圖像,其中 55000 小時(shí)用于收集對(duì)象遮罩。
介紹 Discobox
為了加快注釋過(guò)程, NVIDIA 研究人員開(kāi)發(fā)了 DiscoBox 框架。該解決方案使用了一種弱監(jiān)督學(xué)習(xí)算法,可以在訓(xùn)練期間輸出高質(zhì)量的實(shí)例分割,而無(wú)需掩碼注釋。
該框架直接從邊界框監(jiān)控生成實(shí)例分段,而不是使用掩碼注釋直接監(jiān)控任務(wù)。邊界框作為一種基本的注釋形式被引入,用于訓(xùn)練現(xiàn)代對(duì)象檢測(cè)器,并使用帶標(biāo)簽的矩形來(lái)緊密地包圍對(duì)象。每個(gè)矩形對(duì)對(duì)象的定位、大小和類別信息進(jìn)行編碼。
邊界框標(biāo)注是工業(yè)計(jì)算機(jī)視覺(jué)應(yīng)用的最佳選擇。它包含豐富的本地化信息,并且非常容易繪制,使得在注釋大量數(shù)據(jù)時(shí),它更經(jīng)濟(jì)、更具可擴(kuò)展性。然而,它本身不提供像素級(jí)信息,不能直接用于訓(xùn)練實(shí)例分割。
圖 1 。給定一對(duì)輸入圖像, DiscoBox 能夠聯(lián)合輸出檢測(cè)、實(shí)例分割和多對(duì)象語(yǔ)義對(duì)應(yīng)。
DiscoBox 的創(chuàng)新功能
DiscoBox 是第一個(gè)弱監(jiān)督的實(shí)例分割算法,它在減少標(biāo)記時(shí)間和成本的同時(shí),提供了與完全監(jiān)督方法相當(dāng)?shù)男阅堋@纾@種方法比傳說(shuō)中的面具 R-CNN 更快、更準(zhǔn)確,在訓(xùn)練期間不需要面具注釋。這就提出了一個(gè)問(wèn)題,即在未來(lái)的實(shí)例分割應(yīng)用中,是否真的需要掩碼注釋,因?yàn)樾枰俚臉?biāo)記。
DiscoBox 也是第一個(gè)在盒子監(jiān)督下將實(shí)例分割和多對(duì)象語(yǔ)義對(duì)應(yīng)結(jié)合起來(lái)的弱監(jiān)督算法。這兩項(xiàng)任務(wù)在許多計(jì)算機(jī)視覺(jué)應(yīng)用中都很有用,例如 3D 重建,并且可以相互幫助。例如,通過(guò)實(shí)例分割預(yù)測(cè)的對(duì)象遮罩可以幫助語(yǔ)義對(duì)應(yīng)關(guān)注前景對(duì)象像素,而語(yǔ)義對(duì)應(yīng)可以細(xì)化遮罩預(yù)測(cè)。 DiscoBox 將這兩項(xiàng)任務(wù)統(tǒng)一在盒子的監(jiān)督下,使他們的模型訓(xùn)練變得簡(jiǎn)單且可擴(kuò)展。
DiscoBox 的中心是一個(gè)師生設(shè)計(jì)。該設(shè)計(jì)的特點(diǎn)是使用自我一致性作為自我監(jiān)督,以取代 DiscoBox 培訓(xùn)中缺失的面罩監(jiān)督。該設(shè)計(jì)有效地促進(jìn)了高質(zhì)量的口罩預(yù)測(cè),即使在訓(xùn)練中沒(méi)有口罩注釋。
DiscoBox 應(yīng)用
除了作為 NVIDIA 人工智能應(yīng)用程序的自動(dòng)標(biāo)簽工具包之外, DiscoBox 還有許多應(yīng)用程序。通過(guò)自動(dòng)化昂貴的掩碼注釋,該工具可以幫助智能視頻分析或 AV 領(lǐng)域的產(chǎn)品團(tuán)隊(duì)節(jié)省大量注釋預(yù)算。
另一個(gè)潛在的應(yīng)用是 3D 重建,在這個(gè)領(lǐng)域中,對(duì)象遮罩和語(yǔ)義對(duì)應(yīng)都是重建任務(wù)的重要信息。 DiscoBox 能夠在只有邊界框監(jiān)控的情況下提供這兩個(gè)輸出,幫助在開(kāi)放世界場(chǎng)景中生成大規(guī)模 3D 重建。這將有助于構(gòu)建虛擬世界的許多應(yīng)用程序,如內(nèi)容創(chuàng)建、虛擬現(xiàn)實(shí)和數(shù)字人類。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5324瀏覽量
106624 -
人工智能
+關(guān)注
關(guān)注
1809文章
49151瀏覽量
250561
發(fā)布評(píng)論請(qǐng)先 登錄
從芯片到主板,科技創(chuàng)新實(shí)現(xiàn)高質(zhì)量發(fā)展
京微齊力榮登中國(guó)半導(dǎo)體行業(yè)高質(zhì)量發(fā)展創(chuàng)新成果榜單
高質(zhì)量 HarmonyOS 權(quán)限管控流程

啟源芯動(dòng)力榮獲青浦區(qū)多項(xiàng)殊榮,以技術(shù)創(chuàng)新賦能高質(zhì)量發(fā)展

廣汽集團(tuán)召開(kāi)高質(zhì)量發(fā)展大會(huì)
電動(dòng)工具EMC測(cè)試整改:邁向高質(zhì)量生產(chǎn)的必經(jīng)之路

芯導(dǎo)科技榮獲上市公司高質(zhì)量發(fā)展大會(huì)“科技創(chuàng)新獎(jiǎng)”
江蘇多維科技皮特級(jí)TMR芯片成功檢測(cè)到高質(zhì)量的成人實(shí)時(shí)心磁信號(hào)

立洋光電助力城市照明高質(zhì)量發(fā)展
中興通訊引領(lǐng)5G-A高質(zhì)量發(fā)展新紀(jì)元
中國(guó)算力大會(huì)召開(kāi),業(yè)界首個(gè)算力高質(zhì)量評(píng)估體系發(fā)布

揭秘高質(zhì)量點(diǎn)焊機(jī)的五大標(biāo)準(zhǔn):打造焊接性能的基石

華為云 Flexus X 實(shí)例,以創(chuàng)新技術(shù)打造中小企業(yè)高質(zhì)量發(fā)展新引擎

評(píng)論