1. 摘要
CVPR VISION 23挑戰(zhàn)賽第1賽道 "數(shù)據(jù)智能缺陷檢測(cè) "要求參賽者在數(shù)據(jù)缺乏的環(huán)境下對(duì)14個(gè)工業(yè)檢測(cè)數(shù)據(jù)集進(jìn)行實(shí)例分割。本論文的方法聚焦于在有限訓(xùn)練樣本的場(chǎng)景下提高缺陷掩模的分割質(zhì)量的關(guān)鍵問(wèn)題。基于混合任務(wù)級(jí)聯(lián)(HTC)實(shí)例分割算法,我們用受CBNetv2啟發(fā)的復(fù)合連接將transformer骨干(Swin-B)連接起來(lái)以增強(qiáng)基準(zhǔn)結(jié)果。此外,我們提出了兩種模型集成方法來(lái)進(jìn)一步增強(qiáng)分割效果:一種是將語(yǔ)義分割整合到實(shí)例分割中,另一種是采用多實(shí)例分割融合算法。最后,通過(guò)多尺度訓(xùn)練和測(cè)試時(shí)數(shù)據(jù)增強(qiáng)(TTA),我們?cè)跀?shù)據(jù)高效缺陷檢測(cè)挑戰(zhàn)賽的測(cè)試集上獲得了高于48.49%的平均[email protected]:0.95和66.71%的平均[email protected]:0.95。論文鏈接:https://arxiv.org/abs/2306.14116代碼鏈接:https://github.com/love6tao/
2. 背景補(bǔ)充
深度學(xué)習(xí)在視覺(jué)檢測(cè)中的應(yīng)用越來(lái)越廣泛,這包括如無(wú)人機(jī)巡檢電力設(shè)備、檢測(cè)工業(yè)表面上的輕微劃痕、識(shí)別深孔零件中的銅線(xiàn)缺陷以及檢測(cè)芯片和玻璃表面上的導(dǎo)電微粒等工業(yè)缺陷檢測(cè)任務(wù)。但是,在工業(yè)制造場(chǎng)景中獲得標(biāo)注的缺陷數(shù)據(jù)是困難、昂貴和耗時(shí)的,因此使得基于視覺(jué)的工業(yè)檢測(cè)更具挑戰(zhàn)性。為了解決這個(gè)問(wèn)題,CVPR VISION 23挑戰(zhàn)賽第1賽道 - 數(shù)據(jù)高效缺陷檢測(cè)競(jìng)賽啟動(dòng)。
該競(jìng)賽數(shù)據(jù)集由14個(gè)來(lái)自真實(shí)場(chǎng)景的缺陷數(shù)據(jù)集組成,最顯著的特點(diǎn)是測(cè)試樣本數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)訓(xùn)練樣本數(shù)量。如上圖所示,一些數(shù)據(jù)集如電容器和電子設(shè)備數(shù)據(jù)集僅包含不超過(guò)40個(gè)訓(xùn)練樣本。此外,某些圖像在數(shù)據(jù)集中存在顯著的尺度變化。大多數(shù)框只覆蓋圖像的10%,而一些框可以覆蓋整個(gè)圖像。而且,14個(gè)數(shù)據(jù)集之間的背景和缺陷紋理形狀存在顯著差異,使得構(gòu)建可以在每個(gè)數(shù)據(jù)集上都取得滿(mǎn)意結(jié)果的統(tǒng)一算法框架是一個(gè)巨大的挑戰(zhàn)。為了解決這些問(wèn)題,我們訓(xùn)練了一個(gè)以Swin Transformer 和CBNetV2 為骨干的強(qiáng)大基準(zhǔn)模型,然后采用兩種模型集成方法來(lái)進(jìn)一步提升分割性能。我們將在第2節(jié)中介紹我們的流程和詳細(xì)組件。實(shí)驗(yàn)結(jié)果和消融研究顯示在第3節(jié)中。
3. 方法介紹
在這一節(jié)中,我們提出了一個(gè)由三部分組成的有效流程。首先訓(xùn)練一個(gè)強(qiáng)大的單實(shí)例分割模型作為基準(zhǔn),使用混合任務(wù)級(jí)聯(lián),以Swin Transformer和CBNetV2作為其骨干,如上圖所示。其次,使用Mask2Former 訓(xùn)練一個(gè)強(qiáng)大的語(yǔ)義分割模型來(lái)進(jìn)一步提煉分割性能,將語(yǔ)義分割結(jié)果與實(shí)例分割結(jié)果融合。最后,融合三個(gè)實(shí)例分割模型的結(jié)果以進(jìn)一步改進(jìn)分割效果用于最終提交。
3.1 基礎(chǔ)實(shí)例分割模型
我們的基礎(chǔ)實(shí)例分割模型建立在混合任務(wù)級(jí)聯(lián)(HTC) 檢測(cè)器之上,使用CBSwinBase骨干和CBFPN 架構(gòu)。HTC是一個(gè)用于實(shí)例分割任務(wù)的穩(wěn)健的級(jí)聯(lián)架構(gòu),它巧妙地混合了檢測(cè)和分割分支進(jìn)行聯(lián)合多階段處理,在每個(gè)階段逐步提取更有區(qū)分性的特征。為避免需要額外的語(yǔ)義分割注釋?zhuān)覀儚慕鉀Q方案中刪除了語(yǔ)義頭部。最近的視覺(jué)Transformer的進(jìn)步對(duì)各種視覺(jué)任務(wù)非常重要,因此我們采用Swin Transformer作為我們的骨干。Swin Transformer在分層特征架構(gòu)中引入了一個(gè)高效的window注意力模塊,其計(jì)算復(fù)雜度與輸入圖像大小呈線(xiàn)性關(guān)系。在我們的工作中,我們采用在ImageNet-22k數(shù)據(jù)集上預(yù)訓(xùn)練的Swin-B網(wǎng)絡(luò)作為我們的基本骨干。為進(jìn)一步提高性能,我們受CBNetv2算法的啟發(fā),通過(guò)復(fù)合連接將兩個(gè)相同的Swin-B網(wǎng)絡(luò)組合在一起。如上圖所示。
3.2 將語(yǔ)義分割整合到實(shí)例分割中
盡管單個(gè)模型可以取得很好的分割結(jié)果,但實(shí)例分割的結(jié)果通常不完整,特別是在設(shè)定IOU閾值過(guò)高時(shí),這可能對(duì)mask mAP 產(chǎn)生負(fù)面影響。因此,我們使用語(yǔ)義分割模型的輸出來(lái)補(bǔ)充實(shí)例分割模型的結(jié)果。
我們的語(yǔ)義分割模型基于Mask2Former,使用Swin-L作為骨干,其網(wǎng)絡(luò)輸入圖像大小為512×512。預(yù)訓(xùn)練權(quán)重來(lái)自ADE20K數(shù)據(jù)集。為了訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò),我們將多缺陷標(biāo)簽轉(zhuǎn)換為表示背景和缺陷的二進(jìn)制標(biāo)簽。
對(duì)于融合策略,我們?cè)谙嗤南袼匚恢媒M合實(shí)例分割結(jié)果和語(yǔ)義分割結(jié)果,生成新的實(shí)例分割結(jié)果,如上圖所示。由于語(yǔ)義分割任務(wù)將像素劃分為兩類(lèi):缺陷和背景,所以實(shí)例分割任務(wù)中的預(yù)測(cè)邊界框(bbox)類(lèi)確定了像素的實(shí)際類(lèi)。值得注意的是,只有預(yù)測(cè)實(shí)例與bbox置信度大于閾值才會(huì)與語(yǔ)義分割結(jié)果進(jìn)行融合。在競(jìng)賽中,我們將設(shè)置為0.5以獲得最佳的分割性能。
3.3 多個(gè)實(shí)例分割的融合
我們的實(shí)驗(yàn)結(jié)果表明,不同的實(shí)例分割骨干可以產(chǎn)生互補(bǔ)的結(jié)果。這意味著融合不同骨干的實(shí)例分割結(jié)果可以提高模型的召回率。但是,提高召回率往往以犧牲檢測(cè)精度為代價(jià)。為解決這個(gè)問(wèn)題,我們?cè)O(shè)計(jì)了一個(gè)融合策略,如上圖所示。
在我們的實(shí)驗(yàn)中,我們將model-1、model-2和model-3分別稱(chēng)為HTC、Cascade Mask rcnn-ResNet50和Cascade Mask rcnn-ConvNext模型。這些模型的設(shè)計(jì)目的是在它們之間增加多樣性。
Mask2Former是一個(gè)經(jīng)過(guò)驗(yàn)證的高效語(yǔ)義分割架構(gòu),已經(jīng)被證明在各種應(yīng)用中都能實(shí)現(xiàn)最先進(jìn)的結(jié)果,如語(yǔ)義、實(shí)例和全景分割。通過(guò)將語(yǔ)義分割與實(shí)例分割相結(jié)合,我們?cè)跍y(cè)試數(shù)據(jù)集上取得了顯著的48.38%的mask mAP。最后,通過(guò)平均模型包中這些模型的預(yù)測(cè),我們的模型集成在競(jìng)賽中實(shí)現(xiàn)了卓越的性能,mAP達(dá)到48.49%,mAR達(dá)到66.71%。
4. 未來(lái)改進(jìn)方向
半監(jiān)督學(xué)習(xí):在我們的實(shí)驗(yàn)中,我們僅關(guān)注在訓(xùn)練和驗(yàn)證集上訓(xùn)練實(shí)例分割模型。我們嘗試使用基于soft-teacher的半監(jiān)督學(xué)習(xí)方法來(lái)改進(jìn)實(shí)例分割的性能。然而,由于數(shù)據(jù)集的差異,無(wú)法為半監(jiān)督模型提供統(tǒng)一的訓(xùn)練策略。由于競(jìng)賽時(shí)間的限制,以后的研究將半監(jiān)督方法作為一個(gè)更可行的方向。
SAM: Meta提出了通用分割模型(SAM)作為解決分割任務(wù)的基礎(chǔ)模型。我們通過(guò)在線(xiàn)演示網(wǎng)站評(píng)估了其有效性,并確定該模型在工業(yè)數(shù)據(jù)上的泛化性能也很出色。但是,根據(jù)競(jìng)賽規(guī)則,我們不能使用SAM。盡管如此,大模型或基礎(chǔ)模型仍有可能為工業(yè)缺陷檢測(cè)帶來(lái)重大變化,從而為未來(lái)工作提供了另一個(gè)改進(jìn)方向。
5. 結(jié)論
在論文中,我們介紹了CVPR VISION 23挑戰(zhàn)賽第1賽道亞軍解決方案"數(shù)據(jù)高效缺陷檢測(cè)"技術(shù)細(xì)節(jié)。作者的方法包括三個(gè)主要組成部分:基礎(chǔ)實(shí)例分割模型、將語(yǔ)義分割整合到實(shí)例分割中的方法以及融合多個(gè)實(shí)例分割的策略。通過(guò)一系列實(shí)驗(yàn),我們證明了我們的方法在測(cè)試集上的競(jìng)爭(zhēng)力,在[email protected]:0.95上獲得48.49%以上,在[email protected]:0.95上獲得66.71%以上。
責(zé)任編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7240瀏覽量
90993 -
檢測(cè)技術(shù)
+關(guān)注
關(guān)注
2文章
360瀏覽量
29475 -
分割
+關(guān)注
關(guān)注
0文章
17瀏覽量
12009
原文標(biāo)題:CVPR VISION 23挑戰(zhàn)賽第1賽道亞軍解決方案 - 數(shù)據(jù)高效缺陷檢測(cè)
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
堆焊過(guò)程熔池相機(jī)實(shí)時(shí)缺陷檢測(cè)技術(shù)

高光譜相機(jī)在工業(yè)檢測(cè)中的應(yīng)用:LED屏檢、PCB板缺陷檢測(cè)
安泰電壓放大器在缺陷局部的無(wú)損檢測(cè)研究中的應(yīng)用

從“被動(dòng)檢測(cè)”到“主動(dòng)預(yù)防”,上海控安TestGrid推出動(dòng)態(tài)缺陷檢測(cè)功能模塊
X-Ray檢測(cè)設(shè)備能檢測(cè)PCBA的哪些缺陷
方便面面餅外觀(guān)檢測(cè):精準(zhǔn)識(shí)別0.5mm2細(xì)微缺陷

X-RAY檢測(cè)設(shè)備用于檢測(cè)集成電路缺陷瑕疵

射頻技術(shù)rfid干擾缺陷有哪些
X射線(xiàn)工業(yè)CT檢測(cè)設(shè)備用于復(fù)合新材料內(nèi)部缺陷檢測(cè)

ATA-8202射頻功率放大器在應(yīng)力導(dǎo)波缺陷檢測(cè)研究中的應(yīng)用

高效液相色譜儀的檢測(cè)器有哪些
渦流檢測(cè)常用的檢測(cè)方式
基于AI深度學(xué)習(xí)的缺陷檢測(cè)系統(tǒng)
外觀(guān)缺陷檢測(cè)原理

產(chǎn)品標(biāo)簽OCR識(shí)別缺陷檢測(cè)系統(tǒng)方案

評(píng)論