女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺Transformer在CV中的現(xiàn)狀、趨勢(shì)和未來方向

新機(jī)器視覺 ? 來源:新機(jī)器視覺 ? 作者:新機(jī)器視覺 ? 2022-11-08 14:20 ? 次閱讀

摘要

Transformer,一種基于注意力的編碼器-解碼器模型,已經(jīng)徹底改變了自然語言處理(NLP)領(lǐng)域。受這些重大成就的啟發(fā),最近在計(jì)算機(jī)視覺(CV)領(lǐng)域采用類似Transformer的架構(gòu)進(jìn)行了一些開創(chuàng)性的工作,這些工作證明了它們?cè)谌齻€(gè)基本CV任務(wù)(分類、檢測(cè)和分割)以及多傳感器數(shù)據(jù)(圖像、點(diǎn)云和視覺-語言數(shù)據(jù))上的有效性。由于其具有競(jìng)爭(zhēng)力的建模能力,與現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,視覺Transformer在多個(gè)基準(zhǔn)測(cè)試中取得了令人印象深刻的性能改進(jìn)。本綜述根據(jù)三個(gè)基本的CV任務(wù)和不同的數(shù)據(jù)流類型,全面調(diào)查了100多種不同的視覺Transformer,并提出了一種分類法,根據(jù)其動(dòng)機(jī)、結(jié)構(gòu)和應(yīng)用場(chǎng)景來組織代表性方法。由于它們?cè)谟?xùn)練設(shè)置和專用視覺任務(wù)上的差異,論文還評(píng)估并比較了不同配置下的所有現(xiàn)有視覺Transformer。此外,論文還揭示了一系列重要但尚未開發(fā)的方面,這些方面可能使此類視覺Transformer能夠從眾多架構(gòu)中脫穎而出,例如,松散的高級(jí)語義嵌入,以彌合視覺Transformer與序列式之間的差距。最后,提出了未來有前景的研究方向。

倉庫地址:https://github.com/liuyang-ict/awesome-visual-transformers

2f4d13bc-5f1f-11ed-8abf-dac502259ad0.png

本文旨在對(duì)最新的視覺Transformer進(jìn)行更全面的回顧,并對(duì)其進(jìn)行系統(tǒng)分類:

全面性和可讀性:本文根據(jù)它們?cè)谌齻€(gè)基本CV任務(wù)(即分類、檢測(cè)和分割)和數(shù)據(jù)流類型(即圖像、點(diǎn)云、多流數(shù)據(jù))上的應(yīng)用,全面回顧了100多個(gè)視覺Transformer。論文選擇了更具代表性的方法,并進(jìn)行了詳細(xì)的描述和分析,但簡(jiǎn)要介紹了其他相關(guān)工作。本文不僅從一個(gè)角度對(duì)每個(gè)模型進(jìn)行了詳盡的分析,而且還從某種意義上建立了它們的內(nèi)部聯(lián)系,如漸進(jìn)、對(duì)比和多視角分析。

直觀的比較:由于現(xiàn)有的視覺Transformer針對(duì)各種視覺任務(wù)遵循不同的訓(xùn)練方案和超參數(shù)設(shè)置,本文對(duì)不同的數(shù)據(jù)集和限制進(jìn)行了多次橫向比較。更重要的是,總結(jié)了為每個(gè)任務(wù)設(shè)計(jì)的一系列有效組件,包括:(a)具有層次結(jié)構(gòu)的淺局部卷積;(b) neck detector的稀疏注意力空間先驗(yàn)加速;(c)以及用于分割的通用掩模預(yù)測(cè)方案;

深入分析:論文進(jìn)一步深入分析了以下幾個(gè)方面:(a)從傳統(tǒng)序列任務(wù)到視覺任務(wù)的轉(zhuǎn)換過程;(b) 視覺Transformer和其他神經(jīng)網(wǎng)絡(luò)之間的對(duì)應(yīng)關(guān)系;(c)以及不同任務(wù)和數(shù)據(jù)流類型中使用的可學(xué)習(xí)嵌入(即class token、object query、mask embedding)的相關(guān)性。最后,論文概述了一些未來的研究方向。例如,編碼器-解碼器Transformer主干可以通過query embedding來統(tǒng)一多個(gè)視覺任務(wù)和數(shù)據(jù)流類型。

2f5c0c6e-5f1f-11ed-8abf-dac502259ad0.png

原始Transformer

最初的Transformer[1]首先應(yīng)用于序列到序列自動(dòng)回歸的任務(wù)。與先前的序列轉(zhuǎn)導(dǎo)模型[49]、[50]相比,這種原始的Transformer繼承了編碼器-解碼器結(jié)構(gòu),但通過使用multi-head attention機(jī)制和point-wise feed-forward網(wǎng)絡(luò),完全放棄了遞歸和卷積。圖4展示了帶有編碼器-解碼器架構(gòu)的整體Transformer模型。具體而言,它由N個(gè)連續(xù)的編碼器模塊組成,每個(gè)編碼器由兩個(gè)子層組成。1) MHSA層聚合編碼器嵌入內(nèi)的關(guān)系;2) 逐位置FFN層提取特征表示。

2f6f004e-5f1f-11ed-8abf-dac502259ad0.png

在自然語言回歸模型中,Transformer源于機(jī)器翻譯任務(wù)。給定一個(gè)單詞序列,Transformer將輸入序列矢量化為單詞嵌入,添加位置編碼,并將生成的向量序列輸入編碼器。在訓(xùn)練期間,如圖4所示,Vaswani等人根據(jù)自回歸任務(wù)的規(guī)則設(shè)計(jì)了masking操作,其中當(dāng)前位置僅取決于先前位置的輸出。基于這種masking,Transformer解碼器能夠并行處理輸入標(biāo)簽的序列。在推理期間,通過相同的操作處理先前預(yù)測(cè)的單詞序列以預(yù)測(cè)下一個(gè)單詞。

2f7cdfa2-5f1f-11ed-8abf-dac502259ad0.png

分類Transformer

隨著NLP中Transformer的顯著發(fā)展[2]–[5],最近的工作試圖引入視覺Transformer來進(jìn)行圖像分類。本節(jié)全面回顧了40多個(gè)視覺Transformer,并將其分為六類,如圖5所示。首先介紹了Fully-Attentional網(wǎng)絡(luò)[24]、[28]和Vision Transformer(ViT)[29],這種原始ViT首先證明了其在多個(gè)分類基準(zhǔn)上的功效。然后討論了Transformer增強(qiáng)的CNN方法,該方法利用Transformer來增強(qiáng)CNN的表示學(xué)習(xí)。由于忽略了原始ViT中的局部信息,CNN增強(qiáng)型Transformer采用了適當(dāng)?shù)木矸einductive bias來增強(qiáng)ViT,而局部注意力增強(qiáng)型Transformer重新設(shè)計(jì)了patch分區(qū)和注意力塊,以提高其局部性。繼CNN[162]中的分層和深層結(jié)構(gòu)之后,分層Transformer用金字塔代替了固定分辨率的柱狀結(jié)構(gòu),而Deep Transformer防止了注意力圖過于平滑,并增加了其在深層中的多樣性。此外,論文還回顧了現(xiàn)有的基于自監(jiān)督學(xué)習(xí)的ViT。最后,本文根據(jù)直觀的比較進(jìn)行了簡(jiǎn)短的討論,組織了一個(gè)ViT的里程碑,并討論了一個(gè)共同的問題以供進(jìn)一步研究。

2f89cfbe-5f1f-11ed-8abf-dac502259ad0.png

Original Visual Transformer

受Transformer在NLP領(lǐng)域取得的巨大成就的啟發(fā)[2]-[5],先前視覺任務(wù)的技術(shù)趨勢(shì)[14]-[17],[163]將注意力機(jī)制與卷積模型相結(jié)合,以增強(qiáng)模型的感受野和全局依賴性。除了這種混合模型,Ramachandran等人考慮了注意力是否可以完全取代卷積,然后提出了一個(gè)Stand-Alone自注意力網(wǎng)絡(luò)(SANet)[24],與原始基線相比,該網(wǎng)絡(luò)在視覺任務(wù)上取得了優(yōu)異的性能。

給定ResNet[11]架構(gòu),作者直接將每個(gè)bottleneck中的空間卷積層(3*3)替換為局部空間自注意力層,并保持其他結(jié)構(gòu)與ResNet中的原始設(shè)置相同。此外,大量消融已經(jīng)表明,位置編碼和卷積可以進(jìn)一步提高網(wǎng)絡(luò)效率。繼[24]之后,Cordonnier等人設(shè)計(jì)了一個(gè)原型(稱為“Fully-Attentional Network”)[28],包括一個(gè)fully vanilla Transformer和一個(gè)二次位置編碼。作者還從理論上證明了卷積層可以用具有相對(duì)位置編碼和足夠head的單個(gè)MHSA層來近似。通過在CIFAR-10上的消融實(shí)驗(yàn)[164],他們進(jìn)一步驗(yàn)證了這樣的原型設(shè)計(jì)確實(shí)能夠?qū)W習(xí)到每個(gè)query像素周圍的網(wǎng)格狀圖案,這是他們的理論結(jié)論。

與[28]只關(guān)注小尺度模型不同,ViT[29]通過大規(guī)模預(yù)訓(xùn)練學(xué)習(xí)進(jìn)一步探索了vanilla Transformer的有效性,這樣的先鋒工作對(duì)社區(qū)產(chǎn)生了重大影響。因?yàn)関anilla Transformer只接受序列輸入,ViT中的輸入圖像首先被拆分成一系列不重疊的patch,然后被投影到patch嵌入中。將一維可學(xué)習(xí)位置編碼添加到patch embeddings上以保留空間信息,然后將joint embeddings饋送到編碼器中,如圖6所示。與BERT[5]類似,將學(xué)習(xí)的 [class] token與patch embeddings附加在一起,以聚合全局表示,并將其用作分類的輸入。此外,2D插值補(bǔ)充了預(yù)訓(xùn)練的位置編碼,以在饋送圖像是任意分辨率時(shí)保持patche的一致順序。通過使用大規(guī)模私有數(shù)據(jù)集(JFT-300M[165])進(jìn)行預(yù)訓(xùn)練,與最流行的CNN方法相比,ViT在多個(gè)圖像識(shí)別基準(zhǔn)(ImageNet[166]和CIFAR-100[164])上取得了相似甚至更好的結(jié)果。然而,它的泛化能力往往會(huì)受到有限訓(xùn)練數(shù)據(jù)的侵蝕。

2f97f7f6-5f1f-11ed-8abf-dac502259ad0.png

Transformer Enhanced CNNs

如上所述Transformer有兩個(gè)關(guān)鍵:MHSA和FFN。卷積層和MHSA之間存在近似值[28],Dong等人認(rèn)為,Transformer可以借助跳躍連接和FFN[167]進(jìn)一步減輕MHSA的強(qiáng)偏置。最近,一些方法試圖將Transformer集成到CNN中以增強(qiáng)表示學(xué)習(xí)。VTs[51]將輸入圖像的語義概念解耦到不同的通道中,并通過編碼器塊(即VT塊)將它們緊密關(guān)聯(lián)。這種VT塊替代了最后的卷積階段,以增強(qiáng)CNN模型的語義建模能力。與先前直接用注意力結(jié)構(gòu)代替卷積的方法不同,Vaswani等人提出了一種概念上的重新定義,即具有MHSA的連續(xù)bottleneck block可以被表述為Bottleneck Transformer(BoTNet)[52]塊。采用相對(duì)位置編碼[168]進(jìn)一步模擬原始Transformer.。基于ResNet[11],BoTNet在ImageNet基準(zhǔn)上的參數(shù)設(shè)置類似,優(yōu)于大多數(shù)CNN模型,并進(jìn)一步證明了混合模型的有效性。

CNN Enhanced Transformer

Inductive bias被定義為關(guān)于數(shù)據(jù)分布和解空間的一組假設(shè),其在卷積中的表現(xiàn)為局部性和平移不變性[169]。由于局部鄰域內(nèi)的協(xié)方差很大,并且在圖像中逐漸趨于平穩(wěn),CNN可以在偏差的幫助下有效地處理圖像。然而,當(dāng)有足夠的數(shù)據(jù)可用時(shí),強(qiáng)偏差也限制了CNN的上限。最近的努力試圖利用適當(dāng)?shù)腃NN bias來增強(qiáng)Transformer。相關(guān)算法有DeiT[40]、ConViT[53]、CeiT[54]、LocalViT[55]、ResT[57]、CPVT[56]、CvT[36]、CoAtNet)[39]等。

Local Attention Enhanced Transformer

ViT[29]中的coarse patchify過程忽略了局部圖像信息。除了卷積,研究人員提出了一種局部注意力機(jī)制,以動(dòng)態(tài)關(guān)注相鄰元素并增強(qiáng)局部提取能力。代表性方法之一是Swin Transformer[35]。類似于TSM[173](圖7(a)),Swin利用沿空間維度的移位窗口來建模全局和邊界特征。具體而言,兩個(gè)連續(xù)的window-wise attention可以促進(jìn)cross-window相互作用(圖7(b)-(c)),類似于CNN中的感受野擴(kuò)展。這種操作將計(jì)算量由降低至。其他相關(guān)算法TNT[59]、Twins[60]、ViL[61]、VOLO[44]可以參考具體論文。

2fa5d18c-5f1f-11ed-8abf-dac502259ad0.png

Hierarchical Transformer

由于ViT[29]在整個(gè)Transformer層中采用具有固定分辨率的柱狀結(jié)構(gòu),忽略了細(xì)粒度特征,并帶來了沉重的計(jì)算成本。繼分層模型之后,Tokens to Token ViT(T2T-ViT)首先引入了分層Transformer的范例,并采用overlapping unfold操作進(jìn)行下采樣。然而,這種操作帶來了沉重的內(nèi)存和計(jì)算成本。因此,Pyramid Vision Transformer(PVT)[41]利用非重疊的patch分區(qū)來減少特征大小。此外,PVT中的spatial-reduction attention(SRA)層被應(yīng)用于通過學(xué)習(xí)低分辨率key-value pairs來進(jìn)一步降低計(jì)算成本。在經(jīng)驗(yàn)上,PVT使Transformer適應(yīng)許多基準(zhǔn)上的密集預(yù)測(cè)任務(wù),這些基準(zhǔn)需要大量輸入和細(xì)粒度特征,并且具有計(jì)算效率。此外,PiT[64]和CvT[36]都分別利用池化和卷積來進(jìn)行token下采樣。具體而言,CvT[36]通過用卷積投影替換線性層來改進(jìn)PVT[41]的SRA。基于convolutional bias,CvT[36]可以適應(yīng)任意大小的輸入,而無需位置編碼。

Deep Transformer

經(jīng)驗(yàn)上,增加模型的深度是可以增強(qiáng)其學(xué)習(xí)能力[11]的。最近的工作將深度結(jié)構(gòu)應(yīng)用于Transformer,并進(jìn)行了大量實(shí)驗(yàn),通過分析cross-patch[67]和cross-layer[37]、[66]的相似性以及殘差的貢獻(xiàn)[42]來研究其可擴(kuò)展性。在Deep Transformer中,來自較深層的特征往往不太具有代表性(attention collapse[66]),并且patch被映射到不可區(qū)分的潛在表示中(patch over-smoothing[67])。為了解決上述限制,這些方法從兩個(gè)方面提出了相應(yīng)的解決方案。

從模型結(jié)構(gòu)的角度來看,Touvron等人在圖像Transformers中提出了有效的Class-attention(CaiT[42]),包括兩個(gè)階段:1)沒有class token的多個(gè)self-attention階段。在每一層中,利用由small values初始化的可學(xué)習(xí)對(duì)角矩陣來動(dòng)態(tài)更新channel權(quán)重,從而為channel調(diào)整提供一定的自由度;2) 最后class-attention階段是凍結(jié)patch embeddings。之后的class token被插入到模型全局表示中,類似于具有編碼器-解碼器結(jié)構(gòu)的DETR。這種顯式分離基于這樣一個(gè)假設(shè),即class token對(duì)于前向傳遞中的patch embeddings梯度無效。通過蒸餾訓(xùn)練策略[40],CaiT在沒有外部數(shù)據(jù)的情況下在imagenet-1k上實(shí)現(xiàn)了新的SOTA(86.5%的TOP1精度)。Deep Transformer遭受attention collapse和過度平滑問題的困擾,但仍在很大程度上保留了不同head之間注意力圖的多樣性。基于這一觀察,Zhou等人提出了Deep Vision Transformer(DeepViT)[66],該Transformer聚合cross-head attention maps,并通過使用線性層重新生成新的注意力圖,以增加跨層特征多樣性。此外,Refiner[37]應(yīng)用線性層來擴(kuò)展注意力圖的維度(間接增加head數(shù)量),以促進(jìn)多樣性。然后,采用分布式局部注意力(DLA)來實(shí)現(xiàn)對(duì)局部特征和全局特征的更好建模,這是通過影響注意力圖的head-wise卷積來實(shí)現(xiàn)的。

從訓(xùn)練策略的角度來看,Gong等人提出了deep Transformer的三個(gè)Patch Diversity損失,這可以顯著鼓勵(lì)patch的多樣性并抵消過度平滑問題[67]。類似于[175],patch-wise余弦損失最小化了patch之間的成對(duì)余弦相似性。patch-wise對(duì)比度損失通過其在早期層中的對(duì)應(yīng)patch使較深的patch正則化。受Cutmix[176]的啟發(fā),patch-wise混合損失混合了兩個(gè)不同的圖像,并迫使每個(gè)patch只關(guān)注來自同一圖像的patch,而忽略不相關(guān)的patch。與LV-ViT[43]相比,它們具有相似的損失功能,但動(dòng)機(jī)不同。前者側(cè)重于patch多樣性,而后者側(cè)重于關(guān)于token標(biāo)記的數(shù)據(jù)增強(qiáng)。

Transformers with Self-Supervised Learning

自監(jiān)督Transformer在NLP領(lǐng)域取得了巨大的成功[5],但視覺Transformer仍停留在監(jiān)督的預(yù)訓(xùn)練階段[35],[40]。最近的工作還試圖以生成和判別的方式為ViT設(shè)計(jì)各種自監(jiān)督學(xué)習(xí)方案。生成式的相關(guān)工作有iGPT[68]、BEiT[70]、dVAE[147]。判別式的相關(guān)工作有[72]、DINO[73]。

討論

算法評(píng)估和比較分析:在論文的分類法中,所有現(xiàn)有的監(jiān)督模型被分為六類。表一總結(jié)了這些現(xiàn)有ViT在ImageNet-1k基準(zhǔn)上的性能。為了客觀直觀地評(píng)估它們,論文使用以下三張圖來說明它們?cè)诓煌渲孟略贗mageNet-1k上的性能。圖8(a)總結(jié)了2242個(gè)輸入大小下每個(gè)模型的精度。圖8(b)以FLOP為水平軸,重點(diǎn)關(guān)注其在更高分辨率下的性能。圖8(c)側(cè)重于具有外部數(shù)據(jù)集的預(yù)訓(xùn)練模型。根據(jù)這些比較結(jié)果,論文簡(jiǎn)要總結(jié)了在效率和可伸縮性方面的幾項(xiàng)性能改進(jìn),如下所示:

與大多數(shù)結(jié)構(gòu)改進(jìn)方法相比,DeiT[40]和LV-ViT[43]等基本訓(xùn)練策略更適用于各種模型、任務(wù)和輸入;

局部性對(duì)于Transformer是必不可少的,這反映在VOLO[44]和Swin[35]分別在分類和密集預(yù)測(cè)任務(wù)上的優(yōu)勢(shì);

卷積patchify stem(ViTc[58])和早期卷積階段(CoAtNet[39])可以顯著提高Transformer器的精度,尤其是對(duì)于大模型。論文推測(cè)原因是因?yàn)檫@些設(shè)計(jì)引入了比ViT中的non-overlapping patch projection更嚴(yán)格的高級(jí)特征[29];

deep Transformer,如Refined-ViT[37]和CaiT[42],具有巨大的潛力。隨著模型尺寸與channel尺寸成二次增長(zhǎng),未來可以進(jìn)一步研究deep Transformer中的相關(guān)權(quán)衡策略;

CeiT[54]和CvT[36]在訓(xùn)練中小型模型(0到40M)有顯著優(yōu)勢(shì),這表明輕量模型的這種混合注意力block值得進(jìn)一步探索。

2fb5e4e6-5f1f-11ed-8abf-dac502259ad0.png

2feb7570-5f1f-11ed-8abf-dac502259ad0.png

ViT發(fā)展趨勢(shì)綜述

當(dāng)論文的系統(tǒng)學(xué)與這些模型的時(shí)間線匹配時(shí),我們可以清楚地跟蹤Transformer用于圖像分類的發(fā)展趨勢(shì)(圖1)。作為一種自注意機(jī)制,視覺Transformer主要根據(jù)NLP中的樸素結(jié)構(gòu)(ViT[29]和iGPT[68])或CV中基于注意力的模型(VTs[51]和BoTNet[52])進(jìn)行重新設(shè)計(jì)。

然后,許多方法開始將CNN的層次結(jié)構(gòu)或深層結(jié)構(gòu)擴(kuò)展到ViT。T2T-ViT[63]、PVT[41]、CvT[36]和PiT[64]都有一個(gè)動(dòng)機(jī),即將分層結(jié)構(gòu)遷移到Transformer中,但它們實(shí)現(xiàn)的下采樣方式不同。CaiT[42]、Diverse Patch[67]、DeepViT[66]和Refiner[37]關(guān)注deep Transformer中的問題。此外,一些方法轉(zhuǎn)向內(nèi)部組件以進(jìn)一步增強(qiáng)先前Transformer的圖像處理能力,即位置編碼[56]、[179]、[180]、MHSA[28]和MLP[167]。

下一波Transformer是局部范式。其中大多數(shù)通過引入局部注意機(jī)制[35]、[44]、[59]、[60]或卷積[53]–[55]將局部性引入Transformer。如今,最新監(jiān)督Transformer正在探索結(jié)構(gòu)組合[39]、[58]和scaling laws[38]、[181]。除了有監(jiān)督的Transformer,自監(jiān)督學(xué)習(xí)在ViT[68]–[70]、[72]–[74]中占據(jù)了很大一部分。然而,目前尚不清楚哪些任務(wù)和結(jié)構(gòu)對(duì)CV中的自監(jiān)督Transformer更有利。

關(guān)于備選方案的簡(jiǎn)要討論:在ViT的開發(fā)過程中,最常見的問題是ViT能否完全取代傳統(tǒng)的卷積。通過回顧過去一年的性能改進(jìn)歷史,這里沒有任何相對(duì)劣勢(shì)的跡象。ViT已經(jīng)從一個(gè)純粹的結(jié)構(gòu)回歸到一個(gè)混合的形式,而全局信息已經(jīng)逐漸回歸到帶有局部bias的混合階段。盡管ViT可以等同于CNN,甚至具有更好的建模能力,但這種簡(jiǎn)單有效的卷積運(yùn)算足以處理淺層中的局部性和語義特征。未來,兩者結(jié)合的精神將推動(dòng)圖像分類取得更多突破。

檢測(cè)Transformer

在本節(jié)中,論文將回顧用于目標(biāo)檢測(cè)的ViT,它可以分為兩個(gè)部分:Transformer Neck和Transformer Backbone。對(duì)于neck,論文主要關(guān)注為Transformer結(jié)構(gòu)指定的一種新表示,稱為object query,即一組可學(xué)習(xí)的參數(shù)等價(jià)地聚集了全局特征。最近的變體試圖在收斂加速或性能改進(jìn)方面解決最優(yōu)融合范式。除了專門為檢測(cè)任務(wù)設(shè)計(jì)的neck外,一部分主干檢測(cè)器還考慮了特定的策略。最后,論文對(duì)它們進(jìn)行了評(píng)估,并分析了這些檢測(cè)器的一些潛在方法。

Transformer Neck

首先回顧DETR[30]和Pix2seq[75],它們是最初的Transformer檢測(cè)器,重新定義了兩種不同的目標(biāo)檢測(cè)范式。隨后,論文主要關(guān)注基于DETR的變體,從五個(gè)方面改進(jìn)了Transformer檢測(cè)器的準(zhǔn)確性和收斂性:稀疏注意力、空間先驗(yàn)、結(jié)構(gòu)重新設(shè)計(jì)、分配優(yōu)化和預(yù)訓(xùn)練模型。

原始檢測(cè)器:DETR[30]是第一個(gè)端到端Transformer檢測(cè)器,它消除了手工設(shè)計(jì)的表示[182]-[185]和非最大抑制(NMS)后處理,這將目標(biāo)檢測(cè)重新定義為集合預(yù)測(cè)問題。詳細(xì)地說,一小組可學(xué)習(xí)的位置編碼,稱為object query,被并行饋送到Transformer解碼器中,以從圖像特征中聚合實(shí)例信息。然后,預(yù)測(cè)頭直接從解碼器的輸出query產(chǎn)生檢測(cè)結(jié)果。在訓(xùn)練過程中,在預(yù)測(cè)目標(biāo)和GT之間使用二分匹配策略,以識(shí)別一對(duì)一的標(biāo)簽分配,從而在沒有NMS的情況下消除推理時(shí)的冗余預(yù)測(cè)。在反向傳播中,匈牙利損失包括所有分類結(jié)果的對(duì)數(shù)似然損失和所有匹配對(duì)的box損失。

總之,DETR為端到端目標(biāo)檢測(cè)提供了一種新的范例。object query在與圖像特征交互期間逐漸學(xué)習(xí)實(shí)例表示。二分匹配允許直接的集合預(yù)測(cè)很容易適應(yīng)一對(duì)一的標(biāo)簽分配,從而消除了傳統(tǒng)的后處理。DETR在COCO基準(zhǔn)上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能,但在小目標(biāo)上存在收斂速度慢和性能差的問題。

另一項(xiàng)開創(chuàng)性工作是Pix2seq[75],將通用目標(biāo)檢測(cè)視為一項(xiàng)語言建模任務(wù)。給定一個(gè)圖像輸入,執(zhí)行一個(gè)vanilla sequential Transformer來提取特征并自動(dòng)回歸生成一系列目標(biāo)描述(即類標(biāo)簽和邊界框)。這種簡(jiǎn)化但更復(fù)雜的圖像caption方法是在這樣的假設(shè)下得出的,即如果模型同時(shí)了解目標(biāo)的位置和標(biāo)簽,則可以教導(dǎo)其生成具有指定序列的描述[75]。與DETR相比,Pix2seq在小目標(biāo)上獲得了更好的結(jié)果。如何將這兩種概念結(jié)合起來值得進(jìn)一步考慮。

稀疏注意力:在DETR中,query和特征圖之間的密集交互耗費(fèi)了難以承受的資源,并減緩了DETR的收斂速度。因此,最近的努力旨在設(shè)計(jì)依賴于數(shù)據(jù)的稀疏注意力來解決這些問題。

繼[186]之后,Zhu等人開發(fā)了Deformable DETR,以通過多尺度deformable attention顯著改善訓(xùn)練收斂性和檢測(cè)性能[76]。與原始DETR相比,deformable attention模塊僅對(duì)一小部分關(guān)鍵點(diǎn)進(jìn)行采樣,以進(jìn)行全特征聚合。這種稀疏注意力可以很容易地?cái)U(kuò)展到多尺度特征融合,而無需FPN[187]的幫助,因此稱為多尺度可定義注意力(MSDA),如圖10所示。其他相關(guān)算法ACT[77]、PnP[78]、Sparse DETR[79]可以參考具體論文。

3007fbbe-5f1f-11ed-8abf-dac502259ad0.png

空間先驗(yàn):與由內(nèi)容和幾何特征[182]、[188]直接生成的anchor或其他表示不同,object query通過隨機(jī)初始化隱式建模空間信息,這與邊界框弱相關(guān)。空間先驗(yàn)應(yīng)用的主流是具有經(jīng)驗(yàn)空間信息的一階段檢測(cè)器和具有幾何坐標(biāo)初始化或感興趣區(qū)域(RoI)特征的兩階段檢測(cè)器。一階段相關(guān)算法有SMCA[80]、Conditional DETR[81]、Anchor DETR[82]、DAB-DETR[83]。二階段相關(guān)算法有Efficient DETR[84]、Dynamic DETR[85]。

結(jié)構(gòu)重新設(shè)計(jì):除了關(guān)注交叉注意力的修改之外,一些工作重新設(shè)計(jì)了僅編碼器的結(jié)構(gòu),以直接避免解碼器的問題。TSP[86]繼承了集合預(yù)測(cè)[30]的思想,并去除了解碼器和object query以加速收斂。這種僅編碼器的DETR重用先前的表示[182]、[188],并生成一組固定大小的感興趣特征(FoI)[188]或proposal[182],這些proposal隨后被饋送到Transformer編碼器。此外,匹配蒸餾被應(yīng)用于解決二分匹配的不穩(wěn)定性,特別是在早期訓(xùn)練階段。Fang等人[87]將DETR的編碼器-解碼器 neck和ViT的僅編碼器主干合并為僅編碼器檢測(cè)器,并開發(fā)了YOLOS,一種純序列到序列轉(zhuǎn)換器,以統(tǒng)一分類和檢測(cè)任務(wù)。它繼承了ViT的結(jié)構(gòu),并用固定大小的可學(xué)習(xí)檢測(cè)token替換了單個(gè)類token。這些目標(biāo)token首先在分類任務(wù)上進(jìn)行預(yù)訓(xùn)練,然后在檢測(cè)基準(zhǔn)上進(jìn)行微調(diào)。

二分匹配優(yōu)化:在DETR[30]中,二分匹配策略迫使預(yù)測(cè)結(jié)果在訓(xùn)練期間完成一對(duì)一的標(biāo)簽分配。這樣的訓(xùn)練策略簡(jiǎn)化了檢測(cè)管道,并在無需NMS幫助的情況下直接構(gòu)建端到端系統(tǒng)。為了深入了解端到端檢測(cè)器的功效,Sun等人致力于探索一對(duì)一預(yù)測(cè)的理論觀點(diǎn)[192]。基于多次消融和理論分析,他們得出結(jié)論,一對(duì)一匹配策略的分類成本是顯著避免重復(fù)預(yù)測(cè)的關(guān)鍵因素。即便如此,DETR仍面臨著由二分匹配引起的多重問題。Li等人[90]利用denoisingDETR(DN-DETR)來減輕二部分匹配的不穩(wěn)定性。具體地說,一系列有輕微擾動(dòng)的目標(biāo)應(yīng)該重建它們的真實(shí)坐標(biāo)和類。去噪(或重建)部分的主要成分是防止匹配部分和噪聲部分之間信息泄漏的注意力掩碼,以及指示擾動(dòng)的指定標(biāo)簽嵌入。其他工作還有DINO[91]。

預(yù)訓(xùn)練:靈感來自預(yù)訓(xùn)練的語言Transformer[3],[5],相關(guān)工作有UP-DETR[88]、FP-DETR[89]。

Transformer Backbone

前文已經(jīng)回顧了許多基于Transformer的圖像分類主干[29]、[40]。這些主干可以很容易地并入各種框架(例如,Mask R-CNN[189]、RetinaNet[184]、DETR[30]等),以執(zhí)行密集預(yù)測(cè)任務(wù)。例如,像PVT[41]、[65]這樣的分層結(jié)構(gòu)將ViT構(gòu)造為一個(gè)高分辨率到低分辨率的過程,以學(xué)習(xí)多尺度特征。局部增強(qiáng)結(jié)構(gòu)將主干構(gòu)建為局部到全局的組合,可以有效地提取短距離和長(zhǎng)距離視覺相關(guān)性,并避免二次計(jì)算開銷,如Swin Transformer[35]、ViL[61]和Focal Transformer[62]。表III包括密集預(yù)測(cè)任務(wù)的這些模型的更詳細(xì)比較。除了通用Transformer主干,特征金字塔Transformer(FPT)[92]通過使用self-attention、自上而下的cross-attention和自底向上的cross channel attention,結(jié)合了空間和尺度的特性。繼[193]之后,HRFormer[93]向Transformer介紹了多分辨率的優(yōu)點(diǎn)以及非重疊的局部self-attention。HRViT[94]重新設(shè)計(jì)了異質(zhì)分支和十字形注意力模塊。

3031b2f6-5f1f-11ed-8abf-dac502259ad0.png

討論

論文在表II中總結(jié)了Transformer neck檢測(cè)器的五個(gè)部分,密集預(yù)測(cè)任務(wù)的Transformer backbone的更多細(xì)節(jié)參見表III。大多數(shù)neck提升集中在以下五個(gè)方面:

1)提出了稀疏注意力模型和評(píng)分網(wǎng)絡(luò),以解決冗余特征交互問題。這些方法可以顯著降低計(jì)算成本并加速模型收斂;

2)將顯式空間先驗(yàn)分解為所選特征初始化和由可學(xué)習(xí)參數(shù)提取的位置信息,將使檢測(cè)器能夠精確預(yù)測(cè)結(jié)果;

3)在Transformer解碼器中擴(kuò)展了多尺度特征和逐層更新,用于小目標(biāo)細(xì)化;

4)改進(jìn)的二分匹配策略有利于避免冗余預(yù)測(cè)以及實(shí)現(xiàn)端到端目標(biāo)檢測(cè);

5)僅編碼器結(jié)構(gòu)減少了整個(gè)Transformer堆棧層,但過度增加了FLOPs,而編碼器-解碼器結(jié)構(gòu)是FLOPs和參數(shù)之間的良好權(quán)衡,但更深的解碼器層可能會(huì)導(dǎo)致長(zhǎng)時(shí)間訓(xùn)練過程和過度平滑的問題。

此外,有許多Transformer主干用于改進(jìn)分類性能,但很少有針對(duì)密集預(yù)測(cè)任務(wù)的工作。未來,論文預(yù)計(jì)Transformer主干將與深度高分辨率網(wǎng)絡(luò)合作,以解決密集預(yù)測(cè)任務(wù)。

3052b0be-5f1f-11ed-8abf-dac502259ad0.png

分割Transformer

Patch-Based 和 Query-Based Transformer是分割的兩種主要應(yīng)用方式。后者可以進(jìn)一步細(xì)分為Object Query 和 Mask Embedding兩類。

Patch-Based Transformer

由于感受野擴(kuò)展策略[194],CNN需要多個(gè)解碼器堆棧來將高級(jí)特征映射到原始空間分辨率。相反,基于patch的Transformer由于其全局建模能力和分辨率不變性,可以很容易地與用于分割mask預(yù)測(cè)的簡(jiǎn)單解碼器結(jié)合。Zheng等人擴(kuò)展了用于語義分割任務(wù)的ViT[29],并通過使用解碼器的三種方式來實(shí)現(xiàn)逐像素分類,提出了SEgmentation TRansformer(SETR)[95]:naive上采樣(naive)、漸進(jìn)上采樣(PUP)和多級(jí)特征聚合(MLA)。SETR展示了ViT用于分割任務(wù)的可行性,但它也帶來了不可接受的額外GPU開銷。TransUNet[96]是第一個(gè)用于醫(yī)學(xué)圖像分割的方法。形式上,它可以被視為帶有MLA解碼器的SETR的變體[95],或者是U-Net[195]和Transformer的混合模型。由于Transformer編碼器強(qiáng)大的全局建模能力,Segformer[97]設(shè)計(jì)了一個(gè)只有四個(gè)MLP層的輕量級(jí)解碼器。當(dāng)使用多種損壞類型的圖像進(jìn)行測(cè)試時(shí),Segformer顯示出比CNN更好的性能和更強(qiáng)的魯棒性。

Query-Based Transformer

Query embedding是一組從圖像輸入中逐漸學(xué)習(xí)的臨時(shí)語義/實(shí)例表示。與patch嵌入不同,query可以更“公平”地集成來自特征的信息,并自然地與集合預(yù)測(cè)損失結(jié)合[30],用于去除后處理。現(xiàn)有的基于query的模型可以分為兩類。一種是由檢測(cè)和分割任務(wù)同時(shí)驅(qū)動(dòng)的(稱為object queries)。另一個(gè)僅由分割任務(wù)(稱為mask embeddings)監(jiān)督。

Object Queries:基于object queries的方法有三種訓(xùn)練方式(圖11)。如圖11(a)所示的Panoptic DETR[30]。圖11(b)所示的Cell-DETR[98]和VisTR[99],以及如圖11(c)所示的QueryInst[100]

30717f1c-5f1f-11ed-8abf-dac502259ad0.png

Mask Embeddings:另一個(gè)框架使用query直接預(yù)測(cè)掩碼,論文將這種基于掩碼的學(xué)習(xí)查詢稱為mask embedding。與object queries不同,mask embedding僅由分割任務(wù)監(jiān)督。如圖11(d)所示,兩個(gè)不相交的query集被并行用于不同的任務(wù),box學(xué)習(xí)被視為進(jìn)一步增強(qiáng)的輔助損失,相關(guān)算法有ISTR[101]、SOLQ[102]。對(duì)于語義和box-free實(shí)例分割,一系列基于query的Transformer直接預(yù)測(cè)掩碼,而不需要框分支的幫助(圖11(e)),相關(guān)算法如Max-DeepLab[31]、Segmenter[103]、Maskformer[104]等。

30964a72-5f1f-11ed-8abf-dac502259ad0.png

討論

論文根據(jù)三個(gè)不同的任務(wù)總結(jié)了上述Transformer。表IV(a)側(cè)重于ADE20K(170類)。可以表明,當(dāng)在具有大量類的數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),ViT的分割性能顯著提高。表IV(b)側(cè)重于實(shí)例分割的COCO測(cè)試數(shù)據(jù)集。顯然,在分割和檢測(cè)任務(wù)中,帶有掩模嵌入的ViT超過了大多數(shù)主流模型。然而,APbox和APseg之間存在巨大的性能差距。通過級(jí)聯(lián)框架,QueryInst[100]在各種Transformer模型中實(shí)現(xiàn)了SOTA。將ViT與混合任務(wù)級(jí)聯(lián)結(jié)構(gòu)相結(jié)合,值得進(jìn)一步研究。表IV(c)側(cè)重于全景分割。Max-DeepLab[31]通常通過掩碼預(yù)測(cè)形式解決全景分割任務(wù)中的前景和背景問題,而Maskformer[104]成功地將這種格式用于語義分割,并將語義和實(shí)例分割任務(wù)統(tǒng)一為一個(gè)模型。基于它們?cè)谌胺指铑I(lǐng)域的表現(xiàn),我們可以得出結(jié)論,ViT可以將多個(gè)分割任務(wù)統(tǒng)一到一個(gè)box-free框架中,并進(jìn)行掩模預(yù)測(cè)。

3D視覺Transformer

隨著3D采集技術(shù)的快速發(fā)展,雙目/單目圖像和LiDAR(Light Detection and Ranging)點(diǎn)云成為3D識(shí)別的流行傳感數(shù)據(jù)。與RGB(D)數(shù)據(jù)不同,點(diǎn)云表示更關(guān)注距離、幾何圖形和形狀信息。值得注意的是,由于其稀疏性、無序性和不規(guī)則性的特點(diǎn),這種幾何特征非常適合Transformer。隨著2D ViT的成功,開發(fā)了大量的3D分析方法。本節(jié)展示了3D ViT在表示學(xué)習(xí)、認(rèn)知映射和特定處理之后的簡(jiǎn)要回顧。

表示學(xué)習(xí)

與傳統(tǒng)的手工設(shè)計(jì)的網(wǎng)絡(luò)相比,ViT更適合于從點(diǎn)云學(xué)習(xí)語義表示,在點(diǎn)云中,這種不規(guī)則和排列不變的性質(zhì)可以轉(zhuǎn)化為一系列具有位置信息的并行嵌入。鑒于此,Point Transformer[105]和PCT[106]首先證明了ViT對(duì)3D表示學(xué)習(xí)的有效性。前者將hierarchical Transformer[105]與下采樣策略[203]合并,并將其先前的vector attention block[25]擴(kuò)展到3D點(diǎn)云。后者首先聚集相鄰點(diǎn)云,然后在全局off-set Transformer上處理這些相鄰嵌入,其中來自圖卷積網(wǎng)絡(luò)(GCN)的知識(shí)遷移被應(yīng)用于噪聲緩解。值得注意的是,由于點(diǎn)云的固有坐標(biāo)信息,位置編碼(ViT的重要操作)在兩種方法中都有所減少。PCT直接處理坐標(biāo),無需位置編碼,而Point Transformer添加了可學(xué)習(xí)的相對(duì)位置編碼以進(jìn)一步增強(qiáng)。繼[105]、[106]之后,Lu等人利用local-global聚合模塊3DCTN[107]來實(shí)現(xiàn)局部增強(qiáng)和成本效率。給定多步長(zhǎng)下采樣組,使用具有max-pooling操作的顯式圖卷積來聚合每個(gè)組內(nèi)的局部信息。將得到的組嵌入級(jí)聯(lián)并饋送到改進(jìn)的Transformer[105]、[106]中,用于全局聚合。Park等人提出了Fast Point Transformer[108],通過使用voxel-hashing鄰域搜索、體素橋接相對(duì)位置編碼和基于余弦相似性的局部關(guān)注來優(yōu)化模型效率。

為了進(jìn)行密集預(yù)測(cè),Pan等人提出了一種定制的基于點(diǎn)云的Transformer主干(Pointformer)[109],用于在每個(gè)層中分別參與局部和全局交互。與以往的局部-全局形式不同,采用局部關(guān)注后的坐標(biāo)細(xì)化操作來更新質(zhì)心點(diǎn)而不是曲面點(diǎn)。局部-全局交叉注意力模型融合了高分辨率特征,然后是全局注意力。Fan等人返回到Single-stride Sparse Transformer(SST)[110],而不是下采樣操作,以解決小目標(biāo)檢測(cè)的問題。與Swin[35]類似,連續(xù)Transformer塊中的移位組被用于分別處理每組token,這進(jìn)一步緩解了計(jì)算問題。在基于體素的方法中,Voxel Transformer(VoTr)[111]采用兩步voxel Transformer來有效地操作空和非空體素位置,包括通過local attention和dilated attention。VoxSeT[112]進(jìn)一步將self-attention分解為兩個(gè)交叉關(guān)注層,一組潛在編碼將它們鏈接起來,以在隱藏空間中保存全局特征。

一系列自監(jiān)督Transformer也被擴(kuò)展到3D空間,例如Point BERT[113]、Point MAE[114]和MaskPoint[115]。具體而言,Point BERT[113]和Point MAE[114]直接將先前的工作[70]、[71]轉(zhuǎn)移到點(diǎn)云,而MaskPoint[115]通過使用與DINO(2022)[91]類似的對(duì)比解碼器來改變生成訓(xùn)練方案,以進(jìn)行自訓(xùn)練。基于大量實(shí)驗(yàn),論文得出結(jié)論,這種生成/對(duì)比自訓(xùn)練方法使ViT能夠在圖像或點(diǎn)云中有效。

Cognition Mapping

鑒于豐富的表示特征,如何將實(shí)例/語義認(rèn)知直接映射到目標(biāo)輸出也引起了相當(dāng)大的興趣。與2D圖像不同,3D場(chǎng)景中的目標(biāo)是獨(dú)立的,可以由一系列離散的表面點(diǎn)直觀地表示。為了彌補(bǔ)這一差距,一些現(xiàn)有的方法將領(lǐng)域知識(shí)轉(zhuǎn)移到2D主流模型中。繼[30]之后,3DETR[116]通過最遠(yuǎn)點(diǎn)采樣和傅里葉位置嵌入將端到端模塊擴(kuò)展到3D目標(biāo)檢測(cè),以用于object queries初始化。Group Free 3D DETR[117]應(yīng)用了比[116]更具體和更強(qiáng)的結(jié)構(gòu)。詳細(xì)地說,當(dāng)object queries時(shí),它直接從提取的點(diǎn)云中選擇一組候選采樣點(diǎn),并在解碼器中逐層迭代地更新它們。Sheng等人提出了一種典型的兩階段方法,該方法利用Channel-wise Transformer3D檢測(cè)器(CT3D)[118]同時(shí)聚合每個(gè)提案中的點(diǎn)云特征的proposal-aware嵌入和channel-wise上下文信息。

對(duì)于單目傳感器,MonoDTR[119]和MonoDETR[120]在訓(xùn)練過程中使用輔助深度監(jiān)督來估計(jì)偽深度位置編碼(DPE)。DETR3D[121]引入了一種多目3D目標(biāo)檢測(cè)范式,其中2D圖像和3D位置都通過攝像機(jī)變換矩陣和一組3D object queries相關(guān)聯(lián)。TransFusion[122]通過連續(xù)通過兩個(gè)Transformer解碼器層與object queries交互,進(jìn)一步利用了LiDAR點(diǎn)和RGB圖像的優(yōu)點(diǎn)。

Specific Processing

受傳感器分辨率和視角的限制,點(diǎn)云在真實(shí)場(chǎng)景中存在不完整、噪聲和稀疏性問題。為此,PoinTr[123]將原始點(diǎn)云表示為一組局部點(diǎn)云代理,并利用幾何感知編碼器-解碼器Transformer將中心點(diǎn)云代理向不完整點(diǎn)云方向遷移。SnowflakeNet[124]將點(diǎn)云補(bǔ)全的過程公式化為類似雪花的生長(zhǎng),它通過point-wise splitting deconvolution策略從父點(diǎn)云逐步生成子點(diǎn)云。相鄰層的skip-Transformer進(jìn)一步細(xì)化父層和子層之間的空間上下文特征,以增強(qiáng)它們的連接區(qū)域。Choe等人將各種生成任務(wù)(例如降噪、補(bǔ)全和超分辨率)統(tǒng)一為點(diǎn)云重構(gòu)問題,因此稱為PointRecon[125]。基于體素散列,它覆蓋了絕對(duì)尺度的局部幾何結(jié)構(gòu),并利用PointTransformerlike[105]結(jié)構(gòu)將每個(gè)體素(query)與其相鄰體素(value-key)進(jìn)行聚合,以便從離散體素到一組點(diǎn)云集進(jìn)行細(xì)粒度轉(zhuǎn)換。此外,增強(qiáng)的位置編碼適用于體素局部attention方案,通過使用L1損失的負(fù)指數(shù)函數(shù)作為樸素位置編碼的權(quán)重來實(shí)現(xiàn)。值得注意的是,與masked生成自訓(xùn)練相比,補(bǔ)全任務(wù)直接生成一組完整點(diǎn)云,而不需要不完整點(diǎn)云的顯式空間先驗(yàn)。

多傳感器數(shù)據(jù)流Transformer

在現(xiàn)實(shí)世界中,多個(gè)傳感器總是互補(bǔ)使用,而不是單個(gè)傳感器。為此,最近的工作開始探索不同的融合方法,以有效地協(xié)同多傳感器數(shù)據(jù)流。與典型的CNN相比,Transformer自然適合于多流數(shù)據(jù)融合,因?yàn)樗姆翘囟ㄇ度牒蛣?dòng)態(tài)交互注意機(jī)制。本節(jié)根據(jù)數(shù)據(jù)流源(同源流和異源流)詳細(xì)介紹了這些方法。

Homologous Stream

同源流是一組具有相似內(nèi)在特征的多傳感器數(shù)據(jù),如多視圖、多維和多模態(tài)視覺流數(shù)據(jù)。根據(jù)融合機(jī)制,它們可以分為兩類:交互融合和遷移融合。

交互融合:CNN的經(jīng)典融合模式采用channel級(jí)聯(lián)操作。然而,來自不同模態(tài)的相同位置可能是各向異性的,這不適合CNN的平移不變偏差。相反,Transformer的空間級(jí)聯(lián)操作使不同的模態(tài)能夠超越局部限制進(jìn)行交互。

對(duì)于局部交互,MVT[126]在空間上連接來自不同視圖的patch嵌入,并通過使用模式不可知的Transformer來加強(qiáng)它們的交互。為了減輕多模態(tài)特征的冗余信息,MVDeTr[127]將特征圖的每個(gè)視圖投影到地平面上,并將多尺度可變形注意力[76]擴(kuò)展到多視圖設(shè)計(jì)。其他相關(guān)算法TransFuser[128]、COTR[129]可參考論文。

對(duì)于全局交互,Wang等人[130]利用共享主干提取不同視圖的特征。代替COTR[129]中的逐像素/逐patch級(jí)聯(lián),提取的逐視圖全局特征在空間上進(jìn)行級(jí)聯(lián),以在Transformer中進(jìn)行視圖融合。考慮到不同相機(jī)視圖之間的角度和位置差異,TransformerFusion[132]首先將每個(gè)視圖特征轉(zhuǎn)換為具有其相機(jī)視圖的內(nèi)部和外部的嵌入向量。這些嵌入然后被饋送到global Transformer中,該global Transformer的注意力權(quán)重用于幀選擇,以便有效地計(jì)算。為了在3D檢測(cè)中統(tǒng)一多傳感器數(shù)據(jù),F(xiàn)UTR3D[131]將類DETR解碼器中的object queries投影到一組3D參考點(diǎn)中云。這些點(diǎn)云及其相關(guān)特征隨后從不同的模態(tài)中采樣并在空間上連接以更新object queries。

遷移融合:與Transformer編碼器通過self-attention實(shí)現(xiàn)的交互式融合不同,另一種融合形式更像是通過交叉關(guān)注機(jī)制從源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的遷移學(xué)習(xí)。例如,Tulder等人[133]在中間主干特征中插入了兩個(gè)協(xié)作的交叉注意力Transformer,用于橋接未配準(zhǔn)的多視圖醫(yī)學(xué)圖像。代替pixel-wise 注意力形式,進(jìn)一步開發(fā)了token-pixel交叉注意力,以減輕繁重的計(jì)算。Long等人[134]提出了一種用于多視圖圖像深度估計(jì)的對(duì)極時(shí)空Transformer。給定包含一系列靜態(tài)多視點(diǎn)幀的單個(gè)視頻,首先將相鄰幀連接起來,然后將對(duì)極線扭曲到中心相機(jī)空間中。最終得到的幀volume作為源數(shù)據(jù),通過交叉注意力與中心幀進(jìn)行融合。對(duì)于空間對(duì)齊的數(shù)據(jù)流,DRT[135]首先通過使用卷積層顯式地建模不同數(shù)據(jù)流之間的關(guān)系圖。隨后將生成的map輸入到雙路徑交叉注意力中,以并行構(gòu)建局部和全局關(guān)系,從而可以收集更多的區(qū)域信息用于青光眼診斷。

Heterologous Stream

ViT在異源數(shù)據(jù)融合方面也表現(xiàn)出色,尤其是在視覺語言表示學(xué)習(xí)方面。盡管不同的任務(wù)可能采用不同的訓(xùn)練方案,例如監(jiān)督/自監(jiān)督學(xué)習(xí)或緊湊/大規(guī)模數(shù)據(jù)集,但論文僅根據(jù)其認(rèn)知形式將其分為兩類:1)視覺語言-預(yù)訓(xùn)練,包括視覺-語言預(yù)訓(xùn)練(VLP)[204]和對(duì)比語言-圖像預(yù)訓(xùn)練(CLIP)[146];2)Visual Grounding如Phrase Grounding(PG)、參考表達(dá)理解(REC)。更多比較見表五。

視覺-語言預(yù)訓(xùn)練:由于有限的標(biāo)注數(shù)據(jù),早期的VLP方法通常依賴于現(xiàn)成的目標(biāo)檢測(cè)器[204]和文本編碼器[5]來提取數(shù)據(jù)特定的特征以進(jìn)行聯(lián)合分布學(xué)習(xí)。給定圖像-文本對(duì),在視覺基因組(VG)上預(yù)先訓(xùn)練的目標(biāo)檢測(cè)器[205]首先從圖像中提取一組以目標(biāo)為中心的RoI特征。然后將用作視覺標(biāo)記的RoI特征與用于預(yù)定義任務(wù)預(yù)訓(xùn)練的文本嵌入合并。基本上,這些方法分為雙流和單流融合。雙流方法包括ViLBERT[137]、LXMERT[138]。單流方法包括VideoBERT[136]、VisualBERT[139]、VL-BERT[140]、UNITER[141]、Oscar[142]、Unified VLP[143]。然而,這些方法嚴(yán)重依賴于視覺提取器或其預(yù)定義的視覺詞匯表,導(dǎo)致了降低VLP表達(dá)能力上限的瓶頸。一些算法如VinVL[145]、ViLT[144]、UniT[149]、SimVLM[150]嘗試解決這個(gè)問題。除了傳統(tǒng)的帶有多任務(wù)監(jiān)督的預(yù)訓(xùn)練方案外,另一條最新的對(duì)比學(xué)習(xí)路線已經(jīng)開發(fā)出來。相關(guān)算法有CLIP[146]、ALIGN[148]、Data2Vec[151]。

Visual Grounding:與VLP相比,Visual Grounding具有更具體的目標(biāo)信號(hào)監(jiān)督,其目標(biāo)是根據(jù)目標(biāo)對(duì)象的相應(yīng)描述來定位目標(biāo)對(duì)象。在圖像空間中,Modulated DETR(MDETR)[152]將其先前的工作[30]擴(kuò)展到phrase grounding預(yù)訓(xùn)練,該訓(xùn)練在一個(gè)描述中定位并將邊界框分配給每個(gè)instance phrase。其他相關(guān)算法Referring Transformer[155]、VGTR[154]、TransVG[153]、LanguageRefer[157]、TransRefer3D[158]、MVT 2022[159]、TubeDETR[160]可以參考具體論文。

30b292ae-5f1f-11ed-8abf-dac502259ad0.png

討論和結(jié)論

近期改進(jìn)總結(jié)

對(duì)于分類,深度分層Transformer主干對(duì)于降低計(jì)算復(fù)雜度[41]和避免深層中的過平滑特征[37]、[42]、[66]、[67]是有效的。同時(shí),早期卷積[39]足以捕獲低層特征,這可以顯著增強(qiáng)魯棒性并降低淺層的計(jì)算復(fù)雜性。此外,卷積投影[54]、[55]和局部注意力機(jī)制[35]、[44]都可以改善ViT的局部性。前者[56]、[57]也可能是替代位置編碼的新方法;

對(duì)于檢測(cè),Transformer neck從編碼器-解碼器結(jié)構(gòu)中受益,其計(jì)算量比僅編碼器Transformer 檢測(cè)器少[87]。因此,解碼器是必要的,但由于其收斂較慢,因此需要更多的空間先驗(yàn)[76],[80]–[85]。此外,前景采樣的稀疏注意力[76]和評(píng)分網(wǎng)絡(luò)[78]、[79]有助于降低計(jì)算成本并加速ViT的收斂;

對(duì)于分割,編碼器-解碼器Transformer模型可以通過一組可學(xué)習(xí)的mask embedding[31]、[103]、[202]將三個(gè)分割子任務(wù)統(tǒng)一為mask預(yù)測(cè)問題。這種box-free方法在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最新的SOTA性能[202]。此外,特定的混合任務(wù)與基于框的ViT[100]級(jí)聯(lián),該模型在實(shí)例分割方面表現(xiàn)出了更高的性能;

對(duì)于3D視覺,具有評(píng)分網(wǎng)絡(luò)的局部分層Transformer可以有效地從點(diǎn)云數(shù)據(jù)中提取特征。全局建模能力使Transformer能夠輕松聚合曲面點(diǎn),而不是復(fù)雜的局部設(shè)計(jì)。此外,ViT可以處理3D視覺識(shí)別中的多傳感器數(shù)據(jù),如多視圖和多維數(shù)據(jù);

視覺-語言預(yù)訓(xùn)練的主流方法已經(jīng)逐漸放棄了預(yù)訓(xùn)練的檢測(cè)器[144],并專注于基于大規(guī)模噪聲數(shù)據(jù)集[148]的潛在空間中不同數(shù)據(jù)流之間的對(duì)齊[146]或相似性[151]。另一個(gè)問題是使下游視覺任務(wù)適應(yīng)預(yù)訓(xùn)練方案,以進(jìn)行zero-shot遷移[146];

最近流行的多傳感器數(shù)據(jù)融合架構(gòu)是單流方法,它在空間上連接不同的數(shù)據(jù)流并同時(shí)執(zhí)行交互。基于單流模型,最近的許多工作致力于尋找一個(gè)潛在空間,使不同的數(shù)據(jù)流語義一致。

ViT的討論

盡管ViT模型有了很大的發(fā)展,但“基本”理解仍然不夠。因此,論文將重點(diǎn)審查一些關(guān)鍵問題,以獲得深入和全面的理解。

Transformer如何彌合語言和視覺之間的鴻溝

Transformer最初是為機(jī)器翻譯任務(wù)設(shè)計(jì)的[1],其中句子的每個(gè)單詞都被視為表示高級(jí)語義信息的基本單元。這些詞可以嵌入到低維向量空間中的表示中。對(duì)于視覺任務(wù),圖像的每個(gè)像素都不能攜帶語義信息,這與傳統(tǒng)NLP任務(wù)中的特征嵌入不匹配。因此,將這種特征嵌入(即單詞嵌入)轉(zhuǎn)移到CV任務(wù)中的關(guān)鍵是構(gòu)建圖像到向量的轉(zhuǎn)換并有效地保持圖像的特征。例如,ViT[29]在強(qiáng)松弛條件下將圖像轉(zhuǎn)換為具有多個(gè)低層信息的patch嵌入。

Transformer、Self-Attention與CNN的關(guān)系

從CNN的角度來看,其inductive bias主要表現(xiàn)為局部性、平移不變性、權(quán)重共享和稀疏連接。這種簡(jiǎn)單的卷積內(nèi)核可以在低級(jí)語義處理中高效地進(jìn)行模板匹配,但由于過度的偏差,其上限低于Transformers。

從self-attention機(jī)制的角度來看,當(dāng)采用足夠數(shù)量的head時(shí),它們理論上可以表示任何卷積層[28]。這種完全注意力操作可以結(jié)合局部和全局注意力,并根據(jù)特征關(guān)系動(dòng)態(tài)生成注意力權(quán)重。盡管如此,它的實(shí)用性仍然不如SOTA CNN,因?yàn)榫雀停?jì)算成本更高。

從Transformer的角度來看,Dong等人證明,當(dāng)在沒有short connection或FFN的深層上訓(xùn)練self-attention層時(shí),self-attention表現(xiàn)出對(duì)“token uniformity”的強(qiáng)烈感應(yīng)偏差[167]。可以得出結(jié)論,Transformer由兩個(gè)關(guān)鍵組件組成:self-attention聚合token的關(guān)系,以及按位置的FFN從輸入中提取特征。盡管ViT具有強(qiáng)大的全局建模能力,CNN可以有效地處理低級(jí)特征[39]、[58],增強(qiáng)ViT的局部性[53]、[81],并通過填充[56]、[57]、[172]附加位置特征。

不同視覺任務(wù)的可學(xué)習(xí)嵌入

各種可學(xué)習(xí)的嵌入被設(shè)計(jì)用于進(jìn)行不同的視覺任務(wù)。從目標(biāo)任務(wù)的角度來看,這些嵌入可以分為class token、object query和mask embedding。從結(jié)構(gòu)上看,這些ViT主要采用兩種不同的模式,編碼器和編碼器-解碼器。如圖15所示,每個(gè)結(jié)構(gòu)由三個(gè)嵌入級(jí)別組成。在位置級(jí)別上,編碼器Transformer中可學(xué)習(xí)嵌入的應(yīng)用被分解為initial token[29]、[87]和later token[42]、[103],而可學(xué)習(xí)位置編碼[30]、[81]、,[202]和可學(xué)習(xí)的解碼器輸入嵌入[76]被應(yīng)用于編碼器-解碼器結(jié)構(gòu)。在數(shù)量層面上,編碼器僅設(shè)計(jì)應(yīng)用不同數(shù)量的token。例如,ViT[29]、[40]家族和YOLOS[87]將不同數(shù)量的token添加到初始層中,而CaiT[42]和Segmenter[103]利用這些token來表示不同任務(wù)中最后幾層的特征。在編碼器-解碼器結(jié)構(gòu)中,解碼器的可學(xué)習(xí)位置編碼(object query[30]、[81]或mask embedding[202])被顯式地加入到解碼器輸入[30],[202]或隱式地加入到解碼器輸入[80],[81]。與恒定輸入不同,Deformable DETR[76]采用可學(xué)習(xí)嵌入作為輸入,并關(guān)注編碼器輸出。

30d72a74-5f1f-11ed-8abf-dac502259ad0.png

在多頭注意力機(jī)制的啟發(fā)下,使用多個(gè)初始token的策略有望進(jìn)一步提高分類性能。然而,DeiT[40]指出,這些額外的token將朝著相同的結(jié)果收斂,并且不會(huì)對(duì)ViT有利。從另一個(gè)角度來看,YOLOS[87]提供了一種范例,通過使用多個(gè)初始token來統(tǒng)一分類和檢測(cè)任務(wù),但這種編碼器的設(shè)計(jì)只會(huì)導(dǎo)致更高的計(jì)算復(fù)雜度。根據(jù)CaiT[42]的觀察,較后的class token可以略微降低Transformer的FLOPs并提高性能(從79.9%提高到80.5%)。Segmenter[103]也展示了分割任務(wù)的策略效率。

與具有多個(gè)后期token的僅編碼器Transformer不同,編碼器-解碼器結(jié)構(gòu)減少了計(jì)算成本。它通過使用一小組object query(mask embedding)在檢測(cè)[30]和分割[202]領(lǐng)域標(biāo)準(zhǔn)化了ViT。通過組合后期token和object query(mask embedding),像Deformable DETR[76]這樣的結(jié)構(gòu),它將object query和可學(xué)習(xí)解碼器嵌入(相當(dāng)于后期token)作為輸入,可以將不同任務(wù)的可學(xué)習(xí)嵌入統(tǒng)一到Transformer編碼器解碼器中。

未來研究方向

ViT已經(jīng)取得了重大進(jìn)展,并取得了令人鼓舞的結(jié)果,在多個(gè)基準(zhǔn)上接近甚至超過了SOTA CNN方法。然而,ViT的一些關(guān)鍵技術(shù)仍然不足以應(yīng)對(duì)CV領(lǐng)域的復(fù)雜挑戰(zhàn)。基于上述分析,論文指出了未來研究的一些有前景的研究方向。

集合預(yù)測(cè):由于損失函數(shù)的相同梯度,多類token將一致收斂[40]。具有二分損失函數(shù)的集合預(yù)測(cè)策略已廣泛應(yīng)用于ViT,用于許多密集預(yù)測(cè)任務(wù)[30],[202]。因此,自然要考慮分類任務(wù)的集合預(yù)測(cè)設(shè)計(jì),例如,多類token Transformer通過集合預(yù)測(cè)預(yù)測(cè)混合patch中的圖像,這與LV-ViT中的數(shù)據(jù)增強(qiáng)策略類似[43]。此外,集合預(yù)測(cè)策略中的一對(duì)一標(biāo)簽分配導(dǎo)致早期過程中的訓(xùn)練不穩(wěn)定,這可能會(huì)降低最終結(jié)果的準(zhǔn)確性。使用其他標(biāo)簽分配和損失改進(jìn)集合預(yù)測(cè)可能有助于新的檢測(cè)框架。

自監(jiān)督學(xué)習(xí):Transformer的自監(jiān)督預(yù)訓(xùn)練使NLP領(lǐng)域標(biāo)準(zhǔn)化,并在各種應(yīng)用中取得巨大成功[2],[5]。由于自監(jiān)督范式在CV領(lǐng)域的流行,卷積孿生網(wǎng)絡(luò)使用對(duì)比學(xué)習(xí)來實(shí)現(xiàn)自監(jiān)督預(yù)訓(xùn)練,這與NLP領(lǐng)域中使用的masked自動(dòng)編碼器不同。最近,一些研究試圖設(shè)計(jì)自監(jiān)督的ViT,以彌合視覺和語言之間的預(yù)訓(xùn)練方法的差異。它們中的大多數(shù)繼承了NLP領(lǐng)域中的masked自動(dòng)編碼器或CV領(lǐng)域中的對(duì)比學(xué)習(xí)方案。ViT沒有特定的監(jiān)督方法,但它徹底改變了GPT-3等NLP任務(wù)。如前文所述,編碼器-解碼器結(jié)構(gòu)可以通過聯(lián)合學(xué)習(xí)解碼器嵌入和位置編碼來統(tǒng)一視覺任務(wù)。因此,值得進(jìn)一步研究用于自監(jiān)督學(xué)習(xí)的編碼器-編碼器Transformer。

結(jié)論

自從ViT證明了其在CV任務(wù)中的有效性之后,ViT受到了相當(dāng)大的關(guān)注,并削弱了CNN在CV領(lǐng)域的主導(dǎo)地位。本文全面回顧了100多個(gè)ViT模型,這些模型相繼應(yīng)用于各種視覺任務(wù)(即分類、檢測(cè)和分割)和數(shù)據(jù)流(如圖像、點(diǎn)云、圖像文本對(duì)和其他多個(gè)數(shù)據(jù)流)。對(duì)于每個(gè)視覺任務(wù)和數(shù)據(jù)流,提出了一種特定的分類法來組織最近開發(fā)的ViT,并在各種主流基準(zhǔn)上進(jìn)一步評(píng)估其性能。通過對(duì)所有這些現(xiàn)有方法的綜合分析和系統(tǒng)比較,本文總結(jié)了顯著的性能改進(jìn),還討論了ViT的三個(gè)基本問題,并進(jìn)一步提出了未來投資的幾個(gè)潛在研究方向。我們希望這篇綜述文章能幫助讀者在決定進(jìn)行深入探索之前更好地理解各種視覺Transformer。

參考

[1] A Survey of Visual Transformers

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3772

    瀏覽量

    137114
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4806

    瀏覽量

    102739
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14004

原文標(biāo)題:一文詳解視覺Transformer在CV中的現(xiàn)狀、趨勢(shì)和未來方向(分類/檢測(cè)/分割/多傳感器融合)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    工業(yè)電機(jī)行業(yè)現(xiàn)狀未來發(fā)展趨勢(shì)分析

    過大數(shù)據(jù)分析的部分觀點(diǎn),可能對(duì)您的企業(yè)規(guī)劃有一定的參考價(jià)值。點(diǎn)擊附件查看全文*附件:工業(yè)電機(jī)行業(yè)現(xiàn)狀未來發(fā)展趨勢(shì)分析.doc 本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請(qǐng)第一時(shí)間告知,刪除內(nèi)
    發(fā)表于 03-31 14:35

    Arm帶你了解2025年及未來不同技術(shù)市場(chǎng)的關(guān)鍵技術(shù)方向

    Arm 對(duì)未來技術(shù)的發(fā)展方向及可能出現(xiàn)的趨勢(shì)有著廣泛而深刻的洞察。在上周的文章,我們預(yù)測(cè)了 AI 和芯片設(shè)計(jì)方面的未來
    的頭像 發(fā)表于 01-24 16:14 ?1244次閱讀

    Arm預(yù)測(cè)2025年芯片設(shè)計(jì)發(fā)展趨勢(shì)

    Arm 對(duì)未來技術(shù)的發(fā)展方向及可能出現(xiàn)的趨勢(shì)有著廣泛而深刻的洞察。《Arm 解析未來行業(yè)技術(shù)趨勢(shì)
    的頭像 發(fā)表于 01-20 09:52 ?803次閱讀

    AI云平臺(tái)的未來趨勢(shì)與發(fā)展方向

    AI云平臺(tái)通過提供高效的數(shù)據(jù)處理、模型訓(xùn)練、推理服務(wù)以及便捷的開發(fā)工具,極大地降低了企業(yè)應(yīng)用AI的門檻,加速了AI技術(shù)的普及與創(chuàng)新。以下是對(duì)AI云平臺(tái)未來趨勢(shì)與發(fā)展方向的探討,由AI部落小編整理。
    的頭像 發(fā)表于 12-02 17:34 ?744次閱讀

    未來AI大模型的發(fā)展趨勢(shì)

    未來AI大模型的發(fā)展趨勢(shì)將呈現(xiàn)多元化和深入化的特點(diǎn),以下是對(duì)其發(fā)展趨勢(shì)的分析: 一、技術(shù)驅(qū)動(dòng)與創(chuàng)新 算法與架構(gòu)優(yōu)化 : 隨著Transformer架構(gòu)的廣泛應(yīng)用,AI大模型
    的頭像 發(fā)表于 10-23 15:06 ?1723次閱讀

    淺談自動(dòng)駕駛技術(shù)的現(xiàn)狀及發(fā)展趨勢(shì)

    自動(dòng)駕駛技術(shù),作為人工智能和計(jì)算機(jī)科學(xué)領(lǐng)域的一項(xiàng)重要應(yīng)用,近年來取得了顯著的發(fā)展與進(jìn)步。它不僅代表著汽車產(chǎn)業(yè)的未來方向,更預(yù)示著人類出行方式的深刻變革。 一、自動(dòng)駕駛技術(shù)的現(xiàn)狀 自動(dòng)駕駛技術(shù),也稱為
    的頭像 發(fā)表于 10-22 14:33 ?3102次閱讀

    醫(yī)療機(jī)器人發(fā)展現(xiàn)狀趨勢(shì)

    醫(yī)療機(jī)器人作為醫(yī)療領(lǐng)域與現(xiàn)代機(jī)器人科技的融合體,正逐步引領(lǐng)醫(yī)療服務(wù)向更高效、更精準(zhǔn)的方向發(fā)展。以下是對(duì)醫(yī)療機(jī)器人發(fā)展現(xiàn)狀趨勢(shì)的詳細(xì)分析:
    的頭像 發(fā)表于 10-21 15:24 ?4416次閱讀

    變阻器的未來發(fā)展趨勢(shì)和前景如何?是否有替代品出現(xiàn)?

    變阻器是一種用于調(diào)節(jié)電路電阻值的電子元件,廣泛應(yīng)用于各種電子設(shè)備和系統(tǒng)。隨著科技的不斷進(jìn)步和應(yīng)用領(lǐng)域的擴(kuò)展,變阻器的未來發(fā)展趨勢(shì)和前景備受關(guān)注。
    發(fā)表于 10-10 14:35

    工控機(jī)廠家發(fā)展現(xiàn)狀未來趨勢(shì)

    發(fā)揮著重要作用。本文將探討工控機(jī)廠家的發(fā)展現(xiàn)狀、市場(chǎng)需求、技術(shù)創(chuàng)新以及未來趨勢(shì)。一、工控機(jī)廠家發(fā)展現(xiàn)狀工控機(jī)廠家是指專門從事工業(yè)控制計(jì)算機(jī)設(shè)計(jì)、研發(fā)、生產(chǎn)和銷售的企業(yè)。
    的頭像 發(fā)表于 09-29 11:01 ?857次閱讀
    工控機(jī)廠家發(fā)展<b class='flag-5'>現(xiàn)狀</b>及<b class='flag-5'>未來</b><b class='flag-5'>趨勢(shì)</b>

    嵌入式系統(tǒng)的未來趨勢(shì)有哪些?

    嵌入式系統(tǒng)是指將我們的操作系統(tǒng)和功能軟件集成于計(jì)算機(jī)硬件系統(tǒng)之中,形成一個(gè)專用的計(jì)算機(jī)系統(tǒng)。那么嵌入式系統(tǒng)的未來趨勢(shì)有哪些呢? 1. 人工智能與機(jī)器學(xué)習(xí)的整合 隨著現(xiàn)代人工智能(AI)和機(jī)器學(xué)習(xí)
    發(fā)表于 09-12 15:42

    Transformer架構(gòu)自然語言處理的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來了革命性的變革。本文將深入探討Transformer架構(gòu)的核心思想、組成部分以及自然語言處理領(lǐng)域的
    的頭像 發(fā)表于 07-09 11:42 ?1469次閱讀

    Transformer模型語音識(shí)別和語音生成的應(yīng)用優(yōu)勢(shì)

    自然語言處理、語音識(shí)別、語音生成等多個(gè)領(lǐng)域展現(xiàn)出強(qiáng)大的潛力和廣泛的應(yīng)用前景。本文將從Transformer模型的基本原理出發(fā),深入探討其語音識(shí)別和語音生成的應(yīng)用優(yōu)勢(shì),并展望其未來發(fā)
    的頭像 發(fā)表于 07-03 18:24 ?1979次閱讀

    具身智能與人形機(jī)器人領(lǐng)域現(xiàn)狀、挑戰(zhàn)以及未來方向

    人工智能(AI)的眾多前沿領(lǐng)域中,具身智能(Embodied Intelligence)已成為今年一級(jí)市場(chǎng)最引人矚目的投資熱點(diǎn)。第六屆北京智源大會(huì)的熱烈氛圍,北京智源人工智能研究院院長(zhǎng)王仲遠(yuǎn)接受了《中國(guó)電子報(bào)》記者的專訪,
    的頭像 發(fā)表于 06-20 10:52 ?1361次閱讀

    機(jī)器視覺智能制造的應(yīng)用

    隨著科技的飛速發(fā)展,智能制造已成為現(xiàn)代工業(yè)的重要趨勢(shì)。作為智能制造的關(guān)鍵技術(shù)之一,機(jī)器視覺技術(shù)正發(fā)揮著越來越重要的作用。機(jī)器視覺技術(shù)通過模擬人眼的
    的頭像 發(fā)表于 06-06 17:22 ?1070次閱讀

    計(jì)算機(jī)視覺的主要研究方向

    計(jì)算機(jī)視覺(Computer Vision, CV)作為人工智能領(lǐng)域的一個(gè)重要分支,致力于使計(jì)算機(jī)能夠像人眼一樣理解和解釋圖像和視頻的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,計(jì)算機(jī)視覺
    的頭像 發(fā)表于 06-06 17:17 ?1651次閱讀