女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer的興起:提高實(shí)時(shí)視覺處理的準(zhǔn)確度

lPCU_elecfans ? 來源:電子發(fā)燒友網(wǎng) ? 2023-01-12 11:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2017 年在 Google的一篇研究論文中首次提出了Transformer模型,它最初是為自然語(yǔ)言處理 (NLP) 任務(wù)而設(shè)計(jì)的。最近,研究人員將Transformer應(yīng)用在了視覺應(yīng)用領(lǐng)域(在過去十年中由卷積神經(jīng)網(wǎng)絡(luò) (CNNs) 占據(jù)主導(dǎo)地位),并獲得了有趣的結(jié)果。事實(shí)證明,Transformer對(duì)圖像分類和物體檢測(cè)等視覺任務(wù)的適應(yīng)性令人驚訝。這些結(jié)果為Transformer贏得了在視覺任務(wù)中與 CNN 比肩的地位。這些任務(wù)旨在提高機(jī)器對(duì)環(huán)境的理解,以用于情境感知視頻推理等未來應(yīng)用。

2012 年,名為 AlexNet 的卷積神經(jīng)網(wǎng)絡(luò)(CNN)贏得了 ImageNet 大規(guī)模視覺識(shí)別挑戰(zhàn)賽 (ILSVRC),這是一項(xiàng)年度計(jì)算機(jī)視覺競(jìng)賽。任務(wù)是讓您的機(jī)器學(xué)習(xí)并“分類”1000 個(gè)不同的圖像(基于 ImageNet 數(shù)據(jù)集)。AlexNet 實(shí)現(xiàn)了 15.3% 的 top-5 錯(cuò)誤率。往屆的獲勝者是基于傳統(tǒng)編程模型,實(shí)現(xiàn)的 top-5 錯(cuò)誤率大約是 26%(見圖 1)。在這之后,CNN 一直占據(jù)統(tǒng)治地位。2016 年和 2017 年,獲勝的 CNN 實(shí)現(xiàn)了比人類更高的準(zhǔn)確度。大多數(shù)參與者實(shí)現(xiàn)了超過 95% 的準(zhǔn)確度,促使 ImageNet 在 2018 年推出一項(xiàng)難度更高的全新挑戰(zhàn)。CNN 在 ILSVRC 挑戰(zhàn)賽中的統(tǒng)治地位推動(dòng)了人們大量研究如何將 CNN 應(yīng)用于實(shí)時(shí)視覺應(yīng)用。在準(zhǔn)確度不斷提高的同時(shí),ResNet 和 EfficientNet 分別于 2015 年和 2020 年將效率提升了 10 倍。實(shí)時(shí)視覺應(yīng)用不僅需要準(zhǔn)確度,還需要更高的性能(推理/秒或每秒幀數(shù) (fps))、縮小模型尺寸(提高帶寬),以及功率和面積效率。

903444dc-918a-11ed-bfe3-dac502259ad0.png

圖 1:ILSVRC 結(jié)果凸顯了 AlexNet(一種卷積神經(jīng)網(wǎng)絡(luò))帶來了顯著提高的視覺分類準(zhǔn)確度。

分類是更復(fù)雜、更有用的視覺應(yīng)用的基石。這些視覺應(yīng)用包括對(duì)象檢測(cè)(在二維圖像中找到對(duì)象的位置)、語(yǔ)義分割(對(duì)圖像中的每個(gè)像素進(jìn)行分組/標(biāo)記)和全景分割(識(shí)別對(duì)象位置以及對(duì)每個(gè)對(duì)象中的每個(gè)像素進(jìn)行標(biāo)記/分組)。2017 年 Google Brain 的論文中首次介紹的Transformer旨在改進(jìn)遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 和長(zhǎng)短時(shí)記憶 (LSTM),用于翻譯、問答和對(duì)話式 AI 等 NLP 任務(wù)。RNN 和 LSTM 已用于處理順序數(shù)據(jù)(即數(shù)字化語(yǔ)言和語(yǔ)音),但其架構(gòu)不易并行化,因此通常具有非常有限的帶寬,難以訓(xùn)練。Transformer的結(jié)構(gòu)與 RNN 和 LSTM 相比具有幾個(gè)優(yōu)勢(shì)。與必須按順序讀取一串文本的 RNN 和 LSTM 不同,Transformer明顯更易并行化,并且可以同時(shí)以完整的單詞順序讀取,從而更好地學(xué)習(xí)文本字符串中單詞之間的上下文關(guān)系。

2018年底,谷歌提出了預(yù)訓(xùn)練模型雙向編碼表征Transformer(BERT),其在多項(xiàng)NLP任務(wù)上均取得了突破性的進(jìn)展,大受歡迎,以至于被納入 MLCommons 的 MLPerf 神經(jīng)網(wǎng)絡(luò)推理基準(zhǔn)測(cè)試套件中。除了準(zhǔn)確度高之外,Transformer還更容易被訓(xùn)練,使大型Transformer成為可能。MTM、GPT-3、T5、ALBERT、RoBERTa、T5、Switch AS 只是處理 NLP 任務(wù)的一些大型轉(zhuǎn)換器。由 OpenAI 于 2020 年推出的生成預(yù)訓(xùn)練Transformer3 (GPT-3) 使用深度學(xué)習(xí)來生成類似人類的文本,準(zhǔn)確度很高,以至于很難判定該文本是否由人類編寫。

像 BERT 這樣的Transformer可以成功地應(yīng)用于其他應(yīng)用領(lǐng)域,并具有極具前景的嵌入式使用效果。可以在廣泛的數(shù)據(jù)上訓(xùn)練并應(yīng)用于各種應(yīng)用的 AI 模型被稱為基礎(chǔ)模型。在其中的視覺領(lǐng)域,Transformer取得了令人驚嘆的成就。

應(yīng)用于視覺的Transformer

2021 年發(fā)生了一些非凡的事情。Google Brain 團(tuán)隊(duì)將其Transformer模型應(yīng)用于圖像分類。一連串單詞和二維圖像之間存在很大差異,但 Google Brain 團(tuán)隊(duì)將圖像切成小塊,將這些小塊圖像中的像素放入矢量中,并將矢量饋送到Transformer中。結(jié)果令人驚訝。在不對(duì)模型進(jìn)行任何修改的情況下,Transformer在分類方面的準(zhǔn)確度優(yōu)于最先進(jìn)的 CNN。雖然準(zhǔn)確度不是實(shí)時(shí)視覺應(yīng)用的唯一指標(biāo)(功率、成本、面積)和推理/秒也很重要),但這在視覺領(lǐng)域中堪稱一項(xiàng)重大成果。

905ac83c-918a-11ed-bfe3-dac502259ad0.png

圖 2:Transformer和 CNN 結(jié)構(gòu)對(duì)比

比較 CNN 和Transformer對(duì)了解其類似結(jié)構(gòu)很有幫助。在圖 2 中,Transformer的結(jié)構(gòu)由圖像左側(cè)的方框組成。為了進(jìn)行比較,我們使用與 ResNet 中發(fā)現(xiàn)的結(jié)構(gòu)類似的典型 CNN 結(jié)構(gòu)來繪制 CNN 的類似結(jié)構(gòu)。ResNet 是具有逐元素加法的 1x1 卷積。我們發(fā)現(xiàn)Transformer的前饋部分在功能上與 CNN 的 1x1 卷積相同。這些是矩陣乘法運(yùn)算,可在特征圖中的每個(gè)點(diǎn)上應(yīng)用線性轉(zhuǎn)換。

Transformer和 CNN 之間的區(qū)別在于兩者如何混合來自相鄰像素的信息。這發(fā)生在Transformer的多頭注意力和卷積網(wǎng)絡(luò)的 3x3 卷積中。對(duì)于CNN,混合的信息基于每個(gè)像素的固定空間位置,如圖 3 中所示。對(duì)于 3x3 卷積,使用相鄰像素(中心像素周圍的九個(gè)像素)計(jì)算加權(quán)和。

9076490e-918a-11ed-bfe3-dac502259ad0.png

圖 3:說明 CNN 的卷積和Transformer的注意力網(wǎng)絡(luò)在混合其他令牌/像素的特征方面有何差異。

Transformer的注意力機(jī)制不僅基于位置,還基于學(xué)習(xí)屬性來混合數(shù)據(jù)。在訓(xùn)練期間,Transformer可以學(xué)習(xí)關(guān)注其他像素。注意力網(wǎng)絡(luò)具有更強(qiáng)的學(xué)習(xí)和表達(dá)更復(fù)雜關(guān)系的能力。

推出視覺Transformer轉(zhuǎn)換器和偏移窗口Transformer

專門用于視覺任務(wù)的新型Transformer正在興起。專門從事圖像分類的視覺Transformer (ViT) 現(xiàn)在正在準(zhǔn)確度方面擊敗 CNN(盡管要實(shí)現(xiàn)這種準(zhǔn)確度,ViT需要用非常大的數(shù)據(jù)集進(jìn)行訓(xùn)練)。ViT 還需要更多的計(jì)算,這會(huì)降低其 fps 性能。

Transformer也正在應(yīng)用于對(duì)象檢測(cè)和語(yǔ)義分割。Swin(偏移窗口)Transformer為對(duì)象檢測(cè) (COCO) 和語(yǔ)義分割 (ADE20K) 提供了最先進(jìn)的準(zhǔn)確度。雖然 CNN 通常應(yīng)用于靜態(tài)圖像,但由于對(duì)以前或?qū)淼膸涣私猓D(zhuǎn)換器可以應(yīng)用于視頻幀。SWIN 的變體可直接應(yīng)用于視頻,用于動(dòng)作分類等用途。將Transformer的注意力分別應(yīng)用于時(shí)間和空間,為 Kinetics-400 和 Kinetics-600 動(dòng)作分類基準(zhǔn)測(cè)試提供了最先進(jìn)的結(jié)果。

Apple 于 2022 年初推出的 MobileViT(圖 4)提供了Transformer和CNN的有趣組合。MobileViT 結(jié)合了Transformer和 CNN 功能,為針對(duì)移動(dòng)應(yīng)用程序的視覺分類創(chuàng)建了輕量級(jí)模型。與僅使用 CNN 的 MobileNet 相比,這種Transformer和CNN的組合使相同尺寸的模型(6M 系數(shù))的準(zhǔn)確度提高了 3%。盡管 MobileViT 的性能優(yōu)于 MobileNet,但它仍然慢于當(dāng)今支持 CNN 但沒有針對(duì)Transformer進(jìn)行優(yōu)化的手機(jī)上的 CNN 實(shí)現(xiàn)。要想利用Transformer的優(yōu)勢(shì),未來的視覺 AI 加速器將需要更好的Transformer支持。

908a50a2-918a-11ed-bfe3-dac502259ad0.png

圖 4:MobileViT:輕量、通用和移動(dòng)友好型視覺Transformer(圖片來源:https://arxiv.org/abs/2110.02178)

盡管Transformer在視覺任務(wù)方面取得了成功,但卷積網(wǎng)絡(luò)不太可能很快消失。這兩種方法之間仍然存在權(quán)衡,Transformer具有更高的準(zhǔn)確度,但 fps 性能低得多,需要更多的計(jì)算和數(shù)據(jù)移動(dòng)。為了規(guī)避兩者的弱點(diǎn),將Transformer和 CNN 相結(jié)合可以產(chǎn)生具有巨大前景的靈活解決方案。

Transformer的實(shí)現(xiàn)盡管在架構(gòu)上存在相似之處,但無法讓專門為 CNN 設(shè)計(jì)的加速器有效地執(zhí)行Transformer。至少需要考慮架構(gòu)增強(qiáng),以處理注意力機(jī)制。

新思科技 的 ARC NPX6 NPU IP 是 AI 加速器的一個(gè)例子,該加速器旨在高效處理 CNN 和Transformer。NPX6 的計(jì)算單元(圖 5)包括卷積加速器,該加速器旨在處理對(duì) CNN 和Transformer都至關(guān)重要的矩陣乘法。張量加速器也至關(guān)重要,因?yàn)樗荚谔幚硭衅渌蔷矸e張量算子集架構(gòu) (TOSA) 運(yùn)算,包括Transformer運(yùn)算。

909d2a88-918a-11ed-bfe3-dac502259ad0.png

圖 5:新思科技 ARC NPX6 NPU IP

總結(jié)

視覺Transformer已經(jīng)取得了快速進(jìn)步,并將繼續(xù)保持。這些基于注意力的網(wǎng)絡(luò)在準(zhǔn)確度方面優(yōu)于僅支持 CNN 的網(wǎng)絡(luò)。將視覺Transformer與卷積相結(jié)合的模型在推理(如 MobileViT)方面更高效,并提高了性能效率。這種新型神經(jīng)網(wǎng)絡(luò)模型正在開啟解決未來 AI 任務(wù)的大門,例如完全視覺感知,其需要的知識(shí)單靠視覺可能不易獲取。Transformer與 CNN 相結(jié)合,引領(lǐng)著新一代 AI 的發(fā)展。選擇同時(shí)支持 CNN 和Transformer的架構(gòu),對(duì)于新興 AI 應(yīng)用的 SoC 成功至關(guān)重要。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:Transformer的興起:提高實(shí)時(shí)視覺處理的準(zhǔn)確度

文章出處:【微信號(hào):elecfans,微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    電能表的準(zhǔn)確度如何定義?

    電能表
    電幫主
    發(fā)布于 :2025年06月04日 10:07:55

    電工儀表準(zhǔn)確度等級(jí)詳解

    一、準(zhǔn)確度等級(jí)的定義 以下是“JJF1001-2011通用計(jì)量術(shù)語(yǔ)”對(duì)準(zhǔn)確度級(jí)準(zhǔn)確度等級(jí)的相關(guān)定義: 1、測(cè)量準(zhǔn)確度 measurement accuracy,sccuracy
    的頭像 發(fā)表于 05-19 10:20 ?667次閱讀
    電工儀表<b class='flag-5'>準(zhǔn)確度</b>等級(jí)詳解

    利用隔離式精密信號(hào)鏈保持?jǐn)?shù)據(jù)采集的準(zhǔn)確度

    數(shù)字時(shí)代改變了解決問題的范式,將智能引入邊緣可以應(yīng)對(duì)全新的復(fù)雜挑戰(zhàn)。數(shù)據(jù)采集(DAQ)系統(tǒng)成為了邊緣智能的核心。在數(shù)據(jù)采集領(lǐng)域,準(zhǔn)確度和可靠性至關(guān)重要。為確保達(dá)到高準(zhǔn)確度和完整性,隔離式精密信號(hào)鏈的重要性不容忽視。
    的頭像 發(fā)表于 03-17 14:43 ?702次閱讀

    直線測(cè)量?jī)x如何測(cè)量鈦合金鋼管的全長(zhǎng)直線

    能夠精確測(cè)量鋼管邊緣或表面的位置數(shù)據(jù),并通過內(nèi)置的數(shù)據(jù)處理系統(tǒng)計(jì)算出鋼管的直線誤差。 二、測(cè)量步驟 1.準(zhǔn)備階段: o確保直線測(cè)量?jī)x處于良好的工作狀態(tài),校準(zhǔn)準(zhǔn)確。 o將鈦合金鋼管放
    發(fā)表于 03-10 14:52

    淺談晶振的頻率準(zhǔn)確度和頻率穩(wěn)定

    在選購(gòu)或者使用晶振時(shí),我們經(jīng)常會(huì)聽到頻率準(zhǔn)確度和頻率穩(wěn)定這兩個(gè)概念。雖然兩者都與晶振的頻率變化相關(guān),但它們的關(guān)注重點(diǎn)不同。
    的頭像 發(fā)表于 02-25 18:07 ?953次閱讀
    淺談晶振的頻率<b class='flag-5'>準(zhǔn)確度</b>和頻率穩(wěn)定<b class='flag-5'>度</b>

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?3958次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    地平線ViG基于視覺Mamba的通用視覺主干網(wǎng)絡(luò)

    Vision Mamba的成功預(yù)示著將視覺表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜視覺序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺序列表征學(xué)習(xí)結(jié)構(gòu)在高清圖像上展示了顯著的
    的頭像 發(fā)表于 01-08 09:33 ?607次閱讀
    地平線ViG基于<b class='flag-5'>視覺</b>Mamba的通用<b class='flag-5'>視覺</b>主干網(wǎng)絡(luò)

    檢測(cè)飼料發(fā)熱量?jī)x器|飼料總能量測(cè)定儀

    熱儀運(yùn)行不受外界電壓、電網(wǎng)波動(dòng)影響。 7.注水、排水、攪拌、點(diǎn)火、采溫、計(jì)算、校正、打印的實(shí)驗(yàn)過程全部自動(dòng)化,避免了人為誤差,準(zhǔn)確度及精密度大大提高。設(shè)計(jì)的內(nèi)筒水量定量系統(tǒng),注水、排水自動(dòng)控制,排水
    發(fā)表于 01-02 08:07

    準(zhǔn)確度信號(hào)鏈解決方案快速實(shí)現(xiàn)七位半DMM

    在對(duì)準(zhǔn)確度有很高要求的行業(yè)里,七位半或更高分辨率的數(shù)字萬用表(DMM)會(huì)被使用,這些DMM采用由分立元器件搭建的多斜率積分ADC。這些ADC雖然可以提供合理準(zhǔn)確度的測(cè)量結(jié)果,但對(duì)于大多數(shù)工程師來說
    的頭像 發(fā)表于 12-03 10:55 ?1106次閱讀

    如何實(shí)現(xiàn)七位半或更高準(zhǔn)確度的DMM

    許多儀器儀表應(yīng)用要求高準(zhǔn)確度,例如數(shù)字萬用表(DMM)、三相標(biāo)準(zhǔn)表、現(xiàn)場(chǎng)儀表校準(zhǔn)器、高準(zhǔn)確度DAQ系統(tǒng)、電子秤/實(shí)驗(yàn)室天平、地震物探儀以及自動(dòng)測(cè)試設(shè)備(ATE)中的源表(SMU)/功率測(cè)量單元
    的頭像 發(fā)表于 11-28 11:50 ?979次閱讀
    如何實(shí)現(xiàn)七位半或更高<b class='flag-5'>準(zhǔn)確度</b>的DMM

    AFE4404可否用于運(yùn)動(dòng)時(shí)心率檢測(cè)?準(zhǔn)確度如何?

    AFE4404可否用于運(yùn)動(dòng)時(shí)心率檢測(cè)?準(zhǔn)確度如何?
    發(fā)表于 11-19 08:26

    數(shù)字壓力表的準(zhǔn)確度如何?是否適用于精密測(cè)量?

    在工業(yè)和科研領(lǐng)域,壓力的測(cè)量工作至關(guān)重要,而數(shù)字壓力表因其直觀的數(shù)字顯示和高精度的特性,成為了這些領(lǐng)域不可或缺的測(cè)量工具。那么,數(shù)字壓力表的準(zhǔn)確度到底如何,它是否能滿足精細(xì)測(cè)量的需求呢?
    的頭像 發(fā)表于 11-07 13:58 ?673次閱讀
    數(shù)字壓力表的<b class='flag-5'>準(zhǔn)確度</b>如何?是否適用于精密測(cè)量?

    TLV320AIC3104內(nèi)置ADC實(shí)現(xiàn)MIC數(shù)據(jù)采集的準(zhǔn)確度,為什么Codec測(cè)得的數(shù)據(jù)比原始信號(hào)要大那么多?

    第一個(gè)問題:用3104內(nèi)置ADC 實(shí)現(xiàn)MIC數(shù)據(jù)采集的準(zhǔn)確度: 實(shí)測(cè)結(jié)果是:采集的數(shù)據(jù)與實(shí)現(xiàn)信號(hào)大了約170mVrms; 測(cè)量辦法:用示波器測(cè)量MIC1RP引腳的信號(hào),用來與轉(zhuǎn)換的數(shù)據(jù)對(duì)比
    發(fā)表于 10-14 08:22

    光電軸角編碼器 準(zhǔn)確度等級(jí)5級(jí)是多少

    光電軸角編碼器的準(zhǔn)確度等級(jí)是衡量其測(cè)量精度的一個(gè)重要指標(biāo)。對(duì)于準(zhǔn)確度等級(jí)為5級(jí)的光電軸角編碼器,其相關(guān)的計(jì)量特性通常包括分度誤差、測(cè)角重復(fù)性和零位誤差等。 一、分度誤差 分度誤差是編碼器每?jī)蓚€(gè)相鄰
    的頭像 發(fā)表于 10-12 09:50 ?855次閱讀

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來,已經(jīng)在自然語(yǔ)言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer
    的頭像 發(fā)表于 07-12 14:07 ?884次閱讀