谷歌提出FlexiViT:適用于所有Patch大小的模型
一句話總結就是,ViT 是一種通過將圖像切割成一個個小方塊(patch)將圖像轉換為序列從而輸入到T....
一種新的輕量級視覺Transformer
既然都叫 EfficientFormerV2,那必然是在上一版的基礎上改進了,如圖(a)所示。沒什么....
基于先驗指導的對抗樣本初始化方法提升FAT效果
這種現象最先由Wong等人發現,隨后他們又發現使用FGSM生成對抗樣本時使用隨機初始化可以延緩災難性....
復旦&微軟提出?OmniVL:首個統一圖像、視頻、文本的基礎預訓練模型
根據輸入數據和目標下游任務的不同,現有的VLP方法可以大致分為兩類:圖像-文本預訓練和視頻-文本預訓....
基于視覺transformer的高效時空特征學習算法
視覺Transofrmer通常將圖像分割為不重疊的塊(patch),patch之間通過自注意力機制(....
無殘差連接或歸一化層,也能成功訓練深度transformer
殘差架構是最流行和成功的,最初是在卷積神經網絡(CNN)的背景下開發的,后來自注意力網絡中產生了無處....
全球首個面向遙感任務設計的億級視覺Transformer大模型
簡單來說,為了更好地應對遙感圖像所具有的大尺寸特性以及圖像中的目標物體的朝向任意性,我們提出了一種新....
一種基于毒性樣本敏感性的有效后門防御!
訓練深度神經網絡(DNNs)往往需要大量的訓練數據,這些數據有時可能由不可信的第三方來源所提供。這些....
基于視頻語言模型LiteVL的無參的特征池化方法
我們提出了LiteVL,這是一種視頻語言模型,它無需大量的視頻語言預訓練或目標檢測器。LiteVL從....
LSTM之父再次炮轟LeCun:你那5點
1. 通過神經網絡(NN)自動生成標注的「自監督學習」:至少可以追溯到我1990-91年的工作。 ....
用于視覺識別的Transformer風格的ConvNet
需要注意的是:上式中表示Hadamard乘積。上述卷積調制模塊使得每個位置的元素與其近鄰相關,而通道....
如何使用DDPM提取特征并研究這些特征可能捕獲的語義信息
對于幾個預先訓練的擴散模型,作者研究了網絡中執行逆擴散過程馬爾可夫步驟的中間激活。
阿里達摩院提出MogFace:人臉檢測新工作
為每個anchor點定義cls和reg目標是訓練檢測器的必要過程,在人臉檢測中這個過程稱之為標簽分配....
NVIDIA提出Magic3D:高分辨率文本到3D內容創建
Magic3D 還可以執行基于提示的 3D 網格編輯:給定低分辨率 3D 模型和基本提示,可以更改文....
港大&騰訊提出DiffusionDet:第一個用于目標檢測的擴散模型
近日,來自香港大學的羅平團隊、騰訊 AI Lab 的研究者聯合提出一種新框架 DiffusionDe....
基于可變形卷積的大規模視覺基礎模型
擴大模型的規模是提高特征表示質量的重要策略,在計算機視覺領域,模型參數量的擴大不僅能夠有效加強深度模....
IPMT:用于小樣本語義分割的中間原型挖掘Transformer
目前在計算機視覺取得的巨大進展在很大程度上依賴于大量帶標注的數據,然而收集這些數據是一項耗時耗力的工....
基于激光雷達的全稀疏3D物體檢測器
這樣做實質上是把instance當成了“voxel”來處理,因為instance和voxel本質上都....
基于Transformer架構的文檔圖像自監督預訓練技術
本文簡要介紹ACM MM 2022錄用論文“DiT: Self-supervised Pre-tra....
一種「個性化」的文本到圖像擴散模型 DreamBooth
一些大型文本到圖像模型基于用自然語言編寫的文本提示(prompt)實現了高質量和多樣化的圖像合成。這....
首個無監督3D點云物體實例分割算法
本文旨在尋求一種無監督的3D物體分割方法。我們發現,運動信息有望幫助我們實現這一目標。如下圖1所示,....
間隔校準算法Margin Calibration來了!
如下圖所示,我們憑經驗發現邊距和預測分數與每個類的基數相關(一個類的基數即該類別擁有數據的數量)。具....
無需權重更新、微調,Transformer在試錯中自主改進!
最近的工作表明,transformers 還可以通過將離線強化學習(RL)視作順序預測問題,進而從離....
基于Transformer與覆蓋注意力機制建模的手寫數學公式識別
手寫數學公式識別是將包含數學表達式的圖像轉換為結構表達式,例如LaTeX數學表達式或符號布局樹的過程....
深度模型Adan優化器如何完成ViT的訓練
自Google提出Vision Transformer(ViT)以來,ViT漸漸成為許多視覺任務的默....
基于深度學習的圖像去模糊算法及應用
當前,絕大部分基于深度學習的圖像去模糊算法是不區分場景的,也就是他們是對常見的自然與人為設計的場景進....
基于超大感受野注意力的超分辨率模型
通過引入像素注意力,PAN在大幅降低參數量的同時取得了非常優秀的性能。相比通道注意力與空域注意力,像....