北京大學等提出HandTrackNet:點云序列中手物交互的位姿追蹤與重建
除此之外,我們首次提出了一個基于點云的手部姿勢跟蹤網絡,HandTrackNet,以追蹤幀間手部關節....
如何度量知識蒸餾中不同數據增強方法的好壞?
知識蒸餾(knowledge distillation,KD)是一種通用神經網絡訓練方法,它使用大的....
LeCun和馬庫斯齊噴ChatGPT:大語言模型果然是邪路?
ChatGPT的出場,讓一場久違的科技盛宴開席了。全世界的投資人都蠢蠢欲動。微軟給OpenAI再投1....
開源模型OpenCLIP達成ImageNet里程碑成就!
LAION全稱為Large-scale Artificial Intelligence Open N....
怎樣讓ChatGPT在其內部訓練神經網絡?
這里特地用{}偷偷告訴它在當前目錄生成一個train.py,在里面用Python和Pytorch寫一....
用ChatGPT處理Excel問題工作效率狂升
ChatGPT 自去年 11 月 30 日 OpenAI 重磅推出以來,這款 AI 聊天機器人迅速成....
一文梳理缺陷檢測的深度學習和傳統方法
但由于缺陷多種多樣,傳統的機器視覺算法很難做到對缺陷特征完整的建模和遷移,所以越來越多的學者和工程人....
利用視覺+語言數據增強視覺特征
傳統的多模態預訓練方法通常需要"大數據"+"大模型"的組合來同時學習視覺+語言的聯合特征。但是關注如....
谷歌新作Dreamix:視頻擴散模型是通用視頻編輯器,效果驚艷!
可以看到,視頻編輯比圖像編輯更加具有挑戰性,它需要合成新的動作,而不僅僅是修改視覺外觀。此外還需要保....
英偉達耗費64個A100訓練StyleGAN-T!
有趣的是,2014 年,由 Goodfellow 等人提出的生成對抗網絡(GAN),在生成任務中并沒....
SLaK:從稀疏性的角度將卷積核擴展到51×51
在現代計算機視覺任務中,通用視覺模型最早以深而 Kernel 小的 CNN 為主。自從 ViTs 出....
3D UX-Net:超強的醫學圖像分割新網絡
整體來說,這些模型性能是越來越高,在幾個主流的 3D 數據基準測試中也實現了大大小小的 SOTA,特....
YOLOv6 v3.0實時目標檢測重磅升級
對檢測器的Neck部件進行了翻新:引入BiC(Bi-directional Concatenatio....
NanoGPT,最簡單最快的庫來了!
作者補充道,代碼并不難,很容易就能滿足大家需求——無論是從頭開始訓練新模型,還是基于預訓練進行微調(....
基于端到端可操作性學習的機器人操縱框架
最近,視覺可操作性(Visual Affordance)學習技術在提供以物體為中心的信息先驗和有效的....
谷歌提出PaLI:一種多模態大模型,刷新多個任務SOTA!
PaLI 使用單獨 “Image-and-text to text” 接口執行很多圖像、語言以及 "....
新型的端到端弱監督篇幅級手寫中文文本識別方法PageNet
PageNet與現有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數據集上....
視覺新范式!COCs:將圖像視為點集
本文作者研究特征提取器 (Feature Extractor),但是視角不僅僅局限在 ConvNet....
一種顯著降低Transformer計算量的輕量化方法
然而,transformer的原始公式在輸入令牌(token)數量方面具有二次計算復雜度。鑒于這個數....
DALL-E和Flamingo能相互理解嗎?
這就會帶來一些同語義相關的有趣問題:對于給定的圖像,哪種文本描述最準確地描述了圖像?同樣地,對于給定....
谷歌新作Muse:通過掩碼生成Transformer進行文本到圖像生成
與建立在級聯像素空間(pixel-space)擴散模型上的 Imagen (Saharia et a....
阿里達摩院提出ABPN:高清人像美膚模型
其中為了實現皮膚區域的平滑,同時保留圖像中的邊緣,傳統美顏算法首先使用保邊濾波器(如雙邊濾波、導向濾....
騰訊優圖/浙大/北大提出:重新思考高效神經模型的移動模塊
近年來,隨著對存儲和計算資源受限的移動應用程序需求的增加,涌現了非常多參數少、FLOPs 低的輕量級....
LSTM之父最新長文:現代AI和深度學習發展史
實用AI地提出,最早可以追溯到1914年。當時Leonardo Torres y Quevedo構建....
基于分割后門訓練過程的后門防御方法
后門攻擊的目標是通過修改訓練數據或者控制訓練過程等方法使得模型預測正確干凈樣本,但是對于帶有后門的樣....
南開/南理工/曠視提出CTKD:動態溫度超參蒸餾新方法
一直保持靜態固定的溫度超參對學生模型來說不是最優的。基于課程學習的思想,人類在學習過程中都是由簡單到....
GMMSeg:生成式語義分割新范式!可同時處理閉集和開集識別
實驗結果表明,GMMSeg 在多種分割網絡架構 (segmentation architecture....
一張RTX 2080Ti搞定大模型訓練!算力節省136倍!
在自然語言處理(NLP)領域,基于 Transformer 架構的預訓練模型已經成為主流,并帶來諸多....