近日,香港中文大學(xué)-商湯聯(lián)合實(shí)驗(yàn)室開(kāi)源了基于 PyTorch 的檢測(cè)庫(kù)——mmdetection。上個(gè)月,商湯和港中大組成的團(tuán)隊(duì)在 COCO 比賽的物體檢測(cè)(Detection)項(xiàng)目中奪得冠軍,而 mmdetection 正是基于 COCO 比賽時(shí)的 codebase 重構(gòu)。
商湯稱(chēng),這個(gè)開(kāi)源庫(kù)提供了已公開(kāi)發(fā)表的多種視覺(jué)檢測(cè)核心模塊。通過(guò)這些模塊的組合,可以迅速搭建出各種著名的檢測(cè)框架,比如 Faster RCNN,Mask RCNN,和 R-FCN 等,以及各種新型框架,從而大大加快檢測(cè)技術(shù)研究的效率。
目前,mmdetection 的第一個(gè)版本已經(jīng)實(shí)現(xiàn)了 RPN,F(xiàn)ast R-CNN,F(xiàn)aster R-CNN,Mask R-CNN,近期還計(jì)劃放出 RetinaNet 和 Cascade R-CNN。
項(xiàng)目地址:
https://github.com/open-mmlab/mmdetection
此次項(xiàng)目的參與者,香港中文大學(xué)陳愷博士稱(chēng),相比 FAIR 此前開(kāi)源的 Detectron,mmdetection 有以下幾大優(yōu)勢(shì):
編者注:Detectron 是 FAIR 用于實(shí)現(xiàn)最先進(jìn)的目標(biāo)檢測(cè)算法(包括 Mask R-CNN)的軟件系統(tǒng)。該系統(tǒng)基于深度學(xué)習(xí)框架 Caffe 2 ,由 Python 編寫(xiě)而成。(《Mask R-CNN 源代碼終上線(xiàn),F(xiàn)acebook 開(kāi)源目標(biāo)檢測(cè)平臺(tái)—Detectron》)
Performance 稍高:由于 PyTorch 官方 model zoo 里面的 ResNet 結(jié)構(gòu)和 Detectron 所用的 ResNet 有細(xì)微差別(mmdetection 中可以通過(guò) backbone 的 style 參數(shù)指定),導(dǎo)致模型收斂速度不一樣,所以我們用兩種結(jié)構(gòu)都跑了實(shí)驗(yàn),一般來(lái)說(shuō)在 1x 的 lr schedule 下 Detectron的會(huì)高,但 2x 的結(jié)果 PyTorch 的結(jié)構(gòu)會(huì)比較高。
訓(xùn)練速度稍快:Mask R-CNN 差距比較大,其余的很小。采用相同的 setting,Detectron 每個(gè) iteration 需要 0.89s,而 mmdetection 只需要 0.69s。Fast R-CNN 比較例外,比 Detectron 的速度稍慢。另外在我們的服務(wù)器上跑 Detectron 會(huì)比官方 report 的速度慢 20% 左右,猜測(cè)是 FB 的 Big Basin 服務(wù)器性能比我們好?
所需顯存稍小:顯存方面優(yōu)勢(shì)比較明顯,會(huì)小 30% 左右。但這個(gè)和框架有關(guān),不完全是 codebase 優(yōu)化的功勞。一個(gè)讓我們比較意外的結(jié)果是現(xiàn)在的 codebase 版本跑 ResNet-50 的 Mask R-CNN,每張卡(12 G)可以放 4 張圖,比我們比賽時(shí)候小了不少。
易用性更好:基于 PyTorch 和基于 Caffe2 的 code 相比,易用性是有代差的。成功安裝 Detectron 的時(shí)間,大概可以裝好一打的 mmdetection 吧。
當(dāng)然,陳愷博士也承認(rèn) Detectron 也有一些明顯優(yōu)勢(shì),“作為第一個(gè)全面的 detection codebase,加上 FAIR 的金字招牌,關(guān)注人數(shù)和用戶(hù)很多(雖然吐槽也比較多),release 的模型也比較全面。我們也在努力擴(kuò)充 model zoo,奈何人力和算力還是有很大差距,所以還需要時(shí)間。”
與 mmdetection 一起開(kāi)源的還有一個(gè)基礎(chǔ)庫(kù)——mmcv。據(jù)陳愷博士介紹, mmcv 基礎(chǔ)庫(kù)主要分為兩個(gè)部分:一部分是和 deep learning framework 無(wú)關(guān)的一些工具函數(shù),比如 IO/Image/Video 相關(guān)的一些操作;另一部分是為 PyTorch 寫(xiě)的一套訓(xùn)練工具,可以大大減少用戶(hù)需要寫(xiě)的代碼量,同時(shí)讓整個(gè)流程的定制變得容易。
項(xiàng)目地址:
https://github.com/open-mmlab/mmcv
實(shí)際上,mmdetection 和 mmcv 都同屬于香港中文大學(xué)多媒體實(shí)驗(yàn)室的 Open-MMLab 計(jì)劃。港中大助理教授林達(dá)華稱(chēng),啟動(dòng) Open-MMLab 計(jì)劃,是希望在一個(gè)統(tǒng)一的代碼架構(gòu)上,逐步開(kāi)放實(shí)驗(yàn)室積累的算法和模型,為計(jì)算機(jī)視覺(jué)的研究社區(qū)貢獻(xiàn)自己的一分力量。以下是簡(jiǎn)單說(shuō)明:
1. 這是一個(gè)純粹的學(xué)術(shù)開(kāi)源計(jì)劃,所開(kāi)放的都是已經(jīng)公開(kāi)發(fā)表的算法和模型(包括我們自己和其它研究組提出的代表性算法),不涉及任何的商業(yè)化技術(shù)。
2. 我們希望這個(gè)計(jì)劃能夠降低算法復(fù)現(xiàn)的難度,和不必要的重復(fù)實(shí)驗(yàn)與訓(xùn)練,從而讓使用者能夠?qū)W⒂谛聠?wèn)題的提出、新思路的探索,而不需要花費(fèi)主要精力用于已有算法組件的細(xì)節(jié)調(diào)試。
3. 我們?cè)陂_(kāi)放的 codebase 中會(huì)對(duì)現(xiàn)有的主流算法框架進(jìn)行重構(gòu),把它們分解為可復(fù)用的組件。希望未來(lái)的研究者可以基于這些組件,能迅速建立新的算法框架原型,加快探索的進(jìn)度。
4. 我們希望 Open-MMLab 成為一個(gè)學(xué)術(shù)交流和探討的渠道。
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122794 -
pytorch
+關(guān)注
關(guān)注
2文章
809瀏覽量
13962
原文標(biāo)題:港中大、商湯開(kāi)源目標(biāo)檢測(cè)工具包mmdetection,對(duì)比Detectron如何?
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
商湯小浣熊家族全面入駐聯(lián)想生態(tài)全平臺(tái)
摩爾線(xiàn)程完成DeepSeek開(kāi)源庫(kù)FlashMLA和DeepGEMM適配
AI開(kāi)源模型庫(kù)有什么用
RT-Thread榮登2024開(kāi)源創(chuàng)新榜單,躋身中國(guó)十大開(kāi)源社區(qū)

利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

開(kāi)源AI模型庫(kù)是干嘛的
PyTorch 2.5.1: Bugs修復(fù)版發(fā)布

評(píng)論