長尾視覺識別任務對神經網絡如何處理頭部(常見)和尾部(罕見)類之間的不平衡預測提出了巨大挑戰。模型傾向于將尾部類分類為頭部類。雖然現有的研究側重于數據重采樣和損失函數工程,但在本文中,我們采用了不同的視角:分類間隔。我們研究了間隔(margin)和預測分數(logit)之間的關系,并憑經驗觀察到「未校準的邊距和預測分數呈正相關」。我們提出了一種「簡單而有效的邊距校準方法 (Margin Calibration,MARC) 來校準邊距以獲得更平衡的預測分數」,從而提升分類性能。我們通過對常見長尾基準(包括 CIFAR-LT、ImageNet-LT、Places-LT 和 iNaturalist-LT)的廣泛實驗來驗證MARC。實驗結果表明,我們的MARC方法在這些基準上取得了良好的結果。此外,「只需三行代碼」就能實現MARC。我們希望這種簡單的方法能夠激發人們重新思考長尾視覺識別中未校準的邊距與預測分數之間的關系。
文章已被機器學習會議ACML 2022錄用,由東京工業大學、微軟STCA、南京大學、及微軟亞洲研究院共同完成,第一作者為東京工業大學王一棟同學。
論文:https://arxiv.org/abs/2112.07225
間隔與預測分數的關系
在本文中,我們研究了「間隔(Margin)」和「預測分數 (logits)」之間的關系,這是主導長尾績效的關鍵因素。
如下圖所示,我們憑經驗發現邊距和預測分數與每個類的基數相關(一個類的基數即該類別擁有數據的數量)。具體來說,在校準之前,頭類往往比尾類具有更大的邊距和預測分數。因此,需要校準這種不平衡的邊距以獲得平衡的預測分數去避免未校準的邊距對分類性能產生負面影響。
間隔校準方法MARC: Margin Calibration
我們提出一個簡單的間隔校準方法「MARC (margin calibration)」來解決長尾問題。
具體而言,我們訓練了一個簡單的特定于類別的邊距校準模型,其中原始邊距固定, 和 是可學習參數:
的推理公式如下,最終是由預測分數(logit=)除以線性分類器(Linear Classifier Head)的權重(Weight)的模()取得,其中為線性分類器的偏差(bias):
因此,校準后的預測分數為
其中是固定的原始預測分數。
此外,我們還對不同類進行加權操作,最終通過訓練 和 來獲得更平衡的預測分數。
核心算法:僅需三行代碼
MARC可以被分類為決策邊界(間隔)調整算法,其與之前的一些同類算法如Decouple (ICLR'20, 評論區提到的)和DisAlign等的區別如下:
MARC的核心算法如下圖所示,核心部分如紅框所示。「僅需三行代碼」即可實現MARC:
實驗
分類結果
實驗表格如下。我們在眾多被廣泛使用的長尾分類圖像數據集中進行了對比。從實驗結果可以看出MARC相比于其他方法取得了良好的性能,并且MARC十分容易實現。
復雜度
下圖是MARC和另一個決策邊界調整算法Dis-Align的對比試驗,可以發現MARC取得了更平衡的邊距和預測分數。
總結
本文研究了長尾視覺識別問題。具體來說,我們發現頭類往往比尾類具有更大的邊距和預測分數。受此發現的啟發,我們提出了一個只有 2K(K是類別數)可學習參數的邊距校準函數,以獲得長尾視覺識別中的平衡預測分數。盡管我們的方法實現起來非常簡單,但大量實驗表明,與以前的方法相比,MARC在不改變模型表示的情況下取得了有利的結果。我們希望我們對預測分數和邊距的研究能夠為模型表示和邊距校準的聯合優化提供經驗。未來,我們的目標是發展一個統一的理論來更好地支持我們的算法設計,并將該算法應用于更多的長尾應用。
Reference
[1] 本文所介紹的論文:Wang et al. Margin calibration for long-tailed visual recognition. Asian Conference on Machine Learning (ACML) 2022.
審核編輯 :李倩
-
算法
+關注
關注
23文章
4700瀏覽量
94786 -
代碼
+關注
關注
30文章
4888瀏覽量
70271
原文標題:三行代碼解決長尾不平衡類別分類!間隔校準算法Margin Calibration來了!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論