上海交通大學自動化系圖像處理與模式識別研究所黃曉霖副教授團隊,與魯汶大學、加州大學圣克魯茲分校的研究者合作,關注真實場景的防御,提出主動對攻擊者實施攻擊,在保證用戶正常使用模型(無精度/速度損失)的同時,有效阻止黑盒攻擊者通過查詢模型輸出生成對抗樣本。經Rebuttal極限提分(2 4 4 5 -> 7 7 4 7),該研究已被機器學習頂級會議 NeurIPS 2022 錄用,代碼已開源。
【研究背景】
基于查詢分數的攻擊(score-based query attacks, SQAs)極大增加了真實場景中的對抗風險,因為其僅需數十次查詢模型輸出概率,即可生成有效的對抗樣本。
然而,現有針對worst-case擾動的防御,并不適用于真實場景中,因為他們通過預處理輸入或更改模型,顯著降低了模型的推理精度/速度,影響正常用戶使用模型。
因此,本文考慮通過后處理來防御,其自帶以下優點
·有效防御基于查詢分數的攻擊
· 不影響模型精度,甚至還能使模型的置信度更加準確
· 是一種輕量化,即插即用的方法
可是在真實的黑盒場景中,攻擊者和用戶得到的,是相同的模型輸出信息,如何在服務用戶的同時,防御潛在攻擊者?
【本文方法】
我們的核心思路是,測試階段主動誤導攻擊者進入錯誤的攻擊方向,也就是對攻擊者發動攻擊(adversarial attack on attackers, AAA)。如下圖所示,若我們將模型的(未經防御的)藍色損失函數曲線,輕微擾動至橙色或綠色的曲線,那么當攻擊者貪婪地沿梯度下降方向搜索對抗樣本時,將會被愚弄至錯誤的攻擊方向。
具體的,我們的算法分為4步,對應上圖中的4行
1. 計算未經修改的原損失函數值,也就是上圖中的藍色曲線
2. 根據原損失函數值,計算出目標損失函數值,即橙色或綠色曲線
3. 根據預先標定的溫度T,計算出目標置信度
4.優化輸出的logits,使其同時擁有目標損失函數值和目標置信度
【實驗結果】
如下左圖所示,對比藍線和橙線,我們的方法AAA,最小程度地擾動輸出,卻最大限度保留精度(Acc ↑),提升置信度的準確度(expected calibration error, ECE ↓)。如右圖和下表所示,AAA相比現有方法,能有效地防止真實場景攻擊下的精度損失。
同時,AAA能簡單地與現有防御結合,如對抗訓練。
AAA是極其輕量化的防御,因為后處理操作的計算量很小,如下圖所示。
盡管攻擊者可以對AAA設計自適應攻擊(adaptive attacks),但在真實場景中,自適應攻擊的成本非常高。因為黑盒場景下,攻擊者完全沒有模型的信息,更不用說其防御策略了。探索模型防御策略以設計自適應攻擊,需要大量額外的查詢。更重要的是,自適應攻擊者也很好愚弄,比如使用正弦類的目標損失函數曲線以迷惑攻擊者,因為其策略更難被猜測。如下表所示,反向搜索和雙向搜索的自適應攻擊,都可以被AAA-sine很好的防御。
【文章總結】
我們指出在真實場景下,一個簡單的后處理模塊,就可以形成有效,用戶友好,即插即用的防御。為了專門防御基于查詢分數的攻擊,我們設計了對攻擊者的攻擊,通過細微的輸出擾動干擾攻擊者。廣泛的實驗表明我們的方法在抵御攻擊,精度,置信度準確度,速度上,顯著優于現有防御。
值得注意的是,抵御其他類型的攻擊并非本文關注的重點。我們的方法并不提升worst-case robustness,故不能防御白盒攻擊。我們也幾乎不改變模型決策邊界,故不能防御遷移攻擊和基于決策的查詢攻擊(decision-based query attacks)。
-
函數
+關注
關注
3文章
4379瀏覽量
64701 -
模型
+關注
關注
1文章
3513瀏覽量
50319
原文標題:NeurIPS 2022 | Rebuttal起死回生!對攻擊者的攻擊:一種真實場景下的防御
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
SCDN的抗CC攻擊和抗DDoS攻擊防護是什么?
面對外部惡意攻擊網站,高防服務器如何去防御攻擊?
防御無線傳感器網絡中蟲洞攻擊是什么?
cc攻擊防御解決方法
基于主動網的SYN攻擊防御
一種基于SYN 漏洞的DDoS攻擊防御算法的實現
一種全面主動的防御DDoS攻擊方案
CRT-RSA的連分數算法攻擊的分析
基于攻擊防御樹和博弈論的評估方法

淺談DDoS攻擊的類型和防御措施
深入淺出DDoS攻擊防御——攻擊
Linux越來越容易受到攻擊,怎么防御?

評論