人工智能公司通常會關注一個標準:每秒更多 tera 操作 (TOPS)。不幸的是,當硅制造商宣傳他們的 TOPS 指標時,他們并沒有真正提供準確的指導。在大多數情況下,被炒作的數字并不是真正的 TOPS,而是峰值 TOPS。換句話說,你認為你在卡中獲得的 TOPS 數字實際上是芯片在一個非常完美的世界中表現的最佳情況。
我將討論行業因錯誤標記性能指標而造成的問題,并解釋用戶如何獨立評估現實世界的 TOPS。
人造上衣與真上衣
AI 應用程序開發人員通常會通過衡量芯片制造商發布的 TOPS 性能數據是否足以支持他們的項目來開始進行盡職調查。
假設您嘗試在 U-Net 神經網絡上以 10 fps(每秒幀數)重新制作全高清圖像。由于 U-Net 操作每張圖像需要 3 TOPS,簡單的數學表示您需要 30 TOPS 才能以所需的 FPS 完成項目。因此,在購買芯片時,您會假設聲稱運行 50、40 甚至 32 TOPS 的卡對項目來說是安全的。在一個完美的世界里,是的,但你很快就會發現這張卡很少能達到廣告的數字。而且我們不是在談論僅僅幾滴TOPS;計算效率可低至 10%。
雖然調整神經網絡以從卡中獲得更好的性能當然是可能的,但您幾乎不可能接近供應商列出的峰值 TOPS。試圖獲得 60% 或 70% 的計算效率將耗費大量時間。如果神經網絡發生任何變化,您將不得不回到原點重新優化所有內容——但它甚至可能不適用于您的應用程序。這個問題對于小批量處理尤其明顯;你會很幸運能獲得超過 15% 的峰值 TOPS。
計算效率
此時,您可能想知道如何計算真正的 TOPS。這很簡單!
要了解特定卡將提供多少真實 TOPS,您首先需要確定該卡的計算效率。理想情況下,這可以通過簡單地在目標卡上運行所需的神經網絡來完成。但是,您可能沒有該卡。您仍然可以通過查看供應商的營銷數據的詳細信息來進行估算。通常可以獲得像 ResNet50(或類似的)這樣的神經網絡的性能數據。假設這是一個典型的 ResNet50 實現,您可以找到計算單個圖像的每秒千兆操作數(GOPS,而不是 TOPS)。然后,只需將其乘以供應商宣傳的每秒圖像數 (IPS),瞧!您就有了更真實的 TOPS 或“真實”TOPS。
效率只是 real 除以峰值 TOPS 的比率,或者:
峰值 TOPS x 計算效率 = 實際 TOPS
這個公式使用戶能夠在購買任何東西之前比較卡在運行神經網絡時的真實效率。您可以使用所需的 TOPS 重用效率,看看它是否符合您的需求。雖然功率和批量大小等因素會影響結果,但如果您知道卡的效率,則此公式可以很好地估計其在實際用例中的實際性能。當然,供應商發布的神經網絡的 IPS 仍然可以質疑,但至少估計比比較你真正需要的 TOPS 和一張卡的峰值 TOPS 更好。
還值得注意的是,這不僅僅是 GPU 問題。大多數專業 ASIC 的實際效率非常低,即使他們的營銷促進了高效率。只需使用 IPS、已知的網絡 GOPS 和簡單的乘法運算,您就可以了解一個真實的數字。
高效的替代品
盡管 GPU 和 ASIC 都在效率和性能上苦苦掙扎,但有一種替代解決方案不涉及這些芯片中的任何一個。
2020 年 10 月的 MLPerf 結果表明,與推理加速相結合的 FPGA 比其他替代方案的效率要高得多,因此可以更接近其他芯片制造商宣傳的最高 TOPS 數。
比較不同架構下每個發布的 TOPS 數據的每秒幀數 (FPS)(來源:Mipsology)
FPGA 不僅在計算方面更高效,而且在計算硅片使用方面也更高效。從本質上講,這些卡“事半功倍”,從而以一小部分成本獲得更好的神經網絡性能。
值得重復一遍:買家不應該因為 TOPS 營銷炒作而墮落。這是一個夸大的性能數字,大多數神經網絡在現實條件下永遠不會看到。相反,利用這個公式:
峰值 TOPS x 計算效率 = 實際 TOPS
這樣做將幫助您快速、輕松、準確地將您的性能需求與芯片的實際性能進行比較,而不是任何夸大的供應商聲稱。
——Ludovic Larzul 是 Mipsology 的創始人兼首席執行官。
審核編輯 黃昊宇
-
神經網絡
+關注
關注
42文章
4814瀏覽量
103608 -
AI
+關注
關注
88文章
35143瀏覽量
279826
發布評論請先 登錄
用樹莓派搞深度學習?TensorFlow啟動!

軍事應用中深度學習的挑戰與機遇
BP神經網絡與深度學習的關系
NPU在深度學習中的應用
激光雷達技術的基于深度學習的進步
FPGA加速深度學習模型的案例
AI大模型與深度學習的關系
FPGA做深度學習能走多遠?
ARMxy ARM嵌入式計算機搭載 1 TOPS NPU支持深度學習

評論