插插婷婷婷,苍井空啪啪啪视频,美女图片大全

在本系列的前幾篇文章中（ "人工智能引發能源問題，我們該怎么辦（一） “ 和”在 "人工智能引發能源問題，我們該怎么辦（二）"），我們討論了 Dennard Scaling 和摩爾定律的細目以及對專用和適應性加速器的需求。然后，我們深入研究了功耗問題，并討論了網絡壓縮的高級優勢。

在這第三篇文章中，我們將探討專門構建的“計算有效”神經網絡模型的優點和挑戰。

神經網絡可以被歸類為一組大致模仿人腦建模方式的算法，能夠通過引入新數據來完成“學習”過程。事實上，開發專用的“計算高效型”神經網絡模型能提供大量優勢。然而，為了確保模型的有效性，需要考慮幾項關鍵需求。

關鍵點之一是在實現推斷加速器（或就此點而言，廣義的硬件加速器）時應采用何種方式訪問存儲器。在機器學習 (ML) 推斷范疇內，我們特別需要考慮如何將權重和中間激活值一起存儲。過去幾年里已有多種方法投入使用并獲得不同程度的成功。相關的架構選擇帶來的影響十分顯著：

時延：對 L1、L2 和 L3 存儲器的訪問表現出相對較低的時延。如果與下一個圖形運算有關的權重和激活值被緩存起來，那么我們就能保持合理水平的效率。然而，如果我們要從外部 DDR 提取數據，就會發生流水線停頓，進而影響時延和效率。

功耗：訪問外部存儲器的能耗至少比訪問內部存儲器大一個數量級。

計算飽和：一般而言，應用要么受計算限制，要么受存儲器限制。這可能會影響給定推斷范式中可實現的 GOP/TOP，而且在某些情況下，這種影響不可小視。如果被部署的具體網絡的實際性能是 1 TOP，那么使用能達到 10 TOP 峰值性能的推斷引擎價值就不大。

在此基礎上更進一步，考慮到訪問現代賽靈思器件里的內部 SRAM（熟悉賽靈思 SoC 的人也稱其為 BRAM 或 UltraRAM）的能耗大約在幾微微焦耳，與訪問外部 DRAM 的能耗相比，低大約兩個數量級。

我們可以考慮將 TPUv1 作為架構示例。TPUv1 內置有一個 65,536 INT8 MAC 單元，與 28MB 的片上存儲器結合，用于存儲中間激活值。權重從外部 DDR 提取。TPUv1 的理論峰值性能是 92 TOPS。

圖 1：TPUv1 架構

參考資料：Jouppi 等，2017 年，https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

TPU 是其中一種非常普遍的 Tensor 加速器。它使用復雜的編譯器來調度圖形運算。這種 TPU 對于特定工作負載（引用 CNNO 的速率達到 86 TOPS）體現出極為優異的吞吐效率。然而，CNN 的計算/內存引用比低于 MLP 和 LSTM。因此我們可以看出這些特定的工作負載受存儲器限制。在必須將新權重加載到矩陣單元中時，會導致流水線停頓，CNN1 性能也就會隨之劣化（14.1 TOPS）。

圖 2：各種網絡拓撲下 TPUv1 的極限性能水平

參考資料：Jouppi 等，2017 年，

https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

神經網絡架構對性能有巨大影響，而且對于選擇推斷解決方案而言，峰值性能指標的價值微乎其微（除非我們能為需要加速的特定工作負載實現高水平的效率）。如今，眾多 SoC、ASSP 和 GPU 廠商繼續為 LeNet、AlexNet、VGG、GoogLeNet 和 ResNet 等經典圖像分類模型推廣性能測試基準。然而，圖像分類任務的實際用例數量有限，而許多時候這種模型只是用作對象檢測與分割等更復雜的任務的后臺特征提取器。

更貼近現實的實際可部署模型的示例包括對象檢測與分割。盡管眾多市售半導體器件標榜可提供數十 TOP 的性能，而這又與不得不花長時間為 YOLOv3 和 SSD 等網絡辛苦找尋正式的 IPS 性能基準測試的現狀有何關聯？開玩笑的說，如果只是要在云存儲中簡單查找照片，比如找出您的貓的照片，我看這真不是什么問題：

圖 3：作者收養的家貓“TumbleWeed”

大量開發者在首次嘗試設計帶有 AI 功能的產品時往往以不能滿足性能要求而告終，迫使他們在設計中途遷移到不同的架構上。這不足為奇。如果這么做意味著需要同時對 SOM 基板的軟硬件進行重新構建，難度將不可小覷。選擇賽靈思 SoC 的主要原因在于，與競爭對手的解決方案不同的是，賽靈思推斷解決方案能在保持處理器和推斷加速器架構不變的情況下，直接提供超過一個數量級的性能縮放。

2017 年谷歌的一個研發團隊（Howard 等，《MobileNet：面向移動視覺應用的高效卷積神經網絡》https://arxiv.org/pdf/1704.04861.pdf ）發表了針對移動應用的一類新的模型。MobileNet 的優勢在于它能在保持高精度水平的同時，顯著降低計算成本。MobileNet 網絡采用的重大創新之一是深度可分卷積。在經典卷積中，每個輸入通道對每個輸出通道都有影響。如果我們有 100 個輸入通道和 100 個輸出通道，就有 100x100 條虛擬路徑。然而對深度卷積而言，我們將卷積層劃分為 100 個群組，因此只得到 100 條路徑。每個輸入通道僅與一個輸出通道相連接，這樣就能節省大量計算。

圖 4：經典卷積和深度卷積的連接方式

參考資料：Song Yao，Hotchips Hc30，第 8 節：