對于每一代 GPU,Imagination 內部的性能團隊都會運行廣泛的測試內容,分析并理解不同類型的工作負載及其瓶頸。作為分析的一部分,數據顯示許多現代游戲在執行后處理算法上花費了越來越多的時間,以實現景深、光暈、模糊等效果。
大多數這些后處理過程都是以紋理采樣為主的過濾效果,它們對算術邏輯單元 (ALU) 的要求不高,但受限于紋理處理單元 (TPU) 的吞吐率。解決這個問題的一種方法是簡單地改變 TPU 單元與 USC/ALU 比例。然而,我們的分析表明這并非一個好策略,原因有以下幾點。
首先,在常規渲染過程中,D系列 GPU 中 ALU 與 TPU 的比例已經是最佳的,增加更多的 TPU 并不會帶來任何好處,因為工作負載受限于 ALU。同時,其他處理過程是 TPU 密集型的,同時也是帶寬密集型的,因此增強 TPU 并不會有幫助,因為沒有足夠的帶寬來滿足額外的 TPU 吞吐量,因此性能不會得到提升。
我們的團隊發現后處理工作負載以及計算圖像處理工作負載具有以下特點:
- 在一個區域內進行規則的處理/采樣,有大量的采樣點重復利用,這些采樣點命中紋理緩存;
- 對單一渲染目標/紋理進行2D采樣,不涉及層次細節 (LOD) 和透視。
上述兩個特性促使我們在 D系列 GPU 中實現了新的 TPU 模式,可以使性能翻倍,但僅當硬件檢測到這些特性時才生效。第一個特性是重要的,因為常規的采樣加上樣本重復利用率高(例如,移動窗口濾波器)可以避免帶寬限制。第二個特性也是重要的,因為它使我們能夠保持重復邏輯的數量較低,避免所有 TPU 邏輯均翻倍的前提下,提供峰值吞吐率翻倍的效果。
這種方法的結果是適度增加了TPU 的大小,但在策略生效的情況下性能翻倍,同時保持與總體特性相平衡。IMG D 系列 GPU 實現了真正的加速,并避免了 ALU 和/或帶寬瓶頸情況,這些情況下 TPU 已經足夠快。這意味著對于某些類型的處理,DXT-48-1536 將有效地表現出等同 DXT-96-1536的性能,每時鐘處理雙倍數量的雙線性濾波紋理樣本,與前代 CXT-48-1536 相比則可提供兩倍的執行速率。
作為示例,下圖顯示了一個典型的手機游戲及其渲染過程。頂部的條形圖從左邊開始,顯示了各種 Vulkan 渲染過程,其中包含幾個預處理過程,通常用于陰影貼圖,對深度測試單元造成很大壓力。渲染的第二階段是主場景,本例中是一個 GBuffer 渲染過程和一個光照過程。我們可以看到,這是幀處理時間的主要部分,ALU和 TPU 的負載相對均衡;這通過紅色曲線(TPU 負載)和綠色曲線(ALU 負載)表示。我們可以看到,隨著時間的推移,兩者都顯示出平均利用率,這對于主場景來說是典型的,其中 ALU 和 TPU 工作的混合比例平衡。

最讓我們感興趣的渲染過程是最后一組,即后處理過程。通常,這是在之前的主渲染過程之上應用光暈、模糊等許多 HDR 風格后處理效果的地方。在這個區域值得注意的是,紅色的 TPU 曲線在很多情況下都升高,而綠色的 ALU 曲線卻非常低。這表明 TPU 單元造成了處理瓶頸——而這正是 2D 雙速率 TPU 設計要解決的問題。它為這些工作負載將 TPU 的速度翻倍,從而將渲染時間減少了一半,加快了幀渲染的速度。
-
gpu
+關注
關注
28文章
4943瀏覽量
131203 -
TPU
+關注
關注
0文章
154瀏覽量
21192 -
imagination
+關注
關注
1文章
599瀏覽量
62214
發布評論請先 登錄
TechWiz LCD 2D應用:不同結構下的VT曲線
Techwiz LCD 2D應用:二維LC透鏡建模分析
HT 可視化監控頁面的 2D 與 3D 連線效果

TechWiz LCD 2D應用:半透反射式顯示模式仿真
億源通科技OFC 2025展示2D光纖陣列,助力OCS技術創新
STM8/STM32 products有2D marking和沒有2D marking的工藝有差別嗎?
從圖形處理到AI加速,一文看懂Imagination D系列GPU

TechWiz LCD 2D應用:不同結構下的VT曲線
AN-1249:使用ADV8003評估板將3D圖像轉換成2D圖像

技術前沿:半導體先進封裝從2D到3D的關鍵

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU
利用Sitara AM57x處理器上的處理器SDK實現工業機器視覺的2D物體識別

評論