只要過程存在,合成 GPU 基準測試和其他性能基準測試就一直是嵌入式行業(yè)爭論的焦點。從歷史上看,GPU 基準測試除了關(guān)注性能的宏觀子部分之外幾乎沒有提供什么,同時聲稱告訴人們 GPU 的整體性能。客戶應(yīng)得的不僅僅是這些,尤其是考慮到這些數(shù)字與購買決策相關(guān)的權(quán)重時。
當(dāng)今的基準測試問題可以總結(jié)為一個簡單的問題:在投資任何形式的技術(shù)時,您是否會更自在地了解使用現(xiàn)實世界的示例執(zhí)行某項操作,或者您是否愿意在理論上的情況下工作?了解諸如 GPU 提供用戶喜愛游戲的圖形的難易程度以及以合適的 fps 播放它們的時間長度等信息對消費者和 OEM 級別都有用。
移動 GPU 正處于類似于桌面 GPU 基準測試所經(jīng)歷的演變之中:
· 第 1 階段:基準測試包括對每秒架構(gòu)三角形和每秒像素速率的極度理論化和有些混淆的比較。
· 第 2 階段:以前的基準被開發(fā)成實際應(yīng)用程序,據(jù)稱可以在任意旋轉(zhuǎn)物體之前測量三角形和像素。
· 第 3 階段:基準包括專門設(shè)計用于測試 GPU 的最大計算能力的合成游戲場景。這就是我們現(xiàn)在使用移動 GPU 的地方。
· 第 4 階段:基準擴展以涵蓋通過運行實際內(nèi)容獲得的指標比較,并以此為基礎(chǔ)評估每個 GPU 的優(yōu)點。
案例研究:實際應(yīng)用與綜合基準測試
逐幀檢查基準可以為情況提供更多色彩。當(dāng)前流行的基準測試聲稱對 GPU 進行壓力測試,以發(fā)現(xiàn)它們在特定時間段內(nèi)可以提供的最大幀數(shù)。雖然有些觀眾可能想知道,一臺設(shè)備能夠在固定時間段內(nèi)交付 300 多幀特定內(nèi)容,而不是另一臺只能交付 250 多幀的設(shè)備,但這并不是消費者真正需要的內(nèi)容。這充其量是任意的,并且不符合他們可能對設(shè)備的任何體驗。
ARM 一直在內(nèi)部運行基準測試,其中包含來自應(yīng)用商店中支持 OpenGL ES 的頂級游戲的超過一百萬幀的真實內(nèi)容,分析多個性能領(lǐng)域。我們正在使用像憤怒的小鳥這樣的流行游戲,并正在分析 CPU 負載、每秒幀數(shù)、uArch 數(shù)據(jù)以及大量與 GPU 無關(guān)的 API 使用情況和渲染流組合數(shù)據(jù)。該分析中收集的數(shù)據(jù)產(chǎn)生了一些非常有趣的結(jié)果。例如,在同一 GPU 上的《狂野飆車 7》和其他高清游戲中的圖像似乎顯示出相似級別的圖形用戶體驗。這會讓用戶相信它們是由大致相似的工作負載水平構(gòu)成的,但事實并非如此(圖 1)。
圖 1:測試結(jié)果似乎顯示了相似級別的用戶體驗,因此也顯示了相似級別的工作負載,但事實并非如此。
在檢查來自流行基準測試的數(shù)據(jù)與來自實際應(yīng)用程序的數(shù)據(jù)時,基準測試的片段計數(shù)與流行游戲的片段計數(shù)相似,而頂點計數(shù)則超過了屋頂。在全球范圍內(nèi),該基準在 1080p 時的原始與片段比率的平均值為 1:13.1。但是,通過逐個繪制調(diào)用檢查內(nèi)容繪制調(diào)用,50% 的 Benchmark C 繪制調(diào)用的基元與片段的比率小于 1:1,另外 24% 的比率小于 1:10,這直接與超過 1:10 的推薦指南(圖 2)。這樣做的效果是,基準測試并沒有給人以整體性能的感覺,它實際上變成了性能單個方面的微觀基準,由于實際應(yīng)用程序中的工作負載更加平衡,這很少是一個因素。
圖 2:在檢查實際應(yīng)用程序數(shù)據(jù)時,圖 1 的 Benchmark C 繪圖調(diào)用給出了誤導(dǎo)性的性能結(jié)果。
實際游戲更加平衡和一致,微三角形更少,大多數(shù)繪制調(diào)用每個三角形處理超過 10 個片段。基準測試提供商承認他們使用高頂點數(shù)來給 GPU 施加壓力,聲稱它為用戶提供了關(guān)于他們的 GPU 將如何響應(yīng)未來內(nèi)容的“現(xiàn)實”反饋。然而,這種壓力測試顯然是不現(xiàn)實的,因為它不能準確地反映消費者日常使用的應(yīng)用程序中使用的片段和幾何形狀的平衡。
幾何不平衡沒有考慮到移動設(shè)備性能方面的最大限制因素:帶寬(圖 3)。
圖 3:與實際應(yīng)用相比,基準測試中的相對帶寬。
現(xiàn)實世界的應(yīng)用程序在整個渲染中使用的帶寬平衡更加一致。我們在這里看到的是幾何圖形使用的帶寬增加了 3-8 倍,這意味著可用于片段生成的帶寬更少——這是用戶實際看到的。通過關(guān)注架構(gòu)選擇的微觀效應(yīng)而不是宏觀性能效應(yīng),這再次產(chǎn)生了對能力的錯誤印象。實際上,這些基準所強調(diào)的所謂差異對于實際用例的最終用戶永遠不會被察覺,但會助長軍備競賽,推動硅足跡和功率包絡(luò)以支持更大數(shù)量的生產(chǎn)。
改變的五個步驟
由于綜合基準不會消失,它們至少應(yīng)該遵循以下規(guī)則:
· 遵循摩爾定律:摩爾定律(計算潛力每 18 個月翻一番)適用于 GPU 和 CPU。與去年同期相比,基準中表示的平均工作量不應(yīng)超過上一年的兩倍,并且應(yīng)保持平衡。這樣,公司就不會試圖超越摩爾定律。
· GPU 超帶寬測試:每幀 60 fps 的原始帶寬不應(yīng)超過可用帶寬。未來 24 個月的帶寬基準應(yīng)設(shè)置在典型的移動設(shè)備上。使測試的目標盡可能獨立,無論設(shè)備是否具有高帶寬容量。
· 使用公認的技術(shù):技術(shù)應(yīng)與當(dāng)前的最佳實踐相一致,并適合場景類型。這些技術(shù)也應(yīng)該與移動市場相關(guān)(參見帶寬規(guī)則)。
· 過多的幾何圖形不是可接受的工作負載代理:應(yīng)平衡每個繪制調(diào)用的基元與片段比率。許多當(dāng)前的基準具有太多的幾何形狀。10 frags/prim 規(guī)則應(yīng)該是最低水印。
· Overdraw 不能代表工作量:在任何表面上超過 2 倍的 Overdraw 平均值并不具有代表性。相反,添加一個為用戶提供視覺投資回報的功能(他們可以實際看到的東西)。
GPU 基準測試還有很長的路要走;然而,采用上述規(guī)則至少會使綜合基準測試更接近于代表真實內(nèi)容的東西。
移動內(nèi)容世界本身就是動態(tài)的并且不斷發(fā)展。最終,為了應(yīng)對這個問題,行業(yè)將不得不到達一個類似于桌面的地方,真正的應(yīng)用程序工作負載成為基準,從而可以更全面地了解 GPU。
審核編輯:郭婷
-
cpu
+關(guān)注
關(guān)注
68文章
11051瀏覽量
216200 -
gpu
+關(guān)注
關(guān)注
28文章
4918瀏覽量
130762
發(fā)布評論請先 登錄
在設(shè)置 gpioClock 時,如何設(shè)置成員變量以實現(xiàn)從高到低的速度?
從模擬到數(shù)字:舵機控制技術(shù)的飛躍!

IGBT雙脈沖測試方法的意義和原理

ADS1015輸入懸空時,采集到電壓是怎么回事?
AI Agent智能體平臺:如何助力實現(xiàn)從制造到“智造”的飛躍?
MLCommons推出AI基準測試0.5版
ADS8689在使用內(nèi)部基準, 干擾較大時,數(shù)據(jù)錯誤怎么解決?
能量回收對您的應(yīng)用有意義嗎?EAK制動斬波器集成水冷電阻器

DaVinci系統(tǒng)級基準測試測量

數(shù)字化PMC:從概念到實踐的飛躍
AM243x/AM64x單芯片伺服電機控制實現(xiàn)和基準測試

如何使用頻譜儀測量場強
雙電源無擾動快切裝置的小型化設(shè)計是否有意義?

評論