報告作者:
Pallavi Sharma, Imaginaiton產品管理總監
Dr.Eric Norige, Baya Systems 首席軟件架構師
你是否正在設計多核或CPU/GPU混合系統,卻依然未能達成性能目標?你并不孤單。如今,系統架構師們不斷追求構建更強大的SoC,過于專注于計算能力的“堆砌”:更多核、更快引擎、更強AI加速。然而現實是:如果數據無法及時送達,再強的算力也無從發揮。
在2025年Andes RISC-V大會上,Imagination Technologies與Baya Systems聯手深入剖析了這一挑戰,結果令人震驚。兩家公司利用Baya的CacheStudio工具,對CPU、GPU及混合計算系統中的緩存行為進行了建模分析。
目的就是要揭示:盡管硬件資源充足,現實中的異構計算性能為何仍頻頻“失速”。
那么,讓我們一起來看看他們的發現,以及這些見解如何幫助你打造更好、更快、更高效的系統。
隱藏的瓶頸:不是算力不足,而是數據流動受限
現代SoC的性能瓶頸早已不再是純粹的計算能力。相反,系統越來越受到數據在各處理單元與存儲層級之間傳輸效率的限制。
即使將CPU、GPU及各種加速器集成到同一芯片上,也并不自動等同于性能提升。事實上,若架構缺乏精細協同,這種集成反而可能帶來資源競爭、延遲增加以及緩存效率下降等問題。
本次研究將緩存行為作為一種潛在的診斷工具,旨在揭示系統中的關鍵性能限制點,同時更深入地理解異構計算單元在緩存大小配置、一致性管理及內存訪問模式方面所面臨的權衡取舍。
盡管這些發現提供了諸多有價值的洞見,但應結合本研究的具體范圍與假設前提進行解讀。以下是部分關鍵發現:
純CPU負載:優先考慮時間局部性與分層緩存策略
一級緩存(L1):性能提升隨著緩存容量的增加呈線性趨勢。將L1從16 KB提升至64 KB,命中率從約94.5%提升至約97.8%。這驗證了CPU主導型任務具備顯著的時間局部性——即最近訪問的數據很可能會在短時間內再次被訪問。
二級緩存(L2):命中率與L1容量呈負相關關系。隨著L1緩存吸收更多訪問請求,L2的利用率下降,從16 KB L1配置下的約50–56%降至64 KB L1下的約14–28%。這表明L2應側重于一致性管理與回退路徑延遲優化,而非盲目擴展容量。
三級緩存(L3):命中率維持在相對中等的水平(20–35%),其主要作用在于多核之間的一致性維護以及降低對DRAM的訪問壓力。
實際啟示:對于以CPU為主的工作負載,最佳性能依賴于為每個核心配置合適容量的私有L1緩存,同時針對延遲與一致性需求精細調優L2。L3緩存主要在多核或共享內存環境中發揮作用,特別是在DRAM壓力或一致性流量較高時更為關鍵。
純GPU負載:單靠加大緩存容量無法彌補訪問模式的不規則性
一級緩存(L1):相較于CPU,GPU工作負載的L1命中率更低——隨著緩存從16 KB擴展到64 KB,命中率僅從約54%提升至約73%。這一收益受限,主要歸因于高并行計算中常見的發散式和分散式內存訪問模式。
二級緩存(L2):隨著L1緩存增大,L2性能顯著下降。在16 KB L1配置下,L2命中率可達約55%;但當L1提升至64 KB時,命中率驟降至6–7%。這表明,過度放大上層緩存可能會破壞下層緩存的重用機會。
三級緩存(L3):在所有配置下,L3利用率始終偏低,最高命中率僅約為2.2%。這可能反映出GPU的流式數據訪問模式以及線程間局部性較差的特點。
實際啟示:GPU的內存層級性能高度依賴于軟件層的訪問優化,例如本地存儲使用、數據分塊(tiling)及顯式同步,而不能僅依賴傳統的緩存層次結構。硬件改進必須與面向負載的編程模型相結合,才能充分發揮性能。
混合負載:緩存層級的協同至關重要
一級緩存(L1):CPU和GPU線程的命中率均有提升,隨著L1從16 KB擴展至64 KB,命中率從約94%提升至約97%。
二級緩存(L2):行為對配置變化極為敏感。例如,在配置為256 KB L2和16 KB L1時,L2命中率達到61.7%;但當配置變為64 KB L1和64 KB L2時,命中率下降至23.2%。這表明在設計時必須同時考慮各級緩存的替換模式(eviction patterns)。
三級緩存(L3):在L1和L2容量不足的情況下,L3展現出顯著優勢。配置為1024 KB的L3時,對于較小L1/L2配置,命中率最高可達57%。
DRAM訪問流量:隨著緩存層級協調優化,內存訪問量顯著下降,從最小緩存配置下的約38.5萬次訪問減少至優化配置下的約32.8萬次。
實際啟示:在異構計算環境中,緩存設計不能孤立于某一處理引擎。必須精心架構各層緩存與計算單元之間的交互機制。經常被低估的L3,在降低DRAM壓力和提升系統整體響應能力方面發揮著關鍵作用。
設計的重點應是數據流,而非僅僅追求FLOPS(浮點運算性能)
本研究再次強調系統架構設計中的核心原則:在異構計算環境中,性能擴展的決定因素并非計算引擎的數量,而是這些引擎與共享內存及互連架構的協同方式。
CacheStudio并非終點工具,而是一個分析代理,可用于揭示系統中不易察覺的性能下降,并在設計初期為更優架構決策提供指導依據。
以協同為核心進行架構設計,而非各自為戰
針對CPU、GPU及混合負載,本研究得出以下關鍵結論:
純CPU負載需配備針對性配置的私有L1緩存及延遲優化的L2緩存。
純GPU負載需要架構層面支持發散式內存訪問,并輔以軟件層面的訪問優化。
混合負載在依賴L3一致性緩沖和多級緩存平衡配置方面獲益最大。
系統級性能剖析對于預判內存壓力、指導緩存層級設計至關重要。
結論明確:聰明的架構優于一味堆砌算力。
通過聚焦數據流動與內存協調,工程師才能真正釋放異構計算系統的全部潛力。
-
系統架構
+關注
關注
1文章
72瀏覽量
23794 -
imagination
+關注
關注
1文章
598瀏覽量
62043
發布評論請先 登錄
能效提升3倍!異構計算架構讓AI跑得更快更省電
國產芯片多架構開發實踐:從工業控制到邊緣AI的硬件設計經驗
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態

全志科技多核異構SoC助力行業智能化創新

RAKsmart智能算力架構:異構計算+低時延網絡驅動企業AI訓練范式升級
異構計算的概念、核心、優勢、挑戰及考慮因素
《算力芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
邊緣計算架構設計最佳實踐
淺談國產異構雙核RISC-V+FPGA處理器AG32VF407的優勢和應用場景
打造異構計算新標桿!國數集聯發布首款CXL混合資源池參考設計

評論