女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何釋放異構計算的潛能?Imagination與Baya Systems的系統架構實踐啟示

穎脈Imgtec ? 2025-06-13 08:33 ? 次閱讀

報告作者:

Pallavi Sharma, Imaginaiton產品管理總監

Dr.Eric Norige, Baya Systems 首席軟件架構師

091a70ee-47ee-11f0-986f-92fbcf53809c.png

你是否正在設計多核或CPU/GPU混合系統,卻依然未能達成性能目標?你并不孤單。如今,系統架構師們不斷追求構建更強大的SoC,過于專注于計算能力的“堆砌”:更多核、更快引擎、更強AI加速。然而現實是:如果數據無法及時送達,再強的算力也無從發揮。

在2025年Andes RISC-V大會上,Imagination Technologies與Baya Systems聯手深入剖析了這一挑戰,結果令人震驚。兩家公司利用Baya的CacheStudio工具,對CPU、GPU及混合計算系統中的緩存行為進行了建模分析。

目的就是要揭示:盡管硬件資源充足,現實中的異構計算性能為何仍頻頻“失速”。
那么,讓我們一起來看看他們的發現,以及這些見解如何幫助你打造更好、更快、更高效的系統。


隱藏的瓶頸:不是算力不足,而是數據流動受限

現代SoC的性能瓶頸早已不再是純粹的計算能力。相反,系統越來越受到數據在各處理單元與存儲層級之間傳輸效率的限制。

即使將CPU、GPU及各種加速器集成到同一芯片上,也并不自動等同于性能提升。事實上,若架構缺乏精細協同,這種集成反而可能帶來資源競爭、延遲增加以及緩存效率下降等問題。

本次研究將緩存行為作為一種潛在的診斷工具,旨在揭示系統中的關鍵性能限制點,同時更深入地理解異構計算單元在緩存大小配置、一致性管理及內存訪問模式方面所面臨的權衡取舍。

盡管這些發現提供了諸多有價值的洞見,但應結合本研究的具體范圍與假設前提進行解讀。以下是部分關鍵發現:


純CPU負載:優先考慮時間局部性與分層緩存策略


一級緩存(L1):性能提升隨著緩存容量的增加呈線性趨勢。將L1從16 KB提升至64 KB,命中率從約94.5%提升至約97.8%。這驗證了CPU主導型任務具備顯著的時間局部性——即最近訪問的數據很可能會在短時間內再次被訪問。

二級緩存(L2):命中率與L1容量呈負相關關系。隨著L1緩存吸收更多訪問請求,L2的利用率下降,從16 KB L1配置下的約50–56%降至64 KB L1下的約14–28%。這表明L2應側重于一致性管理與回退路徑延遲優化,而非盲目擴展容量。

三級緩存(L3):命中率維持在相對中等的水平(20–35%),其主要作用在于多核之間的一致性維護以及降低對DRAM的訪問壓力。

實際啟示:對于以CPU為主的工作負載,最佳性能依賴于為每個核心配置合適容量的私有L1緩存,同時針對延遲與一致性需求精細調優L2。L3緩存主要在多核或共享內存環境中發揮作用,特別是在DRAM壓力或一致性流量較高時更為關鍵。


純GPU負載:單靠加大緩存容量無法彌補訪問模式的不規則性

一級緩存(L1):相較于CPU,GPU工作負載的L1命中率更低——隨著緩存從16 KB擴展到64 KB,命中率僅從約54%提升至約73%。這一收益受限,主要歸因于高并行計算中常見的發散式和分散式內存訪問模式。

二級緩存(L2):隨著L1緩存增大,L2性能顯著下降。在16 KB L1配置下,L2命中率可達約55%;但當L1提升至64 KB時,命中率驟降至6–7%。這表明,過度放大上層緩存可能會破壞下層緩存的重用機會。

三級緩存(L3):在所有配置下,L3利用率始終偏低,最高命中率僅約為2.2%。這可能反映出GPU的流式數據訪問模式以及線程間局部性較差的特點。

實際啟示:GPU的內存層級性能高度依賴于軟件層的訪問優化,例如本地存儲使用、數據分塊(tiling)及顯式同步,而不能僅依賴傳統的緩存層次結構。硬件改進必須與面向負載的編程模型相結合,才能充分發揮性能。


混合負載:緩存層級的協同至關重要

一級緩存(L1):CPU和GPU線程的命中率均有提升,隨著L1從16 KB擴展至64 KB,命中率從約94%提升至約97%。

二級緩存(L2):行為對配置變化極為敏感。例如,在配置為256 KB L2和16 KB L1時,L2命中率達到61.7%;但當配置變為64 KB L1和64 KB L2時,命中率下降至23.2%。這表明在設計時必須同時考慮各級緩存的替換模式(eviction patterns)。

三級緩存(L3):在L1和L2容量不足的情況下,L3展現出顯著優勢。配置為1024 KB的L3時,對于較小L1/L2配置,命中率最高可達57%。

DRAM訪問流量:隨著緩存層級協調優化,內存訪問量顯著下降,從最小緩存配置下的約38.5萬次訪問減少至優化配置下的約32.8萬次。

實際啟示:在異構計算環境中,緩存設計不能孤立于某一處理引擎。必須精心架構各層緩存與計算單元之間的交互機制。經常被低估的L3,在降低DRAM壓力和提升系統整體響應能力方面發揮著關鍵作用。


設計的重點應是數據流,而非僅僅追求FLOPS(浮點運算性能)

本研究再次強調系統架構設計中的核心原則:在異構計算環境中,性能擴展的決定因素并非計算引擎的數量,而是這些引擎與共享內存及互連架構的協同方式。

CacheStudio并非終點工具,而是一個分析代理,可用于揭示系統中不易察覺的性能下降,并在設計初期為更優架構決策提供指導依據。


以協同為核心進行架構設計,而非各自為戰

針對CPU、GPU及混合負載,本研究得出以下關鍵結論:

CPU負載需配備針對性配置的私有L1緩存及延遲優化的L2緩存。

GPU負載需要架構層面支持發散式內存訪問,并輔以軟件層面的訪問優化。

混合負載在依賴L3一致性緩沖和多級緩存平衡配置方面獲益最大。

系統級性能剖析對于預判內存壓力、指導緩存層級設計至關重要。


結論明確:聰明的架構優于一味堆砌算力。

通過聚焦數據流動與內存協調,工程師才能真正釋放異構計算系統的全部潛力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 系統架構
    +關注

    關注

    1

    文章

    72

    瀏覽量

    23794
  • imagination
    +關注

    關注

    1

    文章

    598

    瀏覽量

    62043
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    能效提升3倍!異構計算架構讓AI跑得更快更省電

    電子發燒友網報道(文/李彎彎)異構計算架構通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計算任務的特點進行分工協作,從而在性能、能效和靈活性之間實現最優平衡
    的頭像 發表于 05-25 01:55 ?2438次閱讀

    國產芯片多架構開發實踐:從工業控制到邊緣AI的硬件設計經驗

    近年來,國產處理器與異構計算架構的成熟為硬件開發者提供了新選擇。我們基于飛騰、龍芯、海光等平臺,在VPX/COMe/ITX架構上完成了多個工業級項目驗證,在此分享一些實戰經驗。 硬件架構
    的頭像 發表于 05-23 09:24 ?166次閱讀

    Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態

    近日, Imagination Technologies 與國內領先的異構計算軟件與智算混合云服務提供商 澎峰科技 ( PerfXLab )正式簽署合作備忘錄( MoU ),圍繞 GPU 與 AI
    發表于 05-21 09:40 ?958次閱讀

    Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態

    近日,ImaginationTechnologies與國內領先的異構計算軟件與智算混合云服務提供商澎峰科技(PerfXLab)正式簽署合作備忘錄(MoU),圍繞GPU與AI的深度融合展開合作。雙方將
    的頭像 發表于 05-20 08:33 ?318次閱讀
    <b class='flag-5'>Imagination</b>與澎峰科技攜手推動GPU+AI解決方案,共拓<b class='flag-5'>計算</b>生態

    全志科技多核異構SoC助力行業智能化創新

    近日, “第十二屆開源操作系統年度技術會議”在北京舉行,全志科技受邀參會。會上,全志進行了題為《多核異構SoC在行業應用中軟件方案的思考與實踐》的分享。分享從市場和技術洞察、方案設計創新、場景化應用落地三個維度展開
    的頭像 發表于 04-18 09:11 ?484次閱讀
    全志科技多核<b class='flag-5'>異構</b>SoC助力行業智能化創新

    RAKsmart智能算力架構異構計算+低時延網絡驅動企業AI訓練范式升級

    在AI大模型參數量突破萬億、多模態應用爆發的今天,企業AI訓練正面臨算力效率與成本的雙重挑戰。RAKsmart推出的智能算力架構,以異構計算資源池化與超低時延網絡為核心,重構AI訓練基礎設施,助力企業實現訓練速度提升、硬件成本下降與算法迭代加速的三重突破。
    的頭像 發表于 04-17 09:29 ?255次閱讀

    異構計算的概念、核心、優勢、挑戰及考慮因素

    異構計算就像是一支由“多才多藝”處理器組成的團隊,每個成員都有自己的強項和責任。 ? 什么是異構計算????? “異構計算”指的是在同一個計算平臺中,部署多種不同類型的處理單元(比如
    的頭像 發表于 01-13 11:43 ?870次閱讀

    【一文看懂】什么是異構計算

    隨著人工智能、深度學習、大數據處理等技術的快速發展,計算需求的復雜性不斷提升。傳統的單一計算架構已難以滿足高效處理復雜任務的要求,異構計算因此應運而生,成為現代
    的頭像 發表于 12-04 01:06 ?2578次閱讀
    【一文看懂】什么是<b class='flag-5'>異構計算</b>?

    《算力芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    線程調度,與Hopper架構的細粒度同步機制,使得異構計算場景下的任務協同更加靈活。在我的分布式訓練實踐中,這些特性顯著提升了模型收斂速度。 張量處理器的設計是本書點睛之筆。從數學抽象來看,張量統一了
    發表于 11-24 17:12

    邊緣計算架構設計最佳實踐

    邊緣計算架構設計最佳實踐涉及多個方面,以下是一些關鍵要素和最佳實踐建議: 一、核心組件與架構設計 邊緣設備與網關 邊緣設備 :包括各種嵌入式
    的頭像 發表于 10-24 14:17 ?998次閱讀

    淺談國產異構雙核RISC-V+FPGA處理器AG32VF407的優勢和應用場景

    關于國產異構雙核RISC-V+FPGA處理器AG32VF407的具體優勢和應用場景淺談如下: 優勢 異構計算能力 : 異構雙核設計結合了RISC-V的高效指令集和FPGA的靈活可編程性,能夠針對特定
    發表于 08-31 08:32

    打造異構計算新標桿!國數集聯發布首款CXL混合資源池參考設計

    參考設計是首個支持異構計算架構的CXL硬件設備,標志著CXL技術在數據中心領域迎來異構計算新階段。 ? 國數集聯基于FPGA與自主研發的CXL協議IP的先進特性,可實現CPU、GPU、DDR、SSD
    的頭像 發表于 08-06 14:19 ?596次閱讀
    打造<b class='flag-5'>異構計算</b>新標桿!國數集聯發布首款CXL混合資源池參考設計

    AvaotaA1全志T527開發板AMP異構計算簡介

    Avaota SBC 的部分平臺內具有小核心 CPU,與大核心一起組成了異構計算的功能。 在異構多處理系統中,主核心和輔助核心的存在旨在共同協作,以實現更高效的任務處理。這種協作需要系統
    發表于 07-24 09:54

    異構計算:解鎖算力潛能的新途徑

    范式,智慧地解鎖了計算潛能的新境界。異構計算:多元并蓄的智慧之選首先,讓我們揭開異構計算的神秘面紗。簡單來說,異構計算是指將不同類型的
    的頭像 發表于 07-18 08:28 ?1.8w次閱讀
    <b class='flag-5'>異構計算</b>:解鎖算力<b class='flag-5'>潛能</b>的新途徑

    浪潮信息引領數據編排新紀元,加速釋放數據潛能

    在2024年數據基礎設施技術峰會的璀璨舞臺上,浪潮信息分布式存儲產品線架構師Lance Sun博士以其深厚的行業洞察與前瞻視角,發表了題為“高效數據編排,加速釋放數據潛能”的精彩演講,深刻剖析了當前數據時代,尤其是AIGC(人工
    的頭像 發表于 07-03 15:30 ?646次閱讀