女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺談GPU: 衡量計算效能的正確姿勢(3)

Linux閱碼場 ? 來源:面包板社區(qū) ? 作者:Linux閱碼場 ? 2021-04-16 11:16 ? 次閱讀

上期我們講了現(xiàn)代計算機(jī)體系結(jié)構(gòu)通過處理器(CPU/GPU)和內(nèi)存的交互來執(zhí)行計算程序,處理輸入數(shù)據(jù),并輸出結(jié)果。實際上,由于CPU是高速器件,而內(nèi)存訪問速度往往受限(如圖所示,CPU和內(nèi)存的性能差距從上個世紀(jì)80年代開始,不斷拉大),為解決速度匹配的問題,在CPU和內(nèi)存之間設(shè)置了高速緩沖存儲器Cache。

04180576-9e23-11eb-8b86-12bb97331649.png

而且Cache往往分幾個層級,與內(nèi)存以及其它外部存儲器共同構(gòu)成計算機(jī)系統(tǒng)的存儲器層次結(jié)構(gòu)(Memory Hierarchy),如下圖所示,使得整個系統(tǒng)在性能,成本和制造工藝達(dá)到平衡。

045341ae-9e23-11eb-8b86-12bb97331649.jpg

我們可以看到,各個存儲層次在訪問時間上存在數(shù)量級別的差異,訪問速度越快,單位制造成本越高,容量越小。在這里,我們并不打算討論Cache具體設(shè)計和實現(xiàn),只是希望針對Cache及其命中率對性能的影響有一個直觀的認(rèn)識。為了簡化討論問題的復(fù)雜性,我們這里做如下假設(shè)。

整個流水線分為5個階段,分別為《1》取指、《2》譯碼、《3》運算執(zhí)行、《4》訪存讀寫 (可選)、《5》寫回結(jié)果至寄存器

這里只考慮一級Cache,而且指令、數(shù)據(jù)共享L1 Cache。Cache命中的情況下,每個階段都是1個時鐘(cycle),而cache不命中的情況,階段《1》,《5》各耗時100個時鐘(cycles)。

訪存指令占所有指令1/3。下面我們來分別計算3種情況下的CPI。

= 100 cycles + 3 * (1 cycle) + ((1 cycle * 2/3) + (100 cycles * 1/3))

= 137 cycles.

= (1 cycle * 0.9 + 100 cycles * (1 - 0.9)) + (3 cycles) + ((1 cycle * (2/3 + 0.9/3)) + (100cycles * (1 - 0.9) * 1/3))

= 18.2 cycles.

= (1 cycle * (0.99) + 100 cycles * (1 - 0.99)) + (3 cycles) + ((1 cycle * (2/3 + 0.99/3)) + (100 cycles * (1 - 0.99) * 1/3))

= 6.32 cycles.

Cache完全缺失。

CPI = 《1》階段的時鐘+《2, 3, 5》階段的時鐘+《4》階段的時鐘

Cache命中率達(dá)到90%。

CPI = 《1》階段的時鐘+《2, 3, 5》階段的時鐘+《4》階段的時鐘

Cache命中率達(dá)到99%

CPI = 《1》階段的時鐘+《2, 3, 5》階段的時鐘+《4》階段的時鐘另外在上期文章里我們也提到同樣32b數(shù)據(jù)的訪問,DRAM的耗能是SRAM的百倍(640pJ vs 5pJ)。完全可見正確配置Cache對高能效高性能計算的重要作用。

值得一提的是,由于CPU和GPU設(shè)計面向的差異,他們的Memory Hierarchy存在明顯的區(qū)別,一個典型的對比如下圖,可以看到GPU的Memeory Hierarchy設(shè)計的時候更注意帶寬或者說Throughput,而相比之下對Latency就沒有CPU重視, GPU Cache容量也相對比較小。

045d4bae-9e23-11eb-8b86-12bb97331649.png

那我們不禁要問,GPU的Latency指標(biāo)這么糟糕,按照我們先前的計算,Cache不命中的后果是不是很嚴(yán)重?不過不要擔(dān)心,CPU的Cache不命中可能會導(dǎo)致叫停流水線的嚴(yán)重后果,而對GPU,只要計算任務(wù)量足夠,它的硬件調(diào)度器(Hardware Scheduler)能夠自動在不同的任務(wù)間無縫切換,來掩藏特定任務(wù)訪問memory帶來的延遲。關(guān)于GPU的Latency hiding,值得大書特書,我們以后會詳細(xì)討論。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11033

    瀏覽量

    215991
  • Cache
    +關(guān)注

    關(guān)注

    0

    文章

    129

    瀏覽量

    28910

原文標(biāo)題:GPU: 衡量計算效能的正確姿勢(3)

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    常見傳動機(jī)構(gòu)負(fù)載慣量計算方法及實例

    傳動機(jī)構(gòu)負(fù)載慣量計算方法 1. 絲桿傳動機(jī)構(gòu) 絲桿傳動機(jī)構(gòu)廣泛應(yīng)用于精密定位系統(tǒng)中。其負(fù)載慣量的計算需要考慮負(fù)載質(zhì)量、絲桿導(dǎo)程、絲桿直徑以及摩擦系數(shù)等因素。 假設(shè)負(fù)載質(zhì)量為m,絲桿導(dǎo)程為Pb,絲桿直徑為Db,負(fù)載移動速度為
    的頭像 發(fā)表于 04-23 17:38 ?443次閱讀
    常見傳動機(jī)構(gòu)負(fù)載慣<b class='flag-5'>量計算</b>方法及實例

    GPU加速計算平臺的優(yōu)勢

    傳統(tǒng)的CPU雖然在日常計算任務(wù)中表現(xiàn)出色,但在面對大規(guī)模并行計算需求時,其性能往往捉襟見肘。而GPU加速計算平臺憑借其獨特的優(yōu)勢,吸引了行業(yè)內(nèi)人士的廣泛關(guān)注和應(yīng)用。下面,AI部落小編為
    的頭像 發(fā)表于 02-23 16:16 ?315次閱讀

    GPU計算服務(wù)怎么樣

    在當(dāng)今數(shù)字化快速發(fā)展的時代,高性能計算需求日益增長。為滿足這些需求,GPU計算服務(wù)應(yīng)運而生。那么,GPU計算服務(wù)怎么樣呢?接下來,AI部
    的頭像 發(fā)表于 02-05 15:01 ?397次閱讀

    調(diào)理電路的噪聲余量計算如何計算

    調(diào)理電路的噪聲余量計算 請問各位,在數(shù)據(jù)采集系統(tǒng)中,2Msps要達(dá)到12bit分辨率,選用14bit的ADC。前端調(diào)理電路的噪聲理論余量如何計算。根據(jù)什么條件確定前端調(diào)理放大器的噪聲指標(biāo)。。。比如調(diào)理電路的總噪聲不能夠超過多少?該如何
    發(fā)表于 01-21 07:55

    算智算中心的算力如何衡量

    (ComputationalPower)是指智算中心通過其內(nèi)部的計算設(shè)備(如CPU、GPU、AI芯片等)對數(shù)據(jù)進(jìn)行處理和計算的能力。它體現(xiàn)了智算中心在單位時間內(nèi)能夠完成的計算任務(wù)量,
    的頭像 發(fā)表于 01-16 14:03 ?1863次閱讀
    算智算中心的算力如何<b class='flag-5'>衡量</b>?

    電磁流量計正確調(diào)試步驟

    電磁流量計在自來水、生活用水、制藥等行業(yè)有著非常多的應(yīng)用,但是很多用戶們采購后根據(jù)專業(yè)復(fù)雜的說明書并不能正確的調(diào)試好產(chǎn)品并使用它。經(jīng)過我司售后部門的統(tǒng)計。百分之七十及以上的客戶朋友們收到貨后都會致電
    的頭像 發(fā)表于 01-12 09:19 ?1258次閱讀

    芯原發(fā)布新一代Vitality架構(gòu)GPU IP系列

    上實現(xiàn)了顯著提升,并支持多核擴(kuò)展,為用戶提供更加出色的性能體驗。該架構(gòu)集成了諸多先進(jìn)功能,如一個可配置的張量計算核心(Tensor Core)AI加速器,以及一個容量高達(dá)32MB至64MB的三級(L3)緩存,這些配置共同保證了強(qiáng)大的處理能力和卓越的能效表現(xiàn)。 針對云游戲領(lǐng)
    的頭像 發(fā)表于 12-24 10:55 ?813次閱讀

    芯原推出新一代高性能Vitality架構(gòu)GPU IP系列

    原新一代Vitality GPU架構(gòu)顯著提升了計算性能,并支持多核擴(kuò)展,以進(jìn)一步提升性能。該GPU架構(gòu)集成了諸多先進(jìn)功能,如一個可配置的張量計算核心(Tensor Core)AI加速器
    的頭像 發(fā)表于 12-19 15:55 ?424次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    。 2. 操作系統(tǒng)支持:CST Studio Suite在不同操作系統(tǒng)上持續(xù)測試,可在支持的操作系統(tǒng)上使用GPU計算,具體參考相關(guān)文檔。 3. 許可證:GPU
    發(fā)表于 12-16 14:25

    平衡流量計計算公式

    量計計算公式的重要性及應(yīng)用你了解嗎? 一、管道流速公式 這是平衡流量計中最基本的計算公式之一,它基于流體的質(zhì)量守恒定律。通過測量管道中的壓力差和密度,可以
    的頭像 發(fā)表于 10-25 14:14 ?654次閱讀
    平衡流<b class='flag-5'>量計</b><b class='flag-5'>計算</b>公式

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計算能力來加速科學(xué)計算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜
    的頭像 發(fā)表于 10-25 09:23 ?520次閱讀

    GPU計算主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier GPU計算主板 信號計算主板 視頻處理 相機(jī)信號

    GPU計算主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier GPU計算主板 信號計算
    的頭像 發(fā)表于 10-23 10:09 ?545次閱讀
    <b class='flag-5'>GPU</b><b class='flag-5'>計算</b>主板學(xué)習(xí)資料第735篇:基于<b class='flag-5'>3</b>U VPX的AGX Xavier <b class='flag-5'>GPU</b><b class='flag-5'>計算</b>主板 信號<b class='flag-5'>計算</b>主板 視頻處理 相機(jī)信號

    云端超級計算機(jī)怎么用

    云端超級計算機(jī)是一種基于云計算的高性能計算服務(wù),它將大量計算資源和存儲資源集中在一起,通過網(wǎng)絡(luò)向用戶提供按需的計算服務(wù)。
    的頭像 發(fā)表于 10-18 10:14 ?414次閱讀

    信號計算主板設(shè)計方案:735-基于3U VPX的AGX Xavier GPU計算主板

    3U VPX導(dǎo)冷結(jié)構(gòu) , FPGA信號預(yù)處理 , GPU顯卡 , PCIE視頻處理 , GPU計算主板
    的頭像 發(fā)表于 07-18 11:31 ?726次閱讀
    信號<b class='flag-5'>計算</b>主板設(shè)計方案:735-基于<b class='flag-5'>3</b>U VPX的AGX Xavier <b class='flag-5'>GPU</b><b class='flag-5'>計算</b>主板

    大模型單卡的正確使用步驟

    、注意事項等方面進(jìn)行介紹,以幫助用戶更好地掌握大模型單卡的使用技巧。 第一部分:大模型單卡概述 1.1 大模型單卡的定義 大模型單卡是一種集成了大量計算資源和存儲資源的硬件設(shè)備,通常用于處理大規(guī)模數(shù)據(jù)集和執(zhí)行復(fù)雜計
    的頭像 發(fā)表于 07-05 14:32 ?1042次閱讀