九九激情网,宅男精品视频,粉嫩无毛av在线播放

存儲與GPU性能皆已成倍增長，IO表現(xiàn)為何遲遲不見好轉(zhuǎn)？

伴隨著HPC、自動駕駛、深度學(xué)習(xí)和VR/AR需求的不斷增加，IO性能也在逐步凸顯瓶頸，尤其是GPU與存儲之間的讀寫。處理器速度已經(jīng)從KHz進化至了GHz，VRAM從KB進化至了GB，IO速度也從KB/s進化至了GB/s，然而GB/s的大幅度改善從直觀角度來看依然像是MB/s。

比如在有線連接的VR應(yīng)用中，圖形需要經(jīng)過電腦進行處理，再經(jīng)有線傳輸顯示在VR屏幕上，這就引發(fā)了高延遲和長讀取時間等問題。這不禁讓人開始遐想，在CPU、GPU和存儲都已經(jīng)革新?lián)Q代的情況下，我們是否真正有效地應(yīng)用了硬件性能？為此微軟和英偉達都提出了直接存儲的概念來改善IO的現(xiàn)狀。

微軟：Windows上的DirectStorage

微軟在不久前的Windows 11發(fā)布會上重點提到了DirectStorage技術(shù)，這是一個最初為主機設(shè)計的DirectX API，如今微軟也將把這一技術(shù)帶到PC上。

在當(dāng)前NVMe SSD和PCIe技術(shù)的演進下，存儲帶寬遠超舊式的硬盤存儲技術(shù)，過去10MB每秒的速度已經(jīng)達到數(shù)GB每秒。但PC上的圖形工作量也在逐步進化，數(shù)據(jù)量的增加對于讀取提出了更高的要求。過去大量數(shù)據(jù)的讀取只需要少量的IO請求，但如今的圖形渲染會將材質(zhì)等資源分成小塊，只有在場景提出要求時載入所需的部分，如此一來雖然提高了效率，卻引入了更多IO請求。

當(dāng)前的GPU資源讀取流程 / 微軟

而目前的存儲API并沒有對大量IO請求作出優(yōu)化，因此拖累了NVMe，使得讀寫瓶頸愈發(fā)明顯。即便采用高端的PC硬件，也無法飽和利用存儲帶寬優(yōu)勢。除此之外，這些數(shù)據(jù)往往需要經(jīng)過壓縮傳輸下一個環(huán)節(jié)，傳入內(nèi)存后，還要CPU進行一部分解壓工作，最后再傳入GPU顯存里，這樣一來每個節(jié)點都存在效率損失。

而DirectStorage采用了全新的路徑，從存儲讀取的數(shù)據(jù)傳給內(nèi)存后，直接傳給GPU顯存。而GPU對于這些數(shù)據(jù)的解壓速度遠快于CPU，所以極大地優(yōu)化了IO性能。

英偉達：RTX IO和Magnum IO GPUDirect Storage

英偉達在RTX 30系列顯卡上引入了RTX IO，面向消費市場，提升游戲場景下的讀取速度。英偉達稱RTX IO將與微軟的DirectStorage結(jié)合，與傳統(tǒng)硬盤下的存儲API相比，可將IO性能提高百倍。過去需要數(shù)十個CPU內(nèi)核的工作全部交由RTX GPU來處理。

值得一提的是，英偉達的RTX IO雖然也用到了微軟的DirectStorage，但該技術(shù)并沒有將數(shù)據(jù)傳輸?shù)絻?nèi)存，而是直接由SSD轉(zhuǎn)向GPU。微軟一名圖形開發(fā)者在GSL 2021大會上表示，未來DirectStorage的目標(biāo)也是繞過系統(tǒng)內(nèi)存。

GDS技術(shù) / 英偉達

除了消費市場外，英偉達在HPC市場也推出了對應(yīng)的直接存儲技術(shù)，Magnum IO GPUDirect Storage（GDS）。GDS技術(shù)同樣是一個繞過CPU的技術(shù)，與消費級GPU不同，HPC場景下往往要用到多塊GPU，如此一來受IO延遲和CPU的影響更大。GDS在本地存儲與GPU顯存之間建立直接的數(shù)據(jù)通道，消除了CPU引入的延遲和讀寫瓶頸。

GDS與CPU傳輸至GPU讀取性能對比 / 英偉達

在運用GDS后，帶寬提升達到1.5倍，與傳統(tǒng)CPU回彈緩沖的數(shù)據(jù)路徑相比，CPU利用率也有2.8倍的提升。

目前英偉達已經(jīng)將這一技術(shù)加入到其HGX AI超算中，DDN、VAST和WEKA三家公司已經(jīng)開始了相關(guān)產(chǎn)品的量產(chǎn)，而IBM、美光等五家廠商也在積極引入這一技術(shù)。三星、鎧俠、西數(shù)和戴爾等廠商也開始了GDS的早期集成與認(rèn)證計劃。

小結(jié)

直接存儲技術(shù)進一步放大了GPU廠商與存儲廠商的優(yōu)勢，目前HPC市場前景巨大，英偉達在相關(guān)業(yè)務(wù)上的盈利已經(jīng)讓其看到了商機。不僅是GPU，英偉達采用Arm架構(gòu)的Grace CPU同樣引入了NVLink這樣的數(shù)據(jù)傳輸改善方案。在這樣的性能改善下，即便存儲方案不同，英偉達的GPU也很可能成為HPC應(yīng)用的首選。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴