女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Ampere架構解析:相比上一代做了哪些提升

工程師鄧生 ? 來源:中關村在線 ? 作者:曲楠 ? 2020-12-11 17:22 ? 次閱讀

持續了一個月的“顯卡發布季”已經告一段落,截止目前NVIDIA發布了GeForce RTX 3060 Ti/3070/3080/3090共4個型號的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升,新的NVIDIA Ampere架構還帶來了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價格卻與上一代顯卡相同。

在9月2日發布會當天,雖然過程僅有短短的40分鐘,卻震驚了全世界的用戶。

算力提升

下面我們就來看看,“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構,做了哪些提升。

第一代RTX架構Turing

第二代RTX架構 Ampere

首先來簡單回顧一下在9月2日發布會的PPT上我們都看到了什么,相較于初代的Turing RTX架構,NVIDIA Ampere架構在算力上有著成倍的增長,每個時鐘執行2次著色器運算。

而Turing為1次,著色器性能達到30 TFLOPS單精度性能,而Turing為11 TFLOPS。

NVIDIA Ampere架構翻倍了光線與三角形的相交吞吐量,RT Core達到58 RT TFLOPS,而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中,可自動識別并消除不太重要的DNN權重,處理稀疏網絡的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來自美光的GDDR6X顯存,以及我們上面說的,三大處理核心均為初代Turing的兩倍速率,構成了有史以來性能最強大的Ampere。

SM單元的改變

而NVIDIA Ampere架構的強大性能并不是NVIDIA一蹴而就,可以說在20系顯卡中所采用的Turing架構功不可沒,下面我們先來看看完整的GA102核心。

完整的GA102 GPU包含7個GPC(圖形處理集群)42個TPC(紋理處理集群)以及84個SM(流處理器)組成。

GPC是占據主導地位的高級模塊,擁有所有的關鍵圖形處理單元,每個GPC包含一個專用光柵引擎。

在新的NVIDIA Ampere架構中,每個GPC還包含了兩個ROP分區,每個分區包含8個ROP單元。下面我們來看看每個SM單元的變化。

在每個SM中,包含四個大的處理分區共128個CUDA核心,4個第三代Tensor Core,1個第二代RT Core,1個256 KB的緩存文件,1個128 KB的L1緩存,這個L1緩存可以根據不同的工作需求來調配緩存,工作效率發揮至最大。

另外大家都知道本次RTX 3080的CUDA數量暴增至8704個,而RTX 3090的CUDA數量更是達到了驚人的10496個。

但是大家要知道專業計算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數量,理論上只有8192個CUDA,那RTX 3080又是如何達到這種效果的呢?

其實是因為本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數量提高了一倍。

我們在發布會中經常聽到性能翻倍的說法,其實是因為本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數量提高了一倍,同時吞吐量也就變為了一倍。

而通常我們計算顯卡的CUDA數量,并不是把SM中的所有單元加起來計數,而是只統計FP32單元的數量,所以這樣一來,SM中的【FP32 : INT32】 從 1:1 變為 2:1。

如RTX 3080的8704個CUDA,其實它只有4352個INT32單元,但由于內部的FP32數量翻了一倍,所以最終實現了8704這個驚人的數字。

而這樣粗暴的提升CUDA數量對于游戲有幫助嗎?

答案是有,不僅有提升還很大。其實通常在游戲中浮點運算相比整數計算要常用的多,圖形、算法以及各種計算操作中著色器工作負載通常需要混合使用FP32算數指令,而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,著色器發出光線追蹤的請求,交給RT Core來處理,它將進行兩種測試,分別為邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing)。

基于BVH算法來判斷,如果是方形,那么就返回縮小范圍繼續測試,如果是三角形,則反饋結果進行渲染。

而光線追蹤最耗時的正是求交計算,因此,要提升光線追蹤性能,主要是對兩種求交(BVH/三角形求交)進行加速。

在Turing的RT Core中,可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊,這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時進行,進行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動態模糊的影像時,按照NVIDIA自己的實測,比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強化,Ampere架構的Tensor Core也得到了極大地加強,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動識別并消除不太重要的DNN(深度神經網絡)權重,同時依然能保持不錯的精度。

首先原始的密集矩陣會經過訓練,刪除掉稀疏矩陣,再經過訓練稀疏矩陣,從而實現稀疏優化,進而提高Tensor Core的性能。

所以最終的結果就是Tensor Core在處理稀疏網絡的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發布的還有一項新技術——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間,對于存儲空間的負擔暫且不提,但存放在硬盤中的數據,如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過的數據,經過解壓縮再發送到顯存中。

雖然隨著NVMe SSD的推出,讀取速度相較機械硬盤能夠快20倍,但受制于傳統I/O限制,NVMe高達7GB/秒的高速讀寫對于CPU是極大的負擔。

在這個過程中,會占用多個CPU核心,壓力急劇增大,占用較多的內存,而此時其實GPU是處于閑置狀態的。

RTX IO的作用就是越過CPU解壓再傳輸數據這一步,直接從PCIE總線讀取硬盤上經過壓縮的數據,并且完成解壓,降低CPU占用,變向提升了性能。

當然這項技術作為系統底層的運行方式改變,還需要借助微軟發布的DirectStorage來實現,對于目前容量的游戲來說,RTX IO的改善效果有限,但假以時日等游戲容量上百G成為常態的時候,這項技術將會發揮巨大的功效。

最快的顯存

在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時間內GDDR6X可以比GDDR6傳輸多2倍的數據。

這對于需要大量數據負載的工作尤為重要,如光線追蹤的游戲、AI學習和8K視頻渲染。

同時搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后,會有玩家會問,RTX 20系顯卡如此“短壽”算不算失敗的一代,我認為不算。

Turing為我們開創了光線追蹤和AI學習的新世界,奠定了GPU未來的發展方向,真正意義上實現從性能的堆砌到質的改變。

而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實。

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5240

    瀏覽量

    105768
  • 顯卡
    +關注

    關注

    16

    文章

    2503

    瀏覽量

    69185
  • 架構
    +關注

    關注

    1

    文章

    527

    瀏覽量

    25852
  • Ampere
    +關注

    關注

    1

    文章

    81

    瀏覽量

    4666
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    NVIDIA 采用納微半導體開發新一代數據中心電源架構 800V HVDC 方案,賦能下一代AI兆瓦級算力需求

    800V HVDC電源架構開發,旗下GaNFast?氮化鎵和GeneSiC?碳化硅技術將為Kyber機架級系統內的Rubin Ultra等GPU提供電力支持。 ? NVIDIA推出的下一代800V
    發表于 05-23 14:59 ?1155次閱讀
    <b class='flag-5'>NVIDIA</b> 采用納微半導體開發新<b class='flag-5'>一代</b>數據中心電源<b class='flag-5'>架構</b> 800V HVDC 方案,賦能下<b class='flag-5'>一代</b>AI兆瓦級算力需求

    NVIDIA NVLink 深度解析

    引言 NVIDIA NVLink 是種關鍵的高速互連技術,專為加速計算而設計,尤其是在多 GPU 系統以及 GPU 和支持 CPU 之間 ^1^。NVLink 的出現標志著傳統互連瓶頸的突破,凸顯
    的頭像 發表于 05-06 18:14 ?952次閱讀

    Nordic新一代旗艦芯片nRF54H20深度解析

    、芯片概覽:第四多協議SoC的革新 Nordic Semiconductor最新發布的??nRF54H20??作為nRF54H系列首款SoC,標志著低功耗無線技術的又次飛躍。這款采用??多核
    發表于 04-26 23:25

    使用NVIDIA CUDA-X庫加速科學和工程發展

    NVIDIA GTC 全球 AI 大會上宣布,開發者現在可以通過 CUDA-X 與新一代超級芯片架構的協同,實現 CPU 和 GPU 資源間深度自動化整合與調度,相較于傳統加速計算架構
    的頭像 發表于 03-25 15:11 ?564次閱讀

    軟銀集團將收購Ampere Computing

    的全資子公司運營并保留其公司名稱。作為此次交易的部分,Ampere 的主要投資者 —— 凱雷投資集團(NASDAQ:CG)和甲骨文公司(NYSE:ORCL)—— 將出售各自在 Ampere 的股份。
    的頭像 發表于 03-20 17:55 ?533次閱讀

    NVIDIA Blackwell數據手冊與NVIDIA Blackwell架構技術解析

    NVIDIA Blackwell數據手冊與NVIDIA Blackwell 架構技術解析
    的頭像 發表于 03-20 17:19 ?510次閱讀

    寶馬發布全新一代智能電子電氣架構

    "超級大腦"賦能寶馬新世代車型智能駕駛樂趣 全新一代電子電氣架構搭載新世代車型,覆蓋全動力系統和全細分車型 全新一代電子電氣架構集成算力提升
    的頭像 發表于 03-13 15:42 ?244次閱讀

    納芯微發布新一代CSP封裝MOSFET NPM12017A系列

    提升了電氣與極限能力。以首發產品NPM12017A為例,典型阻值相比上一代降低了26%,溫升降低近30%,極限耐受能力如短路及雪崩能力等提升近50%,達到國際領先水準。同時,憑借12寸COT工藝,NPM12017A在極具性價比的
    的頭像 發表于 03-12 10:33 ?1658次閱讀

    軟銀接近達成收購Ampere協議

    近日,據報道,軟銀集團目前正就收購芯片設計公司Ampere Computing LLC進行深入磋商。這消息引起了業界的廣泛關注。 據悉,軟銀集團正在與Ampere進行積極談判,旨在達成
    的頭像 發表于 02-06 14:19 ?384次閱讀

    天璣8400全大核、端側AI,續寫“神U”傳奇!

    的緩存大幅提升,相比上一代,二級緩存增加倍,三級緩存增加50%。 ? 借助精準的能效調控技術,天璣8400 CPU的多核功耗相較上一代降低
    的頭像 發表于 12-24 15:15 ?1347次閱讀
    天璣8400全大核、端側AI,續寫“神U”傳奇!

    NVIDIA 推出高性價比的生成式 AI 超級計算機

    人群提供更強大的生成式 AI 功能與性能,目前建議零售價 2070 人民幣。 ? 該開發者套件現已上市,與上一代產品相比,其生成式
    發表于 12-18 17:01 ?667次閱讀
    <b class='flag-5'>NVIDIA</b> 推出高性價比的生成式 AI 超級計算機

    相比上一代低功耗藍牙芯片,CC2745P到底升級了什么?

    TI最近發布了新一代藍牙芯片CC2745P,那么相對于上一代CC2642芯片,做了哪些升級,在實際應用中有哪些優勢?。CC2745P/CC2642基本參數對比如下:型號CC2745PCC2642
    發表于 11-15 14:11

    嵌入式MXM模塊(NVIDIA安培架構)

    電子發燒友網站提供《嵌入式MXM模塊(NVIDIA安培架構).pdf》資料免費下載
    發表于 10-09 11:09 ?0次下載

    支持電子設備進步降低功耗的第5平面型肖特基勢壘二極管

    ROHM第5平面肖特基勢壘二極管的效率比上一代產品又提高了25%,有助于進步提高開關電源的效率。
    的頭像 發表于 08-09 15:21 ?1.4w次閱讀
    支持電子設備進<b class='flag-5'>一</b>步降低功耗的第5<b class='flag-5'>代</b>平面型肖特基勢壘二極管

    英偉達Blackwell架構,行業首選

    的半導體技術路徑圖,首度公開了即將面世的下一代芯片——Rubin平臺,旨在接替現有的Blackwell。   回顧過往,NVIDIA始終保持著每兩年發布次全新架構的傳統,從20
    的頭像 發表于 06-05 15:28 ?968次閱讀