深入闡述GPU的渲染過程和步驟

四、GPU運行機制

4.1 GPU渲染總覽

由上一章可得知，現代GPU有著相似的結構，有很多相同的部件，在運行機制上，也有很多共同點。下面是Fermi架構的運行機制總覽圖：

從Fermi開始NVIDIA使用類似的原理架構，使用一個Giga Thread Engine來管理所有正在進行的工作，GPU被劃分成多個GPCs(Graphics Processing Cluster)，每個GPC擁有多個SM（SMX、SMM）和一個光柵化引擎(Raster Engine)，它們其中有很多的連接，最顯著的是Crossbar，它可以連接GPCs和其它功能性模塊（例如ROP或其他子系統）。程序員編寫的shader是在SM上完成的。每個SM包含許多為線程執行數學運算的Core（核心）。例如，一個線程可以是頂點或像素著色器調用。這些Core和其它單元由Warp Scheduler驅動，Warp Scheduler管理一組32個線程作為Warp（線程束）并將要執行的指令移交給Dispatch Units。 GPU中實際有多少這些單元（每個GPC有多少個SM，多少個GPC ......）取決于芯片配置本身。例如，GM204有4個GPC，每個GPC有4個SM，但Tegra X1有1個GPC和2個SM，它們均采用Maxwell設計。SM設計本身（內核數量，指令單位，調度程序......）也隨著時間的推移而發生變化，并幫助使芯片變得如此高效，可以從高端臺式機擴展到筆記本電腦移動。

如上圖，對于某些GPU（如Fermi部分型號）的單個SM，包含：

32個運算核心（Core，也叫流處理器Stream Processor）

16個LD/ST（load/store）模塊來加載和存儲數據

4個SFU（Special function units）執行特殊數學運算（sin、cos、log等）

128KB寄存器（Register File）

64KB L1緩存

全局內存緩存（Uniform Cache）

紋理讀取單元

紋理緩存（Texture Cache）

PolyMorph Engine：多邊形引擎負責屬性裝配（attribute Setup）、頂點拉取(VertexFetch)、曲面細分、柵格化（這個模塊可以理解專門處理頂點相關的東西）。

2個Warp Schedulers：這個模塊負責warp調度，一個warp由32個線程組成，warp調度器的指令通過Dispatch Units送到Core執行。

指令緩存（Instruction Cache）

內部鏈接網絡（Interconnect Network）

4.2 GPU邏輯管線

了解上一節的部件和概念之后，可以深入闡述GPU的渲染過程和步驟。下面將以Fermi家族的SM為例，進行邏輯管線的詳細說明。

1、程序通過圖形API(DX、GL、WEBGL)發出drawcall指令，指令會被推送到驅動程序，驅動會檢查指令的合法性，然后會把指令放到GPU可以讀取的Pushbuffer中。 2、經過一段時間或者顯式調用flush指令后，驅動程序把Pushbuffer的內容發送給GPU，GPU通過主機接口（Host Interface）接受這些命令，并通過前端（Front End）處理這些命令。 3、在圖元分配器(Primitive Distributor)中開始工作分配，處理indexbuffer中的頂點產生三角形分成批次(batches)，然后發送給多個PGCs。這一步的理解就是提交上來n個三角形，分配給這幾個PGC同時處理。

4、在GPC中，每個SM中的Poly Morph Engine負責通過三角形索引(triangle indices)取出三角形的數據(vertex data)，即圖中的Vertex Fetch模塊。

5、在獲取數據之后，在SM中以32個線程為一組的線程束(Warp)來調度，來開始處理頂點數據。Warp是典型的單指令多線程（SIMT，SIMD單指令多數據的升級）的實現，也就是32個線程同時執行的指令是一模一樣的，只是線程數據不一樣，這樣的好處就是一個warp只需要一個套邏輯對指令進行解碼和執行就可以了，芯片可以做的更小更快，之所以可以這么做是由于GPU需要處理的任務是天然并行的。

6、SM的warp調度器會按照順序分發指令給整個warp，單個warp中的線程會鎖步(lock-step)執行各自的指令，如果線程碰到不激活執行的情況也會被遮掩(be masked out)。被遮掩的原因有很多，例如當前的指令是if(true)的分支，但是當前線程的數據的條件是false，或者循環的次數不一樣（比如for循環次數n不是常量，或被break提前終止了但是別的還在走），因此在shader中的分支會顯著增加時間消耗，在一個warp中的分支除非32個線程都走到if或者else里面，否則相當于所有的分支都走了一遍，線程不能獨立執行指令而是以warp為單位，而這些warp之間才是獨立的。

7、warp中的指令可以被一次完成，也可能經過多次調度，例如通常SM中的LD/ST(加載存取)單元數量明顯少于基礎數學操作單元。

8、由于某些指令比其他指令需要更長的時間才能完成，特別是內存加載，warp調度器可能會簡單地切換到另一個沒有內存等待的warp，這是GPU如何克服內存讀取延遲的關鍵，只是簡單地切換活動線程組。為了使這種切換非常快，調度器管理的所有warp在寄存器文件中都有自己的寄存器。這里就會有個矛盾產生，shader需要越多的寄存器，就會給warp留下越少的空間，就會產生越少的warp，這時候在碰到內存延遲的時候就會只是等待，而沒有可以運行的warp可以切換。

9、一旦warp完成了vertex-shader的所有指令，運算結果會被Viewport Transform模塊處理，三角形會被裁剪然后準備柵格化，GPU會使用L1和L2緩存來進行vertex-shader和pixel-shader的數據通信。

10、接下來這些三角形將被分割，再分配給多個GPC，三角形的范圍決定著它將被分配到哪個光柵引擎(raster engines)，每個raster engines覆蓋了多個屏幕上的tile，這等于把三角形的渲染分配到多個tile上面。也就是像素階段就把按三角形劃分變成了按顯示的像素劃分了。

11、SM上的Attribute Setup保證了從vertex-shader來的數據經過插值后是pixel-shade是可讀的。

12、GPC上的光柵引擎(raster engines)在它接收到的三角形上工作，來負責這些這些三角形的像素信息的生成（同時會處理裁剪Clipping、背面剔除和Early-Z剔除）。

13、32個像素線程將被分成一組，或者說8個2x2的像素塊，這是在像素著色器上面的最小工作單元，在這個像素線程內，如果沒有被三角形覆蓋就會被遮掩，SM中的warp調度器會管理像素著色器的任務。

14、接下來的階段就和vertex-shader中的邏輯步驟完全一樣，但是變成了在像素著色器線程中執行。由于不耗費任何性能可以獲取一個像素內的值，導致鎖步執行非常便利，所有的線程可以保證所有的指令可以在同一點。

15、最后一步，現在像素著色器已經完成了顏色的計算還有深度值的計算，在這個點上，我們必須考慮三角形的原始api順序，然后才將數據移交給ROP(render output unit，渲染輸入單元)，一個ROP內部有很多ROP單元，在ROP單元中處理深度測試，和framebuffer的混合，深度和顏色的設置必須是原子操作，否則兩個不同的三角形在同一個像素點就會有沖突和錯誤。

4.3 GPU技術要點

由于上一節主要闡述GPU內部的工作流程和機制，為了簡潔性，省略了很多知識點和過程，本節將對它們做進一步補充說明。

4.3.1 SIMD和SIMT

SIMD（Single Instruction Multiple Data）是單指令多數據，在GPU的ALU單元內，一條指令可以處理多維向量（一般是4D）的數據。比如，有以下shader指令：

float4 c = a + b; // a, b都是float4類型對于沒有SIMD的處理單元，需要4條指令將4個float數值相加，匯編偽代碼如下：

ADD c.x, a.x, b.x ADD c.y, a.y, b.y ADD c.z, a.z, b.z ADD c.w, a.w, b.w 但有了SIMD技術，只需一條指令即可處理完：

SIMD_ADD c, a, b

SIMT（Single Instruction Multiple Threads，單指令多線程）是SIMD的升級版，可對GPU中單個SM中的多個Core同時處理同一指令，并且每個Core存取的數據可以是不同的。

SIMT_ADD c, a, b 上述指令會被同時送入在單個SM中被編組的所有Core中，同時執行運算，但a、b?、c的值可以不一樣：

4.3.2 co-issue

co-issue是為了解決SIMD運算單元無法充分利用的問題。例如下圖，由于float數量的不同，ALU利用率從100%依次下降為75%、50%、25%。

為了解決著色器在低維向量的利用率低的問題，可以通過合并1D與3D或2D與2D的指令。例如下圖，DP3指令用了3D數據，ADD指令只有1D數據，co-issue會自動將它們合并，在同一個ALU只需一個指令周期即可執行完。

但是，對于向量運算單元（Vector ALU），如果其中一個變量既是操作數又是存儲數的情況，無法啟用co-issue技術：

于是標量指令著色器（Scalar Instruction Shader）應運而生，它可以有效地組合任何向量，開啟co-issue技術，充分發揮SIMD的優勢。

4.3.3 if - else語句

如上圖，SM中有8個ALU（Core），由于SIMD的特性，每個ALU的數據不一樣，導致if-else語句在某些ALU中執行的是true分支（黃色），有些ALU執行的是false分支（灰藍色），這樣導致很多ALU的執行周期被浪費掉了（即masked out），拉長了整個執行周期。最壞的情況，同一個SM中只有1/8（8是同一個SM的線程數，不同架構的GPU有所不同）的利用率。同樣，for循環也會導致類似的情形，例如以下shader代碼：

void func(int count, int breakNum) { for(int i=0; i

4.3.4 Early-Z

早期GPU的渲染管線的深度測試是在像素著色器之后才執行（下圖），這樣會造成很多本不可見的像素執行了耗性能的像素著色器計算。

后來，為了減少像素著色器的額外消耗，將深度測試提至像素著色器之前（下圖），這就是Early-Z技術的由來。

Early-Z技術可以將很多無效的像素提前剔除，避免它們進入耗時嚴重的像素著色器。Early-Z剔除的最小單位不是1像素，而是像素塊（pixel quad，2x2個像素，詳見[4.3.6 ](#4.3.6 像素塊（pixel quad）)）。但是，以下情況會導致Early-Z失效：

開啟Alpha Test：由于Alpha Test需要在像素著色器后面的Alpha Test階段比較，所以無法在像素著色器之前就決定該像素是否被剔除。

開啟Alpha Blend：啟用了Alpha混合的像素很多需要與frame buffer做混合，無法執行深度測試，也就無法利用Early-Z技術。

開啟Tex Kill：即在shader代碼中有像素摒棄指令（DX的discard，OpenGL的clip）。

關閉深度測試。Early-Z是建立在深度測試看開啟的條件下，如果關閉了深度測試，也就無法啟用Early-Z技術。

開啟Multi-Sampling：多采樣會影響周邊像素，而Early-Z階段無法得知周邊像素是否被裁剪，故無法提前剔除。

以及其它任何導致需要混合后面顏色的操作。

此外，Early-Z技術會導致一個問題：深度數據沖突（depth data hazard）。

例子要結合上圖，假設數值深度值5已經經過Early-Z即將寫入Frame Buffer，而深度值10剛好處于Early-Z階段，讀取并對比當前緩存的深度值15，結果就是10通過了Early-Z測試，會覆蓋掉比自己小的深度值5，最終frame buffer的深度值是錯誤的結果。避免深度數據沖突的方法之一是在寫入深度值之前，再次與frame buffer的值進行對比：

4.3.5 統一著色器架構（Unified shader Architecture）

在早期的GPU，頂點著色器和像素著色器的硬件結構是獨立的，它們各有各的寄存器、運算單元等部件。這樣很多時候，會造成頂點著色器與像素著色器之間任務的不平衡。對于頂點數量多的任務，像素著色器空閑狀態多；對于像素多的任務，頂點著色器的空閑狀態多（下圖）。

于是，為了解決VS和PS之間的不平衡，引入了統一著色器架構（Unified shader Architecture）。用了此架構的GPU，VS和PS用的都是相同的Core。也就是，同一個Core既可以是VS又可以是PS。

這樣就解決了不同類型著色器之間的不平衡問題，還可以減少GPU的硬件單元，壓縮物理尺寸和耗電量。此外，VS、PS可還可以和其它著色器（幾何、曲面、計算）統一為一體。

4.3.6 像素塊（Pixel Quad）

上一節步驟13提到：

32個像素線程將被分成一組，或者說8個2x2的像素塊，這是在像素著色器上面的最小工作單元，在這個像素線程內，如果沒有被三角形覆蓋就會被遮掩，SM中的warp調度器會管理像素著色器的任務。

也就是說，在像素著色器中，會將相鄰的四個像素作為不可分隔的一組，送入同一個SM內4個不同的Core。

為什么像素著色器處理的最小單元是2x2的像素塊？筆者推測有以下原因： 1、簡化和加速像素分派的工作。 2、精簡SM的架構，減少硬件單元數量和尺寸。 3、降低功耗，提高效能比。 4、無效像素雖然不會被存儲結果，但可輔助有效像素求導函數。詳見4.6 利用擴展例證。

這種設計雖然有其優勢，但同時，也會激化過繪制（Over Draw）的情況，損耗額外的性能。比如下圖中，白色的三角形只占用了3個像素（綠色），按我們普通的思維，只需要3個Core繪制3次就可以了。

但是，由于上面的3個像素分別占據了不同的像素塊（橙色分隔），實際上需要占用12個Core繪制12次（下圖）。

這就會額外消耗300%的硬件性能，導致了更加嚴重的過繪制情況。

參考文獻

Real-Time Rendering Resources
Life of a triangle - NVIDIA\'s logical pipeline
NVIDIA Pascal Architecture Whitepaper
NVIDIA Turing Architecture Whitepaper
Pomegranate: A Fully Scalable Graphics Architecture
Performance Optimization Guidelines and the GPU Architecture behind them
A trip through the Graphics Pipeline 2011
Graphic Architecture introduction and analysis
Exploring the GPU Architecture
Introduction to GPU Architecture
An Introduction to Modern GPU Architecture
GPU TECHNOLOGY: PAST, PRESENT, FUTURE
GPU Computing & Architectures
NVIDIA VOLTA
NVIDIA TURING
Graphics processing unit
GPU并行架構及渲染優化
渲染優化-從GPU的結構談起
GPU Architecture and Models
Introduction to and History of GPU Algorithms
GPU Architecture Overview
計算機那些事(8)——圖形圖像渲染原理
GPU Programming Guide GeForce 8 and 9 Series
GPU的工作原理
NVIDIA顯示核心列表
DirectX
高級著色器語言
探究光線追蹤技術及UE4的實現
移動游戲性能優化通用技法
NV shader thread group
實時渲染深入探究
NVIDIA GPU 硬件介紹
Data Transfer Matters for GPU Computing
Slang – A Shader Compilation System
Graphics Shaders - Theory and Practice 2nd Edition

編輯：黃飛

閱讀全文

gpu(126253) gpu(126253)
內存(72585) 內存(72585)
PGC(6532) PGC(6532)

FPGA比CPU和GPU快的原理是什么

本文首先闡述了FPGA的原理了，其次分析了FPGA比CPU和GPU快的原理，最后闡述了CPU與GPU的區別。

2018-05-31 09:00:29

15956

深入闡述全球首款異構3D FPGA芯片

核心提示：不久前，賽靈思公司（Xilinx：All Programmable技術和器件的企業） Virtex-7 H580T FPGA—全球首款3D異構All Programmable芯片正式發貨。本文將為大家深入闡述此款3D異構All Programmable芯片

2012-08-23 11:10:25

1160

GPU Render Engine詳細介紹

硬件模塊。每個硬件對應一個或者多個引擎。本文主要介紹 render 引擎，從 GPU 渲染的硬件單元，到用戶態頂點，命令等數據下發給 GPU 硬件執行過程等方面進行詳細介紹，幫助大家更好地理解 render 引擎工作流程。（特別聲明：本文主要以 Intel GPU 為參考介紹）

2023-05-30 09:54:25

642

Xen雙系統GPU資源分配過程

分配一個 GPU 的方式目前 NXP 給出的系統已經實現，為了讓大家熟悉 GPU 的分配過程，我們分配兩個 GPU 給 Android 系統。

2023-12-04 13:53:16

259

GPU

GPU，Graphic Processing Unit，圖形處理器。GPU是相對于CPU的一個概念，由于在現代的計算機中（特別是家用系統，游戲的發燒友）圖形的處理變得越來越重要，需要一個專門的圖形

2016-01-16 08:59:11

GPU150HF120D2

GPU150HF120D2

2023-03-28 18:08:25

GPU300HF120D2

GPU300HF120D2

2023-03-29 17:17:40

GPU450HF120D2SE

GPU450HF120D2SE

2023-03-28 18:08:25

GPU八大主流的應用場景

的訊號和影像重組過程，這些過程將X光或超音波感測器檢測到的原始數據轉換成2D橫切面或3D立體影像。這種影像處理耗時、數據量大、要求畫面渲染品質準確且穩定。憑著強大的并行計算能力，GPU可以完成影像即時渲染

2021-12-07 10:04:11

GPU是如何工作的？與CPU、DSP有什么區別？

、雙重紋理四像素256位渲染引擎等，而硬體T&L技術可以說是GPU的標志。工作原理：簡單的說GPU就是能夠從硬件上支持T&L（Transform and Lighting，多邊形轉換

2016-08-05 13:00:01

深入淺出統計過程控制

2016-09-24 17:19:20

深入測試CAN接口的通訊過程

了。這次調試需要深入測試CAN接口的通訊過程，正好把之前的對CAN的認識再復習深化一下。之所以采用CAN總線，是因為它只需要兩根雙絞線就可以連接多個通訊節點，并且可以傳輸相對遠的距離，在工業現場抗干擾

2021-08-06 07:59:30

ARM Mali-T600系列GPU OpenCL開發人員指南

GPU計算，或圖形處理單元上的通用計算(GPGPU)，是將GPU的并行計算能力用于3D圖形渲染以外的任務的實踐。應用程序處理器被設計為盡可能快地執行單個線程。這類處理通常包括標量操作和控制代碼

2023-08-24 07:07:47

BLDC無刷電機6步換向步驟的過程分別是什么？

BLDC無刷電機6步換向步驟的過程分別是什么？為什么是這樣呢？

2021-06-26 06:47:20

Bifrost GPU可編程核心的頂級布局、優勢和著色器核心功能

頂點著色（IDVS）幾何體管道的好處。在開始之前，本指南假設您了解馬里GPU采用的基于分幅的渲染方法。有關詳細信息，請閱讀我們的“基于平鋪的渲染”指南。

2023-08-02 17:52:53

CPU和GPU擅長和不擅長的地方

CPU和GPU都是具有運算能力的芯片，CPU更像“通才”——指令運算(執行)為重+ 數值運算，GPU更像“專才”——圖形類數值計算為核心。在不同類型的運算方面的速度也就決定了它們的能力——“擅長

2017-12-03 20:08:47

CPU和GPU擅長和不擅長的地方

；游戲中人工智能，物理模擬等等；3D建模-光線追蹤渲染；虛擬化技術——抽象硬件，同時運行多個操作系統或者一個操作系統的多個副本等等。 GPU擅長的：圖形類矩陣運算，非圖形類并行數值計算，高端3D游戲

2017-12-03 15:43:58

Gaudi Training系統介紹

訓練時都經過多次調整和更改，導致處理時間非常長，即使在大規模多GPU系統上也是如此。本文對培訓過程作了進一步的闡述。盡管近年來在GPU硬件、網絡架構和訓練方法方面取得了重大進展，但事實仍然是，在單機

2023-08-04 06:48:48

HFSS設計包括哪些步驟？求過程

2021-05-26 06:01:34

HarmonyOS/OpenHarmony應用開發-ArkTS語言渲染控制if/else條件渲染

使用條件渲染語句時，條件渲染語句內僅允許使用GridItem組件。二、更新機制當if、else if后跟隨的狀態判斷中使用的狀態變量值變化時，條件渲染語句會進行更新，更新步驟如下： 1.評估

2023-08-21 14:29:50

HarmonyOS/OpenHarmony應用開發-ArkTS語言渲染控制概述

渲染控制語句包括控制組件是否顯示的條件渲染語句，基于數組數據快速生成組件的循環渲染語句以及針對大數據量場景的數據懶加載語句。后面我們會持續對這這三種方式進行詳細闡述。

2023-08-09 09:54:05

Imagination Rogue GPU技術有哪些優勢？

PowerVR 6系列GPU與競爭對手Mali-T600系列GPU的規格對比PowerVR的看家本領——TBDR渲染技術

2021-02-26 07:39:38

LLC設計步驟

資料對LLC設計步驟進行了詳細闡述，是學習者的較好入門資料。

2015-04-21 15:51:58

LWRP的渲染流程

LWRP渲染流程梳理

2021-01-21 07:01:19

Midgard Shader核心技術介紹

Mali-T600、Mali-T700和Mali-T800系列產品。要優化應用程序的二維和三維性能，您需要對硬件的工作原理有深入的了解。例如，在使用GPU的性能計數器進行優化時，了解馬里GPU塊架構非常重要。這是

2023-08-02 06:20:08

NVIDIA火熱招聘GPU高性能計算架構師

：hrallenlinGPU高性能計算架構師 (功能驗證)- 校招/社招工作職責： * 深入了解下一代GPU架構與GPU高性能計算領域的最新功能* 與GPU架構設計者深入溝通以制定架構驗證測試計劃* 基于測試計劃和隨機

2017-09-01 17:22:28

OpenHarmony開源GPU庫Mesa3D適配說明

: Dayu200-rk3568 一、背景介紹 OpenHarmony對圖形的渲染，支持CPU和GPU兩種方式。為了支持流暢的用戶體現，GPU適配是必不可少的。OpenHarmony使用GPU渲染，就必須依賴OpenGL

2023-12-25 11:38:07

VMware GPU分配/在GPU 1之前首先使用GPU 0

嗨，我在ESX 6中使用GRID K2。Atm有像GPU0和GPU1之間的負載平衡。如果我在主機上打開2 K240q，則第一個VM被分配給GPU0，即第二個GPU1。我無法啟動此主機上的任何

2018-09-10 17:14:36

XS GPU是什么？XS GPU的主要特性包括哪些？

請問一下XS GPU是什么？XS GPU的主要特性包括哪些？XS GPU具備哪些功能？主要應用于哪些領域？

2021-07-01 06:55:05

【昉·星光 2 高性能RISC-V單板計算機體驗】體驗Imagination GPU帶來的絲滑3D圖形渲染效果

GPU渲染的glmark2 SDK鏡像上集成了Imagination的GPU驅動，可以使用GPU進行圖形渲染加速。另外，SDK鏡像內部已經編譯好了GLMark2測試程序，可以開箱即用的進行測試。接下來

2023-12-24 21:24:06

一文看完GPU八大應用場景，搶食千億美元市場

2021-12-07 09:59:04

一文詳解渲染管線

渲染管線簡單梳理

2021-02-03 07:13:56

在RK3399上運行開源的GPU驅動

就是盡量去跑輕量級的圖形界面，如果想跑 Debian、Ubuntu 這種發行版上默認搭配的 Gnome 或者 KDE，這種沒有 GPU 支持，所有的圖像合成渲染都要通過 CPU 來運算，是很難跑流暢

2022-10-20 17:44:37

在RK3399開發板上運行Arm mali GPU驅動

、Ubuntu 這種發行版上默認搭配的 Gnome 或者 KDE，這種沒有 GPU 支持，所有的圖像合成渲染都要通過 CPU 來運算，是很難跑流暢的。所以如果你對圖形顯示功能比較看重，在選開發板的時候

2022-07-27 15:43:16

基于ArkUI框架開發-ImageKnife渲染層重構

我們來看看Image組件和Canvas組件對于渲染這一塊的支持情況。從上表我們可以看出：Image組件雖然支持了PixelMap的繪制，但是基本沒有繪制控制能力，而且擴展性能力也比較弱，并且渲染過程

2023-04-06 10:01:28

基于磁貼的GPU架構優缺點

本指南介紹了基于磁貼的GPU架構的優缺點。它還將ARM馬里基于瓷磚的GPU架構設計與臺式PC或控制臺中常見的更傳統的即時模式GPU進行了比較。馬里GPU使用基于平鋪的渲染體系結構。這意味著GPU

2023-08-02 12:54:29

嵌入式技術的學習步驟

本節結合迅為的 iTOP-4412 開發板來介紹一下嵌入式技術的學習步驟。大家都知道，嵌入式技術的知識面非常廣，學起來往往不知道如何下手，我們通過這一小節給大家闡述一下嵌入式技術應該從哪里開始學起

2021-12-27 07:45:48

時鐘和IO口的配置步驟過程是怎樣的？

2021-11-25 08:35:03

電子電路設計調試的步驟

`誰來闡述一下電子電路設計調試的步驟？`

2020-02-25 16:01:46

缺少VGlite字體渲染api文檔，求分享

我試圖使用 vglite api 在 MIMXRT1166/1176 上使用 verisilicon gpu 渲染圖形，并且特別缺乏關于此的文檔。我能夠很好地初始化 GPU 并渲染矢量和光柵對象

2023-04-24 06:42:10

詳細闡述接受數據和發送數據的過程

1，下面詳細闡述接受數據和發送數據的過程目前根據芯片的寄存器容量，我們將接受到的數據按照ID的不同，進行了劃分，基本上就是一個ID對應一個寄存器，這個寄存器能夠存儲該ID的所有的數據。這種寄存器和收

2021-12-21 07:07:23

詳細闡述轉速環參數的設計過程

記得很久以前寫過一篇轉速環PI參數整定的文章，但是實際效果卻不太好，為此對這個遺留已久的問題，今天在這篇文章內詳細闡述轉速環參數的設計過程。由于也很長時間沒有再碰自動控制原理這一塊，因此文章將會

2021-09-06 09:09:04

請問M4內核可以使用STM32MP157 GPU嗎？

我想用M4內核顯示一些可以在GPU上渲染的動畫和圖像？

2023-01-31 08:09:26

請問TableLayout圖片是用什么渲染的？

TableLayout圖片是用什么渲染的，服務器返回的是網絡圖片String格式的。

2022-03-24 11:29:12

談GPU的作用、原理及與CPU、DSP的區別

計算步驟和復雜數據依賴的計算任務，如分布式計算，數據壓縮，人工智能，物理模擬，以及其他很多很多計算任務等。GPU由于歷史原因，是為了視頻游戲而產生的（至今其主要驅動力還是不斷增長的視頻游戲市場），在三

2015-11-04 10:04:53

基于GPU的水面實時渲染算法

提出基于可編程圖像硬件實時生成真實水面的渲染方法，通過實現水面建模、水面折射和反射完成整個渲染過程。在正弦波疊加的同時，利用2個凹凸紋理實現水面的動畫效果，通過

2009-04-14 08:40:47

基于幾何剪切圖和GPU的渲染地形新方法

大規模地形渲染技術一直是計算機圖形學研究的熱點問題之一。在總結現有算法的基礎上，提出了一種基于現代GPU 和Geometry Clipmap 的地形渲染算法。應用了類似于幾何剪切圖的數據

2009-12-14 13:45:28

242.GPU是如何渲染游戲場景的呢？為什么AI及區塊鏈需要GPU而非CPU呢

gpu

小凡發布于 2022-10-04 13:31:33

gpu工作原理介紹

gpu的眾核架構非常適合把同樣的指令流并行發送到眾核上，采用不同的輸入數據執行，gpu圖形處理過程可以分成5個步驟，如下圖箭頭的部分。分別為 vertex shader、primitive

2016-10-15 12:27:00

13755

賽昉科技VisionFiv2上的GPU渲染測試，平均60幀每秒，非常絲滑

gpu渲染

xusiwei1236發布于 2023-12-24 21:23:11

使用OVR_multiview優化VR渲染器

”的重要部分在本文中，我將闡述如何使用OVR_multiview擴展減少渲染VR應用程序所需的CPU和GPU功耗。不使用OVR_multiview的渲染在標準的優化VR應用程序中，場景將在幀緩沖區對象(FBO)中進行兩次渲染——一次渲染左眼圖像，另一次渲染右眼圖像。要進行渲染，應用程

2017-02-09 15:50:01

944

Dwarf Hall：PowerVR GPU上基于物理的渲染

基于物理的渲染(PBR)在移動類GPU中變得越來越盛行。在本文中，我將簡要闡述PBR的概念和優缺點，并就如何使用PBR和延遲渲染在PowerVR GPU上運行提供相關建議。我還將展示如何在我們最新發

2017-02-10 04:56:06

308

什么是強制gpu渲染_強制渲染gpu有什么用

本文主要介紹了gpu的定義、gpu工作原理、gpu功能作用及手機的強制進行GPU渲染的詳細解釋，最后介紹了強制GPU渲染有的作用以及好處壞處是什么。

2018-01-05 17:13:42

7218

gpu渲染和cpu渲染有什么區別_GPU渲染有何優勢？

GPU與CPU有何不同呢？兩者之間的不同，體現在他們處理任務的不同方式上。CPU由專為串行任務而優化的幾個核心組成，是由數以千計的更小、更高效的核心組成的大規模并行架構，這些核心專為同時處理多任務而設計。因此，在并行處理特定數據的時候，GPU比CPU高效很多。

2018-01-06 10:54:25

118428

手機要不要強制gpu渲染_強制gpu渲染能省電嗎_長期開著強制gpu渲染影響及利弊分析

強制進行GPU渲染會充分利用手機的GPU，提高手機運行以及一些應用運行的流暢度，但是也是提高手機的功耗。因此我們在沒有一些特殊需求（如：玩游戲、看電影等）的時候，建議還是謹慎選擇，當然你可以保證電量充足也就無所謂了。

2018-01-08 09:54:15

53533

用實例深入闡述雙端口分析和回歸比分析

負反饋電路分析最常用的方法是雙端口分析 (TPA) 和回歸比分析 (RRA)，兩者之間的不同之處及相似之處常令人困惑。本設計實例用大家熟悉的電路實例深入闡述這兩種技術。

2018-01-26 16:01:16

5729

強制GPU渲染是一把雙刃劍，有利有弊

而除影響續航外，強制GPU還有一個致命的弊端，那就是有一些較老的軟件在強制GPU渲染下是無法正常運行的，會經常性的出現FC的情況，主要原因是過去程序的SDK版本多數不支持GPU加速，或者默認不開啟GPU渲染，所以當你開啟強制GPU渲染的時候就會出現問題。

2018-04-19 15:04:09

44508

GPU原理 GPU渲染流程

GPU渲染流水線，是硬件真正體現渲染概念的操作過程，也是最終將圖元畫到2D屏幕上的階段。GPU管線涵蓋了渲染流程的幾何階段和光柵化階段，但對開發者而言，只有對頂點和片段著色器有可編程控制權，其他一律不可編程。

2018-04-27 11:33:00

9071

GPU和CPU有什么區別為什么只GPU可處理圖形工作

GPU主要采用立方環境的材質貼圖、硬體T&L、頂點混合、凹凸的映射貼圖和紋理壓縮、雙重紋理四像素256 位的渲染引擎等重要技術。由于圖形渲染任務具有高度的并行性，因此GPU可以僅僅通過增加并行處理單元和存儲器控制單元便可有效的提高處理能力和存儲器帶寬。

2018-04-28 09:24:00

4826

GPU管線各個階段知識點詳細的分析理解

2018-04-28 16:28:26

5121

pcb布線的設計過程和步驟

布線是PCB設計中極為重要的一環，它將直接影響著PCB板的性能。在PCB設計過程中，不同到layout工程師對layout都有著自己的理解，但是所有的layout工程師在如何提高布線的效率上卻是一致，這樣不僅能夠為客戶節省項目的開發周期，還能夠最大限度保證質量和成本。下面是一般的設計過程和步驟。

2018-06-10 08:31:00

5708

彰顯黑科技奧義渲云XRENDER2018耀世而出支持GPU渲染

渲云是國內最快的云渲染公共服務平臺，已成為AUTODESK唯一合法授權的云渲染平臺及戰略合作伙伴。渲云全面擁抱公有云，與阿里攜手共筑云渲染藍圖，海量節點可動態拓展；自主研發的集群調度系統，可快速調動

2018-05-02 18:55:45

863

基于GPU下AGP顯卡的渲染流程

首先根據下圖粗略說明一下當前普遍流行的AGP（Accelerated Graphics Port，圖形加速端口）顯卡的渲染流程。

2018-05-07 10:43:00

1442

NVIDIA Quadro GPU推動渲染提速實現前所未有的速度和品質

Aixsponza能夠以前所未有的速度渲染大型模型，主要得益于NVIDIA Quadro GP100 GPU的強大性能。

2018-08-09 17:54:19

4694

GPU渲染過程的幾個階段

GPU的渲染流水線的主要任務是完成3D模型到圖像的渲染工作。常用的圖形學API編程模型中的渲染過程被分為幾個可以并行處理的階段，分別由GPU中渲染流水線的不同單元進行處理。

2019-02-02 11:38:00

8219

渲云GPU渲染全面升級！Tesla P40上線專享非凡體驗

三維設計師擊掌同樂的消息:渲云GPU渲染服務(http://www.xrender.com)將全面配備NVIDIA Tesla P40,可部署提供更大的吞吐量。每個GPU可帶來47TOPS(萬億次運算

2019-04-10 22:09:46

2155

SMT組件的返修過程與步驟介紹

就整個SMT組件的返修過程而言，可以將其分為拆焊、元器件整形、PCB焊盤清理、貼放元器件、焊接及清洗等幾個步驟。

2019-11-04 11:42:44

5464

bnc接頭制作步驟

本文主要闡述了bnc接頭制作步驟。

2020-01-02 10:11:37

13889

dsp系統開發的步驟_dsp系統的一般設計過程

本文主要闡述了dsp系統開發的步驟與dsp系統的一般設計過程。

2020-04-08 15:25:02

19398

dsp系統的特點是什么_dsp系統硬件設計過程都有哪些步驟

本文主要闡述了dsp系統的特點及dsp系統硬件設計過程的步驟。

2020-04-09 09:01:26

6394

PCB組裝過程中的步驟

PCB 組裝是一個漫長的過程，涉及幾個自動化和手動步驟。這些步驟中的每一個都必須通過最大程度地注意細節來正確執行。組裝過程中任何步驟的微小錯誤都將導致最終組裝失敗。這篇文章旨在使您熟悉 PCB 組裝

2020-11-17 18:56:10

6216

GPU的原理渲染流程詳細說明

GPU 相關知識具有興趣，不妨繼續往下閱讀哦。 GPU 渲染流水線，是硬件真正體現渲染概念的操作過程，也是最終將圖元畫到 2D 屏幕上的階段。GPU 管線涵蓋了渲染流程的幾何階段和光柵化階段，但對開發者而言，只有對頂點和片段著色器有可編程控制權，其他一律不可編程。如

2020-12-25 07:24:00

GPU的原理和渲染流程詳細說明

　GPU是每臺電腦不可缺少的組件，缺少GPU，我們的筆記本將無法正常顯示圖像。即便我們每天都在運用GPU，但是大家真的了解GPU的原理嗎？了解GPU渲染流程嗎？如果你對GPU以及GPU相關知識具有興趣，不妨繼續往下閱讀哦。

2020-11-28 10:39:47

7816

AMD與Pixelary合作,創造了3D渲染照片

今日 AMD 公布了一組由最新的 Radeon ProRender 2.0 渲染器渲染的梅賽德斯 F1 賽車的照片，展現了最新渲染器的效果。AMD 與設計公司 Pixelary 深入合作，為梅賽德斯 AMG F1 W11 EQ 創造了 3D 渲染照片。

2020-12-19 10:24:14

1511

CMOS圖像傳感器市場的深入闡述

在韋爾股份日前的一份報告中，他們對CMOS圖像傳感器進行了深入闡述，現在我們摘錄如下：根據Yole Development 的研究報告，2016-2018年全球CMOS圖像傳感器市場規模分別為

2020-12-28 11:13:04

3255

全新高通驍龍888移動平臺集成有史以來最強大的Adreno 660 GPU

Adreno GPU是驍龍移動游戲體驗的核心。驍龍888集成的Adreno 660 GPU是迄今為止最強悍的Adreno GPU，圖形渲染速度相比前代提高了35%，在圖形渲染性能上實現了同比最大的飛躍。

2021-01-04 14:25:16

24781

深入大規模芯片設計全過程

介紹了navida公司設計圖象處理芯片（GPU）的全過程，本站對文章中一些專業內容進行了修改和補充，讓大家可以對大規模芯片設計的過程，以及FPGA在IC設計中的作用，有一個形象的了解。

2021-04-10 10:17:32

深入理解LED開發過程

不知道你是否想過，一個LED燈點亮過程的本質是什么。當你是一個小白的時候，點亮一個LED燈，IDE都會幫你做好所有的事情，你只需要點擊一下編譯即可。但是，當你成長到一定程度時，就需要好好想想，一個LED的點亮，其實是對單片機中背后原理機制真正的深入理解。今天我就帶你，來深入理解一個LDE點亮的過程。

2021-12-22 19:08:21