添加硬件加速器可以加快處理器的正弦計算 - 全文

如果修改軟件不能實現所需速度，那么你可能順理成章的想到在你的設計中加入硬件加速模塊。

有很多種算法可對單精度浮點數字的正弦值進行計算，但添加硬件加速器是功能最為強大的方法之一。之所以得出這一結論，是因為客戶的應用要求使用此類正弦計算，而我們又針對能夠提供良好、快速且高效的解決方案進行了多種方案的探索。

為了確定哪種實現方式最適合您的應用，首先需要對代碼進行分析，以查找哪種功能需要改進；其次，由于修改軟件比修改硬件更簡便、迅速，因而請檢查是否能通過修改軟件來實現您所需的高速度（有時可以）。但是如果您還需要更高的性能，那么請考慮在硬件中實現部分算法。在硬件加速的支持下，您可以輕松勝過市場上任意微控制器或DSP。

為了解該流程，讓我們以現實案例為例，探討如何開發一個需要針對單精度浮點數字進行正弦計算的軍事應用。出于對高性價比的原因考慮，客戶已選擇了一款采用嵌入式 MicroBlaze?的Spartan?-6 FPGA 作為主系統控制器?？商幚碚矣嬎愕能浖惴☉\行于MicroBlaze 之上。

客戶的算法主要使用浮點運算。由于算法復雜，轉而采用定點運算并不妥當。此外，客戶還希望避免使用定點運算時可能出現的運行過度或運行不足的情況。

客戶清楚 MicroBlaze IP 可提供兩種類型的浮點單元 (FPU)，并已選用擴展版本（相對于基本版而言）來加速算法。但是，這樣做就無法利用作為GNU工具鏈組成部分且隨 EDK 一起交付的數學仿真庫。數學庫中的軟件仿真例程程序運行速度非常慢，在任何情況下都應盡量避免將其用于算法中對性能起到關鍵作用的部分。

另外，客戶還清楚 MicroBlaze FPU的兩個版本都只能處理單精度數據，不能處理雙精度數據。客戶的算法可以明確地僅使用浮點精度數據 (float precision data)。但在開始使用數學函數時，有時也會進行隱式轉換。這些轉換會強制算法
在不知不覺中使用雙精度數據。

步驟一：分析問題

我們的客戶已經在運行他的算法，但發現該算法在MicroBlaze處理器上的運行速度偏慢。在對代碼庫進行特性描述后，客戶發現引起速度慢的原因是正弦計算。下一步是找出其中原因并分析怎樣做才能加快處理速度。

第一種方案是使用數學庫提供的標準正弦函數，在客戶將算法寫入后，在不進行任何修改的情況下完整地運行它。主要的問題在于數學庫函數僅針對雙精度數據而創建，這就意味著正弦函數的原型應為如下所示：

double sin(double angle);

但客戶希望以下列方式使用：
float sin_val;
float angle;
...
sin_val = sin(angle);

當然，這也是可能的，而且C編譯器會自動從參數角添加所需的轉換，進行“雙精度化”，并將函數調用的結果轉回浮點值。這樣通常還是由數學庫函數來執行兩個額外的轉換函數，甚至是正弦計算。

切記，MicroBlaze的FPU為單精度版本，只能完成如下執行指令：

sin_val = (float)sin((double)angle);

由于數學庫的正弦函數是雙精度的，因而FPU無法完成正弦計算，故需要純軟件的解決方案。但缺點在于速度太慢，無法滿足客戶的需求。

我們驗證了使用雙精度數據進行正弦值的計算是執行緩慢的原因。首先我們使用下列代碼，從我們的執行文件中直接創建匯編代碼：

mb-objdump.exe -D executable.elf
>dump.txt

檢查匯編代碼時，我們發現了如下代碼行：

brlid r15,-15832 // 4400d300

其作用是調用數學庫以進行雙精度正弦計算。然后，我們測量了利用數學庫函數完成單次正弦計算所需的時間，約為 38,700個CPU周期。
對于特定的任務，可以使用專用單精度函數，如計算平方根：

float sqrt_f( float h);

使用專用函數可以避免單、雙精度函數之間的轉換，而且還可充分利用MicroBlaze FPU。

但遺憾的是，在FPU上沒有用于處理正弦計算的專用函數。此時，我們開始開發多個版本的算法來加速正弦值的計算，以實現更高的性能。

步驟二：創建更好的軟件算法

創建硬件加速器通常需要一段時間而且也需要進行調試，因而我們試圖避免在第一次運行中就采取這種方案。我們就性能問題與客戶進行了溝通，獲得了正弦計算的關鍵參數。

客戶的算法要求正弦計算的參數角應具有1％的精度，而且計算出的正弦值精度應比數學庫函數調用的結果高0.1%。
這些屬于關鍵參數，而且客戶告知我們，他有時必須按順序計算多個正弦值（比如在處理之前先填入小表格）。

由于對表格的尺寸要求，使用填充了所有數值的查找表顯然不太可能。條目的最小數量為360,000個浮點數值（每個值 4 個字節）?？蛻粝胝业礁咚俳鉀Q方案，但在大小上也應該合適。我們建議的解決方案可使用下列等式：

sin(xi) with xi = x + d

得到：

sin(x+d) = sin(x)*cos(d) +cos(x)*sin(d)

在這里，d是一個始終小于 x最小可能值（大于0）的值。這種解決方案有什么優勢呢？我們需要縮小表格的大小，但會帶來計算量的增加。表格從開始就劃分為四個表格：

cos(x)
sin(x)
cos(d)
sin(d)

圖1和圖2顯示了所有4個表格所需的分辨率以及這些值通常情況下的表現。這些表格僅顯示了16個值的條目，用于說明需要填入我們的查找表中的值。我們在我們最終的解決方案中所使用的值要多得多。

x 值的正弦與余弦表，范圍介于0到360度之間

圖 1 — x 值的正弦與余弦表，范圍介于0到360度之間

d 值的正弦與余弦表，范圍介于0到360/16度之間

圖 2 — d 值的正弦與余弦表，范圍介于0到360/16度之間

實際上，我們在每個表格中都使用了1 , 0 2 4 個值。X的最小值為360/1024=0.3515625 度。d 的所有值都將小于等于該值。該方法可以減少存儲的占用，因為完整的查找表需要 4,096個條目（每條目 4 個字節）。

使用這種方案，我們能夠實現的自變量總體精度為：

360/(1024*1024) = 0,000343 degree

而且這個精度非常好。計算充分利用了MicroBlaze FPU。

真正的計算會占用一些時鐘周期，具體來說，需要進行兩次fmul運算和一次fadd運算。不過，我們還需要進行一些其它計算。首先，我們必須把自變量 xi拆分成兩個值，對應x和d；然后，我們將這兩個值從表格中讀出；最后，我們必須使用新的算法才能計算結果。

我們在軟件中實現算法并對其進行測試時，我們耗用的時鐘周期總數為6,520個。

為了進一步提高分辨率，我們可以使用下列的象限關系：

第一象限

sin(x) = sin(x)

第二象限

sin(x) = sin(π - x)

第三象限

sin(x) = -sin(π + x)

第四象限：

sin(x) = -sin(2* π - x)

這在保持表格大小不變的同時還可將總體分辨率提高4倍。另一方面，我們需要進行更多的計算才能找出我們必須進行計算的象限是哪一個。仍然需要改進算法或縮小表格的大?。s小四分之幾）。我們還沒有進行到這一步。

步驟三：優化算法

由于我們的解決方案到目前為止，速度還不能滿足我們客戶的需要，因而我們需要稍做算法優化，不過仍然完全采用運行在 MicroBlaze 處理器上的軟件。這是一種簡單的優化方案，不過會降低部分精度。因此，我們創建了軟件模型（在PC上運行以提升運行速度）以運行所有可能的值，同時使用 sin()計算出的原始雙精度值與使用我們的軟件算法計算出的正弦值進行比較。我們決定在標準的PC上運行算法，因為在MicroBlaze上進行比較和計算需要花較長的時間（注意，我們的MicroBlaze運行速度遠低于PC）。

現在我們開始優化計算以獲得正弦值：

sin(x+d) = sin(x)*cos(d) +cos(x)*sin(d)

由于在每個表格中我們都使用了1,024個值，這意味著d始終小于360度／1,024個步進，即：

cos(2* π /1024) = 0.99998

而且該值約等于1.0。對較小的d值，適用下列等式：

cos(d) = ~1.0

這樣可以將我們的公式簡化為如下等式：

sin(x+d) = sin(x) + cos(x)*sin(d)

在我們在MicroBlaze上實現新等式之前，我們使用PC模式對新等式的精度進行了檢驗，發現最大誤差仍然低于我們客戶的目標。

現在我們將該算法當作軟件算法在MicroBlaze上實現，仍然使用每張帶有1,024個條目的表。新的算法只需要三個表，比之前的實現方案少一個。這樣既節省了存儲空間，也為更多的計算留出了時間。

我們在我們的硬件上測量了算法。一次正弦計算需要6,180個周期。

步驟四：進一步優化

另一種看似可行的優化方式是轉換正弦計算的浮點值，并在此使用整數自變量。我們使用的算法使我們能夠創建~1E6 個不同的值 (1,024*1,024)。整數自變量足以處理這個數量的值。

這種優化方式使我們能夠使用簡單得多的計算來將 xi 值拆分為 x 和 d。拆分只是一種簡單的“與”運算加上部分10 位的移位。我們參數角的上10位是xi，下10位是 d。

我們再次在PC上創建了一個軟件模型，并對其進行檢驗，然后在MicroBlaze處理器系統上實現模型，這需要5,460個周期才能完成一次正弦計算。

步驟五：考慮硬件實現

雖然與數學庫的原始計算相比，算法的速度有了明顯的改善，但客戶需要的是速度快得多的實現。不過前文所述的最后一步給我們提供了一種能夠輕松轉向硬件實現的方法。

這種實現方法需要某些用于拆分 xi值的運算。要在硬件中做到這一點，只需將所需的位進行連接即可。然后我們需要三個表；我們使用以我們的PC模型計算出的預定義值推導出ROM，然后將其轉入IP的VHDL代碼中。該IP能夠一次讀取所有三個表，從而能夠再度節省時間。最后，我們需要進行一次浮點MUL和一次浮點ADD運算。

對于該任務，我們發現用于浮點運算的CORE GeneratorTM模塊非常適合。

無流水線功能的加速器

圖 3 — 無流水線功能的加速器 IP

我們使用一些Slice和乘法器，對這些硬件模塊中的兩個進行例化。兩個內核都要求4到5個周期的延遲，以匹配我們設計的時序要求。延遲在此不是什么問題，我們將在下面的步驟中進行討論。

我們將最終的IP以MicroBlaze的快速單工鏈路 (FSL) IP 的形式進行實現。對時序的第一次估算結果表明：

? 將數據從MicroBlaze傳輸到FSL總線需用一個時鐘周期
? 將數據從FSL總線傳輸至FSL IP（當正弦計算的自變量從FSL總線讀出時，將立即從BRAM讀取數據，因而無需時鐘周期）需用一個時鐘周期
? 完成MUL運算 (cos(x)*sin(d)) 需用四個時鐘周期
? 將方程的結果存儲到寄存器中需用一個時鐘周期
? 完成ADD運算需用四個時鐘周期
? 將數據發送回FSL總線需用一個時鐘周期
? MicroBlaze從FSL IP讀取數據需用一個時鐘周期。

請注意，在沒有使用任何額外流水線（我們將在下一步驟中討論這一點）的情況下，自變量數據在整個過程中必須保持穩定。這就意味著MicroBlaze僅能請求一次正弦計算，且必須讀取該值，然后至少要等上13個時鐘周期，才能請求下一次計算。

因此，我們估計進行該實現需要13個時鐘周期。當然，要處理軟件上的函數調用以及某些其他運算，還需要更多的時鐘周期。

我們簡單地把一些標準時鐘組合在一起，不到一天就實現了該IP，隨即在硬件中對該算法進行測量。整個算法（軟硬件混合）耗用了360個時鐘周期（包括所有的函數調用）。雖然這已是顯著的進步，但是仍不足以充分滿足客戶的需求。

在我們的加速器IP處理所有數據之前，我們使用一個SRL16來延遲信號的寫入。

雖然該算法現在可與我們的MicroBlaze并行運行，但它每次只能計算一個值。

步驟六：添加流水線和適配客戶代碼

設計到了這一步，我們就可以開始向我們的內核添加流水線。浮點ADD和浮點MUL的CORE Generator模塊已采用流水線實現，因而我們在此無需再做什么。第一個版本的算法要求自變量保持恒定，直至計算完成。在開始新計算之前（自變量數據到達FSL IP內部），立刻讀取兩個BRAM并執行浮點MUL。運算的結果在數個時鐘周期后生效。

我們的 sin(xi) 的自變量 xi 是一個20位寬的整數，它分為 x 和 d 兩個部分。因此，我們必須對自變量 xi的MSB部分 x 進行幾個時鐘周期的延遲，以讀取 BRAM 的內容，存儲自變量xi，并將其與MUL運算的結果相匹配。

我們為我們的10位寬數值使用了少量SRL16元件（總共 10 個），共占用了10個LUT（但由于Spartan-6具有LUT組合功能，如果采用該器件較寬的LUT6結構，則僅需 5 個 LUT 即可）。

最后的工作量相當小。在圖4中已對增加的SRL16x10位用紅圈進行了標注。

帶流水線的加速器內核

圖 4：帶流水線的加速器內核

然后我們使用EDK向導來修改我們的FSL總線FIFO，以便存儲多個值（我們確定能夠存儲8個值就足以達到我們的目的，但可根據需要輕松增加更多）。

這就意味著我們的客戶甚至在請求第一個結果之前即能獲得多達8個值。這足以滿足我們客戶當前的需求，但如果想請求更多正弦值的話，則可以輕松將FIFO緩沖參數擴展為較大的值。

我們在與客戶討論這種新的方案時，發現可將正弦計算進一步劃分為兩個部分：

1. 請求正弦計算（fslput 運算）
2. 請求正弦計算的結果（fslget運算）

由于我們在運算中有一個固定時延，所以如果這兩個運算依次銜接、緊密地按順序執行，那么MicroBlaze將停頓，并等待FSL IP完成對請求的處理。如果能夠將這兩組運算分開（這在客戶的算法中是可以的），那么我們即可進一步提
升運算的總體速度。通過增加流水線，在MicroBlaze上執行的最終代碼如下：

putfsl(arg1,fsl1_id);
putfsl(arg2,fsl1_id);
putfsl(arg3,fsl1_id);
putfsl(arg4,fsl1_id);
putfsl(arg5,fsl1_id);
putfsl(arg6,fsl1_id);
putfsl(arg7,fsl1_id);
putfsl(arg8,fsl1_id);
...
getfsl(result1,fsl1_id);
getfsl(result2,fsl1_id);
getfsl(result3,fsl1_id);
getfsl(result4,fsl1_id);
getfsl(result5,fsl1_id);
getfsl(result6,fsl1_id);
getfsl(result7,fsl1_id);
getfsl(result8,fsl1_id);

這給我們帶來了顯著的優勢。內核不僅可完全實現流水線功能，而且還能夠將正弦計算的兩個調用分開。IP核的時延依然存在，但不再明顯。MicroBlaze也不再發生停頓和等待未完成的IP計算的情況，從而提高了整體性能。

客戶同意對代碼進行相應調整，這對客戶來說只是小量工作。通過使用C語言的宏命令取代函數調用，我們就能夠把所有要求的調用插入代碼庫中。

EDK為FSL總線實現了深度為 8 的 FIFO 以提升流水線的性能

圖 5 － EDK為FSL總線實現了深度為 8 的 FIFO 以提升流水線的性能

最終實現的算法一次計算只需要四個時鐘周期。處理的總體時延不再明顯，而被調用的劃分以及結果請求所隱藏。另外，整體IP需要一些額外的BRAM（需為我們的三個表增加六個BRAM）和一定數量的乘法器或DSP Slice以及一些其他Slice。

但結果非常令人吃驚。我們的MicroBlaze現在就能夠如同超高端處理器內核一樣運行，而且其運行頻率仍然相當低（現在比原來的正弦計算約快9,600 倍）。

步驟七：進一步優化？

當我們達到這種實現水平時，我們的客戶對結果感到非常滿意，并且我們也完成了加速器IP方面的工作。速度和精度都非常不錯。

當然，還有一項最終優化需要完成。如果我們在d值非常小的情況下對sin(d) 值進行考察，算法還可以進一步完善：

sin(d) = ~d

若d值小于2*π/1024，即小于0.0061359，那么總體誤差則小于 1E-8（針對有 1,024 個值的表）。
我們算法的最后步驟將為：

sin(x+d) = sin(x) + cos(x) * d

這樣只會存在非常小的額外誤差，但我們可以去掉第三個表。當然，我們必須保留 fadd 和 fmul運算器。雖然我們還可以通過其他方式來計算浮點值的正弦值，但這種方案充分顯示了增添硬件加速器的強大功能。我們的開發經歷表明，你們無需為了將含有浮點計算的算法在硬件中實現而擔心。

閱讀全文

上一頁 1 2 3全文

本文導航

硬件加速器(12610) 硬件加速器(12610)
正弦計算(1503) 正弦計算(1503)

充分利用數字信號處理器上的片內FIR和IIR硬件加速器

我們看到如何利用不同的加速器使用模型實現所需的MIPS和處理目標，從而將大量內核MIPS轉移到ADSP-2156x處理器上的FIRA和IIRA加速器。

2020-06-22 14:42:33

1451

21489的IIR加速器濾波參數設置如何對應加速器的濾波參數？

目前在用21489內部的IIR加速器去做一個低通濾波器，在例程的基礎上修改參數。通過平板的fda 工具工具去設計參數，但是設計出來的參數不知道如何對應加速器的濾波參數，手冊里也看得不是很明白。設計的參數如下：請問這些參數應該如何對應起來？

2023-11-30 08:11:55

ADAU1451硬件加速器擺動什么用？

Hi，HenryLj.mo請問下在Sigma 300里面使用硬件加速器slew，slew mode為RC type時，對應的time constant 與數據從當前值到目標值得時間有什么關系,或者說不同的time constant的值有什么用？ Thanks,Jack

2019-01-29 06:55:13

ARM Cortex-R7 MPCore處理器技術參考手冊

，并且提供了可選的硬件加速器一致性端口(ACP)，以減少與其他主機共享存儲器區域時的軟件高速緩存維護操作。中斷延遲通過中斷和重新啟動加載-存儲多條指令以及使用集成中斷控制器來保持低。 Cortex-R7 MPCore處理器為低延遲和確定性提供了兩種專門的內存解決方案

2023-08-18 06:34:29

ARM定制說明：在ARM上實現創新和更大的靈活性

的加速器。 3.ARM定制指令通過實現與處理器數據路徑更緊密耦合的緊密耦合加速器，進一步擴展了硬件加速器的這一視圖

2023-08-23 08:19:20

GNN（圖神經網絡）硬件加速的FPGA實戰解決方案

。如上所述種種設計挑戰的存在，使得業界急需一種可以支持高度并發實時計算、巨大內存容量和帶寬、以及在數據中心范圍可擴展的GNN加速解決方案。5.GNN加速器的FPGA設計方案Achronix公司推出

2021-07-07 08:00:00

H.264解碼器中CABAC硬件加速器怎么實現？

2021-06-07 06:48:58

Intel媒體加速器參考軟件用戶指南

英特爾媒體加速器參考軟件是用于數字標志、交互式白板(IWBs)和亭位使用模型的參考媒體播放器應用軟件,它利用固定功能硬件加速來提高媒體流速、改進工作量平衡和資源利用,以及定制的圖形處理股(GPU)管道解決方案。該用戶指南將介紹和解釋如何使用英特爾媒體加速器視窗參考軟件。

2023-08-04 07:07:34

MCU廠推多樣解決方案 DSP/FPU硬件加速芯片整合

處理對應至各式演算法應用，兩者功能可以說是各有互補效用，比較難被獨立拆分。以ARM Cortex-M4來看，若僅提供DSP硬件加速處理器反而沒設置FPU浮點運算加速器反而會造成應用限制，因為在

2016-10-14 17:17:54

c6670中運行bcp硬件加速器例程發現中斷服務程序未能響應

你好，目前，我想運用6670中bcp硬件加速器，在調試Bcp_testProject例程中，在test_lte_dl.c文件中pend hRxSem信號量時halt住，發現中斷服務程序未能響應

2018-12-25 11:27:45

【FPGA干貨分享六】基于FPGA協處理器的算法加速的實現

移動的數據具有較低的延時和更高的數據速率。3. 指令流水線連接指令流水線連接加速器直接連接到CPU的計算內核。通過與指令流水線連接，CPU不能識別的指令可以由協處理器執行。操作數、結果以及狀態直接從數據

2015-02-02 14:18:19

【FPGA開發者項目連載】基于MiniStar的簡易AI加速器

分析了高云Github上GoAI的項目5.購買了TinyML書籍、ov7670攝像頭5.17-6.11.實現硬件加速模塊（主要是卷積包括PW DW、全連接、pool）2.M3實現任務分發調度3.基于TensorFlow Lite搭建微處理器運行神經網絡架構

2021-05-14 14:04:28

【書籍評測活動NO.18】 AI加速器架構設計與實現

NPU架構合二為一，總結并提煉出本書內容。本書主要討論神經網絡硬件層面，尤其是芯片設計層面的內容，主要包含神經網絡的分析、神經網絡加速器的設計以及具體實現技術。通過閱讀本書，讀者可以深入了解主流

2023-07-28 10:50:51

【國產FPGA+OMAPL138開發板體驗】（原創）7.硬件加速Sora文生視頻源代碼

了TextToVideoHardwareAccelerator的實例化，并添加了對文本到視頻幀轉換邏輯的占位符。同時，為了保證時序正確性，在實際設計中加入了硬件加速器處理完成的信號反饋： module

2024-02-22 09:49:01

一種基于FPGA的圖神經網絡加速器解決方案

位置。因此對存儲訪問沒有挑戰，但是矩陣的計算量非常大。基于上述分析，我們決定在GNN內核加速器設計中選擇使用兩種不同的硬件結構來分別處理聚合和合并操作（如下圖示）：?聚合器——通過單指令多數據（SIMD

2021-09-25 17:20:41

為什么FPGA協處理器可以實現算法加速？

代碼加速和代碼轉換到硬件協處理器的方法如何采用FPGA協處理器實現算法加速？

2021-04-13 06:39:25

為什么要進入最佳硬件加速板？

我想進入硬件加速。什么板對此有好處，為什么？

2019-10-10 07:00:38

為什么說MCU中導入DSP/FPU是未來的發展主流？

運算結果得出時間會相對拉長，而在導入硬件加速器處理浮點運算時，因為硬件呼叫或是資料傳遞就能透過硬件算出數據，MCU本身耗在浮點運算的記憶體資源可以因硬件加速整合減少至少10%。當然，從目的性來看，不管

2016-09-13 15:12:49

使用AMD-Xilinx FPGA設計一個AI加速器通道

模塊。Vivado 通過 Run Connection Automation 將 cdma 和 bram 連接到處理器。那么設計應該類似于下圖。加速器IP加速器 IP 由 4 個源文件組成。加速器：連接

2023-02-21 15:01:58

關于長整加速器的工作步驟：

關于長整加速器的工作步驟：1. 系統置位后，CPU向加速器的源地址寄存器發送當前長整計算的源操作數地址（位于Memory中）2. 接著，CPU向加速器的目標地址寄存器發送當前長整計算的目標操作數地址

2018-03-17 10:53:37

華為FPGA加速云服務器如何加速讓硬件應用高效上云？

華為FPGA加速云服務器讓“硬用”上云成為新增長點隨著通信和互聯網產業的快速發展，FPGA作為高性能計算加速器在大數據、深度學習、圖像視頻處理、基因計算、金融分析和加解密等眾多領域得到廣泛應用，市場空間巨大。

2019-10-22 07:12:32

協調屏幕旋轉和硬件加速器

）。而且，在我的測試中，我發現關閉“硬件加速器”允許屏幕在旋轉時正確地繪制，但是這使得系統使用起來非常緩慢和痛苦（壞的用戶體驗）。謝謝任何幫助。

2020-04-03 10:56:36

在Sigma 300里面使用硬件加速器slew，slew mode為RC type時不同的time constant的值有什么用？

請問下在Sigma 300里面使用硬件加速器slew，slew mode為RC type時，對應的time constant 與數據從當前值到目標值得時間有什么關系,或者說不同的time constant的值有什么用？謝謝, 中 J Jj

2023-11-29 07:25:43

基于ARM11飛思卡爾i.mx35高端多媒體芯片有哪些應用方式？

飛思卡爾聯合Khronos Group 推出了一款集成了OpenVG硬件加速器的汽車多媒體嵌入式微處理器i.MX35，成為全球首款集成OpenVG硬件加速器的汽車多媒體微處理器，i.MX35卓越的多媒體性能將車載多媒體推向一個新的高度，確定了Freescale在汽車電子行業不可撼動的引領地位。

2019-11-01 07:59:24

基于Fast Model的加速器軟件開發

加速器適配不同的arm系統，這對軟硬件接口和驅動提出了非常大的挑戰，因為今天的arm產品非常豐富，從低功耗的微處理器，主流的移動平臺，到高端的服務器，高性能計算處理器都有相應產品。對于一個加速器團隊來說

2022-07-29 15:38:43

基于Xilinx XCKU115的半高PCIe x8硬件加速卡

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡北京太速科技有限公司一、概述本板卡系我公司自主研發，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作為主處理器

2018-08-22 17:31:55

基于arm Cortex-M3處理器與深度學習加速器的實時人臉口罩檢測SoC設計方案

CMSDK工具設計了AHB總線系統，在基于單級AHB總線的框架下，通過APB橋接器和AXI橋接器擴展了APB總線和AXI總線，進而構成該SoC高效的總線框架。通過搭建高效的總線系統將M3處理器與硬件加速器

2022-08-26 15:23:33

如何充分利用數字信號處理器上的片內FIR和IIR硬件加速器？

上的片內FIR和IIR硬件加速器也分別稱為FIRA和IIRA，我們可以利用這些硬件加速器來分擔FIR和IIR處理任務，讓內核去執行其他處理任務。在本文中，我們將借助不同的使用模型以及實時測試示例來探討如何在實踐中利用這些加速器。

2020-12-28 06:26:54

如何用ARM處理器加速遵循安全至上的規范?

運用ARM處理器系列軟件工具可加速遵循安全至上的規范ARM處理器逐漸拓展應用

2021-02-24 06:35:28

工業應用理想選擇多核處理器

嵌入式處理器所實現的網絡訪問。雖然目前嵌入式處理器已經能夠完美地應用于多種工業應用，但Sitara AM57x處理器所提供的視頻與圖形加速器使其在人機界面（HMI）的應用中大發異彩。ARM

2018-09-04 10:07:50

找不到3d硬件加速器怎么辦

--高級--疑難解答中的硬件加速是否完全開啟。　　3、如果是游戲不能玩了。顯示屬性--設置--高級--適配器--列出所有模式，將該項的數據設置的比平時稍低一些。也就是降低刷新率及分辨率。　　3d硬件加速器

2019-08-21 09:04:31

整合雙ARM內核和DDR3內存接口的嵌入式處理器

與硬件加速器和 I/O模塊的一致性能夠提高數據吞吐量以及簡化軟件開發過程。加速器一致性端口（ACP）結合芯片的NoC路由功能，可滿足硬件加速和I/O性能的最新應用需求。ECC（錯誤校驗碼）保護功能可防止

2018-12-12 10:20:29

無法導入硬件加速器

嗨！我已經創建了一個硬件加速器（在vhdl中）并且合成成功完成。但是，當我使用創建和導入外圍設備向導時，它向我顯示我的包在庫中不可用，盡管它是。我能做什么？？？L'enfer，c'est l

2019-02-27 14:15:31

機器學習實戰：GNN加速器的FPGA解決方案

，但是矩陣的計算量非常大?；谝陨戏治?，我們決定在GNN Core加速器設計中用兩種不同的硬件結構來處理聚合操作與合并操作，功能框圖如下圖所示：圖7: GNN Core功能框圖聚合器

2020-10-20 09:48:39

汽車信息娛樂系統嵌入式設計方案

作為汽車半導體的領軍企業飛思卡爾聯合Khronos Group 推出了一款集成了OpenVG硬件加速器的汽車多媒體嵌入式微處理器i.MX35，成為全球首款集成OpenVG硬件加速器的汽車多媒體

2019-07-22 08:11:07

電腦的處理器可以更改嗎？處理器是硬件嗎？

電腦的處理器可以更改嗎？處理器是硬件嗎？還是芯片？

2023-03-15 10:26:13

英特爾媒體加速器參考軟件Linux版用戶指南

英特爾媒體加速器參考軟件是用于數字標志、交互式白板(IWBs)和亭位使用模型的參考媒體播放器應用軟件,它利用固定功能硬件加速來提高媒體流速、改進工作量平衡和資源利用,以及定制的圖形處理股(GPU)管道解決方案。該用戶指南將介紹和解釋如何為Linux* 使用英特爾媒體加速器參考軟件。

2023-08-04 06:34:54

請教達芬奇系列產品的一些概念問題：hdvicp 高清視頻協處理器視頻加速器視頻處理前端視頻編解碼器

你好，學習達芬奇系列的產品有一段時間了，對一些概念不是很清楚，想咨詢下大家。1、視頻解碼器是指TVP5158 嗎，和視頻加速器是一個東西還是加速器屬于獨立的模塊.2、hdvicp 高清視頻協處理器

2018-07-27 06:23:52

請問66ak系列芯片加密加速器的調用？在程序設計中如何調用此加速器？

本帖最后由一只耳朵怪于 2018-6-19 10:42 編輯請問，在66ak系列有加密加速器，現在的項目需要此功能，請問，在程序設計中如何調用此加速器？采用pdk平臺，openmpacc開發。

2018-06-19 05:53:08

請問c6670中bcp硬件加速器的下行thoughput值在什么范圍

在ti的Thoughput performance guid的文檔中看到了bcp加速器上行的Thoughput在240-500Mbps范圍內，請問下行的Thoughput值大概在什么范圍？

2018-12-26 14:04:28

請問c6670中多核怎樣同時正確使用bcp加速器？

本帖最后由一只耳朵怪于 2018-6-19 14:25 編輯在C6670中，因只有一個bcp硬件加速器，不同核所來數據怎樣同時運行起來而不發生一個核經常搶占BCP加速器，導致其它核數據

2018-06-19 00:42:40

調節多核處理器硬件適應軟件設計方法

;CPE_DATA_MEM_SIZE_KB 8　　使用減負器來加快處理速度　　第四個問題和創建硬件加速器有關。可能有一部分程序會占用太多的周期。要減少周期就需要更多的處理器，而使用硬件加速器就能

2008-09-25 17:17:55

采用控制律加速器的Piccolo MCU

日前，德州儀器 (TI) 宣布推出采用控制律加速器 (CLA) 的新型 TMS320F2803x Piccolo 微處理器 (MCU)，可促進具有更高可靠性與效率的嵌入式控制應用的開發。CLA

2019-07-26 06:21:46

問下ARM3的硬件加速器只能用verilog寫嗎？

問下ARM3的硬件加速器只能用verilog寫嗎？

2022-09-30 10:45:39

高速數據轉換器與基帶處理器連接的寬帶接收器系統設計

減輕計算密集型 2D FFT 運算負載的 FFTC 硬件加速器，可實現低延遲和高精度附加了 JESD 的寬帶采樣信號處理解決方案，包含數字信號處理器 (DSP)、ADC 和 DAC 板、演示軟件、配置

2018-09-20 09:07:06

#硬聲創作季云計算從入門到精通：2.8、【Docker系列】配置加速器

加速器Docker

Mr_haohao發布于 2022-10-15 14:03:32

#硬聲創作季電子制作：磁性加速器

加速器DIY

Mr_haohao發布于 2022-10-19 00:19:38

采用硬件加速發揮MicroBlaze處理能力

采用硬件加速發揮MicroBlaze處理能力　　MicroBlaze處理器是賽靈思(Xilinx)在嵌入式開發套件 (EDK) 中提供的兩款32位內核之一，是實現硬件加速的靈活工具。圖1是MicroBlaze的

2010-03-10 10:24:16

1132

加速處理器的正弦函數計算步驟

有很多種算法可對單精度浮點數字的正弦值進行計算，但添加硬件加速器是功能最為強大的方法之一。之所以得出這一結論，是因為客戶的應用要求使用此類正弦計算，而我們又針對能

2011-08-31 15:36:46

基于FPGA Nios-Ⅱ的矩陣運算硬件加速器設計

針對復雜算法中矩陣運算量大, 計算復雜, 耗時多, 制約算法在線計算性能的問題, 從硬件實現角度, 研究基于FPGA/Nios-Ⅱ的矩陣運算硬件加速器設計, 實現矩陣并行計算。首先根據矩陣運算

2011-12-06 17:30:41

Nios II C語言至硬件加速編譯器

電子發燒友網核心提示: 獲獎的Nios II 嵌入式處理器C語言至硬件（C2H）加速編譯器將對時間要求較高的ANSI C函數轉換為FPGA中的硬件加速器，從而提高了性能。特性： (1)ANSI/ISO C 代碼按鍵

2012-10-17 14:29:34

1901

Bitfusion支持通過云訪問基于賽靈思All Programmable器件的FPGA硬件加速功能

硬件加速功能不謀而合，Bitfusion 正在開發基于賽靈思 Kintex UltraScale 器件的硬件加速器，并將提供基于 SDAccel 等賽靈思工具的云開發工具，作為為高性能計算（HPC

2017-02-08 19:48:30

238

UVM驗證平臺執行硬件加速

UVM已經成為了一種高效率的、從模塊級到系統級完整驗證環境開發標準，其中一個關鍵的原則是UVM可以開發出可重用的驗證組件。獲得重用動力的一個方面表現為標準的仿真器和硬件加速之間的驗證組件和環境的復用

2017-09-15 17:08:11

硬件加速邊緣檢測優化處理方案

針對計算機處理高清圖像或視頻的邊緣檢測時存在延時長和數據存儲帶寬受限的缺點，提出了用Vivado HLS將邊緣檢測軟件代碼轉換成RTL級硬件電路的硬件加速方法。硬件加速是將運算量大的功能模塊由硬件

2017-11-15 18:02:01

1874

利用硬件加速器提高處理器的性能

處理器內部集成的硬件加速器可以實現三種廣泛使用的信號處理操作：FIR(有限沖激響應)、IIR(無限沖激響應)和FFT(快速傅里葉變換)。硬件加速器減輕了核處理器的負擔，能潛在的提升處理器的計算吞吐

2017-12-04 15:22:36

1036

MD5算法硬件加速模型

驗證、分析。相比非流水線硬件加速模型，流水線硬件加速模型能提高MD5運算效率5倍，可用于網絡處理器等硬件加密引擎，有效提高網絡處理器等硬件設備的安全性和處理效率。

2018-01-12 16:45:07

Veloce仿真環境下的SoC端到端硬件加速器功能驗證

很多人認為硬件加速器無非是一種速度更快的仿真器而已。毫無疑問，由于硬件加速器使用物理硬件進行仿真，使用硬件加速器驗證復雜的集成電路和大型片上系統（SoC）能比軟件仿真器快若干數量級。與仿真用通用計算機相比，仿真用單一功能計算機能提供更高容量、更高效的系統。

2018-03-28 14:50:00

3160

利用硬件加速器提高仿真速度時的驗證平臺考慮

個設計時鐘的速度運行相關設計。硬件加速器的運行速度則是每秒lM左右個時鐘，因此可以將原始性能提高1000倍。原始性能相當于硬件加速器在無需等待驗證平臺或外部事件的條件下自由運行時的性能。驗證平臺對硬件加速性能影響很大。

2018-03-05 10:13:13

斯坦福機器學習硬件加速器的課程學芯片技術機會來了

學芯片技術的機會來了！斯坦福大學2018秋季學期推出《機器學習硬件加速器》課程，深入介紹機器學習系統中設計訓練和推理加速器的架構技術。課程涵蓋經典的ML算法，用于ML模型推理和訓練的加速器設計等，超多專業材料和PPT，是本領域不可多得的專業課程。

2018-07-21 09:27:10

5663

使用協處理器加速器的方法介紹

了解協處理的價值，Zynq-7000加速器一致性端口，使用協處理器加速器的方法以及協處理器設計實例的概述。

2018-11-30 06:15:00

3960

基于Xilinx FPGA的Memcached硬件加速器的介紹

本教程討論基于Xilinx FPGA的Memcached硬件加速器的技術細節，該硬件加速器可為10G以太網端口提供線速Memcached服務。

2018-11-27 06:41:00

3433

毫米波傳感器1443硬件加速器的簡單介紹

2.6 mmWave波形傳感器簡介1443硬件加速器

2019-05-08 06:20:00

2982

分享硬件加速仿真的 11 個謬論介紹和說明

硬件加速仿真可以實現寄存器傳輸級(RTL)和現代SoC設計門級的最佳功耗分析。只有硬件加速仿真才有處理大量邏輯以及產生針對所有元素的切換活動的獨有能力。

2019-10-11 17:54:29

4550

如何將硬件加速器關閉？

硬件加速是指在計算機中通過把計算量非常大的工作分配給專門的硬件來處理以減輕中央處理器的工作量之技術。尤其是在圖像處理中這個技術經常被使用。

2019-08-15 15:29:35

6839

硬件加速器提升下一代SHARC處理器的性能

硬件加速器提升下一代SHARC處理器的性能

2021-04-23 13:06:32

基于RISC-V處理器和卷積加速器的SoC系統

卷積計算的效率。基于軟硬件協同設計思想，構建包含RISCⅤ處理器和卷積加速器的SoC系統，RISC-V處理器基于開源的指令集標準，可以根據具體的設計需求擴展指令功能。將該SoC系統部署在 Xilinx ZCU102開發板上ISC-V處理器和卷積加速器分別工作在100M

2021-06-02 15:08:22

第七屆硬創大賽與中城智能硬件加速器達成戰略合作，推動智能硬件創新發展

?日前，中國硬件創新創客大賽組委會與中城智能硬件加速器正式達成戰略合作伙伴關系。 ? ? 中城智能硬件加速器天集社是2020年入選工信部中小企業服務平臺和國家級科技企業孵化器，鏈接全球硬件創新者建立

2021-07-15 15:18:02

2961

2021華為開發者大會華秋電子OpenHarmony新硬件加速器

今天的2021華為開發者大會上，OpenHarmony分論壇上展示了華秋電子OpenHarmony新硬件加速器。 HDC分論壇-OpenHarmony 分論壇推薦鏈接：http://t.elecfans.com/live/1708.html 責任編輯：haq

2021-10-23 15:43:42

1125

OpenHarmony 分論壇-華秋電子新硬件加速器

OpenHarmony 分論壇-華秋電子新硬件加速器 今天的華為開發者大會2021上，OpenHarmony分論壇上展示了華秋電子新硬件加速器 。 HDC分論壇-OpenHarmony 分論壇推薦鏈接：http://t.elecfans.com/live/1708.html 責任編輯：haq

2021-10-23 16:53:48

1500

OpenHarmony Dev-Board-SIG專場：OpenHarmony 新硬件加速器

OpenHarmony Dev-Board-SIG專場：OpenHarmony 新硬件加速器

2021-12-28 15:12:30

1104

什么是AI加速器如何確需要AI加速器

AI加速器是一類專門的硬件加速器或計算機系統旨在加速人工智能的應用，主要應用于人工智能、人工神經網絡、機器視覺和機器學習。

2022-02-06 12:47:00

3645

如何利用不同的加速器使用模型實現所需的MIPS和處理目標

2022-05-05 14:08:16

1034

基于CORTEX-M3硬件加速的目標跟蹤鎖定系統

本項目采用Cortex-M3軟核做控制部分，大規模專用硬件加速器做濾波跟蹤計算和智能目標檢測部分，視頻輸入輸出通過HDMI直接進入硬件加速器，繞過軟核實現更快的數據處理速度。

2022-05-16 10:04:26

959

全新ROS 2 Humble硬件加速特性

自 2021 年 10 月起，NVIDIA 和 Open Robotics 開始合作并推出了兩項重要的改動，現已發布在Humble ROS 2版本中，以提高提供硬件加速器的計算平臺的性能。

2022-07-07 09:45:07

2471

如何確定一個硬件加速應用

在開發一個加速程序的之前，有一個很重要的步驟：正確設計程序架構。開發人員需要明確軟件應用程序中哪一部分是需要硬件加速的，并且它多少的并行量，以保證硬件加速器件（FPGA）能完美發揮其作用。本文將分為5個步驟來介紹

2022-08-02 10:33:07

386

用于 AI 應用的硬件加速器設計師指南

當 AI 設計人員將硬件加速器整合到用于訓練和推理應用的定制芯片中時，應考慮以下四個因素

2022-08-19 11:35:55

1267

為什么石墨烯在低溫下的特性使量子計算越來越可行

　　有一些處理任務的示例已由專用硬件處理。例如，圖形處理通過用于圖像處理和顯示渲染的專用芯片加速。然而，研究人員預計，與傳統的硬件加速器相比，量子計算機的使用方式將大不相同。通過一個簡單的比較，我們可以認為量子計算機優于當今帶有硬件加速器的多核處理器，就像現代PC優于基于閥門的計算機一樣。

2022-11-22 11:42:40

417

利用數字信號處理器上的片上FIR和IIR硬件加速器

處理器上的片上FIR和IIR硬件加速器（也稱為FIRA和IIRA）可用于卸載FIR和IIR處理任務，從而騰出內核用于其他處理。在本文中，我們將討論如何借助經過測試的實時示例說明的不同使用模型在實踐中使用這些加速器。

2022-12-20 11:22:36

855

利用數字信號處理器上的片上FIR和IIR硬件加速器

2022-12-20 11:39:25

782

借助硬件加速器開發您的設計

借助硬件加速器開發您的設計

2023-01-03 09:45:15

594

硬件加速器提升下一代SHARC處理器的性能

SHARC ADSP-2146x處理器集成了硬件加速器，可實現三種廣泛使用的信號處理操作：FIR（有限脈沖響應）、IIR（無限脈沖響應）和FFT（快速傅里葉變換）。加速器卸載了核心處理器，并有可能使處理器的計算吞吐量增加一倍以上。本文以加速器在下一代音頻系統中的應用為例。?

2023-03-03 14:46:51

761