女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)處理器GPNPU支持ML的SoC架構(gòu)

sakobpqhz ? 來源:算力基建 ? 作者:算力基建 ? 2022-12-20 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Performance, Power, Area(PPA)是半導(dǎo)體行業(yè)中常用的衡量標(biāo)準(zhǔn)。這三個指標(biāo)對開發(fā)的所有電子產(chǎn)品都產(chǎn)生了巨大的影響。影響的程度當(dāng)然取決于具體的電子產(chǎn)品以及目標(biāo)終端市場和應(yīng)用。因此,PPA權(quán)衡決策由產(chǎn)品公司在為各自的終端產(chǎn)品選擇各種芯片(以及ASIC的IP)時做出。

另一個重要的考慮因素是在不需要重新設(shè)計的情況下確保產(chǎn)品的壽命。換句話說,就是讓自己的產(chǎn)品適應(yīng)不斷變化的市場和產(chǎn)品需求。雖然產(chǎn)品公司在重新設(shè)計之前會采用輔助方法來延長產(chǎn)品的使用壽命,但直接提供future proofing的解決方案是首選的方法。例如,在需求快速變化的市場積極增長時期,FPGA在面向未來的通信基礎(chǔ)設(shè)施產(chǎn)品中發(fā)揮了關(guān)鍵作用。當(dāng)然,替代路徑可能比FPGA路徑提供更好的PPA收益。但是FPGA路徑通過避免重新設(shè)計幫助產(chǎn)品公司節(jié)省了大量的時間和金錢,并確保他們能夠保持或增長他們的市場份額。

還有一個考慮因素是,開發(fā)產(chǎn)品的路徑可以提供方便和速度。這直接轉(zhuǎn)化為上市時間,進而轉(zhuǎn)化為市場份額和盈利能力。最后,客戶可以輕松地在產(chǎn)品上開發(fā)應(yīng)用軟件。

01市場情況

人工智能AI)驅(qū)動的、支持機器學(xué)習(xí)(ML)的產(chǎn)品和應(yīng)用正在快速增長,并帶來巨大的市場增長機會。新的ML模型正在快速引入,現(xiàn)有的模型也在增強。市場機會范圍從數(shù)據(jù)中心到邊緣人工智能產(chǎn)品和應(yīng)用。許多針對這些市場的產(chǎn)品無法在PPA和產(chǎn)品/應(yīng)用程序開發(fā)的易用性之間進行權(quán)衡。

如果有一種方法可以提供PPA優(yōu)化、future proofing、便于產(chǎn)品和應(yīng)用程序開發(fā),所有這些都集中到一個產(chǎn)品中會怎么樣呢?它是一個統(tǒng)一的體系結(jié)構(gòu),簡化SoC硬件設(shè)計和編程的混合處理器IP。可以解決ML推理、預(yù)處理和后處理的一體化問題。

02新型混合SoC處理器

最近,Quadric宣布了第一個通用神經(jīng)處理器(GPNPU)系列,這是一種半導(dǎo)體知識產(chǎn)權(quán)(IP)產(chǎn)品,融合了神經(jīng)處理加速器和數(shù)字信號處理器(DSP)。IP使用一個統(tǒng)一的體系結(jié)構(gòu),解決ML性能特征和DSP功能,具有完全的C++可編程性。本文將從一個典型的支持ML的SoC架構(gòu)的組件、其局限性、Quadric產(chǎn)品、優(yōu)點和可用性等方面展開介紹。

03典型的支持ML的SoC架構(gòu)的組件

支持ML架構(gòu)的關(guān)鍵組件包括神經(jīng)處理單元(NPU)、數(shù)字信號處理(DSP)單元和實時中央處理單元(CPU)。NPU用于運行當(dāng)今最流行的ML網(wǎng)絡(luò)的圖形層,并且在已知的推理工作負(fù)載上表現(xiàn)非常好。DSP用于有效地執(zhí)行語音和圖像處理,并涉及復(fù)雜的數(shù)學(xué)運算。實時CPU用于協(xié)調(diào)NPU、DSP和存儲ML模型權(quán)重的內(nèi)存之間的ML工作負(fù)載。通常,只有CPU可直接供軟件開發(fā)人員用于代碼開發(fā)。NPU和DSP只能通過預(yù)定義的應(yīng)用程序編程接口(API)訪問。

04典型架構(gòu)的局限性

如上所述,典型的加速器NPU不是完全可編程的處理器。雖然它們非常高效地運行已知的圖形層,但它們不能隨著ML模型的發(fā)展而運行新的層。如果需要通過API不可用的ML操作符,則需要將其添加到CPU上,因為知道它的性能會很差。該架構(gòu)不適合新ML模型和ML操作符的future proofing。充其量,可以通過在實時CPU上實現(xiàn)新的ML操作符來呈現(xiàn)性能較低的解決方案。

另一個限制是,程序員必須在NPU、DSP和實時CPU上劃分代碼,然后調(diào)整交互以滿足期望的性能目標(biāo)。典型的架構(gòu)還可能導(dǎo)致在NPU核和CPU核之間拆分矩陣操作。由于需要在內(nèi)核之間交換大數(shù)據(jù)塊,因此此操作會導(dǎo)致推斷延遲和功耗問題。

來自不同IP供應(yīng)商的多個IP核迫使開發(fā)者依賴于多個設(shè)計和生產(chǎn)力工具鏈。必須使用多個工具鏈通常會延長開發(fā)時間,并使調(diào)試具有挑戰(zhàn)性。

05Quadric方法的好處

Quadric的Chimera GPNPU家族為ML推理和相關(guān)的傳統(tǒng)C++圖像、視頻、雷達和其他信號處理創(chuàng)建了統(tǒng)一的單核體系結(jié)構(gòu)。這允許將神經(jīng)網(wǎng)絡(luò)和C++代碼合并到單個軟件代碼流中。內(nèi)存帶寬通過單一的統(tǒng)一編譯堆棧進行優(yōu)化,并使功耗顯著減小。編程單核系統(tǒng)也比處理異構(gòu)多核系統(tǒng)容易得多。標(biāo)量、向量和矩陣計算只需要一個工具鏈。

統(tǒng)一的Chimera GPNPU架構(gòu)的其他好處包括,由于不必在NPU、DSP和CPU之間移動激活數(shù)據(jù),從而節(jié)省了面積和功耗。統(tǒng)一的核心架構(gòu)大大簡化了硬件集成,使性能優(yōu)化任務(wù)更加容易。

分析內(nèi)存使用情況以確定最佳片外帶寬的系統(tǒng)設(shè)計任務(wù)也得到了簡化。這也直接導(dǎo)致了功率最小化。

d067e60e-8013-11ed-8abf-dac502259ad0.png

06應(yīng)用程序開發(fā)

Chimera軟件開發(fā)工具包(SDK)允許通過兩步編譯過程將來自通用ML訓(xùn)練工具集的圖代碼與客戶的C++代碼合并。這導(dǎo)致可以在統(tǒng)一的Chimera單處理器核心上運行的單一代碼流。目前廣泛使用的ML訓(xùn)練工具集有TensorFlow、PyTorch、ONNX和Caffe。實現(xiàn)的SoC的用戶將擁有對Chimera所有核心資源的完全訪問權(quán),以實現(xiàn)應(yīng)用程序編程的最大靈活性。整個系統(tǒng)也可以從單個調(diào)試控制臺進行調(diào)試。

d083b488-8013-11ed-8abf-dac502259ad0.png

07在不損失性能的情況下

實現(xiàn)future proofing

Chimera GPNPU架構(gòu)擅長處理卷積層,這是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的核心。Chimera GPNPU可以運行任何ML操作符。通過使用Chimera計算庫(CCL) API編寫C++內(nèi)核并使用Chimera SDK編譯該內(nèi)核,可以添加自定義ML操作符。自定義運算符的性能與本地運算符相同,因為它們利用了Chimera GPNPU的相關(guān)核心資源。

SoC開發(fā)人員可以在SoC被剝離后很長時間內(nèi)實現(xiàn)新的神經(jīng)網(wǎng)絡(luò)運算符和庫。這本身就大大增加了芯片的使用壽命。

軟件開發(fā)人員可以在產(chǎn)品的整個生命周期中繼續(xù)優(yōu)化他們的模型和算法的性能。他們可以添加新的特性和功能,為他們的產(chǎn)品在市場上獲得競爭優(yōu)勢。

08Quadric的當(dāng)前產(chǎn)品

Chimera架構(gòu)已經(jīng)在芯片領(lǐng)域得到了快速驗證。QB系列GPNPU的整個家族可以在主流的16nm和7nm工藝中使用傳統(tǒng)的標(biāo)準(zhǔn)電池流和常用的單端口SRAM實現(xiàn)1GHz的工作。Chimera核心可以針對任何芯片鑄造廠和任何工藝技術(shù)。

Chimera GPNPU系列的QB系列包括三個核心:

Chimera QB1 -每秒1萬億次機器學(xué)習(xí)運算(TOPS),每秒64千兆次DSP運算(GOPs); Chimera QB4 - 4 TOPS機器學(xué)習(xí),256 GOP DSP;

Chimera QB16–16 TOPS機器學(xué)習(xí),1 TOPS DSP;

如果需要,可以將兩個或多個Chimera核心配對在一起,以滿足更高級別的性能要求。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19896

    瀏覽量

    235365
  • 半導(dǎo)體
    +關(guān)注

    關(guān)注

    335

    文章

    28919

    瀏覽量

    238240
  • soc
    soc
    +關(guān)注

    關(guān)注

    38

    文章

    4392

    瀏覽量

    222838

原文標(biāo)題:一種新的混合SoC處理器—GPNPU

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    龍芯處理器支持WINDOWS嗎?

    龍芯處理器目前不支持原生運行Windows操作系統(tǒng),主要原因如下: 架構(gòu)差異 龍芯架構(gòu):龍芯早期基于MIPS架構(gòu),后續(xù)轉(zhuǎn)向自主研發(fā)的Loo
    發(fā)表于 06-05 14:24

    技術(shù)分享 | 如何在2k0300(LoongArch架構(gòu)處理器上跑通qt開發(fā)流程

    技術(shù)分享 | 如何在2k0300開發(fā)板(LoongArch架構(gòu)處理器上跑通qt開發(fā)流程
    的頭像 發(fā)表于 05-20 11:05 ?288次閱讀
    技術(shù)分享 | 如何在2k0300(LoongArch<b class='flag-5'>架構(gòu)</b>)<b class='flag-5'>處理器</b>上跑通qt開發(fā)流程

    海光雙路服務(wù)主板,支持 5000/7000系列 2/3號處理器

    處理器
    jf_10805031
    發(fā)布于 :2025年04月02日 14:17:42

    異形拼接處理器支持哪些顯示技術(shù)?

    異形拼接處理器是專門用于實現(xiàn)異形拼接屏功能的設(shè)備,它支持多種顯示技術(shù),以滿足不同場景下的展示需求。以下是對異形拼接處理器支持的顯示技術(shù)的詳細(xì)歸納: 一、液晶顯示技術(shù) 1、應(yīng)用廣泛:
    的頭像 發(fā)表于 04-01 09:48 ?281次閱讀

    AI SoC# 奕斯偉EIC7700 全球首款基于RISC-V架構(gòu)的邊緣計算SoC芯片

    EIC7700X是一款性能優(yōu)異的邊緣計算SoC芯片,搭載64位RISC-V處理器和自研神經(jīng)網(wǎng)絡(luò)計算單元,支持全棧浮點計算和生成式大語言模型。該產(chǎn)品接口豐富,音視頻
    的頭像 發(fā)表于 03-28 14:23 ?1960次閱讀
    AI <b class='flag-5'>SoC</b># 奕斯偉EIC7700 全球首款基于RISC-V<b class='flag-5'>架構(gòu)</b>的邊緣計算<b class='flag-5'>SoC</b>芯片

    迅為3A6000開發(fā)板/龍芯3A6000與龍芯3A5000等龍架構(gòu)處理器軟件兼容

    ,也證明了國內(nèi)有能力在自研 CPU 架構(gòu)上做出一流的產(chǎn)品。 龍芯 3A6000 處理器采用龍芯自主指令系統(tǒng)龍架構(gòu)(LoongArch),是龍芯第四代微架構(gòu)的首款產(chǎn)品,主頻達到 2.5G
    發(fā)表于 02-12 15:06

    走進北大 | 算能RISC-V通用處理器設(shè)計成功開課

    近日,北京大學(xué)集成電路學(xué)院賈天宇老師開設(shè)的《現(xiàn)代SoC處理器架構(gòu)設(shè)計》如期進行,算能首席科學(xué)家楊柳西博士、處理器架構(gòu)師張明俊受邀,為北大博士
    的頭像 發(fā)表于 12-06 01:06 ?1060次閱讀
    走進北大 | 算能RISC-V通用<b class='flag-5'>處理器</b>設(shè)計成功開課

    一文看懂SoC架構(gòu)

    一、SoC 架構(gòu)圖:核心功能和設(shè)計目標(biāo) SoC 是基于通用處理器這樣的思路進行設(shè)計的,與 PC 設(shè)計思路一樣。即通用處理器是由 CORE +
    的頭像 發(fā)表于 11-29 09:57 ?2973次閱讀
    一文看懂<b class='flag-5'>SoC</b>的<b class='flag-5'>架構(gòu)</b>

    迅為3A6000_7A2000核心主板龍芯全國產(chǎn)處理器LoongArch架構(gòu)

    ,也證明了國內(nèi)有能力在自研 CPU 架構(gòu)上做出一流的產(chǎn)品。 龍芯 3A6000 處理器采用龍芯自主指令系統(tǒng)龍架構(gòu)(LoongArch),是龍芯第四代微架構(gòu)的首款產(chǎn)品,主頻達到 2.5G
    發(fā)表于 10-12 11:25

    對稱多處理器和非對稱多處理器的區(qū)別

    隨著計算需求的日益增長,單處理器系統(tǒng)已經(jīng)無法滿足高性能計算的需求。多處理器系統(tǒng)應(yīng)運而生,它們通過將多個處理器集成到一個系統(tǒng)中來提高計算能力。在多處理器系統(tǒng)中,有兩種主要的
    的頭像 發(fā)表于 10-10 15:58 ?2198次閱讀

    簡述微處理器的指令集架構(gòu)

    處理器的指令集架構(gòu)(Instruction Set Architecture,ISA)是計算機體系結(jié)構(gòu)中的核心組成部分,它定義了計算機能夠執(zhí)行的指令集合、數(shù)據(jù)類型、寄存、內(nèi)存訪問方式等,是連接
    的頭像 發(fā)表于 10-05 14:59 ?1179次閱讀

    新的 MathWorks 硬件支持支持從 MATLAB 和 Simulink 模型到高通 Hexagon 神經(jīng)處理單元架構(gòu)的自動化代碼生成

    新的硬件支持包不僅無需耗時的手寫代碼優(yōu)化和驗證,還支持處理器在環(huán)測試 MathWorks 今天宣布,推出針對 Qualcomm? Hexagon? 神經(jīng)
    的頭像 發(fā)表于 09-23 11:59 ?587次閱讀

    ARM處理器和CISC處理器的區(qū)別

    ARM處理器和CISC(復(fù)雜指令集計算機)處理器在多個方面存在顯著的區(qū)別。這些區(qū)別主要體現(xiàn)在架構(gòu)原理、性能與功耗、設(shè)計目標(biāo)、應(yīng)用領(lǐng)域以及市場生態(tài)等方面。
    的頭像 發(fā)表于 09-10 11:10 ?980次閱讀

    X86架構(gòu)處理器有哪些優(yōu)點和缺點

    X86架構(gòu)處理器作為計算機領(lǐng)域的重要組成部分,具有多個顯著的優(yōu)點和一定的缺點。以下是對X86架構(gòu)處理器優(yōu)缺點的詳細(xì)分析。
    的頭像 發(fā)表于 08-22 11:25 ?4808次閱讀

    處理器的指令集架構(gòu)介紹

    處理器的指令集架構(gòu)(Instruction Set Architecture,ISA)是計算機體系結(jié)構(gòu)中至關(guān)重要的部分,它定義了微處理器能夠執(zhí)行的操作和指令的集合,以及這些指令如何被組織、存儲
    的頭像 發(fā)表于 08-22 10:53 ?2450次閱讀