女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

談一談FPAI芯片的AI系統方案以及參考設計實例

國產FPGA之家 ? 來源:國產FPGA之家 ? 2023-11-28 11:33 ? 次閱讀

今天,小弟和大家談一談某國產FPAI芯片的AI系統方案以及參考設計實例。

1)FPAI芯片架構:博采眾長、兼容并蓄

首先,我們簡單了解下FPAI(Field Programmable AI)芯片。FPAI芯片,創新性地采用了異構融合架構,即在一顆die上集成了高性能SOC(PS)、大容量FPGA(PL)、AI加速引擎(AI)三大模塊。該異構融合架構,可謂“博采眾長、兼容并蓄”,融合了各異構模塊優勢,特別適合AI計算。其中,高性能SOC優勢在于控制和通用計算,使得能在單芯片上運行完成完整的AI計算;大容量FPGA優勢在于可重構和高速接口,解決了長尾算子的難題,適應了AI算法不斷的迭代升級趨勢;AI加速引擎優勢在于高性能、低功耗地完成卷積等計算密集型算子的計算。

5b3d8a2a-8d9e-11ee-939d-92fbcf53809c.png

圖1 FPAI芯片架構:異構融合

具體的,以下是某款國產FPAI芯片,該芯片資源很豐富。PS部分,有四核處理器CPU視頻編解碼模塊VPU、圖像處理模塊GPU等;PL部分,有444K的邏輯資源,16個高速接口GTX;AI部分,有高達27.52TOPS的int8算力,精度支持int8和int16,配合AI編譯器支持快速部署

5b52ea14-8d9e-11ee-939d-92fbcf53809c.png

圖2 某國產FPAI芯片資源

綜上,該顆FPAI芯片支持豐富的AI應用場景,特別適合邊緣融合端的AI應用場景。

2)FPAI系統方案:好馬配好鞍,好船配好帆

從芯片到系統產品,還需設計硬件,開發FPGA程序,開發軟件程序,部署AI網絡等。系統方案及對應的參考實現,提供了一整套完整的解決方案參考,能夠幫助用戶方便、快速、高效、可靠地完成自己產品的設計。 所謂“好馬配好鞍,好船配好帆”,不同芯片需要適合的系統方案以及對應的參考設計。

首先,FPAI芯片是PS+PL+AI的架構,對外接口管腳位于PS、PL模塊,因此依據外部數據流輸入的管腳,設計了PS_IN、PL_IN的系統方案,以此對應不同的內部控制流數據流方案;然后,FPAI芯片的AI峰值算力達27.52Tops,能夠支持多路數據流的不同的AI計算,視頻編解碼模塊能支持多路視頻流的壓縮,可編程邏輯資源也支持多輸入的高速數據流接口,因此依據以上算力特點,設計了多源的系統方案,以此也符合了邊緣融合端的AI應用特點;此外,PCIe加速板卡的系統方案,配合主機服務器,完成AI的推理計算加速。

綜上,基于FPAI芯片的架構、算力、資源、輸入數據流來源、應用場景等特點,分別制定了如下4種系統方案,基本能夠涵蓋FPAI單芯片下的各種應用場景。

(1)PS_IN系統方案

(2)PL_IN系統方案

(3)多源系統方案

(4)PCIe加速卡系統方案

5b6c8a6e-8d9e-11ee-939d-92fbcf53809c.png

圖3 FPAI芯片的系統方案 一個系統方案可能有多個具體的參考實現,但對應的設計架構是一致的,可能只是具體內部實現有區別。參考設計會提供一整套參考方案,包括硬件設計、FPGA設計、軟件設計的代碼和相應文檔。因此,想要基于FPAI設計系統的朋友,可以依據自身的應用場景需求,選擇上述系統方案的參考設計。

3)多路PL_IN+VPU編碼的參考設計實例

好了,說了這么多,大家等不及要看具體的參考設計實例吧。以下會介紹多源系統方案的一個參考設計實例:多路PL_IN+VPU編碼的參考設計,分別從參考設計概述、硬件板卡介紹、FPGA工程介紹、軟件工程介紹、實例功耗介紹等5部分來介紹該實例。

3.1 參考設計概述

輸入:4路SDI攝像頭,默認分辨率和幀率設置1080p@30Hz;

輸出:SD卡,H.265/H.264格式文件格式;

VPU:分辨率1080p,YUV422輸入, 輸出 H.265/H.264,默認編碼幀率設置30Hz;

檢測:運行示例網絡Yolov5s AI檢測,帶檢測結果的視頻壓縮到SD卡。

性能:4路1080p@30Hz輸入,AI+VPU編碼,每一路30fps。

5b8c777a-8d9e-11ee-939d-92fbcf53809c.png

圖4 多路PL_IN+VPU編碼的參考實現框圖

3.22 悟空硬件開發板簡介

如下圖,采用SDI接口攝像頭輸入4路視頻到板卡,悟空硬件板卡上主芯片FPAI芯片;SD卡,儲存和啟動Linux操作系統啟動文件和根文件系統;1GB PS DDR和2GB PL DDR,用于運行操作系統和AI;通過子卡接入的4路SDI視頻接口;網口、串口、JTAG調試接口等。

5b989eb0-8d9e-11ee-939d-92fbcf53809c.png

圖5 悟空硬件開發板

3.32 FPGA設計介紹

首先,整體數據流如圖所示:

5ba4a296-8d9e-11ee-939d-92fbcf53809c.png

圖6 多路PL_IN+VPU編碼的數據流

Step1:對應圖中的數據流1,Cam0~Cam3為4路不同的SDI攝像頭視頻流,幀率1080p@30Hz。對于每一路SDI攝像頭視頻流,復制成兩路,一路經過resize、image_make模塊完成AI預處理后存入PL_DDR,供AI檢測使用;另一路經過resize、rgb565轉為yuv422(可選)通過HP接口存入PS_DDR,供后續畫上檢測結果后VPU壓縮用或者HDMI顯示用。

Step2:對應圖中的數據流2,啟動AI訪問PL_DDR完成AI的計算。

Step3:對應圖中的數據流3,最后一層特征圖,經過icore_post模塊處理后,通過HP接口寫入PS_DDR。PS完成剩余后處理計算,得出AI檢測結果,畫在PS DDR上的視頻幀上。

Step4:對應圖中的數據流4,啟動VPU,對含有結果的視頻幀壓縮成H.264/H.265格式。

Step5:對應圖中的數據流5,將壓縮視頻流寫回SD卡。 Step6(可選):對應圖中數據流6,將檢測框的視頻顯示到HDMI顯示屏。

其次,介紹以下子數據流通路的實現

(1)Camera -> PLDDR的邏輯通路實現

5bb481de-8d9e-11ee-939d-92fbcf53809c.png

圖7 子邏輯通路Camera -> PLDDR

輸入的4路視頻流幀率為1080p@30Hz,均以serdes 差分對接入FPGA端口,通過rx_sdi模塊解析為rgb888數據格式。然后經過frame_trans模塊resize成AI計算所需要的尺寸。 在一些應用場景中,輸入數據可能預先存儲在了PS DDR中,因此本工程也預留了2路獨立的PSIN數據通路,通過HP口讀取數據,轉變成AI_MATE接口規范好的數據總線格式。這兩路PSIN數據通過img_data_crossbar_0/1模塊分別與CAM2/3視頻流數據進行仲裁,各自選出1路輸入給AI_MATE端。

(2)Camera -> PSDDR的邏輯通路實現

5bbf4b00-8d9e-11ee-939d-92fbcf53809c.png

圖8 子邏輯通路Camera -> PSDDR 將CAM視頻流數據resize成VPU壓縮需要的尺寸,注意此處的resize與CAM->PL DDR通路中的resize相互獨立,即AI計算尺寸和VPU壓縮尺寸獨立配置。為了減少寫入PS DDR的數據量,這里將rgb565數據格式轉為yuv422(16bit),相比于rgba(32bit)格式,數據量可減少50%,而圖像色度分量完整保留,基本不影響圖像質量。

每一路CAM數據均需要通過HP口寫入PS DDR,PS端共有4個HP口,有很多模塊會對它發起請求,因此工程中在BlockDesign中調用axi interconnect IP進行仲裁。

最終,實現的FPGA資源占用情況如下所示:

5bcba4f4-8d9e-11ee-939d-92fbcf53809c.png

圖9 FPGA實現資源占用情況

3.42 軟件設計介紹

參考實現軟件整體流程可以歸結如下: 攝像頭輸入視頻數據 > AI檢測 > AI結果繪制 > vpu編碼h264/h265視頻 > 輸出數據流

軟件中按功能將代碼封裝為多個模塊:攝像頭模塊、神經網絡模塊、VPU模塊。則在實現一次完整數據流通路對應的模塊調用為:攝像頭模塊取幀 > 神經網絡模塊計算與后處理 > 攝像頭模塊得到圖像數據 > vpu模塊壓縮 > vpu模塊輸出數據。

在AI調度過程中,采用了任務隊列的實現方式。主要參考了生產者消費者設計模式,前處理、icore前向、后處理運行在各自的線程中,互相之間通過任務隊列的方式通信

對于多路的情況,則會使用多個前處理線程與多個后處理線程,以4路為例,4路不同的輸入圖像數據、icore推理結果會存放在ddr的不同位置,不同路之間數據不會相互干擾。任務隊列還提供了可以控制不同路是否做AI或者設置優先級的功能。

5bd5f40e-8d9e-11ee-939d-92fbcf53809c.png

圖10 軟件任務隊列調度框圖

具體的AI神經網絡部署,基于icraft編譯器,直接編譯生成json和raw文件,就能夠更新參考設計的AI網絡部署。

3.52 實例結果介紹

性能:能夠穩定完成4路1080p@30Hz視頻的AI檢測和視頻編碼。

功耗:整體芯片功耗(含DDR)是12.32W。

5be09256-8d9e-11ee-939d-92fbcf53809c.png

表1 多路PL_IN+VPU編碼的功耗

4)小結:海闊憑魚躍,天高任鳥飛

好了,經過以上的參考設計實例的介紹,相信大家對FPAI芯片的系統方案以及參考設計有了更深層次的了解。

近幾年,邊緣端AI計算的市場份額逐年增長明顯,越來越多的落地應用需求提出。“海闊憑魚躍,天高任鳥飛”,如何選擇一款AI芯片及系統方案,能夠滿足邊緣融合端的各種應用場景,能夠適應算法迭代的需求,能夠解決長尾算子的問題,形成高性能、低功耗、靈活可靠的產品?相信FPAI芯片及系統方案,會是一個不錯的選擇!






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19811

    瀏覽量

    233600
  • FPGA
    +關注

    關注

    1643

    文章

    21967

    瀏覽量

    614258
  • soc
    soc
    +關注

    關注

    38

    文章

    4344

    瀏覽量

    221745
  • 編譯器
    +關注

    關注

    1

    文章

    1656

    瀏覽量

    49898
  • GPU芯片
    +關注

    關注

    1

    文章

    305

    瀏覽量

    6124

原文標題:漫談FPAI芯片的AI系統方案

文章出處:【微信號:國產FPGA之家,微信公眾號:國產FPGA之家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    國產FPAI芯片AI系統方案

    今天,小弟和大家談一談某國產FPAI芯片AI系統方案以及
    的頭像 發表于 11-28 11:32 ?1491次閱讀
    國產<b class='flag-5'>FPAI</b><b class='flag-5'>芯片</b>的<b class='flag-5'>AI</b><b class='flag-5'>系統</b><b class='flag-5'>方案</b>

    談一談大家新穎的思路

    長期玩電子,腦子都僵化了,大家來談一談自己有什么新穎有創意的想法。
    發表于 02-25 16:28

    AI芯片算法不談智能,實現不談芯片

    1算法不談智能IEEE協會首次在京舉辦研討會的時候,中國自動化學會副理事長兼秘書長、中科院自動化研究所復雜系統管理與控制國家重點實驗室主任王飛躍稱不存在AI芯片。對于這
    發表于 08-24 10:36

    手把手教你設計人工智能芯片系統--(全階設計教程+AI芯片FPGA實現+開發板)

    有利于學員更深入理解AI芯片原理,并且能掌握工程實現;3、AI芯片設計門檻高,涉及AI算法、芯片
    發表于 07-19 11:54

    【免費直播】讓AI芯片擁有最強大腦—AI芯片的操作系統設計介紹.

    -卡耐基梅隆大學聯合工程學院博士,研究方向為面向人工智能的集成電路與系統設計。為人工智能芯片領域重要科學家,在AI硬件技術領域作為第作者發表了4篇頂級SCI學術論文(其中2篇tran
    發表于 11-07 14:18

    談一談 MPU6050 姿態融合

    談一談 MPU6050 姿態融合
    發表于 05-05 09:28

    談一談對FOC的些理解

    FOC入門談一談我對FOC的些理解注:其中有些圖片是網上找的,有些是自己做的,作圖水平般,勿噴這是我第
    發表于 09-01 07:10

    談一談對穿越頻率的理解

    最近正好研究這方面的內容,所以頂個貼,支持把樓主。樓主從穿越頻率的定義來開宗明義,小弟也談一談對穿越頻率的理解:1)對定義的理解;2)對環路校正時穿越頻率選取原則理的解;3)還有大家在分析Bode
    發表于 10-29 06:06

    談一談對穿越頻率的理解

    最近正好研究這方面的內容,所以頂個貼,支持把樓主。樓主從穿越頻率的定義來開宗明義,小弟也談一談對穿越頻率的理解:1)對定義的理解;2)對環路校正時穿越頻率選取原則理的解;3)還有大家在分析Bode
    發表于 11-17 07:58

    談一談嵌入式開發怎么入門的

    想要從事嵌入式開發,但又不知道怎么入門的,可以看下,下面我結合自身實際來談一談。前提基礎:簡單的電路、模電、數電知識,C語言、從51單片機入手如果有些前提的基礎知識,要上手51單片機不算難。首先
    發表于 12-17 08:12

    談一談嵌入式操作系統一些需要注意的點

    計算機學院的嵌入式系統實驗不是特別難,首先,連代碼都不需要寫,主要是需要操作些新的設備和軟件,但是這些軟件的安裝,設備的使用上有較多的坑,需要注意。接下來,我就來談一談些需要注意的
    發表于 12-23 08:27

    談一談DALI的具體應用

    今天我們來談一談 DALI 的具體應用, 最主要的是 DALI 控制裝置中的調光驅動電源的使用場景, 比如 DT6 和 DT8 產品(參考文章 大力哥 DALI - D...
    發表于 12-27 08:32

    談一談AI芯片軟硬件協同與AI編譯軟件棧的泛泛看法

    1、軟硬件協同與AI編譯軟件棧介紹  2個核心要點,都是錢砸出來的感悟。  對于SIMD為主的DSA,指令的圖靈完備決定了芯片的可編程性。例如某些算子不能使用NPU編程,還需要在另外個cpu上編程
    發表于 11-16 15:24

    談一談AI、云計算以及大數據的關系

    說到AI,總是不可避免的聯想到大數據與云計算,這三者可謂相輔相成,唯有全部結合起來,才有可能成為真正的人工智能。當然,本文只是以個普通人的視角來探尋這三者之間的聯系。
    的頭像 發表于 03-06 15:22 ?7893次閱讀

    談一談PCB翹曲度的標準以及如何測量

    談一談PCB翹曲度的標準以及如何測量
    的頭像 發表于 11-27 17:28 ?6559次閱讀
    <b class='flag-5'>談一談</b>PCB翹曲度的標準<b class='flag-5'>以及</b>如何測量