女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Xilinx 16nm Virtex UltraScale+器件VU9P的異構計算實例

YCqV_FPGA_EETre ? 來源:互聯網 ? 作者:佚名 ? 2018-06-28 09:57 ? 次閱讀
FPGA (現場可編程門陣列)由于其硬件并行加速能力和可編程特性,在傳統通信領域和IC設計領域大放異彩。一路走來,FPGA并非一個新興的硬件器件,由于其開發門檻過高,硬件加速算法的發布和部署保護要求非常高,FPGA的使用一直是高冷的美人,沒有走入尋常百姓家,導致FPGA的計算潛力還沒有得到深入的挖掘。

接下來,我們來看看阿里云對它進行了怎樣的改造。

阿里云ECS的異構計算團隊和高性能計算團隊一直致力于將計算資源"平民化";高性能計算團隊在做的E-HPC就是要讓所有云上用戶都能夠瞬間擁有一個小型的超算集群,使得超算不再僅僅是一些超算中心和高校的特權;而我們異構計算團隊則致力于將目前最快、最新的計算設備在云上提供給用戶,使得曾經高冷的計算資源不再拒人千里之外:我們推出了FPGA云服務器FaaS 服務, 其中的F1和F2實例已經對外提供服務,可以通過一鍵部署的方式把Intel和Xilinx的小規格的器件計算能力賦予客戶。

今天我們很高興地宣布:新晉的大規格FPGA實例,基于Xilinx 16nm Virtex UltraScale+ 器件VU9P的異構計算實例F3在阿里云上線了!

我們借此機會,對阿里云FPGA計算服務(下面簡稱FaaS)本身,以及這次發布的F3實例的底層硬件架構和平臺架構做一個技術解讀。

FaaS

阿里FPGA云服務器平臺FaaS(FPGA as a Service)在云端提供統一硬件平臺與中間件,可大大降低加速器的開發與部署成本。加速器開發商的加速器可以形成服務提供給加速器用戶,消除加速技術與最終用戶的硬件壁壘。用戶則能夠在無需了解底層硬件的情況下,直接按需使用加速服務。

為了給加速器提供方和使用方提供更加高效、統一的開發及部署平臺,FaaS提供兩大套件:HDK和SDK。

HDK

HDK給所有的加速器開發者提供統一的FPGA硬件接口,提前幫用戶解決了FPGA開發中難度最大的高速接口開發及調試,例如PCIe、SERDES接口、DDR控制器等等;使得用戶能夠直接得到硬件平臺和FPGA接口的最大性能,不會因為團隊開發能力和經驗的欠缺,造成硬件平臺性能浪費;高效、可靠、統一的接口套件也為云上平臺的安全隔離、設備穩定提供了保障,不會因為用戶的接口設計問題,造成服務器宕機;同時可以杜絕用戶在FPGA端對主機的非法操作,為整個云上安全提供保障。

HDK包括兩個部分,Shell和 Role;Shell部署在靜態區域,提供上述統一接口部分。

在提供統一接口、安全性和便捷性的前提下,阿里云FaaS HDK 也盡最大的努力保證用戶設計的靈活性,Role的概念應運而生。Role部署在動態區域,是在Shell之外,預先開發并提供的,用戶可以配合用戶邏輯(Customer Logic)使用。不同于Shell,用戶可以根據需要,隨時更換Role部分;這種Shell + Role的組合方式,保證了Shell的最輕量化和穩定性,又兼顧了統一性、便捷性和靈活性。

SDK

SDK包括兩個部分:

  • 和HDK(Shell+Role)對應的主機端驅動(Drivers)和軟件庫(Libraries)

  • FPGA管理工具 faascmd套件

驅動和軟件庫和HDK的Shell以及Role相對應,和HDK一起,為用戶提供統一及靈活的軟件支持,比如DMA驅動、寄存器訪問驅動等等。

faascmd工具套件為用戶提供云上FPGA管理服務,包括安全校驗、FPGA鏡像生成、下載及管理、FPGA加速卡狀態查詢反饋等功能。公有環境使用FPGA,需要考慮用戶FPGA文件的安全,faascmd提供的秘鑰及OSS bucket指定機制,有效保證了用戶的FPGA下載文件的私密性。在線下的開發及應用中,開發者直接對FPGA進行下載操作,但在云上環境,用戶對公有的FPGA資源直接操作對安全造成較大影響。Faascmd工具會對用戶操作申請和物理FPGA資源進行隔離,保證了用戶下載安全的同時,提供給用戶類似線下操作的體驗;同時會對用戶提交的網表進行校驗,提高安全、降低風險。faascmd同時也提供調用接口,用戶能很容易地在自己的App中調用管理工具,結合自身加速器特性實現各種管理功能。

FaaS 的IP市場

FaaS降低了FPGA開發者的開發準入門檻:云上即開即用的FPGA資源、靈活的付費模式使得硬件資源觸手可及;同時簡化了開發流程,統一了開發接口,把核心加速邏輯從周邊硬件設備的接口調試中隔離出來,使得FPGA的新興應用可以只關注業務加速的核心邏輯,快速迭代;在這兩點上,阿里云的FaaS 邁出了FPGA計算資源平民化的第一步。

但即便是大大簡化了開發流程、提供了觸手可及的硬件資源,FPGA依然有一定的開發門檻。如何把已有的FPGA 邏輯IP價值最大化,聯通FPGA加速的需求方和提供方來擴大生態呢?重要的一點就是如何解決在公共云數據中心層面保證FPGA加速IP的安全性,特別是對不可信的第三方進行輸出和部署這個難題, FaaS是如何解決這個問題的呢?

答案是通過阿里云FaaS的IP市場。技術上,通過與Xilinx聯合開發的定制虛擬化技術達到IP加速與部署環境的強隔離,IP的用戶與IP的網表文件完全隔離,網表文件的傳輸、部署、加速流程全程對用戶都不可見;同時加速計算能力又可以透明地向使用該IP的第三方用戶開放,這是阿里云在FPGA云上加速服務的另外一個技術創新。這個創新,完全杜絕了FPGA IP在云上輸出的時候被盜版的可能,提供了非常高的安全保護機制。

更加嚴格的保密機制也在規劃中:很快可以通過阿里云的KMS加密服務對IP進行加密保護,每次對IP加載前都需要向KMS服務獲取秘鑰解密,這樣一來針對IP的使用下載有據可查;并且使得IP發布方的IP在數據中心內部都是安全的,因為沒有了IP提供方的KMS秘鑰,即便是阿里云也無法對加密的網表進行解密操作。

在阿里云FaaS IP 市場的幫助下,即便是從來沒有任何FPGA開發經驗的用戶,也可以一鍵從IP市場中獲取相應的加速邏輯,并快速部署到對應的FPGA器件上面去。我們相信,通過即開即用的硬件資源、統一的軟硬件邏輯開發接口和IP市場,阿里云能夠真正兌現FPGA計算資源平民化的承諾。

F3硬件架構

阿里云FaaS的F3實例在底層硬件上,是使用阿里云自主研發的高性能單卡雙芯片的VU9P的板卡。這里要劃重點啦:單卡雙芯片。一定有用戶要問為什么要這么設計呢?單卡雙芯片的硬件設計有什么好處呢?

首先,對于用戶來說,通過單卡雙芯片這樣的規格設計,與阿里云配套自研的服務器一起,最高可以提供單實例16 塊 VU9P的計算實例。16塊 VU9P是非常高的計算密度了,這是設計單卡雙芯片的第一個目的:通過提高計算密度,在同等計算單元下集成了更多的加速芯片,能夠有效降低單位計算力的成本,從成本大幅降低和單位實例的垂直計算力提升上,客戶可以雙重受益。

單卡雙芯片的兩個VU9P芯片通過PCIe 橋接入系統,那么雙芯片之間的互相通信呢?是不是只能通過PCIe的總線來進行呢,答案是否定的,除了FPGA Direct這種通過PCIe互相通信的能力之外,在阿里云的自研的板卡上也是有特殊考慮的。在兩個芯片之間,我們設計了一個高速互聯通道,使得兩個FPGA之間可以通過這個特殊的通道以高達600Gb/s的速率進行通信,這個通信技術我們稱之為FPGA Link。要知道,現在的數據中心主流部署的接入交換機光口通信也只能達到100Gb/s的通信速率,更高的200Gb/s的交換機還在試部署中。

試想一下,無需額外的交換機和光口硬件,兩個FPGA芯片可以通過FPGA Link技術以超短時延通過6倍于主流光口通信的速率進行通信,這個將會以極低的成本幫助用戶開啟大量新的FPGA加速應用模式。比如,小規模的芯片仿真,需要兩個器件才能部署得下的情況,可以將整體仿真模塊拆解之后部署到兩個芯片上,兩個芯片之間的數據通路和同步信號通過高速通道互聯;還有其他的應用場景,需要把功能模塊部署到兩個FPGA芯片之上,而兩者之間需要大量的數據交換,比如視頻轉碼場景:把小規模但是模塊數目比較多的解碼單元、視頻處理單元部署到一個FPGA之上,把面積占用比較多的編碼單元放到另外一個FPGA上,編解碼模組之間通過高速互聯交換裸視頻流。這將大大改善部署的難度,以及極大的解耦兩個模塊之間的相互依賴和設計難度。以上舉了兩個例子,讀者一定能夠舉一反三地想到,其他需要流水線處理并需要大量數據交換的場景,阿里云的F3實例的雙芯片實例能夠為客戶提供最大的價值。

不少應用場景對板載的DDR存儲還是有要求的。阿里云的F3實例,為每個FPGA搭配了客戶可見的64GB的DDR內存,這64GB的DDR分成4個通道,分別連接到VU9P的3個硅單元上面,其中一個通道對應的16GB DDR保留常駐,其余3個通道對應的48GB存儲以可選的方式可被客戶邏輯加載使用。

目前,我們看到了雙芯片實例除了FPGA Direct技術和高達600Gb/s的FPGA Link高速互聯能力之外,另外值得一提的是:雙芯片的實例與其他的雙芯片實例板卡之間也可以通過400Gb/s的光口進行互聯,而且400Gb/s的以太協議驅動是通過Xilinx預置的MAC硬核來加速,不占用邏輯面積;通過以太或者自定義的輕量級通信協議,能夠在16芯片之間,以及更多的芯片之間搭建2維Mesh或者環形互聯,進一步擴展多片互聯的使用模式和應用場景。

最后,上一張圖,讓大家對上面做的硬件的技術解析有一個更具體的認識:

F3邏輯結構

F3邏輯結構,技術分析之前,先給大家上一幅邏輯架構圖:

SHELL和ROLE概念

★SHELL:

Shell是FPGA的靜態區域,內部包含用戶PCIe、管理PCIEe、板卡管理系統和一個DDR訪問通道。為了提高板卡的安全和穩定性,用戶無權修改SHELL區域。

★ROLE:

我們在設計中提出了Role的概念,Role和Shell是類似的封裝。而Role跟Custom Logic一起在動態區域。Role的提出使我們可以更加輕量化Shell。我們通過Role實現了同一個Shell既可以支持OpenCL開發,也可以支持RTL開發;最后就是Role的再次抽象降低了用戶對于FPGA的開發門檻。我們提供基礎的Role,也允許用戶自行設計Role。我們希望更多第三方的設計者通過分享自己Role,使得FaaS平臺更加精彩。

ROLE內部結構簡介

Interconnect:該部分主要是提供給用戶四路DDR通道的訪問和USER_PCIe對四路DDR通路的訪問。 該模塊幫助用戶隔離了時鐘域,使用戶邏輯在同一個時鐘域上對4路DDR通道進行訪問。

Inter chip interconnect: FPGA 單卡雙芯片間互聯通路;

Card interconnect: FPGA 卡間互聯通路;

Custom Logic:用戶自定義邏輯部分;

Custom Logic介紹

用戶邏輯是屬于Role的一部分,屬于動態加載區域。 為了方便用戶標準化使用,我們在RTL設計中使用了標準的AXI-4和AXI-LITE接口。

1.我們將詳細介紹用戶接口,其列表如下:

接口

Name

Direction

Clock Domain

Description

時鐘和復位

sys_alite_aclk

I

/

寄存器通路時鐘50Mhz

sys_alite_aresetn

I

usr_clk

I

用戶時鐘,300Mhz,該時鐘固定不可配置

usr_rstn

I

kernel_clk_300m

I

用戶時鐘,300Mhz,該時鐘固定可配置

kernel_clk_rstn

I

kernel2_clk_500m

I

用戶時鐘,500Mhz,該時鐘固定可配置

寄存器通路

AXI_LITE

sys_alite_aclk

axi4_alite接口,用戶寄存器傳輸,地址空間0x0~0x7fffff

DDR

AXI4

C0_sys_axi*

/

kernel_clk_300m

dimm0 數據交互訪問接口(base addr:0x0000_0000_0000_0000)

C1_sys_axi*

/

dimm0 數據交互訪問接口(base addr:0x0000_0004_0000_0000)

C2_sys_axi*

/

dimm0 數據交互訪問接口(base addr:0x0000_0008_0000_0000)

C3_sys_axi*

/

dimm0 數據交互訪問接口(base addr:0x0000_000c_0000_0000)

Dma

AXI4

Dma_axi_*

/

kernel_clk_300m

用戶邏輯直接dma訪問通路

Interrupt

usr_int_en

I

kernel_clk_300m

中斷使能

usr_int_req

I

中斷請求,最大支持16個中斷

usr_int_ack

O

中斷應答

錯誤檢測

ddr_cal_done

I

kernel_clk_300m

dma_4k_r_err_flag

I

dma_4k_w_err_flag

I

注:板間互聯,卡卡互聯接口邀測階段缺省不提供,需要特殊申請對外開放。

2.AXI-4 and AXI-Lite 限制

AxBURST

Only INCR burst is supported.

AxLOCK

Lock is not supported.

AxCACHE

Memory type is not supported

AxPROT

Protection type is not supported

AxQOS

Quality of Service is not supported

AxREGION

Region identifier is not supported

3. 正如我們在介紹Role中所述,用戶可以定制化Role操作。我們阿里云FaaS團隊為了方便用戶更有效的使用平臺,多個Role版本正在發布中,敬請關注。降低用戶使用門檻,縮短開發時間,健全FPGA使用生態始終是我們的使命。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1643

    文章

    21954

    瀏覽量

    613943
  • 加速器
    +關注

    關注

    2

    文章

    823

    瀏覽量

    38894
  • Xilinx
    +關注

    關注

    73

    文章

    2181

    瀏覽量

    124323

原文標題:如何將FPGA資源平民化?阿里工程師有了新突破

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發圈】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    能效提升3倍!異構計算架構讓AI跑得更快更省電

    電子發燒友網報道(文/李彎彎)異構計算架構通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計算任務的特點進行分工協作,從而在性能、能效和靈活性之間實現最優平衡
    的頭像 發表于 05-25 01:55 ?2068次閱讀

    Xilinx Ultrascale系列FPGA的時鐘資源與架構解析

    Ultrascale+采用16ns,有3個系列:Artix,Kintex,Virtex。不僅是工藝制程方面,在其他方面也存在較大改進,如時鐘資源與架構,本文將重點介紹Ultrascale
    的頭像 發表于 04-24 11:29 ?659次閱讀
    <b class='flag-5'>Xilinx</b> <b class='flag-5'>Ultrascale</b>系列FPGA的時鐘資源與架構解析

    AI 應用場景全覆蓋!解碼超高端 VU+ FPGA 開發平臺 AXVU13F

    UltraScale+ XCVU13P16nm工藝)FPGA 芯片,但從原先最大支持 16G DDR4 SODIMM 內存條插槽升級為最大支持 32G ,并且支持多達 4 個 FM
    的頭像 發表于 02-13 17:56 ?442次閱讀
    AI 應用場景全覆蓋!解碼超高端 <b class='flag-5'>VU</b>+ FPGA 開發平臺 AXVU13F

    南京芯麒電子-基于KU15P的雙路100G光纖加速卡

    ? ? ? ? 該平臺是由16nm工藝的的Kintex UltraScale+系列主器件XCKU15P構建的一款加速卡平臺,支持 PCIE Gen3x
    的頭像 發表于 01-15 10:11 ?364次閱讀
    南京芯麒電子-基于KU15<b class='flag-5'>P</b>的雙路100G光纖加速卡

    異構計算的概念、核心、優勢、挑戰及考慮因素

    異構計算就像是一支由“多才多藝”處理器組成的團隊,每個成員都有自己的強項和責任。 ? 什么是異構計算????? “異構計算”指的是在同一個計算平臺中,部署多種不同類型的處理單元(比如
    的頭像 發表于 01-13 11:43 ?833次閱讀

    Zynq UltraScale+ MPSoC數據手冊

    電子發燒友網站提供《Zynq UltraScale+ MPSoC數據手冊.pdf》資料免費下載
    發表于 12-30 14:37 ?2次下載

    ALINX 發布 AXVU13P:AMD Virtex UltraScale+ 高端 FPGA PCle 3.0 綜合開發平臺

    ALINX 正式發布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 綜合開發平臺?AXVU13P! 這款搭載 AMD 16nm 工藝 XCVU13
    的頭像 發表于 12-20 16:46 ?726次閱讀
    ALINX 發布 AXVU13<b class='flag-5'>P</b>:AMD <b class='flag-5'>Virtex</b> <b class='flag-5'>UltraScale+</b> 高端 FPGA PCle 3.0 綜合開發平臺

    【一文看懂】什么是異構計算

    隨著人工智能、深度學習、大數據處理等技術的快速發展,計算需求的復雜性不斷提升。傳統的單一計算架構已難以滿足高效處理復雜任務的要求,異構計算因此應運而生,成為現代計算領域的一個重要方向。
    的頭像 發表于 12-04 01:06 ?2477次閱讀
    【一文看懂】什么是<b class='flag-5'>異構計算</b>?

    AMD/Xilinx Zynq? UltraScale+ ? MPSoC ZCU102 評估套件

    Zynq UltraScale+ MPSoC 器件,具有四核 Arm? Cortex-A53、雙核 Cortex-R5 實時處理器和基于 AMD/Xilinx 16nm FinFET
    的頭像 發表于 11-20 15:32 ?1369次閱讀
    AMD/<b class='flag-5'>Xilinx</b> Zynq? <b class='flag-5'>UltraScale+</b> ? MPSoC ZCU102 評估套件

    PCIe收發卡設計資料:611-基于VU9P的2路4Gsps AD 2路5G DA PCIe收發卡

    AD DA收發卡 , PCIe板卡 , PCIe收發卡 , VU9P板卡 , 高速AD板卡
    的頭像 發表于 11-20 10:05 ?480次閱讀
    PCIe收發卡設計資料:611-基于<b class='flag-5'>VU9P</b>的2路4Gsps AD 2路5G DA PCIe收發卡

    為兩個Xilinx(TM)LX240 Virtex-6(TM)器件供電

    電子發燒友網站提供《為兩個Xilinx(TM)LX240 Virtex-6(TM)器件供電.pdf》資料免費下載
    發表于 10-10 10:51 ?0次下載
    為兩個<b class='flag-5'>Xilinx</b>(TM)LX240 <b class='flag-5'>Virtex</b>-6(TM)<b class='flag-5'>器件</b>供電

    基于VU9P的4路 100G光纖 6U VPX板卡

    基于VU9P的4路 100G光纖 6U VPX板卡
    的頭像 發表于 09-29 09:28 ?733次閱讀
    基于<b class='flag-5'>VU9P</b>的4路 100G光纖 6U VPX板卡

    打造異構計算新標桿!國數集聯發布首款CXL混合資源池參考設計

    參考設計是首個支持異構計算架構的CXL硬件設備,標志著CXL技術在數據中心領域迎來異構計算新階段。 ? 國數集聯基于FPGA與自主研發的CXL協議IP的先進特性,可實現CPU、GPU、DDR、SSD
    的頭像 發表于 08-06 14:19 ?584次閱讀
    打造<b class='flag-5'>異構計算</b>新標桿!國數集聯發布首款CXL混合資源池參考設計

    AvaotaA1全志T527開發板AMP異構計算簡介

    Avaota SBC 的部分平臺內具有小核心 CPU,與大核心一起組成了異構計算的功能。 在異構多處理系統中,主核心和輔助核心的存在旨在共同協作,以實現更高效的任務處理。這種協作需要系統采取一系列
    發表于 07-24 09:54

    異構計算:解鎖算力潛能的新途徑

    在這個數據爆炸的時代,計算力是推動社會與科技創新的核心。從日常智能設備的流暢運行到超級計算機的尖端模擬,均依賴強大的計算能力。但面對多樣化的復雜計算任務,單一處理器難以勝任。于是,
    的頭像 發表于 07-18 08:28 ?1.7w次閱讀
    <b class='flag-5'>異構計算</b>:解鎖算力潛能的新途徑