作者:張迎輝
賽靈思總裁及首席執(zhí)行官Victor Peng先生日前在北京舉行的賽靈思開發(fā)者大會上發(fā)布“打造靈活應變、萬物智能的世界”為題的主題演講” 并隆重推出面向人工智能和數(shù)據(jù)中心的兩款重磅產(chǎn)品-Versal 及 Alveo,展示了賽靈思人工智能加速及數(shù)據(jù)中心優(yōu)先戰(zhàn)略的強大執(zhí)行力和創(chuàng)新能力。
賽靈思總裁及首席執(zhí)行官Victor Peng先生在XDF2018北京站演講中闡述賽靈思的使命-打造靈活應變、萬物智能的世界。?
Xilinx本次發(fā)布的業(yè)界首款ACAP芯片VERSAL,采用了臺積電的7納米FinFET工藝,其異構(gòu)加速技術(shù)能夠為任何開發(fā)者,滿足任何創(chuàng)新應用。Victor Peng介紹,Versal 產(chǎn)品組合基于 臺積電(TSMC)的 7 nm FinFET 工藝技術(shù),是第一個將軟件可編程性與特定領域硬件加速和靈活應變能力相結(jié)合的平臺,這對于跟上當今快速的創(chuàng)新步伐至關(guān)重要。該產(chǎn)品組合包括 6 個系列的器件,其獨特架構(gòu)針對云端、網(wǎng)絡、無線通信乃至邊緣計算和端點等不同市場的眾多應用提供了可擴展性和 AI 推斷功能。 ?
該產(chǎn)品組合包括?Versal 基礎系列( Versal Prime),Versal 旗艦系列 (Versal Premium旗艦)系列和 HBM 系列,能針對要求最嚴格的應用提供業(yè)界領先的性能、連接性、帶寬和集成功能。此外,該產(chǎn)品組合還包括 AI 核心系列(AI Core),AI 邊緣系列 ( AI Edge) 和 AI 射頻系列(AI RF),采用突破性的 AI 引擎。AI 引擎是一種新型硬件模塊,專為解決各種應用低時延 AI 推斷的新需求而設計,同時支持高級 DSP 實現(xiàn)方案,滿足無線和雷達等應用要求。它與?Versal 自適應硬件引擎緊密結(jié)合,支持整體應用加速,也就是說軟硬件都能調(diào)節(jié),從而確保最高性能和效率。
?
Versal組合中率先亮相的是?Versal Prime 系列,跨多個市場提供廣泛的適用性,同時推出的還有 Versal AI Core 系列,相對于業(yè)界領先的 GPU,AI 推斷性能預計能提升 8 倍。
?
VERSAL AI 核心系列
Versal AI Core系列的產(chǎn)品參數(shù)
Versal AI 核心系列提供該系列最高計算性能和最低時延,實現(xiàn)突破性的 AI 推斷吞吐量和性能。該系列針對云端、網(wǎng)絡和自動駕駛技術(shù)進行了優(yōu)化,提供業(yè)界最廣泛的 AI 和工作負載加速功能。Versal AI 核心系列 有 5 款產(chǎn)品,提供 128 到 400 個 AI 引擎。該系列包括雙核 Arm Cortex-A72 應用處理器、雙核 Arm Cortex-R5 實時處理器、256KB 片上 ECC 存儲器、超過 1900 個專為高精度低時延浮點運算而優(yōu)化的 DSP 引擎。此外,它還包括 190 多萬個系統(tǒng)邏輯單元以及超過 130Mb 的 UltraRAM、高達 34Mb 的塊 RAM 和 28Mb 分布式 RAM 和 32Mb 新加速器 RAM 塊,任何引擎都能直接訪問,這也是 Versal AI 系列的獨特之處,而且都能支持定制存儲器架構(gòu)。該系列還包括 PCIe? Gen4 8 信道和 16 信道以及 CCIX 主機接口、功耗優(yōu)化型 32G SerDes、多達 4 個集成型 DDR4 存儲器控制器、多達 4 個多速率以太網(wǎng) MAC、650 個高性能 I/O(用于 MIPI D-PHY)、NAND、存儲級內(nèi)存接口和 LVDS、78 個多路復用 I/O(連接外部組件)和超過 40 個 HD I/O(3.3V 接口)。以上所有器件均通過業(yè)界一流的片上網(wǎng)絡 (NoC) 實現(xiàn)互聯(lián),具有多達 28 個主/從端口,以低時延提供每秒多 Tb 帶寬,而且提供高功率效率和原生軟件的可編程性。完整的產(chǎn)品列表現(xiàn)已發(fā)布。
?
VERSAL PRIME 系列
?
Versal Prime 系列經(jīng)過精心設計,適用于多個市場的廣泛應用,并針對各種工作負載的連接性和在線加速進行了優(yōu)化。這款中端系列包括 9 款產(chǎn)品,每款產(chǎn)品都采用雙核 Arm Cortex-A72 應用處理器、雙核 Arm Cortex-R5 實時處理器、256KB 片上存儲器(帶 ECC)、超過 4000 個專為低時延高精度浮點運算優(yōu)化的 DSP 引擎。此外,它還包括 200 多萬個系統(tǒng)邏輯單元,結(jié)合 200Mb 以上 UltraRAM、超過 90Mb 的塊 RAM 以及 30Mb 分布式 RAM,能支持定制存儲器架構(gòu)。該系列還包括?PCIe Gen4 8信道和 16 信道以及 CCIX 主機接口、功耗優(yōu)化型 32Gb 每秒的 SerDes 和主流 58Gb 每秒的 PAM4 SerDes、多達 6 個集成型 DDR4 存儲器控制器、多達 4 個多速率以太網(wǎng) MAC、700 個高性能 I/O(支持 MIPI D-PHY)、NAND、存儲級內(nèi)存接口和 LVDS、78 個多路復用 I/O(連接外部組件)和超過 40 個 HD I/O(3.3V 接口)。以上均通過業(yè)界一流的片上網(wǎng)絡 (NoC) 實現(xiàn)互聯(lián),具有多達?28 個主/從端口,以低時延提供每秒多 Tb 帶寬,而且提供高功率效率和原生的軟件可編程性。完整的產(chǎn)品列表現(xiàn)已發(fā)布。
?
賽靈思目前正通過早期試用計劃與多家關(guān)鍵客戶合作。Versal Prime 系列和 Versal AI Core 系列將于 2019 年下半年上市。
在演講過程中,賽靈思總裁及首席執(zhí)行官Victor Peng先生還為大家介紹全球最快的數(shù)據(jù)中心及AI加速器卡Alveo。據(jù)介紹,現(xiàn)場發(fā)布的Alveo U200 和 Alveo U250兩款產(chǎn)品采用了?Xilinx UltraScale+ FPGA芯片。
?
賽靈思軟件及IP產(chǎn)品執(zhí)行副總裁Salil Raje先生為大家?guī)鞟I加速的主題演講,激情描繪賽靈思靈活應變的新型器件將如何加速當今AI時代各種創(chuàng)新的整體應用,擁抱所有的開發(fā)者。
賽靈思產(chǎn)品及技術(shù)營銷高級總監(jiān)Kirk Saban為大家?guī)硇袠I(yè)首款靈活應變的ACAP自適應計算加速平臺Versal,致力于為所有開發(fā)者、所有應用開啟快速創(chuàng)新新時代。
?
多位賽靈思的FPGA合作伙伴們,也在現(xiàn)場演講介紹了基于FPGA的云計算服務技術(shù),以及基于賽靈思之前發(fā)布過的16納米的異構(gòu)FPGA UltraScale SoC的加速卡等產(chǎn)品。
XDF大會合作伙伴合影。從左至右 阿里巴巴異構(gòu)計算總監(jiān)項午,阿里云FPGA研發(fā)總監(jiān) 張振祥,浪潮集團總裁 李金,賽靈思CEO Vcitor Peng,華為FPGA加速云服務技術(shù)負責人張小華。
?
賽靈思的現(xiàn)場合作伙伴如浪潮、華為現(xiàn)場發(fā)布了最新的加速卡,華為和阿里云都推出了FaaS云平臺。他們認為,AI時代正在到來,開發(fā)者們對于FPGA as a Service(FaaS)的業(yè)務需求不斷擴大,F(xiàn)PGA加速卡市場成長非常看好。阿里云FPGA異構(gòu)計算研發(fā)總監(jiān)張振祥表示,F(xiàn)aaS的價值不僅在于提升了效率,相比CPU的物聯(lián)網(wǎng)時序數(shù)據(jù)庫運算提升了30倍,還為公司三年節(jié)省的TCO成本高達40%。
?
華為的FPGA加速云平臺深圳深鑒科技、睿視知覺、Alcon Computing、NGCODEC、CTACCEL等加速解決方案,開發(fā)者使用華為FPGA云平臺,可以實現(xiàn)全棧加速解決方案。
XDF2018北京站展位現(xiàn)場演示的實時機器學習推斷演示-人臉識別、車輛識別等。
精彩問答
?
會后賽靈思高管還接受了媒體記者的采訪。Victor Peng先生也回答了電子發(fā)燒友等媒體的現(xiàn)場提問。
現(xiàn)在越來越多賽靈思的客戶,如華為、阿里也都在打造屬于自己的云端、數(shù)據(jù)中心和AI芯片,這對于賽思靈的產(chǎn)品策略有何影響?Victor表示,“產(chǎn)業(yè)還處于AI革命的早期,大家都在尋找不同的解決方案,這也為大家?guī)砹撕芏嗟臋C遇。可能有一些領域是適用于固定功能的芯片(ASIC),但是我相信絕大多數(shù)還是需要使用像我們這樣靈活應用的平臺作為解決方案。因此,我并不認為ACAP或者Alveo產(chǎn)品會取代所有的GPU,但是肯定會越來越多采用靈活應變的平臺。”
?
對于為何目前好幾家廠商如華為、賽靈思等廠商的新AI芯片,都不約而同地選用采用7納米的工藝的原因,賽靈思軟件產(chǎn)品副總裁Ramine也回答了電子發(fā)燒友的記者的提問。“采用7納米是因為現(xiàn)在它是制程上是最先進的技術(shù)手段,所以大家都會云想用最快的,而且性能最快高,功耗最小的,當然,現(xiàn)在看成本也是最高的。另外想指出,傳統(tǒng)專用芯片來比,從設計到真正量產(chǎn)通常不少于兩年的周期,所以現(xiàn)在大家看到專用芯片設計都是兩年以前的時間節(jié)點。很多ASIC芯片的功能和架構(gòu)設計都是針對兩年以前的網(wǎng)絡來進行設計。FPGA架構(gòu)就完全不一樣了,它從設計到使用完全符合最新的技術(shù)應用的要求,也就是現(xiàn)在不管是移動網(wǎng)絡還是什么樣的網(wǎng)絡,幾年以前這個東西并不是特別流行,但是現(xiàn)在會比較多。如果用CPU、GPU,真正用它的性能,會發(fā)現(xiàn)和它表述有差別,因為當時設計規(guī)劃不適應現(xiàn)在的需求。但是FPGA完全沒有這個問題,在現(xiàn)在深度學習和機器學習非常流行的年代,可以適應現(xiàn)在最好的狀態(tài),比較老的FPGA都可以支持最新的機器學習和深度學習的應用,但是在這一點上ACAP是有比較長的延遲,因為是適用于兩年以前的網(wǎng)絡。”
?
在人工智能時代,嵌入式FPGA或者是SoC中集中FPGA的IP的做法(eFPGA),是否也能更好地在靈活性上滿足AI的需求??賽靈思軟件產(chǎn)品副總裁Ramine也回應了電子發(fā)燒友記者的這個提問。
?
賽靈思軟件產(chǎn)品副總裁Ramine首先指出,賽靈思的ACAP不是一個嵌入式的專用芯片,它是一個功能完善的完整芯片,芯片內(nèi)部的連接和通信非常容易,在數(shù)據(jù)傳輸方面效果就非常好。除此外,它內(nèi)部還有各種各樣不同的處理器,每個處理單元都是為了不同的工作負載來專門進行優(yōu)化的,比如CPU,是專門做一些適合于CPU做的復雜算法的運算。FPGA用于流媒體計算,還有新處理計算的引擎,比如AI、AI引擎是矢量處理器的陣列,主要處理現(xiàn)行計算的工作負載。幾乎每個處理計算單元都是為了不同的工作負載而重新優(yōu)化過,然后進行組合。也就是每個計算單元都是功能強大的獨立完整的節(jié)點。這樣一個完整的芯片,在不同的工作負載下都可以發(fā)揮非常好的效果。
?
其次,eFPGA僅僅是一個FPGA IP而已,也就是說它在標準連接上,比如你想連接不同的應用芯片的話,它沒有一個標準連接的模式。另外,它在內(nèi)存和IO可編程性上也時比較差。eFPGA在過去并不是特別成功,因為eFPGA已經(jīng)存在了二十多年時間,但是到目前為止也沒有看到哪個公司真的是做EFPGA做的比較成功,所以現(xiàn)在市場不是很認可。
另外,跟大家分享一條好消息!2018年12月4日,由電子發(fā)燒友網(wǎng)舉辦的“第5屆中國IoT(物聯(lián)網(wǎng))大會”將于深圳舉辦,如欲了解詳情可點擊標題超鏈進入大會專題通道。
評論