在萬物互聯大背景下,預計未來將有數以百億的智能設備連接至互聯網。思科公司最新數據顯示,到 2021 年在全球 271 億連接設備中,物聯網設備將占據連接主導地位。這一趨勢無疑推動了物聯網向各行各業滲透,并將開啟一個“萬物皆有智能”的新型社會,人們能夠享受到更加智慧的生活。在這個大連接、大智能的時代中,具有人工智能要素的芯片需求廣闊,依靠人工智能芯片構建數據中心,為實現萬物互聯和人工智能提供基礎計算環境,包括英偉達在內的芯片廠商快速崛起,圍繞人工智能芯片領域的創新企業也倍受資本支持,讓芯片廠商成為這個時代最大受益者。與此同時,作為產業制高點,人工智能芯片可應用范圍廣,如智能手機、醫療健康、金融、零售等,發展空間巨大。2017 年 9 月初,華為公司在柏林 IFA2017新品發布會上發布了全球首款人工智能移動芯片“麒麟 970”,該芯片是全球首款內置神經元網絡單元的人工智能處理器(NPU),至此拉開了人工智能芯片在移動終端領域滲透的序幕。
一、人工智能芯片的發展綜述
(一)概念與范疇
根據清華大學魏少軍教授的觀點,將“人工智能”劃分為三個層次:第一個層次是應用(即:能體現深度學習和機器學習功能的應用);第二個層次是方法(即:人工智能的算法);第三個層次是工具(即:開發工具和芯片)。因此,人工智能芯片是實現人工智能的根本因素。
我們對人工智能芯片進行了定義:從廣義上講,能運行人工智能算法的芯片稱為人工智能芯片;從狹義上講,人工智能芯片是專門針對人工智能算法做了特殊加速設計的芯片。
(二)分類
深度學習的搭建,可分為訓練(Training)和推理(Inference)兩個環節:
1、訓練
通過大量的數據輸入,或采取增強學習等非監督學習方法,訓練出一個復雜的深度神經網絡模型。訓練過程由于涉及海量的訓練數據(大數據)和復雜的深度神經網絡結構,需要的計算規模非常龐大,通常需要GPU集群訓練幾天甚至數周的時間,在訓練環節GPU目前暫時扮演著難以輕易替代的角色。
2、推斷
指利用訓練好的模型,使用新的數據去“推斷”出各種結論。雖然推斷環節的計算量相比訓練環節少,但仍然涉及大量的矩陣運算。在推斷環節,除了使用CPU或GPU進行運算外,FPGA以及ASIC均能發揮作用。
二、人工智能芯片的生態環境
(一)算法層面:機器學習算法不斷成熟
自20世紀80年代起,機器學習算法開始快速發展,包括決策樹學習、推導邏輯規劃、強化學習和貝葉斯網絡等在內的多種機器學習算法現已被廣泛應用于網絡搜索、垃圾郵件過濾、推薦系統、網頁搜索排序、廣告投放等領域。深度學習作為機器學習的一種技術手段,近
年來取得重大突破,因此掀起了人工智能新一輪的發展熱潮。
深度學習本質上就是利用深度神經網絡處理海量數據,其優勢在于利用海量數據讓神經網絡自己學習如何抓取特征,進而提高算法性能,加快了人工智能大規模商業化步伐。2016年,谷歌的圍棋人工智能程序AlphaGo以4:1大比分戰勝韓國頂尖棋手李世石,讓世界震驚。
隨后僅僅一年的時間,谷歌又推出新程序AlphaGo Zero,可以不依靠人類指導和經驗,僅憑自身算法強化學習,就以100:0的戰績擊敗了AlphaGo。同時新版對計算力的消耗也大幅降低,相比于舊版的多臺機器和48個TPU,新版只用了一臺機器和4個TPU。由此可以看出,深度學習算法的不斷成熟,以及迭代速度的加快,為人工智能硬件環境的提升和完善提供了支撐條件。
(二)數據層面:結構性數據
獲取能力不斷提升以往數據收集終端和場景缺失,缺少易于處理的結構化數據,使得數據樣本非常稀缺,達不到有效的訓練目的,現在智能手機、可穿戴設備、智能汽車等智能終端的
快速發展使得數據的感知、獲取、分析及存儲能力都在不斷提升。數據感應能力提升。隨著傳感器種類的不斷豐富以及物聯網體系的建立,使得可獲取的數據越來越多。據市場調研機構Gartner統計和預測,2017年全球物聯網設備數量達到84億,同比增長31%;到
2020年,物聯網設備總規模進一步提升,數量將達到204億,較2017年增長超過142%。
網絡傳輸能力不斷提升。隨著通信技術的發展,有線網絡從電纜傳輸到光纖傳輸,無線網絡從2G/3G到4G/5G,均帶來了傳輸速度的提升。另一方面傳輸架構的變革帶來傳輸能
力飛躍。集中式存儲使得內存成為數據傳輸的瓶頸之一,而分布式網絡傳輸架構的出現,產生了分布式隊列技術,如Kafka,拓寬了傳輸的通道,使得傳輸能力大幅提升。
(三)計算能力:摩爾定律無法支撐數據量爆發增長
人工智能的基礎是針對海量數據的深度學習,無論是無人駕駛,還是圖像識別、語音識別等,系統底層架構都是基于大數據的邏輯算法。根據IDC研究報告,全球數據總量正呈指數級增長,從2003年的5EB,到2016年12ZB,預計于2020年達到44ZB。然而,現有硬件算力遠
無法匹配大數據的高速增長,計算能力已成為限制人工智能發展的主要瓶頸。
目前提升計算能力主要有三條發展路徑。一是持續強化CPU處理能力。然而,隨著CPU特征尺寸不斷逼近物理極限,新世代產品研發成本越來越高,2016年英特爾宣布停用“Tick-Tock”處理器研發模式,研發周期將從2年周期向3年期轉變。摩爾定律正逐步失效,CPU處理能力升級速度遠遠落后于數據增長速度,已無法支撐人工智能海量數據的并行計算。二是采用CPU+X的異構計算模式。短期來看,異構計算的方式已基本滿足人們對處理器更快速、更高效、更方便的使用要求,但如果讓處理器可以達到模擬人腦神經元和腦電信號脈沖這樣復雜的結構,就必須突破現有馮諾依曼的體系結構框架,使計算能力實現質的飛躍。基于上述原因,提升算力的根本方法在于采取非馮諾依曼架構的處理器。例如,類腦計算機通過模仿人類大腦的工作機制,進而徹底打破了馮諾依曼體系的發展瓶頸。
三、人工智能芯片的主要技 術路線
(一)基于FPGA技術
1、概述
FPGA(Field Programmable Gate Array)是在可編程器件的基礎上進一步發展的半定制電路,通過將門電路與存儲器有機結合,并設計門電路間互聯,進而達到定制目的。FPGA由于是非馮諾依曼架構,使得其在運算單元和存儲單元間的信息交換量大幅降低,因此具有流水處理和響應迅速的特點。FPGA芯片行業的生產廠商較多,其中Xilinx(賽靈思)、Altera(阿
爾特拉)、Lattice(萊迪思)和Microsemi(美高森美)4家美國企業握有大部分FPGA專利,且壟斷98%以上的市場份額。其中Xilinx和Altera分別占比49%和39%,剩余2家占比12%。如今國際半導體巨頭看好基于FPGA的人工智能芯片應用前景,紛紛布局基于FPGA的人工智能芯片,例如,英特爾收購了Altera;IBM與Xilinx合作等等。國內研發FPGA產品的公司主要有紫光國芯、深鑒科技、廣東高云、上海安路、西安智多晶和上海遨格芯等。
2、主要優勢
FPGA適用于快速變化的人工智能領域。FPGA兼容了PLD和通用門陣列的優點,可實現較大規模的電路。目前人工智能算法的更新迭代速度很快,通用化邏輯芯片更能適應變化迅速的人工智能領域。
理論上分析,FPGA可以實現任意ASIC和DSP的邏輯功能。在實際應用中,開發人員可通過FPGA的軟件來修改芯片,而不是替換和重新設計芯片?,F有FPGA軟件也可通過因特網進行遠程升級。這將極大的方便人員在人工智能領域進行自由開發、調試和升級換代。
FPGA的開發周期短,研發費用低,有利于更早占據市場。由于FPGA的開發流程,不涉及布線、掩模和流片等步驟,使得開發周期縮減,一款產品的平均設計周期大約在7個月到12個月之間。FPGA產品的全球最大廠商Xilinx認為,更快的研發速度,可以更早的占據市
場。如果產品晚上市6個月,5年內將會少33%的利潤,晚上市4周約等于損失了14%的市場份額。因此,基于FPGA的人工智能芯片可以快速占領市場。同時, FPGA的商業模式
與GPU、ASIC略有不同,眾多的客戶會共同分擔FPGA芯片的研發費用(NRE),從而降低研發成本。所以FPGA可以采用最先進的工藝,不斷降低產品的功耗,增加晶體管的數量,從而提升了FPGA在人工智能市場上的競爭力。伴隨著人工智能芯片NRE費用的指數級上升,基于FPGA開發設計新一代人工智能產品的優勢會更加明顯。FPGA并行計算效率高,整數
運算能力出眾。FPGA率先使用最先進工藝,單個計算單元的計算頻率突破500MHz。在某些應用場景下,大量低速并行單元的計算效率要高于少量高速串行單元。同時,FPGA芯片的整數運算效率大大超過CPU。在當前人工智能的企業級應用中,FPGA占據了主導地位,如:圖像識別、卷積神經網絡算法、安全控制、壓縮算法等。
3、主要劣勢
FPGA芯片中包含大量的邏輯器件與陣列,其批量生產成本高、產品功耗大和編程設計較難,使其應用領域受到局限。批量生產成本高。由于FPGA流片成本高昂,實現同樣的人工智能
應用,制作FPGA芯片的成本可能會超過ASIC的成本10倍以上。如果在流片量高于5萬片的人工智能終端產品等領域,如:車載、手機、音箱、機器人等,生產成本將十分高昂。
產品功耗大。為適應下游用戶復雜多樣的需求和應用,FPGA的門電路集成度往往很高,然而具體到某一應用,冗余的門電路會提升 FPGA 的功耗。然而在功耗敏感的領域中,這是非常致命的缺陷。
例如,無人駕駛的汽車利用圖像視覺技術和深度學習技術,實時分析周圍環境,每小時處理的數據量接近3TB,汽車本身無法承受,基于FPGA的智能芯片所產生的耗電量。編程設計難。在FPGA編程設計時,要考慮諸多因素,例如:應用場景多樣性、復雜性和運行效
率。這些因素導致軟件開發工作十分復雜,需要投入大量研發人員,例如:Xilinx公司的員工中,60%-70%的研發人員,在進行軟件開發工作。
4、應用場景
基于FPGA芯片的通用性,使其在人工智能的多個領域具有豐富的應用前景,例如:云端服務器、智能醫療、智能交通、智能家居、無線/有限通訊、航空、國防等領域。這些領域的共同特點是,對設備的功耗要求不高。人工智能的云端設備。人工智能深度學習算法包括訓練和推斷兩個截然不同的環節。訓練環節需參考海量數據,必需在云端執行。推斷環節可云端或終端均可完成。因此發展云端設備要比終端設備更為重要。由于FPGA具有動態可重配、
性能功耗比高等多項優點,所以,全球7大超級數據計算中心,包括IBM、Facebook、微軟、AWS,以及BAT都采用了基于FPGA的云端數據服務器。在新一代人工智能云端設備的布局上,中美兩國齊頭并進。
圖像識別技術。人工智能技術在圖像識別領域日臻完善,可以實時地感知探測器周圍的環境細節,得到更加清晰的圖像信息,進一步可以輔助人類完成一系列的任務。無論是分布式智能傳感器,還是集中多傳感器融合系統,又或是高度集成的域控制器,均可通過擴展FPGA的器件選擇,來滿足處理需求并達到目標成本。Xilinx公司開發的XA產品系列,以及SoC/MPSoC可創建高度差異化的汽車駕駛員輔助系統(ADAS,主要包括行車記錄儀、測距儀、雷達、傳感器、GPS、等設備)。浙江大學數理學院,與浙江德尚韻興圖像科技有限公司合
作,研發了一款基于Altera公司的人工智能FPGA芯片的超聲醫學影像智能診斷系統,DE超聲機器人。語音識別技術。FPGA芯片已在人工智能的語音識別領域得到廣泛應用。國際上,微軟、谷歌、蘋果、亞馬遜等跨國企業,紛紛推出了語音識別產品。國內,北京深鑒
科技有限公司采用LSTM方案,進行語音識別,結合深度壓縮算法,使得經過壓縮的網絡,在FPGA上實現超越Pascal Titan X GPU一個數量級的能效比。
-
FPGA
+關注
關注
1643文章
21954瀏覽量
613989 -
芯片
+關注
關注
459文章
52146瀏覽量
436006 -
AI
+關注
關注
87文章
34146瀏覽量
275322
原文標題:精華 | 人工智能芯片技術路線剖析---FPGA
文章出處:【微信號:wc_ysj,微信公眾號:旺材芯片】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論