今年夏天,全球芯片領域的年度大事——Hot Chips大會,一共舉辦了25場會議,其中有16場或多或少都聚焦于處理人工智能(AI)任務的芯片上。這些芯片應用涉及范圍廣泛,從瞄準物聯網(IoT)和智能手機的超低功耗組件,到數據中心所需的高耗電芯片等。
曾經圍繞著x86架構的產業整并,使得這一微處理器年度盛事有好幾年變得不那么有趣。而今,隨著機器學習的崛起,Hot Chips再度成為專注于芯片架構的工程師熱烈參與的年度盛會。
不管你相不相信,芯片業近來關注的重點并不只是深度學習。例如,大會中的一位發言人還介紹了可能取代DRAM的競爭方案,并呼吁探討更多關于內存技術的話題。
賽靈思(Xilinx)展示了一款針對AI打造的全新FPGA變化版本,并邀請與會者針對基于安全的全新運算架構展開設計移動。
Alphabet董事長John Hennessey在發表專題演講時指出,在Google計算機架構師發現安全漏洞之前,業界廣泛使用的推測執行(speculative execution)技術易于遭受旁路攻擊(side-channel attack)的情況已經存在長達20年了。
Insight64分析師Nathan Brookwood說:“這不禁令人懷疑還有什么是我們以往沒有注意到的......鑒于這些產品如此復雜卻仍能有效作業,這一點真的令人驚訝。”。
接下來,我們將重點介紹在今年Hot Chips大會上的一些有趣的討論。我們將從其中一些令人印象深刻的創新想法和目標設計開始談起。
新創公司Tachyum挑戰Xeon
新創公司Tachyum無疑是其中最具有膽識的,但卻并不被看好。該公司的目標在于透過其Prodigy芯片,從而在主流服務器(server)用處理器和AI加速器市場分一杯羹。Tachyum宣稱其Prodigy芯片的核心“比英特爾(Intel)的Xeon更快,也比Arm核心更小”。
該公司表示,這款7納米(nm) 290 mm2芯片支持多達64個核心,可在4GHz執行頻率下提供高達2TFlops的運算效能,預計明年出樣。
事實上,如果沒有重大的性能升級以及經過多方測試,數據中心營運商不太可能在其x86架構中采用新創公司的芯片和軟件。因此,分析師Brookwood對于Tachyum采用超長指令字(VLIW)架構抱持懷疑態度,畢竟這是英特爾在其Itanium中未能完美掌握的技術。他補充說,如果該芯片能取得任何市場吸引力,Tachyum很可能面臨來自英特爾等巨擘的專利訴訟。
Tachyum的Prodigy芯片支持九階整數和14階浮點運算管線架構(本文圖片來源:Hot Chips)
Optane引發法規爭議?
英特爾描述其最新的14nm Xeon服務器處理器Cascade Lake。該公司在不久前的一場活動中才發布這款芯片,但在Hot Chips大會上提供了更多細節,但也引發一些爭議。
Cascade Lake采用與英特爾現有14nm Xeon相同的機制、散熱和插槽接口,也支持相同的核心數、快取結構以及I/O速度。新增部份包括微調14nm工藝,以提高一點性能和降低一些功耗。此外,該芯片還支持新的AI指令和硬件,以避免暴露于Meltdown/Spectre的旁路通道攻擊。
但其重點在于,Cascade Lakes是第一款帶有內存控制器的Xeon,可支持Intel Optane (即3D XPoint內存),可為每插槽提供高達3TB主存儲器以及帶來超越DRAM的讀/寫速度。
介紹該新產品的英特爾工程師并未評論Optane的耐用性。然而,他表示,這些主板使用的Jedec DDR4電氣總線采用英特爾的專有協議,這已能讓競爭對手近期內都望塵莫及。
Brookwood說:“我認為這并不至于構成法律挑戰。”
“如果我是IBM或AMD,當Optane DIMM普及于數據中心而我卻無法取得時,那么我可能會要大發牢騷了!英特爾占據了98%的服務器市場,在我看來,這就是一種壟斷。”
英特爾目前正主導儲存網絡產業協會(SNIA),為Optane等替代主流內存打造軟件平臺
NEC加速器低價挑戰Nvidia V100
NEC描述一款新的向量引擎,可搭載PCIe Gen 3板卡,而功耗還不到200W。該芯片專為搭配SX-Aurora超級計算機與Linux服務器中的x86主機而設計,據稱其價格要比Nvidia V100更低得多。
NEC聲稱其向量芯片可提供高達307GFlops的雙精度性能。在大多數基準檢驗下,其性能可介于Xeon和V100二者之間。該公司還指出,NEC芯片的內存帶寬略高,而且在一些工作負載上的性能功耗比幾乎相當于Nvidia GPU。
相較于Nvidia V100芯片尺寸約840 mm2,NEC的1.6GHz、16nm向量芯片尺寸相對較小——480-mm2。此外,NEC的芯片支持多達6個Hi8或Hi4 HBM2內存堆棧,可提供高達48GB的總內存容量。
為IoT打造超低功耗AI加速器
美國哈佛大學(Harvard University)和Arm的研究人員連手發表一種用于物聯網中執行深度學習任務的超低功耗加速器。這款所謂的SMIV芯片采用臺積電(TSMC) 16-nm FFC工藝打造,芯片尺寸約為25 mm2。
SMIV可說是使用Arm Cortex-A核心的首款學術界開發芯片。它在always-on的加速器叢集中使用近閾值操作,并透過嵌入式FPGA模塊提供大約80個硬件MAC和44Kbits RAM。
因此,該芯片能以低功率提供更高精確度。同時,相較于競爭方案,它的功率和面積效率都提高了近10倍。
MIT打造更低功耗導航芯片
美國麻省理工學院(MIT)的研究人員則為機器人和無人機打造了一款客制設計的導航芯片,據稱該芯片的功耗較Arm CPU核心更低。這款Navion導航芯片采用65nm CMOS制造,在20-mm2芯片面積上打造視覺慣性測距引擎。
研究人員稱,該芯片的性能是標準CPU的2倍至3倍,并可縮減多達5.4倍的內存占用空間。它在最大配置下的功耗為24mW,而在優化配置時的功耗僅2mW,而仍能實現實時導航。
在Hot Chips大會的多場會議中只針對已發布的組件(有的甚至都已經出貨)提供較多細節。接下來我們將先介紹用于客戶端系統的AI加速器和CPU,并將關注焦點轉向服務器處理器和加速器。
Arm展示新款機器學習核心實力
Arm深入探討其預計將在年底出現在芯片中的機器學習核心。新款機器學習核心可在1GHz提供約4TOPS運算性能,以及在以7nm制造的2.5-mm2核心上提供超過3TOPS/W性能。其乘法累加單元支持8個16位寬點乘積。
Arm介紹其機器學習核心上的8 x 8區塊壓縮
三星舉例說明聰明的工程師如何在工藝技術進展趨緩時顯著提升性能。因此,從一系列基準檢驗來看,目前在其智能手機中使用的2.7GHz M3應用處理器,輕輕松松地就能超越前一代M2至少50%以上。
這項進展來自于在其分支預測器中使用神經網絡,以及利用德州農工大學(Texas A&M )教授Daniel A. Jiménez的學術研究成果。不過,M3應用處理器的芯片尺寸是M2的2倍以上,但采用了10 LPP工藝——這是三星10 LPE工藝的微幅升級。
Mythic展示內存處理器最新進展
Mythic描述其內存處理器(PIM)設計細節,它可用于處理具有0.5 picojoules/MAC的深度學習影像。該芯片設計針對監控和工廠相機,功耗約為5W,包括所有數字控制邏輯。
PIM概念已出現多年了,但一直到最近才被應用于AI。Mythic打造基于NOR單元的可變電阻器數組,但并不在內存單元寫入和讀取深度學習權重。相反地,它將電壓施加到數組線,以求和并讀取電流級,進一步達到省電的效果。
初始芯片可處理有限數量的權重,但基于磚式(tile)的設計可為全標線芯片擴展多達5倍權重。此外,還可以添加Arm核心以創建可編程組件,而且多個芯片間可以協同工作以執行更大的應用程序(app)或更快地執行。但缺點之一在于無法利用神經網絡的稀疏特性。
Mythic聲稱,這款40nm芯片的功耗只有GPU的一小部份。該公司預計明年年中提供樣片,并預計于2019年底量產。
Mythic的PIM目的在于以MCU功率提供GPU性能,而不至于影響稀疏神經網絡
Google側寫Pixel Visual Core
Google介紹在其最新智能手機中的Pixel Visual Core。這款基于A53的可編程引擎,專為手機攝影機執行目前仍在發展中的最新版HDR +算法。一位Google工程師打趣地說:“它能讓你的社交媒體圖片看來不會太糟糕。”
有趣的是,三星內存部門的一位工程師問道,未來世代是否會放棄典型的圖像處理管線,轉而采用新興的深度學習技術?Google工程師回復說:“但我們還沒在這個領域發布太多AI算法啊!”
Google聲稱其28nm Pixel核心執行HDR+作業的速度比10nm移動應用處理器的CPU快至少2.8倍
IBM強化Power 9服務器系統
針對服務器領域,IBM與英特爾似乎都在14nm節點停擺一段時間了。IBM這次在Hot Chips介紹其最新的計劃,為基于其Power 9處理器的系統強化I/O和內存帶寬,不過,至少要到2020年或之后才會針對新工藝提供新設計了。
IBM的目標是在其Power 9服務器上發掘更多內存帶寬,同時為基于7-nm處理器的設計做好準備
富士通將Arm核心帶入超級計算機
富士通(Fujitsu)描述了7-nm A64FX,其設計目標在于成為超級計算機中的首批Arm核心之一。該512位SIMD芯片為Arm架構帶來向量擴展,以執行傳統的超級運算和新的AI任務。52核心的芯片使用32GB HBM2內存,可提供2.7TFlops性能和1,024GB/s的內存帶寬。
富士通的首款post-Sparc設計A64FX,瞄準用于將在2021年發表的日本新一代Post-K超級計算機
Nvidia展示其GPU服務器實力
Nvidia透過其DGX-2及其內部NVLink互連,從芯片進一步擴展到系統。該公司展示了幾項基準檢驗,包括以DGX-2展現超越標準雙GPU系統的性能。
英特爾、AMD以及…中東和平?
英特爾介紹如何使用其嵌入式多芯片互連橋接(EMIB)技術,將其Kaby Lake桌上型x86 CPU與AMD Radeon RX Vega M GPU連接在一個模塊(下圖)中,以用于輕薄型筆記本電腦。
分析師Brookwood還與英特爾主講人開玩笑說,“不管是誰來談成這項協議的,接下來應該可以派他去進行中東和平的任務。“
-
芯片
+關注
關注
459文章
52145瀏覽量
435930 -
物聯網
+關注
關注
2927文章
45847瀏覽量
387751 -
機器學習
+關注
關注
66文章
8490瀏覽量
134062
原文標題:Hot Chips 2018大會上13款最“熱”芯片
文章出處:【微信號:FPGAer_Club,微信公眾號:FPGAer俱樂部】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
自然語言提示原型在英特爾Vision大會上首次亮相
一些常見的動態電路

分享一些常見的電路

NVIDIA生成式AI閃耀CNCC2024大會
谷歌Wear OS智能手表更新一覽
OpenAI硬件負責人熱議AI基礎設施擴展與節能方案
英特爾至強6系列處理器:全能核心,滿足各種工作需求
NVIDIA 在 Hot Chips 大會展示提升數據中心性能和能效的創新技術

評論