如果您想擺脫Intel Xeon SP處理器在數據中心的控制,可以采用多種方法。您可以領先英特爾進入其核心市場,就像AMD在Epyc系列處理器上所做的那樣,充分利用其設計和代工伙伴。另一種方法是完全改變游戲的性質。這就是Marvell想要做的事情。
Marvell是一家成立于二十五年半前的芯片企業,目前該公司擁有5,000多名員工,在截至2月的2020財年中,公司收入達到27億美元。Marvell采取的是略有不同的方法,他們不是為每個客戶打造可能需要的SKU,并嘗試從中獲得收益。而是憑借數十年的制造存儲控制器,網絡處理器和其他網絡芯片的經驗,加上公司于2017年11月收購了Cavium,并涉足Arm服務器處理器(ThunderX),交換ASIC(XPliant和Prestera)和其他設備。
近年來購買了一大堆資產的Marvell,現在正著手進行大規模定制芯片。
從本質上講,它的所有知識產權(在過去的二十年中已積累了10,000多項專利)及其在設計芯片,封裝并通過非英特爾代工廠(臺積電,GlobalFoundries和三星)獲得的所有技能,能幫助他們打造出很好的成品。
在多個代工廠之間進行合作非常重要,因為在推進先進工藝方面,不僅僅是英特爾遇到了麻煩。GlobalFoundries在7納米也失敗了——這大約相當于使英特爾非常痛苦的10納米工藝,而前者在兩年多以前就放棄了7nm。三星憑借其在內存和閃存業務以及用于消費類設備的Arm芯片上的耕耘,是的公司在先進的工藝技術方面毫不遜色。
三星是先進工藝市場位數不多的競爭者,同時還是IBM Power10和z16服務器芯片的代工合作伙伴。藍色巨頭希望憑借其技能從邊緣遷移回核心數據中心。
Marvell不能憑自己的能力成為一家晶圓代工廠,因為考慮到如今建造晶圓廠的成本(遠超過100億美元),還有他們也不具備如此龐大的產能。但它可以將自己定位為三個獨立晶圓廠的專家。而且,在Marvell以6.5億美元的價格收購Avera Semiconductor,一家源自于IBM Microelectronics和GlobalFoundries的芯片設計團隊。
現在的Marvell擁有的芯片產品組合可以授權給客戶,并且他們還有能力幫助其他將自己的芯片從白板轉移到系統中的。
成立于1995年Marvell位于Intel圣塔克拉拉(Santa Clara)的沿途,在相對較短的時間內取得了長足的發展,成為數據中心和邊緣市場的參與者。在網絡泡沫最嚴重的時期,Marvell上市并籌集了9000萬美元,其股票在2000年秋季過高,以至于可以交易其中的27億美元收購Galileo Technology,并進入以太網交換機和嵌入式控制器市場。
從那時起,Marvell在其某些芯片設計中就包含了CPU,并在2003年收購了Asica,后者基于Arm架構創建自己的芯片,并獲得Arm Holdings的架構許可,這意味著它可以調整核心設計,只要不破壞與Arm指令集的兼容性。Marvell設計了整個2000年代的幾代Arm芯片,用于各種嵌入式和消費類設備,甚至在2006年7月以6億美元的價格收購了Intel的XScale Arm芯片業務。
1990年代后期。這兩條生產線是Armada Arm芯片生產線的基礎,Armada生產線偶爾會用于各種設備,包括服務器。在2018年7月,它在2011年9月以37億美元收購的NetLogic多核MIPS芯片。有趣的是,ThunderX2與NetLogic基礎的共同點比與Octeon基礎的共同點更多,但它們的根源也相似。
所有的這些都證明Marvell在創建適用于數據中心和邊緣的芯片方面擁有廣泛而深刻的經驗。Marvell ASIC業務部門的首席技術官Igor Arsovski也告訴The Next Platform,該公司的設計團隊(其中包括來自原始Marvell的人員以及來自Cavium,GlobalFoundries和IBM的人員)僅在企業和網絡領域就流片超過2,000款芯片。(自1994年以來一直銷售定制ASIC的IBM Microelectronics是這種經驗的重要組成部分。)這是一個非常深厚的基礎,這也是AI芯片初創公司Groq在其新推出的Tensor流處理器( TSP100)上與Marvell合作的原因。
Arsovski為我們提供了一個水平,可以確切地說明世界上AI芯片制造商所面臨的挑戰。看一看:
簡而言之,這些圖表說明了為什么對于像計算機學習訓練這樣的計算和內存帶寬密集型的應用程序都必須使用加速器。
“客制化芯片的這種趨勢正在增長,推動其發展的是模型的復雜性,” Arsovski解釋說。“在過去的18個月中,AI模型的復雜度實際上增加了50倍,如果您查看實現50倍晶體管縮放所需的時間,那么您所花的時間約為120個月或10年。這接近7倍的差距。如果您看一下Dennard標度和摩爾定律的輝煌年代,我們每18個月就會翻一番,但現在我們放慢了更多。”
事實證明,當談到SRAM片上存儲器時,這種減慢尤其嚴重,它被用作高速緩存,有時還用作設備中的主存儲器(例如在許多AI加速器中)。設計來自IBM的SRAM。如果您停留在高級制程節點上,則大約需要五年時間才能使每平方毫米的SRAM數量增加一倍。幾乎所有不基于GPU設計的AI加速器旁邊都有巨大的SRAM塊以及矩陣和矢量數學單元,或者它們現在或將來都可能具有某種高帶寬內存。基于虛擬計算引擎本質上的疊加層的FPGA AI加速器設計使用與計算緊鄰的邏輯實現的Block RAM(BRAM),其方式幾乎相同。鑒于上述Arsovski所說的以及摩爾定律的總體放緩,每個人都將尋找某種GDDR或HBM或HMC存儲器來封裝其未來的AI計算設備,因為沒有辦法實現SRAM規模不論節點如何,其運行速度與任何設備上的計算速度相同。
實際上,我們認為計算有很大機會保留在多芯片模塊的更高良率部分上,并且將使用最先進的節點來蝕刻SRAM存儲器,但前提是兩者之間的連接可以實現非常低的延遲和非常高的帶寬。正如Arsovski所提醒我們的那樣,從任何die到memory,帶寬會下降大約兩個數量級。話雖如此,Marvell已與美光科技合作,將其Hybrid Memory Cube存儲器與TSV集成在一起,以3D堆疊式封裝進行計算。當SRAM密度開始耗盡時,這是AI加速器設計的一條可能途徑。
根據Arsovski的說法,Groq選擇Marvell作為其TSP加速器的設計合作伙伴是有原因的,而SRAM是這一原因的重要組成部分。Groq希望使用成熟的14納米或16納米工藝來提高產量并降低其首個芯片的風險,并且IBM擁有在GlobalFoundries設計14納米工藝的Power9服務器CPU的經驗,因此非常適合,因為它在整個芯片上具有220 MB的SRAM:
TSP 100芯片的面積超過700平方毫米,如您所見,它以中心的巨大SRAM塊為主導。有一個“東岸”和“西岸”,每個都有44個獨立的存儲區,該SRAM上的組合帶寬驚人,高達27.5 TB /秒。Nvidia“ Ampere” A100 GPU加速器上的HBM2帶寬為1.55 TB /秒,并且該內存與GPU內核之間存在延遲,正如Arsovski指出的那樣,比片上SRAM延遲大幾個數量級。
Arsovski表示,得益于Avera的收購,Marvell可以為Groq帶來的SRAM比其他使用14納米或同等16納米技術的設計師所能提供的SRAM密度高10%到15%(每平方毫米11兆位)。而且,Groq TSP 100中的SRAM是兩個以1.2 GHz運行的端口,因此它的帶寬是單端口SRAM實現的兩倍,因此帶寬比其他設計要大得多。
Marvell和Groq之間的伙伴關系不僅與SRAM有關。Marvell還擁有高速SerDes以及Groq可以利用的交鑰匙式的PCI-Express和芯片到芯片互連(chip-to-chip:C2)子系統,最重要的是,Marvell擁有專業知識,可以提供良率高、效率高的芯片。這是Groq本身并沒有的經驗。
當然,硬件將更像軟件,這一直是夢想。但這不一定意味著是因為可編程邏輯。我們相信,隨著時間的推移,計算引擎將在socket level 變得更加昂貴,因為它們將不得不包含小芯片架構,并且由于摩爾定律的放慢,它們有時會部署reticle-busting方法。而且由于計算引擎將針對工作負載進行非常專門的調整,因此有必要在較小的運行中對其進行蝕刻,并在它們從鑄造廠出來時進行封裝,這也增加了成本。
但我們也相信,暗硅將很少,并且它們將以高利用率運行,因此,器件的實際價格/性能仍將遵循大致近似于摩爾定律的曲線。使用所有可用的工具和技術對計算引擎進行快速迭代將使進度不斷發展。那些無法快速迭代并找到并保持客戶移動的人將被甩在后面。
這就是Marvell的賭注,實際上也是Intel和TSMC,GlobalFoundries和Samsung的賭注。
混合搭配代工廠
人們有時會忘記并非世界上的每個設備都必須使用最先進的節點。公平地講,許多最酷的設備都用最小的晶體管,但這并不是當今世界中價格/性能最重要且共同設計的硬件和軟件允許每個晶體管做有用的事情的先決條件。
為了更好地處理Marvell為芯片設計人員準備的大規模定制業務,該業務將其全部知識產權以及硬件工程師的全部資產供他們使用,我們與Marvell ASIC業務的總經理Kevin O‘Buckley進行了交談。和Arsovski一樣,他是一位IBM老員工,在藍色巨人將其芯片業務出售給前AMD芯片代工廠之后,他在GlobalFoundries任職。O’Buckley在IBM Microelectronics中名列前茅,在網絡泡沫時代和蕭條時期致力于銅纜和SOI流程,然后在90年代領導開發用于游戲機和超級計算機的Cell混合CPU-GPU處理器。隨后,O‘Buckley也負責了22nm和14nm工藝,甚至7nm工藝的開發。
如果有一個人能理解芯片設計師對代工廠的依賴,而又想打破這種依賴以降低將芯片推向市場的風險,那這個人就是O’Buckley。這就是為什么Marvell組成了一個團隊,他們了解GlobalFoundries的22納米,14納米和12納米工藝,TSMC 7納米和5納米工藝。看到三星7納米和5納米工藝方面的一些專業知識也涌現,我們并不感到驚訝。
除非英特爾將其代工廠商放在一起,否則我們不會在這里進行太多合作,如果有的話,看到英特爾嘗試收購Marvell將會很有趣。(但這又是一個瘋狂的想法……)
正如我們在上面指出的那樣,Marvell積累了大量的產品線和技術。
Marvell所不擁有的產品線是FPGA。這可以通過收購Achronix或Lattice Semiconductor來實現,以充實自己的產品組合。但他們更有可能的做法似乎是與這兩家公司和Xilinx合作,將FPGA功能納入其堆棧。
O‘Buckley表示,Marvell實際上正在與客戶討論包含FPGA元件的定制芯片,像我們一樣,他相信未來將更加重視FPGA,因為必須通過多種方式對軟件和硬件進行嚴格調整ASIC并不總是答案。
現在,Marvell不僅收購了Avera,而且還收購了Aquantia,以充實其汽車網絡實力,這是它可以為客戶提供的定制范圍,從Marvell完全設計的標準產品(例如Octeon或ThunderX芯片,到使用Marvell IP的半定制芯片。
這種定制不適用于當今的所有人,Marvell知道這一點。“從收入的角度來看,可能有20%或更多的市場需要某種定制的芯片” O’Buckley告訴我們,當提出一個預想的數字時。“半導體行業購買的大多數產品將繼續購買標準產品。這實際上是規模和金錢的問題。即使是最低限度的定制,您也要在這些產品上投資數百萬美元。”
舉個例子,IBM有100多名工程師致力于為游戲機定制Cell處理器。這并不便宜,但是微軟,索尼和任天堂從IBM那里獲得了他們需要的東西,就像今天從AMD獲得一樣。也許將來他們將依賴于Marvell。
有趣的是,Marvell正在服用一些自己的“半定制藥”。在其“ Triton” ThunderX3處理器上,Marvell不會進行完整的SKU堆棧和大規模發布。而是,鑒于尚未有更廣泛的Arm處理器企業用戶市場出現,而且相對而言(數量,而不是支出)超級擴展程序,云生成器和HPC客戶相對較少,他們希望進行獨特的自定義,因此Marvell會處理ThunderX3作為半定制芯片,可以直接通過合作銷售。
但是不要誤解,Marvell絕對相信,未來將有更廣闊的Arm服務器芯片市場,只是今天還沒有。
也許,服務器計算的未來將比今天的英特爾至強SP服務器芯片業務更像游戲主機芯片定制業務。那是我們的賭注。在那個世界上,英偉達購買Arm Holdings毫無疑問是很有意義的。
責任編輯:tzh
-
處理器
+關注
關注
68文章
19825瀏覽量
233757 -
芯片
+關注
關注
459文章
52253瀏覽量
437029 -
ARM
+關注
關注
134文章
9321瀏覽量
375443 -
gpu
+關注
關注
28文章
4916瀏覽量
130734
發布評論請先 登錄
超大規模芯片驗證:基于AMD VP1902的S8-100原型驗證系統實測性能翻倍

薄型、多頻段、大規模物聯網前端模塊 skyworksinc

5G 大規模物聯網系統級封裝 skyworksinc

與樹莓派的“黃金”關系,是如何幫助這家醫療設備公司擴大規模?

Marvell發布突破性CPO架構,淺析互連產品的利弊得失

小米澄清年底大規模裁員傳聞
使用EMBark進行大規模推薦系統訓練Embedding加速

OpenAI調整硬件戰略:2026年起將自研AI芯片
Marvell CTO揭示AI芯片市場挑戰:UQD零部件與定制芯片成關鍵
Marvell宣布2025年全線產品提價
三星電子遭遇大規模罷工,全球芯片供應鏈或受重創
40億,今年芯片領域最大規模融資誕生

評論