這文章我三個月的時間反反復復寫了4,5次,寫到2月底,放棄了。而且因為我放棄了,沒好好保留資料,因此這篇撿回來的文章,就沒有資料列表了。
這個周末朋友圈里有又相關話題的討論,我覺得,還是應該發一下。
其實我的朋友圈,談這個話題是蠻危險的,容易被內行打臉,這是我折騰三個月,從熱情洋溢,到糾結卡文,最后放棄的主要原因。當初的動機是讀了一個heavy reading的智能網卡的報告,據說那個報告市價2850刀,我覺得吧,照那個標準,我寫一個值5000刀的報告簡直是分分秒秒的事情:)
什么是SmartNIC ?按照產業慣例,一般新產品的定義都是由市場的老大確定。
Mellanox占了10G速率以上網卡的70%市場份額(Crehan Research ),它對SmartNIC的定義是一個可以卸載通常由系統CPU處理的任務的網絡接口卡。智能網卡利用其板上的處理器,能夠完成加密/解密,防火墻,TCP/IP,HTTP等任何處理任務的組合。
下圖來自微軟舉辦的云網絡大會的材料,展示了從卸載功能的?度看,一個傳統網卡與智能網卡的區別。
但是如我取的標題,來自于Broadcom的BD的演化,我覺得一個插在標準服務器中的小服務器,更合適描述SmartNIC的未來發展趨勢。
關于這篇文章的邏輯順序,我返工過幾次。
第一次,先講智能網卡的分類,LOM, FPGA-based,ASIC-based,然后按照分類與主要供應商,分析細分市場的發展與份額預測,這是按照市場分析報告的思路來寫。這種報告,多半是給投資者看的。其實heavy reading的報告就是這種給股市/公司投資者的市場分析報告。
第二次,我試圖先講智能網卡的三個主要部分:NIC,控制層面,數據層面。然后,按照25G/40G/50G/100G的規格,分析一下各個模塊的主要供應商和關鍵性能參數,并附上主要供應商的產品明細,這是按照專業技術報告來寫,給行內的采購者和應用者看的。
第三次,我試圖按照我個人的理解順序,先講why SmartNIC,SDN與I/O-offload關系,然后從大廠的發展策略,預測一下未來發展趨勢。然后就因為規劃太大,寫不下去了。
看SmartNIC的發展起因,主要是為了預測一下這個產品的發展方向。
按照Patty Kummrow,Intel的以太網部?GM&VP,在一次會議上的話,就是“我們賣網卡賣了30多年”,怎么就出了新概念呢? 在Mellanox給的智能網卡定義中,有兩個關鍵詞,一個是卸載,一個是處理器。一個網卡明明不過是IO設備,怎么就和處理器強關系起來了呢?而且如果是簡單的IO+CPU的組合,Intel明明有先機的,回頭看Intel在10Gbps網卡市場那是壓倒性的市場份額,又是CPU的大廠,怎么可能被Mellanox拿一個網卡+CPU的東西翻盤?
簡單說,兩個因素:SDN與25Gpbs + IO接口的需求。
市面上討論智能網卡SmartNIC的時候,總是提到SDN-Software defined Networking,但是我理解的SDN是控制面與數據面的分離,方便tele-com標準化硬件平臺,解除供應商鎖定。這個SDN跟SmartNIC也沒有直接聯系。
如果從虛擬化技術看起,VMWare搞出虛機,顛覆了原有物理網絡對(物理)服務器的不移動的基礎假設,因此要自己做一個主機上運行的Software Switch,解決網絡與VM的對應關系,關鍵是解決虛機遷移,服務跟隨兩大問題。(中間有一大段的和Cisco的來回曲折,因為Cisco這樣的網絡設備提供商,肯定是想用物理switch上構建虛擬網絡來解決這個網絡與VM的對應關系,但是最后還是在主機上,過去是用純軟件,先是主機上的網絡加軟件的方式解決的,因此我就略掉這段故事了)。既然是軟件實現的switch,套用SDN的框架,或者說歸一到SDN框架下,去解決標準問題,也就順理成章。現在的服務器軟件棧中,網絡的組件功能特別豐富,不是一個vSwitch能描述的。
10Gbps網絡接口,如果按照MTU 1500Byte來算,0.83 Millions packet per second,一個3Ghz IPC 1.5的CPU單核,大約有5000指令的處理能力。再往上,25Gpbs,需要的CPU核數就劇增。而存儲的網絡化,以前HDD的性能瓶頸是磁盤的物理轉速上限,SSD沒有這個限制,SSD拉高了存儲帶寬,因此數據中心通過網絡共享存儲資源這個需求,例如NVMe-oF,迅速把網絡接口速率拉高。從1Gbps的網卡到10Gbps的網卡,業界走了近10年,但是25Gbps,似乎3年就成大趨勢了。而且還有隱隱加速的意思。
當用服務器的Xeon CPU處理主機上的軟件網絡棧,成為一件昂貴的事情的時候,Cost-down方案的機會就來了,當然由于有marketing這樣的專業人士的存在,Cost-down這樣的字樣是不會出現的,大家看到的就是網絡加速Network accelerate 或者業務卸載workload-offload。
這里,讓我插播一下,問一個拷問靈魂的問題,是先確定硬件平臺,在向上構造軟件生態的bottom to top的過程合理,還是先有軟件應用方案,然后top to bottom逐步offload業務,交由硬件加速合理?
如果是從下往上發展的業務,也就是先有硬件,再圍繞硬件打造軟件棧,過程漫?,平臺型軟件的同志們痛苦(在很?的一段時間內,無法判斷趨勢,要么豪賭平臺,要么消耗資源都支持),例如Nvidia漫?的打造CUDA之路,例如arm的服務器之路,但是如果是從上往下發展的業務,所謂的卸載業務,時間要短一點,但是硬件的同志們痛苦,而且戰況往往慘烈(短時間的以真金白銀的投入贏家通吃的市場), SmartNIC,AI芯片爆發都是這類。我給做應用的金主爸爸們一個建議:在硬件跟得上摩爾定律的時候,專心投錢做multi-arch軟件,挑最快的順風車搭。當硬件魔法失效的時候,給硬件碼農們錢,讓他們為你造一個獨享的法拉利。
BTW,我曾經的心儀對象Cisco公司,最近統一了硬件平臺,還開始外賣芯片 silicon one,以求擴大這個硬件平臺的影響力。又統一了軟件平臺。我感覺有點要重新起飛的狀態。(記得不構成投資建議的免責聲明吧?這完全是個人喜好)
Why SmartNIC的思路理順,我們下面看看幾個大廠是怎么開始走上業務卸載——offload或者說硬件加速之路的。
Azure AccelNet SmartNIC
Azure在2015年部署了上百萬的智能網卡。但是和Mellanox的定義不同,Azure并不是一個有處理器的方案,而是一個FPGA-based的方案。
為什么,如果回溯資料,無非是他們先有了一個FPGA的加速卡,已經插在服務器里了。而且作為先行者,他們實現的非標準(當然你也可以用“創新”這個詞)VFP (virtual filteringplatform)很難在市場上找到可用的ASIC。他們估計一開始也沒有想搞個大動作,搞個arm CPU授權做個自己的smartNIC chip,已經存在的FPGA項目就是最好的入手點。
看到這里,做FPGA的朋友們已經開始向我扔磚頭了。但是發貨上百萬量級,就不在FPGA的甜蜜點上了,大家心里都明白的。
AWS Nitro項目
AWS Nitro項目,它不是一個芯片,也不是一個板卡,它是一個產品家族。它的設計目的非常清晰,就是把所謂的data center tax內部化。當它成功的全部內部化之后,一個新的產品形態,baremetal 裸金屬服務器就出現了。
至于什么叫datacenter tax?就是所有的云供應商用于管理虛機VM,給虛機提供遠程資源,加密解密,故障跟蹤,安全策略等服務程序。這些服務程序,也消耗計算資源,這部分被消耗掉的計算資源,就像tax一樣給附加在用戶購買的云服務中。
所以Nitro項目都不能用網卡來命名,而且AWS的網卡驅動完全是個邏輯的,跟實際速率都無關。因此這個項目,算是把所謂的SmartNIC的NIC完全弱化掉,這跟Mellanox和Broadcom的SmartNIC產品是有點距離的。到這里,做NIC的朋友們也開始向我扔磚頭了。
LITTLE Server on big Server
我喜歡B家的Stingray產品BD說的,這就是一個大服務器上的小服務器。當然,如果能加一個小arm服務器,就更好了。別管它叫什么名字,它本質上就是一個赤果果的cost-down方案么。
前景么,我有一萬字的研究報告可以寫,略了。
-
cpu
+關注
關注
68文章
11034瀏覽量
215997 -
智能網卡
+關注
關注
1文章
53瀏覽量
12494
原文標題:三十年未有之大變局!智能網卡靠什么勝出?
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
施耐德電氣如何加速新質生產力轉型
三十載精“芯”“質”造,英飛凌無錫打造綠色智能工廠典范

天合光能受邀出席博鰲亞洲論壇2025年年會
展會動態 | 未來已來!同星智能即將亮相軟件定義汽車與AI技術論壇!

新思中國三十周年慶典活動成功舉行
晶科能源受邀出席第八屆世界浙商上海論壇
AI智能網卡在AI網絡中的作用
紫光展銳聯合上汽海外發布量產車型
“投資家網·2024中國價值企業榜”重磅發布,時擎科技連續四年榮登最具投資價值企業TOP100榜單

評論