摘要:現(xiàn)如今,數(shù)據(jù)中心正成為算力中心,為千行百業(yè)提供數(shù)字化底座,并基于海量數(shù)據(jù)挖掘其中的商業(yè)價值。超融合數(shù)據(jù)中心網(wǎng)絡(luò)以全無損以太網(wǎng)來構(gòu)建新型的數(shù)據(jù)中心網(wǎng)絡(luò),使通用計算、高性能計算、存儲三大業(yè)務(wù)均能融合部署在同一張以太網(wǎng)上,同時實現(xiàn)全生命周期自動化和全網(wǎng)智能運維,可在服務(wù)器規(guī)模不變的情況下,顯著提升數(shù)據(jù)中心的整體算力水平。
01.?智能時代促使數(shù)據(jù)中心向算力中心演進(jìn)
人類社會正邁入萬物感知、萬物互聯(lián)、萬物智能的智能時代,物聯(lián)網(wǎng)、大數(shù)據(jù)、5G、AI等新技術(shù)和各類創(chuàng)新應(yīng)用層出不窮。 ? 我國在《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》中再一次明確了“加快數(shù)字化發(fā)展,打造數(shù)字經(jīng)濟(jì)新優(yōu)勢,協(xié)同推進(jìn)數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,加快數(shù)字社會建設(shè)步伐,提高數(shù)字政府建設(shè)水平,營造良好數(shù)字生態(tài),建設(shè)數(shù)字中國”的戰(zhàn)略方針。 ? 作為構(gòu)建數(shù)字化社會的信息基石——數(shù)據(jù)中心,他承擔(dān)著各類應(yīng)用的數(shù)據(jù)存儲、數(shù)據(jù)分析與數(shù)據(jù)計算的重任。
從數(shù)據(jù)中挖掘商業(yè)價值已成為企業(yè)經(jīng)營的核心任務(wù)之一,因此數(shù)據(jù)中心也越來越聚焦對數(shù)據(jù)的高效處理,這種處理能力我們通常稱為“算力”。算力成為衡量現(xiàn)代數(shù)字生產(chǎn)力的重要指標(biāo)。大家熟知的人臉識別、無人駕駛汽車、智慧工廠等,其背后都是數(shù)據(jù)中心對數(shù)字基礎(chǔ)設(shè)施的高效整合與使用,并將其轉(zhuǎn)化為某種應(yīng)用維度的算力。從這個意義上說,數(shù)據(jù)中心又可以被稱為“算力中心”。 ? ?
圖1-1 數(shù)字化社會的信息基石——數(shù)據(jù)中心
數(shù)據(jù)中心算力是服務(wù)器對數(shù)據(jù)進(jìn)行處理后實現(xiàn)結(jié)果輸出的能力,這是數(shù)據(jù)中心內(nèi)計算、存儲、網(wǎng)絡(luò)三大資源協(xié)同能力的綜合衡量指標(biāo)。 ? 根據(jù)ODCC(Open Data Center Committee,開放數(shù)據(jù)中心委員會)的定義,數(shù)據(jù)中心算力指標(biāo)包含4大核心要素,即:通用計算能力、高性能計算能力、存儲能力、網(wǎng)絡(luò)能力。在服務(wù)器規(guī)模不變的情況下,提升網(wǎng)絡(luò)能力可顯著改善數(shù)據(jù)中心單位能耗下的算力水平。
02.?什么是超融合數(shù)據(jù)中心網(wǎng)絡(luò)
數(shù)據(jù)中心內(nèi)存在三大資源區(qū):通用計算區(qū)、高性能計算(HPC)區(qū)和存儲區(qū)。 ? 圖1-2 數(shù)據(jù)中心內(nèi)存在的三大資源區(qū)
通用計算區(qū):與數(shù)據(jù)中心外部的用戶對接,提供指定的應(yīng)用服務(wù)。這個區(qū)域中的服務(wù)器大量使用虛擬化、容器等技術(shù),形成靈活的資源池來承載應(yīng)用。本區(qū)域中的網(wǎng)絡(luò)被稱為應(yīng)用網(wǎng)絡(luò)、業(yè)務(wù)網(wǎng)絡(luò)或前端網(wǎng)絡(luò),當(dāng)前部署的是以太網(wǎng)。
高性能計算區(qū):配備了專用的高性能單元(如CPU、GPU)的服務(wù)器,完成指定的高性能計算任務(wù)或AI訓(xùn)練。這個區(qū)域中的服務(wù)器一般很少使用虛擬技術(shù)。本區(qū)域中的網(wǎng)絡(luò)被稱為高性能計算互聯(lián)網(wǎng)絡(luò),當(dāng)前部署的是IB(InfiniBand)網(wǎng)絡(luò)。
存儲區(qū):采用專用的存儲服務(wù)器,對各類數(shù)據(jù)進(jìn)行存儲、讀寫和備份。本區(qū)域中的網(wǎng)絡(luò)一般被稱為存儲網(wǎng)絡(luò),通常部署的是FC(Fibre Channel)網(wǎng)絡(luò)。
算力持續(xù)穩(wěn)定的輸出,離不開三大資源區(qū)的相互配合。作為聯(lián)接數(shù)據(jù)中心各類資源的大動脈,數(shù)據(jù)中心網(wǎng)絡(luò)承載著保障數(shù)據(jù)高效流通的職責(zé)。 ? 圖1-3 三大區(qū)域之間的數(shù)據(jù)流
當(dāng)前,通用計算區(qū)部署的傳統(tǒng)以太網(wǎng)、高性能計算區(qū)部署的IB網(wǎng)、存儲區(qū)部署的FC網(wǎng),是三張異構(gòu)網(wǎng)絡(luò),他們協(xié)議各異、架構(gòu)割裂,帶來了運維困難、專網(wǎng)生態(tài)封閉、成本高、無法實現(xiàn)全生命周期管理等問題。數(shù)據(jù)中心里這三張網(wǎng)絡(luò)的融合,成為算力提升的必然要求。
? 華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)以全無損以太網(wǎng)來構(gòu)建新型的數(shù)據(jù)中心網(wǎng)絡(luò),使通用計算、高性能計算、存儲三大業(yè)務(wù)均能融合部署在同一張以太網(wǎng)上,同時實現(xiàn)全生命周期自動化和全網(wǎng)智能運維。
? IT 架構(gòu)層面:從本地集中式走向云端分布式 ? 當(dāng)前一些新興的應(yīng)用,如區(qū)塊鏈、工業(yè)仿真、人工智能、大數(shù)據(jù)等,基本都建立在云計算的底座中。近些年,企業(yè)各類業(yè)務(wù)上云的步伐不斷加速,云可以提供按需自助服務(wù)、快速彈性伸縮、多租戶安全隔離、降低項目前期投資等價值優(yōu)勢。另外,在企業(yè)的數(shù)字化轉(zhuǎn)型中,以金融和互聯(lián)網(wǎng)企業(yè)為代表,大量的應(yīng)用系統(tǒng)逐漸遷移到分布式系統(tǒng)上,也就是通過海量的 PC 平臺來替代傳統(tǒng)的小型機(jī)。這么做帶來了高性價比、易擴(kuò)展、自主可控等好處,但分布式系統(tǒng)架構(gòu)同時也帶來了服務(wù)器節(jié)點之間大量的網(wǎng)絡(luò)互通需求。以太網(wǎng)已經(jīng)成為云化分布式場景中的事實網(wǎng)絡(luò)標(biāo)準(zhǔn): ?
以太網(wǎng)已具有很高的開放性,可以與各種云融合部署、可被云靈活調(diào)用管理。
以太網(wǎng)具有很好的擴(kuò)展性、互通性、彈性、敏捷性和多租戶安全能力。
以太網(wǎng)可以滿足新業(yè)務(wù)超大帶寬的需求。
以太網(wǎng)從業(yè)人員多,用戶基礎(chǔ)好。
而傳統(tǒng)數(shù)據(jù)中心高性能計算使用的 IB 網(wǎng)絡(luò),以及集中式存儲使用的 FC 網(wǎng)絡(luò),生態(tài)封閉,資源割裂,演進(jìn)緩慢,已無法匹配云化的發(fā)展訴求。根據(jù) IDC 數(shù)據(jù)顯示,近年來 FC 和 IB 市場逐步萎縮,數(shù)據(jù)中心的云化趨勢助長了對以太網(wǎng)的需求,以太網(wǎng)是當(dāng)前以及未來主要的數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)互聯(lián)技術(shù)。 ? 計算層面:CPU/GPU 出以太接口提升性能 ? 以人工智能為代表的一系列創(chuàng)新應(yīng)用正在快速發(fā)展,而人工智能后臺算法依賴海量的樣本數(shù)據(jù)和高性能的計算能力。為了滿足海量數(shù)據(jù)訓(xùn)練的大算力要求,一方面可以提升 CPU 單核性能,但是目前單核芯片工藝在 3nm 左右,且成本較高;另外一方面,可以疊加多核來提升算力,但隨著核數(shù)的增加,單位算力功耗也會顯著增長,且總算力并非線性增長。據(jù)測算,當(dāng) 128 核增至 256 核時,總算力水平無法提升 1.2倍。 ?
隨著算力需求的不斷增長,從 P 級(PFLOPS,一秒 1015 次浮點運算)向 E 級 (EFLOPS,一秒 1018 次浮點運算)演進(jìn),計算集群的規(guī)模不斷擴(kuò)大,對集群之間互聯(lián)的網(wǎng)絡(luò)性能要求也越來越高,這使得計算和網(wǎng)絡(luò)深度融合成為必然。 ? 在計算處理器上,傳統(tǒng)的 PCIe 的總線標(biāo)準(zhǔn)由于單通道傳輸帶寬有限,且通道擴(kuò)展數(shù)量也有限,已經(jīng)無法滿足目前大吞吐高性能計算場景的要求。當(dāng)前業(yè)界的主流是在計算處理器內(nèi)集成 RoCE(Remote Direct Memory Access over Converged Ethernet,基于融合以太的遠(yuǎn)程內(nèi)存直接訪問協(xié)議)以太端口,從而讓數(shù)據(jù)通過標(biāo)準(zhǔn)以太網(wǎng)在傳輸速度和可擴(kuò)展性上獲得了巨大的提升。
? 這里的 Remote Direct Memory Access(RDMA)是相對于 TCP 而言的,如下圖所示,在服務(wù)器內(nèi)部,傳統(tǒng)的 TCP 協(xié)議棧在接收/發(fā)送報文,以及對報文進(jìn)行內(nèi)部處理時,會產(chǎn)生數(shù)十微秒的固定時延,這使得在 AI 數(shù)據(jù)運算這類微秒級系統(tǒng)中,TCP 協(xié)議棧時延成為最明顯的瓶頸。另外,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大和帶寬的提高,寶貴的 CPU 資源越來越地多被用于傳輸數(shù)據(jù)。 ?
? RDMA 允許應(yīng)用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫,將服務(wù)器內(nèi)的數(shù)據(jù)傳輸時延降低到接近 1μs。同時,RDMA 允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),極大地減少了 CPU 的負(fù)擔(dān)。 ? 在 高 性 能 計 算 場 景 中 , 當(dāng) 前 有 兩 種 主 流 方 案 來 承 載 RDMA :專用 IB(InfiniBand)網(wǎng)絡(luò)和以太網(wǎng)絡(luò)。然而,IB 網(wǎng)絡(luò)采用私有協(xié)議,架構(gòu)封閉,難以與現(xiàn)網(wǎng)大規(guī)模的 IP 網(wǎng)絡(luò)實現(xiàn)很好的兼容互通,同時 IB 網(wǎng)絡(luò)運維復(fù)雜,OPEX 居高不下。用以太網(wǎng)承載 RDMA 數(shù)據(jù)流,即上文提到的 RoCE,已應(yīng)用在越來越多的高性能計算場景。
? 存儲層面:升級為全閃存 NVMe 接口 ? 新業(yè)務(wù)對海量數(shù)據(jù)的存儲和讀寫需求,催生了存儲介質(zhì)的革新,由 HDD(Hard Disk Drive,機(jī)械硬盤)快速向 SSD(Solid-State Drive,固態(tài)硬盤)切換,這帶來了存儲性能近 100?倍的提升。在此過程中,出現(xiàn)了 NVMe(Non-Volatile Memory express,非易失性內(nèi)存主機(jī)控制器接口規(guī)范)存儲協(xié)議,NVMe 極大提升了存儲系統(tǒng)內(nèi)部的存儲吞吐性能,降低了傳輸時延。 ? 相比而言,原來承載存儲業(yè)務(wù)的 FC 網(wǎng)絡(luò),無論從帶寬還是時延上,均已經(jīng)成為當(dāng)前存儲網(wǎng)絡(luò)的瓶頸。完成革新后的全新存儲系統(tǒng),需要一個更快、更高質(zhì)量的網(wǎng)絡(luò)。為此,存儲與網(wǎng)絡(luò)從架構(gòu)和協(xié)議層進(jìn)行了深度重構(gòu),新一代存儲網(wǎng)絡(luò)技術(shù) NVMe over Fabric(簡稱 NVMe-oF)應(yīng)運而生。NVMe-oF 將 NVMe 協(xié)議應(yīng)用到服務(wù)器主機(jī)前端,作為存儲陣列與前端主機(jī)連接的通道,可端到端取代 SAN 網(wǎng)絡(luò)中的 SCSI(Small Computer System Interface,小型計算機(jī)系統(tǒng)接口)協(xié)議。 ?
NVMe over Fabric 中的“Fabric”,是 NVMe 的承載網(wǎng)絡(luò),這個網(wǎng)絡(luò)可以是FC、TCP 或 RMDA。? ?
對于 FC,其技術(shù)封閉、產(chǎn)業(yè)生態(tài)不及以太網(wǎng);產(chǎn)業(yè)規(guī)模有限,技術(shù)發(fā)展相對遲緩,帶寬不及以太網(wǎng);從業(yè)人員稀缺、運維成本高、故障排除效率低。
對于 TCP,在追求應(yīng)用高性能的網(wǎng)絡(luò)大潮中,RDMA 替換 TCP 已成為大勢所趨。
對于 RDMA,主流技術(shù)是 RoCE(RDMA over Converged Ethernet),即 NVMe over RoCE,他是基于融合以太網(wǎng)的 RDMA 技術(shù)來承載 NVMe。
綜上所述,基于以太網(wǎng)的 RoCE 比 FC 性能更高(更高的帶寬、更低的時延),同時兼具 TCP 的優(yōu)勢(全以太化、全 IP 化),因此 NVMe over RoCE 作為新一代存儲網(wǎng)絡(luò)已經(jīng)脫穎而出,成為業(yè)界 NVMe-oF 的主流技術(shù)。 ? 網(wǎng)絡(luò)運維層面:部署與運維的全方位升級 ? 在數(shù)據(jù)中心網(wǎng)絡(luò),當(dāng)前存在幾個較為突出的問題與挑戰(zhàn): ?
管理難:數(shù)據(jù)中心網(wǎng)絡(luò)里常常存在多個廠商的不同設(shè)備,接口不統(tǒng)一,很難統(tǒng)一管控。
易出錯:新業(yè)務(wù)的下發(fā)或老業(yè)務(wù)的變更,工作流程復(fù)雜,往往涉及多部門聯(lián)動設(shè)計、調(diào)測,人工操作不僅效率低,而且容易出錯。
定位慢:如果發(fā)生異常,據(jù)統(tǒng)計,故障的定位平均時長達(dá) 76 分鐘,嚴(yán)重影響業(yè)務(wù)的連續(xù)性,給企業(yè)帶來損失。
這些都呼喚一個全新的數(shù)據(jù)中心網(wǎng)絡(luò)的到來。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),在實現(xiàn)“三網(wǎng)合一”的基礎(chǔ)上,在開放性、業(yè)務(wù)部署、運維層面進(jìn)行變革,全方位應(yīng)對上述挑戰(zhàn)。 ?
編輯:黃飛
評論