隨著網絡與硬件技術地快速發展,資源解耦架構因其資源利用率高、硬件拓展性好等諸多優勢,成為了未來數據中心的主要發展方向之一,從資源管理的角度出發,目前的方案主要分為三個技術路線,包括“以CPU為中心”、“以內存為中心”和“資源去中心化”。
第七屆未來網絡發展大會發布《算網操作系統白皮書》、《光電融合服務定制廣域網》、《以網絡IO為中心的無服務器數據中心》白皮書,本文選自"以網絡IO為中心的無服務器數據中心"。。
以內存為中心
在“以內存為中心”的技術路線下,內存管理功能從傳統操作系統中分離出來,并運行在內存側,以便實現內存的獨立拓展和異構計算單元對內存的共享訪問,進而實現更高效的數據處理和計算。例如,內存池化后可預處理內存分配和回收,進而提高內存的利用效率和性能;內存共享后可以減少計算核心之間的數據搬移次數,從而加速計算任務的完成;大內存消除了數據的換出換入開銷等。在此技術路線上,目前的實現方案有HP The Machine、天蝎項目和NetDAM等。
1、HP The Machine
惠普在2016年的倫敦發布會上推出了“以內存為中心”的新型計算機原型機——The Machine。如圖2-10所示,與傳統計算機相比,The Machine[12]架構主要有以下幾個關鍵技術,包括系統級芯片(SoC)、統一存儲、內存池化共享和全光通信。
首先,The Machine采用了經過能效和算法優化的SoC,是TheMachine的核心組成,旨在支撐高度可擴展、節能且安全的系統,主要由FAM(Fabric-attached Memory)芯片、I/O端口、網絡相關組件等構成。其中,FAM芯片的主要功能是連接傳統計算核心與遠端內存池,同時減少對數據移動的需求。
此外,該SoC還提供安全特性,如硬件強制隔離等。其次,The Machine中的存儲是統一的。具體來說,原來由RAM和硬盤/閃存承擔的存儲任務(RAM負責臨時存儲,硬盤/閃存負責長期存儲)全部由NVM完成。在傳統的分層存儲架構下,數據需要在兩種存儲(RAM與硬盤/閃存)之間來回交換,這既影響性能又增加能耗。
2、天蝎項目
在國內的服務器市場,BAT三家互聯網公司在2011年聯合成立了天蝎聯盟。于2014年8月,天蝎聯盟正式升級為開放數據中心委員會(ODCC)。如圖2-11所示,天蝎計劃[13]發展至今,已演進至3.0版本。
天蝎1.0確立了集中供電、集中風扇(散熱)、集中管理的天蝎整機柜服務器基本形態。機柜模塊作為整機柜服務器的“外殼”,中間4U空間用于部署集中供電模塊(Power Supply Unit,PSU)、集中管理模塊以及網絡模塊(交換機)。
為了更好的協調組織活動,擴大天蝎整機柜服務器的適用范圍,ODCC發布了天蝎2.0規范,主要包括機柜的尺寸、機柜背板和頂部功能、風扇尺寸、服務器節點與機柜系統解耦等。此外,基于中國數據中心行業的基本情況,天蝎2.0規范還對環境(溫濕度)及機房提出了高度、供電和承重等方面的要求。
天蝎3.0旨在打破1U/2U服務器節點的限制,解除計算和存儲資源在小空間里的耦合,在機柜級的大空間里再耦合。CPU、內存、閃存、硬盤等同類資源物理上聚集在一起,形成不同種類的資源池。從外部看,整機柜服務器是一個整體,但其內部的資源是可以分割的,不同類型、數量的資源自由組合為不同配置的“邏輯”服務器,必要時還可以更改配置或打散重組,提高資源利用率,進一步降低能耗。
3、NetDAM
NetDAM主要思想是將內存直接掛載到以太網控制器上,并提供大量的ALU和可編程邏輯,旨在提供高效的內存池化、存內計算(In-Memory Computing)以及在網計算(In-Network Computing)的新范式。
從NetDAM的功能構成來看,其通過內存共享以及對存內計算和在網計算的指令級支持,實現主機內和主機間協議的橋接。具體來說,NetDAM采用以太網IP/UDP來傳輸NetDAM數據,主要通過以下四個技術點來保證低時延和大帶寬:
1)確定性時延:NetDAM通過消除PCIe DMA和跳過緩存一致性嗅探來固定了數據包處理流水線,從而實現數據包在確定時延內得到回復;
2)可選的可靠性傳輸:該設計主要出于以下兩點考慮,一是具有虛擬化或容器覆蓋支持的無損以太網將帶來大量開銷,二是很多分布式應用可以設計冪等接口,簡單地重傳并不影響結果;
3)可選的排序:交換操作運行亂序執行,因為每個數據包中都有內存地址字段來隔離操作內存空間,同時每個數據包中也有序列號字段以支持用戶在編程邏輯中增加可選的重排序模塊;
4)多徑傳輸:為了使數據傳輸與網絡拓撲無關,NetDAM在UDP數據包內加入段路由頭,因此源節點可以選擇專用路徑,避免交換機緩沖區溢出,充分利用網絡帶寬。
NetDAM實現的存算資源互聯系統,CPU、DSA、存儲等資源可以通過AXI、CHI或PCIe/CXL等總線直連到NetDAM,不同NetDAM之間通過以太網互聯,NetDAM上的內存資源形成共享池。
資源去中心化
在“以CPU為中心”的技術路線下,所有存算資源的管理和使用邏輯都運行在CPU上,并通過訪問遠端資源的方式使用解耦的其他存算資源。此技術路線不僅使CPU成為故障中心,還會因遠端資源管理引入大量的帶寬和時延開銷,特別在大規模部署的資源解耦數據中心中這一問題尤為顯著。
“以內存為中心”的技術路線是將傳統OS中的內存管理功能遷移至內存側,使得內存資源可按需獨立拓展,同時實現不同類型的計算核心對內存資源的共享使用。該技術路線雖然減少了內存管理的開銷,但除內存外的其他資源(如外存等)還由CPU來進行管理和調度,仍存在“以CPU為中心”技術路線的局限性。
總的來說,以上兩種技術路線,本質上仍是都是以某種資源為中心的管理邏輯,此邏輯使得其他資源仍受制于某類資源,進而無法充分發揮解耦資源的使用效率,并在可拓展性和彈性方面仍存在不足,因此,“資源去中心化”的理念被提出,數據中心中的計算、存儲和網絡等資源都被視為獨立的服務,不同資源的拓展和使用均不存在依賴關系。
在“資源去中心化”的技術路線下,傳統OS被徹底解耦,使不同資源的管理功能位于相應的資源側,彼此之間通過消息傳遞的方式進行通信和協作,真正實現所有資源的高可按需拓展和高彈性使用。
具體來說,“資源去中心化”包含拆分內核功能、將管理模塊運行在相應資源的控制器上、用網絡消息代替一致性。
目前來說,“資源去中心化”的具體實現仍處于探究完善階段,如LegoOS,但它的設計理念對資源解耦數據中心的資源管理與使用邏輯設計有著重要的啟示和參考價值,可充分發揮資源解耦架構下資源的可拓展性和使用彈性。
編輯:黃飛
-
以太網
+關注
關注
40文章
5586瀏覽量
174864 -
cpu
+關注
關注
68文章
11040瀏覽量
216042 -
數據中心
+關注
關注
16文章
5146瀏覽量
73219 -
解耦
+關注
關注
0文章
42瀏覽量
12058 -
存內計算
+關注
關注
0文章
32瀏覽量
1483
原文標題:數據中心解耦架構技術路線(下)
文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論