通常來說,如果一個(gè)數(shù)據(jù)中心服務(wù)器規(guī)模超過10萬臺(tái),就可以稱large-scale datacenter,也就是常說的大規(guī)模數(shù)據(jù)中心。大規(guī)模數(shù)據(jù)中心對(duì)于網(wǎng)絡(luò)的要求有很多,但是突出的就在于穩(wěn)定和簡(jiǎn)單。
這兩點(diǎn)要求本身也有一定的關(guān)聯(lián)性。比如,大規(guī)模數(shù)據(jù)中心因?yàn)榫W(wǎng)絡(luò)設(shè)備數(shù)量多,所以從統(tǒng)計(jì)學(xué)的角度來說,出故障的頻率也更高。這里說的故障,不僅包括設(shè)備本身出現(xiàn)的硬件軟件問題,還包括因?yàn)檫\(yùn)維過程中對(duì)設(shè)備誤操作引起的故障。因此,一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)設(shè)計(jì),例如采用統(tǒng)一的硬件連接方式,使用有限的軟件功能,能減少故障概率,從而一定程度提升整個(gè)網(wǎng)絡(luò)架構(gòu)的穩(wěn)定性。但是,或許不只對(duì)于IT行業(yè),對(duì)于任何領(lǐng)域,用簡(jiǎn)單的方法去解決一個(gè)復(fù)雜的問題,本身就不簡(jiǎn)單。因此,這一次分析一下如何用CLOS架構(gòu),來“簡(jiǎn)單的”管理大規(guī)模數(shù)據(jù)中心的網(wǎng)絡(luò)。
CLOS架構(gòu)
CLOS架構(gòu)被廣泛應(yīng)用在現(xiàn)代的數(shù)據(jù)中心,因?yàn)樗峁┝藬?shù)據(jù)中心的水平擴(kuò)展能力和大規(guī)模數(shù)據(jù)中心所需要的穩(wěn)定和簡(jiǎn)單。下圖就是一個(gè)基本的CLOS單元,Spine和Leaf交換機(jī)共同組成數(shù)據(jù)中心網(wǎng)絡(luò),其中Leaf交換機(jī)作為TOR交換機(jī),連接服務(wù)器;Spine交換機(jī),為L(zhǎng)eaf交換機(jī)提供網(wǎng)絡(luò)連接。
水平擴(kuò)展能力
想要擴(kuò)展一個(gè)CLOS網(wǎng)絡(luò)架構(gòu),通常有兩種方法,就是增加設(shè)備的端口數(shù);第二就是增加更多的層級(jí)。在現(xiàn)有的spine-leaf基礎(chǔ)上,再增加一層super-spine交換機(jī),就可以構(gòu)成一個(gè)5-stages CLOS架構(gòu)。增加了一層super-spine交換機(jī),數(shù)據(jù)中心規(guī)模也水平擴(kuò)大了一倍。
穩(wěn)定簡(jiǎn)單
從眼來看,CLOS架構(gòu)是簡(jiǎn)單的。根據(jù)CLOS理論,所有的交換機(jī),不論是Super Spine,Spine和是Leaf,都應(yīng)該采用同質(zhì)的交換機(jī)。雖然實(shí)際應(yīng)用和文中圖里面,都不一定嚴(yán)格按照這個(gè)要求來,但是至少是照著這個(gè)樣式去實(shí)現(xiàn)。所以從硬件構(gòu)成來看,較為簡(jiǎn)單。其次,CLOS架構(gòu)采用的是一個(gè)純L3網(wǎng)絡(luò)的架構(gòu),也就是說所有的交換機(jī)都是三層交換機(jī),交換機(jī)之間都通過IP網(wǎng)絡(luò)連接的。所以,從網(wǎng)絡(luò)連接來看,也較為簡(jiǎn)單。畢竟,傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu),要涉及到L2連接,L3連接,VLAN配置等等。
穩(wěn)定包含很多,除了相對(duì)簡(jiǎn)單的設(shè)計(jì),還有就是減少故障范圍。0故障是不可能的,這輩子都不可能0故障。我們能做的是限制故障的范圍,而CLOS架構(gòu)下,每個(gè)Leaf交換機(jī)下都是一個(gè)獨(dú)立的L2 Domain,這樣可以將所有二層網(wǎng)絡(luò)的問題,例如BUM風(fēng)暴,限制在一個(gè)Leaf交換機(jī)范圍內(nèi)。
所以網(wǎng)絡(luò)架構(gòu)的IP地址分布如下:
看起來似乎很美好,但是相比較傳統(tǒng)的三層網(wǎng)絡(luò),CLOS架構(gòu)也有自己的問題,其中包括但不限于以下幾點(diǎn):那如何為CLOS架構(gòu)選取一個(gè)合適的路由協(xié)議?常規(guī)的選項(xiàng)是使用且僅使用EBGP。BGP一直以IBGP的形式來構(gòu)建數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò),而且是構(gòu)建在IGP,例如OSPF之上的。而EBGP一般用來連接不同的數(shù)據(jù)中心。但是在CLOS架構(gòu)中,EBGP,卻是合適的一個(gè)協(xié)議,因?yàn)樗軜O大簡(jiǎn)化實(shí)現(xiàn)。先因?yàn)楝F(xiàn)在路由條目數(shù)增多,這樣的量級(jí)只有BGP能穩(wěn)定維護(hù)。
其次,因?yàn)楝F(xiàn)在每個(gè)Leaf Switch,都管理一個(gè)獨(dú)立的子網(wǎng)。而數(shù)據(jù)中心內(nèi)網(wǎng)絡(luò)連通的前提是,每一個(gè)Leaf Switch的子網(wǎng),都需要傳給其他所有的Leaf Switch。這樣,相當(dāng)于每個(gè)Leaf Switch都是一個(gè)自治域(AS),現(xiàn)在要實(shí)現(xiàn)的就是實(shí)現(xiàn)所有的自治域的連通。這個(gè)問題,就是EBGP在互聯(lián)網(wǎng)上正在解決的問題。
因此在CLOS架構(gòu)下,采用了EBGP作為路由協(xié)議,具體細(xì)節(jié)有以下幾點(diǎn):
EBGP連接都是單跳。這樣就不用依賴IGP構(gòu)建nexthop網(wǎng)絡(luò),EBGP的nexthop都在鏈路的另一端。EBGP與IBGP的一個(gè)大不同在于,EBGP會(huì)轉(zhuǎn)發(fā)路由,因此借助Spine和Super Spine上面EBGP程序的轉(zhuǎn)發(fā),一個(gè)Leaf的子網(wǎng)信息,可以發(fā)布給所有其他Leaf交換機(jī),從而實(shí)現(xiàn)全數(shù)據(jù)中心內(nèi)網(wǎng)絡(luò)聯(lián)通。
但是這里有一個(gè)問題,在大規(guī)模數(shù)據(jù)中心里面,按照10萬條服務(wù)器,一個(gè)機(jī)架40臺(tái)服務(wù)器算的話,總共會(huì)有2500個(gè)Leaf交換機(jī),這樣,光是Leaf就把 ASN消耗完了。為了解決這個(gè)問題,可以使用4字節(jié)的ASN(RFC6793);也可以在一組Spine下面,復(fù)用ASN,:所以,僅通過EBGP,就是實(shí)現(xiàn)了CLOS架構(gòu)中網(wǎng)絡(luò)連接需要的全部?jī)?nèi)容。相比較傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu),CLOS架構(gòu)這里又以簡(jiǎn)單勝出。
審核編輯 黃昊宇
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5130瀏覽量
73185 -
網(wǎng)絡(luò)架構(gòu)
+關(guān)注
關(guān)注
1文章
96瀏覽量
12836
發(fā)布評(píng)論請(qǐng)先 登錄
華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)
破局智算瓶頸:400G光模塊如何重構(gòu)AI時(shí)代的網(wǎng)絡(luò)神經(jīng)脈絡(luò)
適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
華為全新升級(jí)星河AI數(shù)據(jù)中心網(wǎng)絡(luò)
優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案
華為發(fā)布新一代站點(diǎn)能源架構(gòu)及AI數(shù)據(jù)中心建設(shè)理念

NIDA發(fā)布《智算數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)技術(shù)要求》
Meta AI數(shù)據(jù)中心網(wǎng)絡(luò)用了哪家的芯片

諾基亞擴(kuò)展與微軟Azure的數(shù)據(jù)中心網(wǎng)絡(luò)供應(yīng)協(xié)議
華迅光通AI計(jì)算加速800G光模塊部署
簡(jiǎn)述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心

評(píng)論