摘要:?上文我們提到,云上運維向更自動、更敏捷、更彈性的趨勢演進,但本質始終是賦能業務永續運行,助力企業戰略目標和業務發展的實現。今天,我們來聊一聊如何在阿里云上建立主動的云上運維體系。為何強調“主動”,古人云,善戰者無赫赫之功,不打無準備之仗才最有可能利于不敗之地,這便是我們強調“主動”運維的意義。
上文我們提到,云上運維向更自動、更敏捷、更彈性的趨勢演進,但本質始終是賦能業務永續運行,助力企業戰略目標和業務發展的實現。今天,我們來聊一聊如何在阿里云上建立主動的云上運維體系。
為何強調“主動”?做過或者接觸過運維的朋友們或許對“背鍋”和“救火”這兩個詞都不陌生——我們知道,故障幾乎無法完全避免,當故障發生時,如果系統和業務受到了嚴重影響,可能有些人要為此無奈“背鍋”,也可能有些人挺身而出成為“救火”英雄,挽狂瀾于既倒,讓系統和業務轉危為安。但如果總是在故障發生時才靠運維人員來解決問題,那么無論結果如何,都未免太被動了。古人云,善戰者無赫赫之功,不打無準備之仗才最有可能利于不敗之地,這便是我們強調“主動”運維的意義。
阿里云作為領先和值得信賴的云計算服務提供商,提供和保障計算、存儲、網絡資源以及底層基礎設施的可用性、穩定性、安全性。企業用戶根據自身戰略發展和業務需求設計IT架構,在阿里云上選擇合適的產品、服務來搭建部署業務系統,并管理其中的數據。在此基礎上,通過阿里云提供的OpenAPI、監控、編排等多樣化手段實現快速配置資源,搭建高可用架構,自動化批量部署,彈性應對負載變化,閉環管理異常故障等IT主動運維能力。
也就是說,用戶在阿里云之上所搭建的系統和所承載的業務,其系統可用性和業務連續性是由阿里云和用戶共同保障的——阿里云搭建強健的基礎設施環境和開展大規模主動運維,為用戶提供可信賴的ECS云服務,作為支撐用戶系統和業務的穩定性基石;而利用阿里云ECS豐富的運維能力,用戶可以從架構設計開始便做充分的準備,并將主動運維的思想貫穿于規劃部署、容量管理、測試發布、日常運維等多個基礎運維環節,并與應用開發和運維緊密協作,形成主動運維體系,最終實現業務永續運行的目的。
下面,我們來了解下阿里云提供給用戶的穩定性基石——彈性計算服務ECS云服務器
ECS云服務器的優勢
彈性計算服務Elastic Compute Service(ECS)是阿里云提供的一種基礎云計算服務。使用ECS云服務器就像使用水、電、煤氣等資源一樣便捷、高效。您無需提前采購硬件設備,而是根據業務需要,隨時創建所需數量的ECS云服務器實例。在使用過程中,隨著業務的擴展,您可以隨時擴展節點、變更規格、擴容磁盤、增加帶寬。如果不再需要云服務器時,也能隨時釋放資源,節省費用。
與傳統IDC對比,ECS具備以下優勢:
ECS云服務器傳統IDC服務器基礎設施- 自主研發的直流電服務器,綠色機房設計,PUE 低;
- 骨干機房,出口帶寬大,獨享帶寬;
- BGP多線機房,全國訪問流暢均衡- 傳統交流電服務器設計,
- PUE 高;
- 機房質量參差不齊,用戶選擇困難,以共享帶寬為主;
- 以單線和雙線為主安全可靠- 有效阻止 MAC 欺騙和 ARP 攻擊;
- 有效防護 DDoS 攻擊,可進行流量清洗和黑洞;
- 端口入侵掃描、掛馬掃描、漏洞掃描等附加服務- 很難阻止 MAC 欺騙和 ARP 攻擊;
- 清洗和黑洞設備需要另外購買,價格昂貴;
- 普遍存在漏洞掛馬和端口掃描等問題備份容災- 多份數據副本,單份損壞可在短時間內快速恢復;
- 用戶自定義快照;
- 快速自動故障恢復- 用戶自行搭建,使用傳統存儲設備,價格高昂;
- 數據損壞需用戶自己修復;
- 沒有提供快照功能,無法做到自動故障恢復靈活擴展- 開通云服務器非常靈活,可以在線升級配置;
- 帶寬升降自由;
- 橫向伸縮,輕松擴展應用- 服務器交付周期長,離線升級配置;
- 帶寬一次性購買,無法自由升降;
- 硬件節點部署慢,價格昂貴
ECS云服務器不同于物理服務器,它是由計算、存儲、網絡組件聚合而成的IaaS層解決方案。ECS云服務器由以下幾部分組成:
實例
一個云服務器 ECS 實例等同于一臺虛擬機,包含 CPU、內存、操作系統、網絡、磁盤等最基礎的計算組件。您可以方便的定制、更改實例的配置。您對該虛擬機擁有完全的控制權,和您本地服務器的區別在于,您只需要登錄到阿里云,即可使用云服務器,進行獨立的管理、頂級配置等操作。
磁盤(塊存儲)
阿里云為您的云服務器ECS提供了豐富的塊存儲產品類型,包括基于分布式存儲架構的彈性塊存儲產品,以及基于物理機本地硬盤的本地存儲產品。其中:
彈性塊存儲,也稱為云盤,是阿里云為云服務器ECS提供的數據塊級別的隨機存儲,具有低時延、持久性、高可靠等性能,采用三副本的分布式機制,為ECS實例提供99.9999999%的數據可靠性保證。可以隨時創建或釋放,也可以隨時擴容。
本地存儲,也稱為本地盤,是指掛載在ECS云服務器所在物理機(宿主機)上的本地硬盤,是一種臨時塊存儲。是專為對存儲I/O性能有極高要求的業務場景而設計的存儲產品。該類存儲為實例提供塊級別的數據訪問能力,具有低時延、高隨機IOPS、高吞吐量的I/O能力。
網絡,VPC,安全組
專有網絡(Virtual Private Cloud,簡稱為VPC)是您基于阿里云構建的一個隔離的網絡環境,專有網絡之間邏輯上徹底隔離。您可以自定義這個專有網絡的拓撲和 IP 地址,適用于對網絡安全性要求較高和有一定網絡管理能力的用戶。
快照
快照,是某一個時間點上某一個磁盤的數據備份??煺辗湛梢詽M足您以下需求:
您希望使用某塊磁盤上的數據作為其他磁盤的基礎數據。您可以使用快照創建磁盤。
當磁盤上的數據出現問題時,您希望能夠恢復到您所期望的數據狀態。您可以 使用快照回滾磁盤。比如:盡管云盤(普通云盤、高效云盤和SSD云盤)是一種安全的存儲方式,可以保證您所存儲的任何內容都不會丟失,但是,如果存儲在磁盤上的數據本身就是錯誤的數據,比如由于應用錯誤導致的數據錯誤,或者黑客利用您的應用漏洞進行惡意讀寫,此時,您就可以使用快照服務將磁盤上的數據恢復到您期望的狀態。
如果您希望新購的實例與已有的實例有完全相同的環境,您可以使用系統盤快照創建自定義鏡像,再使用自定義鏡像創建實例。
鏡像
鏡像(Image)是云服務器ECS實例運行環境的模板,模板中包括了特定的操作系統信息,有時也額外包括了一些預裝的應用程序。鏡像文件相當于副本文件,該副本文件包含了一個或多個磁盤中的所有數據,對于云服務器ECS而言,這些磁盤可以是單個系統盤,也可以是系統盤加數據盤的組合。
ECS云服務器對于可用性的承諾
如何來評價ECS云服務器是否稱得上“穩定性基石”呢,我們需要一個可以測量的標準,最合適的莫過于ECS云服務器的服務可用性等級協議SLA(Service Level Agreement)了。
首先,我們需要了解一些與SLA有關的定義:
服務周期:一個服務周期為一個自然月。
單實例服務周期總分鐘數:按照單實例服務周期內的總天數╳24(小時)╳60(分鐘)計算。
實例不可用:當一臺設置了出入允許規則的ECS實例以TCP或者UDP協議與任一IP地址的雙向(出/入)都無法聯通,且該狀態持續一分鐘以上,視為該分鐘內ECS實例不可用。
單實例服務不可用分鐘數: 在一個服務周期內單ECS實例不可用分鐘數之和。
單地域多可用區服務不可用:如用戶ECS實例在同一地域部署于至少2個可用區(以下簡稱:單地域多可用區),若該地域任一可用區發生該用戶的全部 ECS 實例不可用,且該用戶在該地域其他可用區的ECS實例亦同時發生實例不可用(以下簡稱:同地域其他可用區不可用ECS實例),則此同地域其他可用區不可用ECS實例被視為單地域多可用區服務不可用。
單實例單地域多可用區服務不可用分鐘數:在一個服務周期內,單ECS實例的單地域多可用區服務不可用的分鐘數之和。
ECS的服務可用性將根據服務周期,按如下兩種維度分別統計每臺ECS實例的可用性:
單實例維度:?
服務可用性=(單實例服務周期總分鐘數 -單實例服務不可用分鐘數)/單實例服務周期總分鐘數×100%單地域多可用區維度:
服務可用性=(單實例服務周期總分鐘數 -單實例單地域多可用區服務不可用分鐘數)/單實例服務周期總分鐘數×100%
阿里云鄭重承諾服務可用性:
對于單實例維度,阿里云承諾一個服務周期內ECS的服務可用性不低于99.95%;
對于單地域多可用區維度,阿里云承諾一個服務周期內ECS的服務可用性不低于99.99%。
ECS云服務器的SLA標準就如同高可用性的標尺,用戶可以根據業務需要和成本考量,來設定合理的可用性目標,并選擇合適的架構。
運維邊界綜述
綜上所述,在IaaS服務層面,基于阿里云ECS云服務器的云上運維邊界可以總結為:
阿里云用戶數據中心- 選址,設計,建設;
風火水電等基礎工程管理;
- 互聯網、專線接入;
- 日常運營、故障處理、擴容根據業務需求選擇適合的地域和可用區實例- 宿主服務器上架初始化,更新替換;
- 宿主服務器操作系統安裝,配置,補丁管理;
- 虛擬化配置,管理;
- 系統監控,服務可用性保障;
- 提供多種操作系統版本和預裝特定應用程序的鏡像模板- 根據業務需求設計系統架構,并選擇實例規格和配置;
- 管理云上資源,靈活使用負載均衡和彈性伸縮等服務快速相應業務變化;
- 根據實例監控、健康檢查和系統事件觸發運維動作硬盤(塊存儲)- 存儲上架初始化,更新替換;存儲、磁盤配置,數據多副本設計提供可靠性保障;
- 系統監控,服務可用性保障;
- 提供磁盤快照和自定義快照策略的功能
- 根據容量、性能等要求選擇磁盤類型和規格;
- 使用磁盤快照進行數據備份網絡,VPC,安全組- 網絡設備上架、布線、初始化,更新替換;
- 網絡SDN、虛擬化配置;
- 系統監控,服務可用性保障;
- 安全防護配置并管理VPC和安全組
在阿里云ECS所提供的穩定性基石之上,用戶就可以利用ECS的運維能力來構建適合自己的主動運維體系。從個人用戶到中小企業再到大型企業,用戶的訴求可以抽象總結為對開放、彈性、透明的不斷追求。下一期,我們繼續展開聊聊ECS提供給用戶的主動運維能力。
本文為云棲社區原創內容,未經允許不得轉載。
評論