隨著人們向基于服務(wù)的基礎(chǔ)設(shè)施部署和自動化程度的提高,存儲管理員的角色正在發(fā)生變化。智能運(yùn)維(AIOps)提供了一個(gè)框架,既可以減輕資源管理中繁瑣任務(wù)的負(fù)擔(dān),同時(shí)也解決了通過擴(kuò)展人力資源無法解決的挑戰(zhàn)。
背景
AIOps是調(diào)研機(jī)構(gòu)Gartner公司在2016年創(chuàng)造的一個(gè)術(shù)語。它描述了三個(gè)學(xué)科(自動化、性能管理和服務(wù)管理)組成一個(gè)框架來改進(jìn)基礎(chǔ)設(shè)施管理員的能力,其實(shí)現(xiàn)由多個(gè)層組成。
?第1層–數(shù)據(jù)源。實(shí)現(xiàn)自動化以及管理員執(zhí)行的典型任務(wù)需要配置和使用數(shù)據(jù)。這包括來自系統(tǒng)的遙測和應(yīng)用程序。
?第2層–實(shí)時(shí)處理。這意味著實(shí)時(shí)收集和處理遙測數(shù)據(jù),以獲取即時(shí)價(jià)值。
?第3層-規(guī)則/模式。需要使用已經(jīng)確定的規(guī)則和模式來分析數(shù)據(jù)。供應(yīng)商已經(jīng)在開發(fā)算法,這些算法可以使用PB級的遙測分析,并將其轉(zhuǎn)換為諸如異常檢測和故障診斷之類的工具。
?第4層–域算法。其中包括特定于站點(diǎn)的知識,以了解本地化的使用模式和要求。
?第5層–自動化。使用應(yīng)用程序接口(API)和命令行界面(CLI)來驅(qū)動諸如供應(yīng)和退役(面向客戶)之類的任務(wù)。這還包括自動化性能管理,例如在可用基礎(chǔ)設(shè)施中重新平衡工作負(fù)載。
跨越所有這些層的是使用機(jī)器學(xué)習(xí)來觀察和檢測遙測數(shù)據(jù)中的趨勢,異常,這對于工作人員而言是不切實(shí)際或無法計(jì)算的。因此需要了解人工智能/機(jī)器學(xué)習(xí)如何協(xié)助提供更有效的數(shù)據(jù)和存儲管理。
人為因素
為什么企業(yè)需要在存儲管理中引入諸如AIOps之類的工具?雖然全球創(chuàng)建的信息量繼續(xù)呈指數(shù)級增長,但企業(yè)中生成的數(shù)據(jù)(更重要的是存儲在企業(yè)中的數(shù)據(jù))也呈指數(shù)級增長。以前被丟棄甚至沒有創(chuàng)建的數(shù)據(jù)如今被視為具有某種可感知的未來價(jià)值。企業(yè)越來越多地使用機(jī)器學(xué)習(xí)和人工智能,從越來越多的機(jī)器生成的數(shù)據(jù)獲取信息。企業(yè)現(xiàn)在正在存儲數(shù)PB字節(jié)的信息,并希望對此進(jìn)行實(shí)際操作。
敏捷性
業(yè)務(wù)流程正在推動對數(shù)據(jù)存儲容量的更大需求,但這只是IT組織所面臨挑戰(zhàn)的一方面。平均修復(fù)時(shí)間(MTTR)對于確保基礎(chǔ)設(shè)施可用性水平接近100%變得至關(guān)重要。IT組織通常希望在問題發(fā)生之前就識別并解決問題,而不是等待嚴(yán)重的失敗。
?存儲和數(shù)據(jù)保護(hù)中對API的需求;
?存儲的智慧;
?存儲管理和DevOps。
減少或管理硬件干預(yù)措施還有其他積極方面。IT部門希望將工程師在數(shù)據(jù)中心更換故障設(shè)備的時(shí)間降到最低。任何數(shù)據(jù)中心干預(yù)都是一種風(fēng)險(xiǎn)。眾所周知,工程師會因更換而拔出錯(cuò)誤的硬件,或者意外地碰到設(shè)備并造成意外的停機(jī)或重啟。
隨著企業(yè)之間的競爭,從數(shù)據(jù)分析中獲取價(jià)值的時(shí)間越來越短。這意味著開發(fā)人員希望在更短的周期內(nèi)訪問存儲設(shè)備,最好是自動化和按需訪問。隨著資源的創(chuàng)建、使用和返回到數(shù)據(jù)池中,人們預(yù)計(jì)其配置越來越靈活,這是任何存儲管理員都無法有效跟蹤的。
第1層-指標(biāo)
為了實(shí)現(xiàn)有效的AIOps,系統(tǒng)需要測量存儲操作信息的元數(shù)據(jù)和度量。這些端點(diǎn)從存儲系統(tǒng)的物理和邏輯方面收集數(shù)據(jù)。例如,單個(gè)HDD硬盤或SSD硬盤操作的數(shù)據(jù)提供了有關(guān)溫度、永久性和瞬態(tài)介質(zhì)故障、吞吐量、性能和設(shè)備正常運(yùn)行時(shí)間的信息。此集合擴(kuò)展到存儲機(jī)箱,記錄有關(guān)前端端口活動、處理器和內(nèi)存負(fù)載、服務(wù)器溫度和室溫的統(tǒng)計(jì)信息。
數(shù)據(jù)收集不僅限于硬件。存儲軟件非常復(fù)雜,許多供應(yīng)商已將其設(shè)計(jì)模塊化。軟件端點(diǎn)可以跟蹤內(nèi)部應(yīng)用程序崩潰、過度使用內(nèi)存、硬件驅(qū)動程序中的錯(cuò)誤以及甚至用于驅(qū)動軟件的命令的使用。最后一點(diǎn)看起來似乎是一個(gè)不尋常的指標(biāo),但是,查看最終用戶是否在充分利用可用的命令功能或配置正確的最佳實(shí)踐選項(xiàng)集可能會很有用。
第2、3和4層–實(shí)時(shí)處理
如果無法實(shí)時(shí)進(jìn)行整理和分析,那么所有這些信息都將毫無用處。通常,人們看到兩層分析方法。首先,供應(yīng)商將數(shù)據(jù)整理到大型的中央存儲庫或數(shù)據(jù)倉庫中,這些存儲庫或數(shù)據(jù)倉庫代表了整個(gè)客戶安裝群中數(shù)以萬億計(jì)的各個(gè)端點(diǎn)數(shù)據(jù)。
這些數(shù)據(jù)集合提供了足夠的信息,可以對硬盤故障或可能影響整個(gè)客戶群的配置問題進(jìn)行統(tǒng)計(jì)分析。作為信息的長期存檔,供應(yīng)商使用這些數(shù)據(jù)來修復(fù)硬盤固件中的錯(cuò)誤或主動替換易發(fā)生故障的介質(zhì)。這個(gè)數(shù)據(jù)源還可用于驗(yàn)證存儲操作系統(tǒng)軟件的質(zhì)量。
最終,這種類型的數(shù)據(jù)收集對供應(yīng)商有利,因?yàn)樗兄谔岣呦到y(tǒng)可用性并減少由字段引發(fā)的支持調(diào)用的數(shù)量。不過,客戶也看到了好處。通過代碼更新可能引入的錯(cuò)誤或其他問題可以避免或減輕。向管理員提供信息以做出明智的決策,而不是遇到其他客戶已經(jīng)遇到的問題。
異常現(xiàn)象
整理大量單個(gè)客戶數(shù)據(jù)的第二個(gè)好處是能夠使用機(jī)器學(xué)習(xí)和人工智能技術(shù),突出配置中的異常或問題。這些場景可能包括確定性能熱點(diǎn)、容量或吞吐量的意外增長,或基礎(chǔ)設(shè)施的其他組件(如主機(jī)或虛擬機(jī)監(jiān)控程序?qū)樱┲械呐渲脭?shù)據(jù)問題。
供應(yīng)商越來越多地提供識別勒索軟件,在多個(gè)硬件配置之間重新平衡工作負(fù)載,并為將來的升級或硬件更換提供建議的功能。最后一個(gè)選項(xiàng)特別有用,因?yàn)樗试S管理員建立一個(gè)模型,該模型選擇最有效的新硬件配置進(jìn)行升級和替換。
人工智能/機(jī)器學(xué)習(xí)
在討論過程中,都提到了機(jī)器學(xué)習(xí)和人工智能的使用。為什么這一點(diǎn)作為現(xiàn)代基礎(chǔ)設(shè)施管理的特征變得如此重要?在存儲領(lǐng)域,管理員將認(rèn)識到許多問題很容易消耗數(shù)小時(shí)或數(shù)天的工作時(shí)間。
一些良好的例子包括確定性能熱點(diǎn)(并加以解決)、跨系統(tǒng)(前端或后端)平衡I/O活動以及跨多個(gè)存儲平臺管理容量增長。幸運(yùn)的是,通過設(shè)計(jì)、現(xiàn)代存儲解決方案可以自動解決許多挑戰(zhàn),從而節(jié)省管理員數(shù)小時(shí)的時(shí)間來處理更有價(jià)值的任務(wù),從而為他們的客戶增加價(jià)值。
盡管在設(shè)計(jì)上取得了這些進(jìn)步,但是仍然出現(xiàn)了人類難以識別的異常現(xiàn)象(勒索軟件就是一個(gè)很好的例子)。人工智能提供了自動分析大量數(shù)據(jù)并創(chuàng)建經(jīng)過訓(xùn)練的模型的功能,然后可以對活躍系統(tǒng)進(jìn)行實(shí)時(shí)分析。
新工具
人們需要新的管理工具才能利用AIOps的優(yōu)勢。存儲供應(yīng)商已經(jīng)開始從基于GUI的系統(tǒng)轉(zhuǎn)移到管理界面,現(xiàn)在提供命令行界面(CLI)和應(yīng)用程序接口(API)。命令行界面(CLI)提供了將命令集成到腳本和自動構(gòu)建過程中的能力。應(yīng)用程序接口(API)提供了更高級的交互級別,尤其是在提取報(bào)告或遙測數(shù)據(jù)時(shí)。
這并不意味著圖形界面就此終結(jié)。實(shí)際上,更加精明的存儲供應(yīng)商已經(jīng)轉(zhuǎn)向使用GUI作為顯示系統(tǒng)狀態(tài),顯示增長和性能趨勢的儀表板,并且通常轉(zhuǎn)向基于異常的系統(tǒng)基礎(chǔ)設(shè)施可視化。
責(zé)任編輯:pj
-
處理器
+關(guān)注
關(guān)注
68文章
19884瀏覽量
235004 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7255瀏覽量
91804 -
服務(wù)器
+關(guān)注
關(guān)注
13文章
9786瀏覽量
87900
發(fā)布評論請先 登錄
龍芯發(fā)布新一代處理器,進(jìn)軍服務(wù)器和AI處理器市場




高流量網(wǎng)站需要什么樣的服務(wù)器配置?
雙北斗校時(shí)服務(wù)器、雙北斗授時(shí)服務(wù)器、雙北斗對時(shí)服務(wù)器、雙北斗NTP服務(wù)器

服務(wù)器如何處理 HTTP 請求
內(nèi)存和微處理器的互聯(lián)演變
云服務(wù)器怎么做負(fù)載均衡?
Jtti:新加坡服務(wù)器的性能如何評估
聯(lián)想發(fā)布基于第五代AMD EPYC處理器的服務(wù)器產(chǎn)品
負(fù)載均衡服務(wù)器與服務(wù)器如何連接?
恒訊科技分析:香港雙e5服務(wù)器怎么樣?有什么優(yōu)勢?

評論