陽光燦爛的周末大清早,老王在健身房做著力量訓練以備戰即將開始的馬拉松,突然間“叮叮叮”連續的短信音打破了健身房有序的節奏,幾十條短信在手機提示欄出現“【重要告警】數據庫連接超時,請聯系管理員”。老王一拍大腿,心中默念道“系統可能崩得了”。
“Siri,打電話給小李。”“喂,王總啊,周末都不讓人睡個安穩覺啊!”“省公司系統連著發了幾十條數據庫超時的告警短信,半個小時后公司見。”
人物注:老王,某安全公司運營中心負責人。小李,老王得力干將,運營技術達人。
上篇 :
告警來勢洶洶,AI提供新的可能
在這個數據信息爆炸的時代,各個系統產生的日志數據就像是一場永無止境的海嘯,每天以驚人的速度增長,如果又剛好遇到系統異常,那這場災難瞬間拉升到毀滅級,此刻命令行頁面日志信息也的確如潮水般涌來,仿佛在說:“嘿,處理我啊,看把你能的!”
“問題找到沒有?有解決方案嗎?怎么恢復業務?”一見面老王對著小李就是奪命三連問。“問題暫時沒找到,方案倒是有,想不想聽?”小李眼角有些狡黠的說到。“快說,啥時候了?”“刪庫跑路”小李笑著說,“既然找不到問題,就把提出問題的數據庫干掉,你的告警不就收不到了!”“你小子,這時候還開玩笑,心是真大,KPI不管了?”“別急嘛,我暫時有辦法恢復,不過后面改進的話,得讓研發的兄弟上新手段了”
“啥手段,說話能不能不大喘氣?”
“AI”
“先恢復業務,改進方案說來聽聽,我之前也有關注AI,感覺還真能提供些思路。”
“瞧好吧,您呢”。
半個小時后,業務恢復,好在故障發生時間在周末早上,幾乎沒有用戶訪問業務。
“來吧,說說你AI大計”
“故障原因很明確就是數據庫連接超時,但是后臺的日志量巨大,不好定位,尤其是這種短時間海量日志的情況,通過人工很難快速分析,就像我這種運營老司機都得看好久,而且現有版本只對異常結果做了告警但卻沒法對異常做預警。而日志這種文本類業務用AI來處理分析,AI能夠在幾秒鐘內分析完數萬條日志,找出其中的規律和異常,而我們人類可能還在cat grep第一條日志的內容。AI的引入,不僅大大提高了日志處理的效率,而且可以主動對異常分析提供預警能力,可以讓我們從繁瑣的人工分析中解脫出來,有更多時間去做更有創意的事情。”
“繼續,講干貨。如果方案確實可行的話,可以給公司建議投入開發。”老王的眼里閃著光芒,因為他之前也做過AI技術的調研,或許是個方向。
“好”小李灌了口紅牛,把旁邊的白板拉了過來,幾分鐘后,一個處理流程圖便出現在白板上。
其實,AI處理日志的核心過程可以概括為以下幾個通用的步驟:
1.數據收集與預處理
日志數據通常分散在系統不同組件模塊中,首先通過日志采集工具(如Fluentd、Logstash)將數據集中到統一日志平臺,這個算是一般的態勢平臺或者日志審計平臺的基本功能,現有的技術方案很成熟,可以直接復用。
通常而言,收集到日志數據根據格式可以分為結構化和非結構化兩種:
● 結構化日志就像是一位穿著整齊的紳士,每條記錄都有固定的格式和內容位置,比如時間戳、日志級別、消息內容等。這種日志AI可以輕松地將其拆解和分析。
● 非結構化日志則像是一位隨性的藝術家,信息雜亂無章,格式依開發的程序猿風格各異。類似的日志處理起來就復雜多了,這個如果人工處理,那將是一個極其費時的事情。
預處理通常是對日志進行清洗和格式化處理,去除噪聲數據,并將非結構化日志轉換為結構化數據(如JSON或CSV格式)。這一步是后續所有工作開始的基礎,也是后續AI進行推理訓練的基礎,而海量日志的預處理過程同樣可以通過AI進行處置。
2.分布式存儲與索引
海量日志處理必然需要高效的存儲方案及高效的檢索能力。目前,AI系統通常使用分布式存儲技術(如Hadoop HDFS、Elasticsearch)來存儲日志數據,并通過索引技術(如倒排索引)實現快速查詢。這使得即使面對TB級的數據,系統也能在秒級內完成檢索。這個技術也相當成熟,同樣可以采用“拿來主義”直接使用。
3.特征提取與模式識別
這一步就是整體AI方案的中最為核心的步驟,從文本描述的日志信息里從日志中來提取關鍵特征。比如常見手段如下:
● 通過正則表達式識別錯誤碼、IP地址等固定模式。
● 用NLP技術(如TF-IDF、BERT)對日志文本進行分類(如錯誤、警告、信息)。比如,一條非結構化日志可能是:“【Pid 9527 ERROR】2024-04-01 12:34:56 綜合業務系統登錄Failed to connect to database.”需要識別出時間戳、日志級別和錯誤信息,作為日志文本的特征值存儲。
通過聚類算法(如K-means、DBSCAN)將相似的日志歸類,這樣素材就已經規整完畢,具備分析的條件了。
4.異常檢測與預測
特征值處理之后,通過AI就能夠自動檢測日志中的疑似異常行為。常見的手段包括有:
● 使用孤立森林(Isolation Forest)或局部異常因子(LOF)算法識別異常日志。
● 通過時間序列分析(如ARIMA、Prophet)預測系統未來的運行狀態(如流量峰值、故障概率)。
● 利用深度學習模型(如LSTM)捕捉復雜的日志模式,實現更精準的異常檢測。
5.自動化響應與根因分析
發現疑似的異常問題之后,處置方式可以推送給人工做研判,也可以由AI直接自動依據策略采取行動。比如說:
● 通過訓練之后的AI模型自動觸發告警、重啟服務或擴容資源(該操作需要和PAAS或SAAS平臺聯動,一般需要做開發)。
● 使用因果推斷或圖分析技術定位問題的根本原因,提供疑似方向,幫助運維團隊快速解決問題。
6.可視化與報告生成
當然,為了便于運維人員更直觀地理解日志數據,也提供可視化工具(如Kibana、Grafana),將日志數據以圖表形式展示,這里的技術也是很成熟的技術了。
AI還能自動生成分析報告,總結系統運行狀況、異常事件和優化建議,由于模型是針對具體環境進行了專項調整,因此,比現有的通用模板生成的報告效果會更有參考價值,同時也可以節省報告編寫的時間。
“王總,怎么說?您覺得這個方法論和對應的技術棧調研是否可行?”“聽起來有點兒意思,但是這個技術儲備要求也蠻復雜的,開發周期應該挺久的吧”“要不,您破費下,中午給我安排一頓,我再給您細細聊聊。”“嚯,你小子在這兒等我呢”老王笑了點了點頭,“Siri,打電話給南京大排檔。”
待續,下篇精彩繼續。
審核編輯 黃宇
-
AI
+關注
關注
88文章
35136瀏覽量
279778 -
數據庫
+關注
關注
7文章
3926瀏覽量
66216
發布評論請先 登錄
基于RV1126開發板限制系統日志大小教程

在線研討會 @4/10 ASTRA?賦能邊緣 AI:探索 Synaptics SL &amp; SR 處理器的無限可能

如何利用AI創造更多無限可能
博世智能傳感器引領智能穿戴設備無限可能
從DeepSeek爆火看AI與物聯網融合的無限可能,啟明云端AI硬件方案

文心大模型生態大會:啟明智顯AI智能產品展現AI無限“模力”

日志篇:模組日志總體介紹

“智造·芯生無限”Intel AI Summit成功舉行
VSM邂逅人工智能:解鎖效率與智能的無限可能!
智IN共創 境界無限:2024英特爾中國學術峰會開幕

評論