故障現象
某運營商TECS OpenStack資源池,在當前告警中顯示“時鐘同步失敗”,以10分鐘整數倍為間隔上報“時間同步失敗”告警,持續時間30秒-1分鐘不等。
查看告警詳情為同一臺控制節點虛擬機,如圖1所示。
故障分析
分析產生該告警的原因:
時間同步失敗告警可能是由于外部時鐘異常導致,需要檢查。
相關告警上報周期性比較強,可能是由某些定時任務觸發。
具體分析過程如下:
使用chronyc sources -v命令,檢查現場時鐘源,未發現異常,如下圖所示。
尋找一臺正常的控制節點虛機,使用chronyc sources -v命令,檢查對比,未發現異常,如下圖所示。
執行ping命令,檢測時鐘源,未發現丟包。
外部時鐘正常,時鐘同步正常,結合告警出現周期性比較強、告警持續時間較短的特點,分析可能是因為定時任務觸發了控制節點虛機的時間修改。
初步推測是宿主機開啟了qga服務,控制節點虛機會每10分鐘向宿主機同步一次時間。
執行virsh qemu-agent-command --pretty controllervm '{"execute":"guest-get -reverse-command-status"}'|grep minute -A 1 |grep enabled命令,查看現場三個控制節點虛機輸出結果,如下圖所示。
由上圖可見,只有異常節點輸出結果是“enabled”: true,說明該節點開啟了qga。
執行virsh dumpxml 1|grep -A5 "channel type"命令,發現同步周期為10分鐘,與告警周期一致。因此判斷該問題是由于虛機除了與外部時鐘源同步外,還定時向宿主機同步時間,導致告警上報,如下圖所示。
故障處理
臨時解決方案:通過在宿主機執行virsh qemu-agent-command --pretty controllervm '{"execute":"guest-set-reverse-command-status", "arguments": {"command": "host-get-time", "enabled":false}}' 命令,臨時關閉qga服務。但是在重啟虛機中qga服務會恢復。
正式解決方案:執行virsh dumpxml controllervm > controllervm.xml命令,修改xml文件中qga的配置,將interval的值改為never,或者改成和其他節點一樣,關閉虛機。執行virsh create controllervm.xml命令,重新創建虛機。
相關操作命令:
a. 判斷是否需要qga服務,如果不需要,可以執行如下命令,在不關閉虛機的前提下,在虛機中關閉qga服務。
systemctl stop qga.service,systemctl disalbe qga.service
b. 執行如下命令,確認節點是否有配置qga服務。
virsh dumpxml domain |grep qemu.guest_agent
總結:時鐘作為業務運行和命令的時間戳,在運維中穩定至關重要,該類問題需要第一時間重點分析處理,避免時鐘跳變導致集群和業務異常。
-
運營商
+關注
關注
4文章
2417瀏覽量
45186 -
命令
+關注
關注
5文章
736瀏覽量
22796 -
虛擬機
+關注
關注
1文章
966瀏覽量
29229 -
OpenStack
+關注
關注
1文章
72瀏覽量
19296
原文標題:TECS OpenStack-資源池控制節點虛機周期性上報時間同步失敗告警的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
RCS融合通信系統設計方案解析

刻錄失敗故障分析與解決
OpenStack資源調度和現狀分析

華為視頻云平臺通過云技術實現計算、網絡、存儲資源池化
華納云:OpenStack是虛擬化管理平臺嗎?其工作原理是什么?
TECS OpenStack資源池虛機殘留導致網元異常的問題處理

TECS OpenStack資源池虛擬機網絡二層地址無法互通的問題處理

評論