故障現象
某資源池在運行過程中一臺虛擬機出現業務異常,通過查看日志和異常記錄,判斷為虛擬機發生時鐘跳變問題,如下圖所示。
故障分析
檢查時鐘跳變異常的原因可能有如下四個:
虛擬機和時鐘源時間是否正常同步。
是否發生過時鐘跳變,導致虛擬機同步發生時鐘跳變。
虛擬機是否發生過重啟,導致時鐘和硬件同步。
虛擬機是否有其他的時鐘源,導致時鐘在兩個時鐘源中變化。
根據分析原因,進行問題排查:
1. 檢查虛擬機是否和時鐘源正常時鐘同步。
登錄到虛擬機內部,通過ntpq -np命令查看虛擬機和時鐘源的同步狀態正常,未有大的偏差,如下圖所示。
2. 檢查時鐘源服務器,確認是否發生過時鐘跳變等情況。
聯系時鐘源服務廠家,通過檢查時鐘源日志和其他業務系統時鐘日志,未發現時鐘中斷和跳變情況,初步判斷該跳變情況只發生在問題虛擬機上。
3. 檢查虛擬機是否發生過重啟,有無和硬件時鐘發生同步。
通過執行uptime命令檢查虛擬機內部狀態,近期未發生重啟現象,如下圖所示。
4. 檢查虛擬機是否有其他時鐘源,導致虛擬機時鐘跳變。
a. 通過執行ntpq -np命令查看目前虛擬機內部只有一個時鐘源,因此需要查看是否有同步計算節點配置。
b. 登錄虛擬機內部,執行ps -ef|grep qemu-guest-agent進程,查看存在qemu客戶端,如下圖所示。
c. 登錄計算節點系統,通過執行systemctl status qga.service和rpm -qa | grep qemu命令,確認計算節點qemu對應服務是否正常在線,如下圖所示。
d. 登錄計算節點系統,通過virsh list命令讀取虛擬機的ID,執行virsh dumpxml ID|grep "nova:name" 命令確認虛擬機,執行virsh dumpxml ID|grep -A5 -B5 guest_agent命令確認虛擬機配置,如下圖所示。
e. 檢查配置文件,確認當前虛擬機和計算節點是10分鐘發生一次強制同步,如下圖所示。其中“interal = 10 unit= minute ”代表10分鐘。
5. 經過排查,確認虛擬機每10分鐘周期強制和計算節點時間同步,由于計算節點時鐘和時鐘源有偏差,導致虛擬機發生時鐘跳變影響業務。
故障處理
1. 虛擬機時鐘同步服務器默認不打開,只有虛擬機重啟時候會觸發一次強制同步。
2. 如果需要打開虛擬機時鐘同步,則需要在虛擬機上安裝QGA插件,同時在虛擬機中把QGA插件的時鐘同步開關打開。
3. 業務上線前必須明確時鐘同步方案,通常虛擬機需要直接同步時鐘源,不同步計算節點,避免時鐘跳變。
審核編輯:湯梓紅
-
服務器
+關注
關注
12文章
9681瀏覽量
87260 -
時鐘
+關注
關注
11文章
1879瀏覽量
132828 -
命令
+關注
關注
5文章
726瀏覽量
22668 -
虛擬機
+關注
關注
1文章
962瀏覽量
29021
原文標題:TECS CloudFoundation-資源池虛擬機時鐘跳變異常的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
啟動虛擬機的時候報錯怎么辦呢
檢測域劃分的虛擬機異常檢測算法
云虛擬機按需物理資源分配方法

基于虛擬機負載高峰特征的虛擬機放置策略
基于冗余跳變的5G核心網虛擬機遷移方法
打開虛擬機電源提示“正在處理另一個任務”解決方法

openEuler資源利用率提升之道:虛擬機混部OpenStack調度
Docker與虛擬機的區別
虛擬機數據恢復—異常斷電導致XenServer虛擬機不可用的數據恢復案例

TECS OpenStack資源池虛機殘留導致網元異常的問題處理

評論