存儲數據恢復環境&故障:
某單位一臺EMC某型號存儲中有12塊STAT接口的硬盤,其中10塊硬盤組建了一組RAID5陣列,剩下2塊設置為熱備盤使用。
RAID5陣列中的2塊硬盤出現故障離線,但是只有一塊熱備盤成功激活,導致RAID5陣列不可用,上層LUN無法使用。
存儲數據恢復過程:
1、將故障存儲設備中所有硬盤編號后取出,硬件工程師對所有磁盤做檢測后沒有發現有硬盤存在物理故障。使用壞道檢測工具檢測也沒有發現有硬盤存在壞道。
2、將所有磁盤以只讀方式進行全盤鏡像,由于源磁盤的扇區大小為520字節,鏡像完成后將所有備份數據做520字節 to 512字節的轉換,便于后續的數據恢復。
3、上述步驟的檢測并沒有發現有磁盤存在物理故障或者是壞道,北亞企安數據恢復工程師推斷導致故障發生的原因是某些磁盤讀寫不穩定。由于EMC存儲的控制器針對磁盤的檢查策略比較嚴格,一旦檢測到某些磁盤性能不穩定,EMC存儲上的控制器就很大可能性將這些磁盤識別為壞盤,并踢出RAID。一旦RAID中掉線的盤數到達到該級別RAID所允許掉盤的最大數量,RAID就會崩潰,上層基于RAID的LUN也將不可用。本案例中基于RAID的LUN只有一個,分配給SUN小機使用,上層文件系統為ZFS。
4、EMC存儲的LUN是基于RAID的。分析每一塊磁盤,發現其中有2塊盤完全沒有數據。從存儲管理系統上發現這2塊盤都是熱備盤,其中一塊盤替換了一塊壞盤。雖然該塊熱備盤成功激活,但級別為RAID5的RAID中還缺失一塊硬盤,導致數據沒有同步到這塊激活的熱備盤中。分析其他10塊硬盤,分析數據在硬盤中分布的規律、RAID條帶的大小、盤序等重組raid所需的raid相關信息。
5、根據分析獲取到的RAID信息虛擬重組RAID。但由于RAID中有兩塊盤掉線,因此需要分析這兩塊硬盤掉線順序。分析每一塊硬盤中的數據,發現有一塊硬盤在同一個條帶上的數據和其他硬盤明顯不一樣,因此初步判斷此硬盤是先掉線的,通過RAID校驗程序校驗這個條帶,確定先掉線的硬盤。
6、LUN是基于RAID的,根據上述分析出來信息重組RAID。分析LUN在RAID中的分配信息和LUN分配的數據塊MAP。根據這些信息使用北亞企安自主開發的raid恢復程序,解釋LUN的數據MAP并導出LUN的所有數據。
7、使用ZFS文件系統解釋程序對生成的LUN做文件系統解釋,解釋某些文件系統元文件的時候程序報錯。北亞企安開發工程師對ZFS文件系統解釋程序做debug調試,分析程序報錯原因。經過數小時的分析與調試,發現存儲突然出現故障導致ZFS文件系統中某些元文件損壞,從而導致正常解釋。
8、由于ZFS文件系統部分元文件損壞,因此需要先修復這些損壞的文件系統元文件,然后才能正常解析ZFS文件系統。北亞企安數據恢復工程師手工修復這些損壞的元文件,直到ZFS文件系統能夠正常解釋。對修復好的ZFS文件系統做解析,解析所有文件節點及目錄結構。
9、用戶方工程師對恢復出來的數據進行驗證,經過驗證確認恢復出來的數據完整可用。本次數據恢復工作完成。
審核編輯 黃宇
-
服務器
+關注
關注
13文章
9791瀏覽量
87919 -
數據恢復
+關注
關注
10文章
649瀏覽量
18141
發布評論請先 登錄
評論