存儲:HP P2000
操作系統(tǒng):VMWARE ESX
文件系統(tǒng):VMFS
磁盤陣列:RAID-5
本案例的RAID-5由10塊lT硬盤組成,其中6號盤是熱備盤,由于故障導(dǎo)致RAID-5磁盤陣列的兩塊盤掉線,表現(xiàn)為兩塊硬盤亮黃燈。
經(jīng)用戶方維護(hù)人員檢測,故障硬盤應(yīng)為物理故障,表現(xiàn)為:序列號無法讀取,在SAS擴(kuò)展卡上硬盤無法識別。
故障發(fā)生后用戶方工程師與我公司(北亞數(shù)據(jù)恢復(fù)中心)聯(lián)系,經(jīng)過詳細(xì)咨詢,了解到故障比較嚴(yán)重,必須把RAID-5磁盤陣列帶到我公司進(jìn)行檢測,檢測RAID-5的每塊成員盤是物理故障(磁頭損壞或者盤片劃傷)還是邏輯故障。由于情況緊急,我北亞工程師在接到原盤以后,立即著手準(zhǔn)備檢測。對能識別的好盤用連接到北亞鏡像服務(wù)器上使用WinHex做扇區(qū)級鏡像,同時對不能識別的壞盤進(jìn)行檢測。
首先將壞盤連接到外部的SAS擴(kuò)展卡上,加電后通過硬盤工作聲音判斷硬盤電機(jī)能夠起轉(zhuǎn),但是磁頭沒有進(jìn)行尋道操作,于是嘗試把硬盤PCB分離下來對HDA組件氧化部分進(jìn)行清潔操作,將PCB還原后故障依舊。于是和客戶溝通使用6號熱備盤的好PCB替換到故障盤上進(jìn)行嘗試性修復(fù),再將故障盤PCB上的ROM芯片替換到6號盤的好PCB上面后硬盤工作時起轉(zhuǎn)和磁頭尋道聲音都正常,但是在尋道結(jié)束后,有明顯的敲盤聲音,于是判斷有可能磁頭損壞。在和用戶溝通后嘗試使用6號熱備盤中的好磁頭對故障盤進(jìn)行替換操作以讀取數(shù)據(jù)。
在無塵室對故障盤進(jìn)行開盤更換磁頭操作后,將故障盤連接到專業(yè)硬盤維修工作上進(jìn)行檢測,發(fā)現(xiàn)故障盤已經(jīng)不能識別,數(shù)據(jù)無法讀取(下圖是北亞工程師在實(shí)驗(yàn)室開盤時的情景)。
以為用戶有兩塊故障盤,之前嘗試修復(fù)的都是其中一塊,再次和客戶溝通嘗試對另一塊故障盤進(jìn)行修復(fù)操作。和先前的故障盤一樣,這塊盤的故障依舊是磁頭損壞,因?yàn)橛脩舻腍P OEM盤價格昂貴,于是嘗試在網(wǎng)上購買ST原廠的相同型號硬盤進(jìn)行磁頭更換。這塊硬盤的磁頭更換完成后,設(shè)備能夠正常識別硬盤,于是將故障盤所有扇區(qū)完整鏡像到一塊相同容量的備份盤中。
所有硬盤都鏡像好后就可以重組了,用WinHex打開9塊盤(熱備盤不需要加進(jìn)去重組),先把鏡像文件解析成磁盤??梢钥吹竭@9塊盤的0扇區(qū)都有“55 AA”標(biāo)志,如圖1所示。
圖1
查找結(jié)果如圖2所示,0x01C2H處表示該分區(qū)的類型,這里顯示“05”,代表這是一個擴(kuò)展分區(qū)。因此從0扇區(qū)看這是一個不正常的MBR分區(qū)結(jié)構(gòu)。
圖2
按圖1方式繼續(xù)往下找,分別在9號盤和8號盤找到了“55 AA”的標(biāo)志。9號盤查詢結(jié)果如圖3所示。這是一個正常的MBR分區(qū),其0x01C6處數(shù)值代表指向的下一個扇區(qū)為GPT的頭部。
圖3
8號盤查詢結(jié)果如圖4所示。其0x01C6處數(shù)值代表指向下一個扇區(qū)。但是下一個扇區(qū)很明顯不是GPT的頭部。
圖4
由此可以確定9號盤是第一塊盤,8號盤可能是最后一塊盤。GPT分區(qū)所在扇區(qū)起始于172032扇區(qū),因此初步確定LUN的起始扇區(qū)是172032扇區(qū)。
條帶也稱塊,它是RAID處理數(shù)據(jù)的基本單元。不同的RAID其條帶大小有所不同。RAID-5的1個條帶組中有1個校驗(yàn)區(qū),1個校驗(yàn)區(qū)的大小等于1個條帶的大小,根據(jù)這一點(diǎn),針對這個RAID-5案例做分析。如果對VMFS的文件系統(tǒng)不熟悉,可以通過比較法確定條帶大小。如某一條帶組中的校驗(yàn)區(qū)跟這一條帶組中的非校驗(yàn)區(qū)可能相差的很明顯,通過WinHex查看并做對比,就可以找到條帶大小。本案例判斷出一個條帶是1024個扇區(qū)。
按照1024扇區(qū)分割,使一個記錄為一個條帶的大小,如圖5所示。并且9塊盤跳到同一記錄283123。
圖5
當(dāng)9塊盤都定位到同一位置時,通過對比可以判斷校驗(yàn)區(qū)的走向,繼而判斷整個RAID-5的走向。之前已經(jīng)判斷出9號盤是第一塊盤了,把9號盤放在第一個位置,接著就可以判斷走向了,結(jié)果如圖6所示(drive9是第4塊盤)。確定RAID-5為左走向,盤序?yàn)?,2,3,4,10,1,7,8,5。
圖6
前面內(nèi)容初步確定了LUN的起始扇區(qū)是172032扇區(qū)。用WinHex跳到172032扇區(qū),觀察各硬盤實(shí)際情況。如果172032扇區(qū)是LUN的起始扇區(qū),那么這個扇區(qū)所屬條帶中的5號盤應(yīng)該是校驗(yàn)區(qū),但是此條帶中卻顯示8號盤是檢驗(yàn)區(qū),根據(jù)本案例RAID-5的左走向,5號盤的校驗(yàn)區(qū)應(yīng)該在172032-1024=171008扇區(qū),即上一個條帶。跳轉(zhuǎn)到171008扇區(qū),發(fā)現(xiàn)校驗(yàn)區(qū)為5號盤。因此可以確定LUN的起始扇區(qū)為171008扇區(qū)。
使用專業(yè)恢復(fù)工具按照確定的盤序組好,添加進(jìn)去,如圖7所示。選擇RAID-5,Stripe size 512KB,左異步。
圖7
點(diǎn)擊Build進(jìn)行重組。組好后,由于數(shù)據(jù)從1024*8=8192個扇區(qū)開始,若專業(yè)恢復(fù)工具沒有跳轉(zhuǎn)到此扇區(qū)的功能,那么剛組好的RAID必須和一個文件再進(jìn)行一次Build重組操作。RAID的起始扇區(qū)(Start sectors)選擇8192,這個文件可以任意選擇起始扇區(qū)和大小大小(Count sectors),如圖8和圖9所示,圖10是組好的RAID-5。
圖8
圖9
圖10
整個RAID-5就重建好后,由我公司商務(wù)聯(lián)系用戶方驗(yàn)收數(shù)據(jù),用戶方確定數(shù)據(jù)沒問題,簽訂完驗(yàn)收合同后,完整的RAID-5數(shù)據(jù)即可移交。移交時根據(jù)用戶方要求把數(shù)據(jù)移交到用戶方帶來的新盤上?;謴?fù)完的數(shù)據(jù)保留在我公司服務(wù)器上3天,之后數(shù)據(jù)自動被系統(tǒng)銷毀。
本文出自 “張宇(數(shù)據(jù)恢復(fù))” 博客,請務(wù)必保留此出處http://zhangyu.blog.51cto.com/197148/1586471
聯(lián)系客服