raid磁盤陣列多用于存儲服務(wù)器,數(shù)據(jù)服務(wù)器等企業(yè)級大數(shù)據(jù)存儲領(lǐng)域,RAID是把多塊獨立的物理硬盤按不同方式組合起來形成一個邏輯硬盤,當(dāng)raid癱瘓或硬件損壞后,為了恢復(fù)存儲在raid平臺的數(shù)據(jù)被稱之為raid數(shù)據(jù)恢復(fù),RAID陣列能夠提供比單個硬盤有著更高的性能和提供數(shù)據(jù)冗余的技術(shù)。
如果服務(wù)器或存儲平臺組建了RAID陣列,無論因哪種原因?qū)е碌腞AID癱瘓,請勿進行僥幸心理嘗試或執(zhí)行盲目性無操作,這是十分危險的事情!在RAID數(shù)據(jù)恢復(fù)案例統(tǒng)計中發(fā)現(xiàn),不能恢復(fù)的RAID數(shù)據(jù)往往是再次的操作導(dǎo)致。
什么是raidi數(shù)據(jù)恢復(fù)?raid癱瘓數(shù)據(jù)恢復(fù)注意事項
當(dāng)RAID陣列不正?;驘o法啟動的時候,如何有效的保護數(shù)據(jù)不被破壞,以下幾種情況的操作有可能對陣列造成數(shù)據(jù)破壞:
1.強制Online
這個操作是很容易對陣列造成數(shù)據(jù)破壞的,尤其是當(dāng)有2塊或以上的盤掉線的時候,如果不知道哪個盤先掉,哪個盤后掉的話,一但破壞了,數(shù)據(jù)將有可能變成舊的,而且無法恢復(fù)。
例如:RAID5陣列,4塊盤,0號和2號掉線。假設(shè)0號盤先掉線,1個月后2號盤又掉線,這個時候如果將2塊盤強制在線的話,因為0號盤1個月前就掉線了,這一個月當(dāng)中對數(shù)據(jù)做的很多的改變,這塊盤的數(shù)據(jù)已經(jīng)不能通過RAID的檢驗了,陣列是無法分析數(shù)據(jù)的新舊的,所以陣列有可能用0號盤+1、3號盤去Rebuild 2號盤,這樣一來,2號盤的數(shù)據(jù)也就成了不正確的了,將無法恢復(fù),多也只能恢復(fù)到1個月前的部分數(shù)據(jù)。
2.Rebuild
例如:RAID5陣列,4塊盤,Rebuild操作的實際意義是,用其中3塊盤做異或運算,將結(jié)果寫到另一塊盤中。這里要求,用來做異或運算的3塊盤的數(shù)據(jù)一定要是正確的,如果其中有一塊或多塊不正確哪么異或出來的結(jié)果也就是不正確的。
3.更換RAID卡或主機
目前大部分RAID卡都是支持這種操作的,在陣列正常的情況下這個操作是不會破壞數(shù)據(jù)的。但是,在陣列已經(jīng)癱瘓或是無法正常工作的時候,這個操作將有可能導(dǎo)致RAID對硬盤做不正常的Rebuild和校驗,所以當(dāng)陣列出現(xiàn)問題的時候,要準(zhǔn)確判斷是陣列卡有問題,還是硬盤有問題,不要輕易去嘗試更換RAID卡或主機。
4.把報錯的硬盤全部拔下來再插上去
拔下來沒關(guān)系,但是如果再全插上去的話陣列將重新去識別插上去的硬盤,這時如果硬盤中的陣列信息或數(shù)據(jù)有誤的話,會導(dǎo)致陣列做出錯的Rebuild操作。
如果是懷疑硬盤接觸不好的話,可以一塊一塊的拔,再一塊一塊的插上去。不要一次都拔下來?;蛘呖梢缘脑?,關(guān)機后,再進行插拔。
5.操作系統(tǒng)的check disk
Windows,Linux,Unix等操作系統(tǒng)都有自己的一個硬盤檢測程序,當(dāng)你硬盤中的分區(qū)或文件出現(xiàn)問題無法正常讀取的時候,操作系統(tǒng)就會在重啟的時候去自動運行Check disk去試圖修復(fù),這時,如果是陣列的檢驗出現(xiàn)問題而導(dǎo)致分區(qū)或文件出錯的話,運行Check disk將有可能破壞陣列中數(shù)據(jù)。
6.對RAID中單塊硬盤進行寫操作
一件事情或一個工作做的多了,你可能什么情況都能遇到,這一項我們是很不愿意列出來,但是就有人這么做了,所以不得不拿出來提醒一個。陣列中的硬盤是一個整體,破壞其它一塊硬盤就是破壞整個陣列。
7.磁盤掉線
對于RAID5來說,掉線1塊盤陣列還是可以正常運行的,如果超出1塊,陣列將無法啟動。當(dāng)陣列掉線超出1塊盤的時候,不要做強制Online。尤其是在你不知道是哪個盤先掉線哪塊盤后掉線的時候,不可以強制Online。RAID0和1算法簡單,這里就不詳細說明了。RAID5當(dāng)一塊硬盤OFFLINE之后負載會比較重,此時做脫機的REBUILD,如一定要在線REBUILD,應(yīng)盡可能少得對磁盤做高負荷的讀寫,應(yīng)保障這個過程的順利完成。建議條件許可的話,加入HOTSPARE DISK
8.磁盤有壞道
陣列中的磁盤如果有壞道的話,會導(dǎo)致磁盤掉線或陣列不穩(wěn)定,這時應(yīng)盡早將有壞道的硬盤換掉,如果出現(xiàn)多壞硬盤有壞道的話,陣列將可能癱瘓。
9.斷電或意外關(guān)機
陣列是由RAID卡控制硬盤,通過某種算法將多塊硬盤整合成一塊硬盤提供給用戶使用。在陣列運行過程中,會有大量的輸入輸出信息放在RAID卡的緩沖或主機的緩沖中的,如果發(fā)生突然斷電和意外關(guān)機的情況,將導(dǎo)致碏的信息無法寫回到硬盤或RAID卡的ROM中,這樣極易導(dǎo)致陣列信息丟失、陣列癱瘓。
10.擴容失敗或擴容過程中意外中斷
這里強烈建議,雖然目前很多陣列都支持不破壞數(shù)據(jù)直接擴容,但是這種操作十分危險,在擴容的過程中如果出現(xiàn)意外情況,比如說,突然斷電,硬盤有壞道等,哪數(shù)據(jù)是無法恢復(fù)的。年以要盡量將數(shù)據(jù)備份后再進行擴容。
11.文件目錄混亂,部分或全部文件無法訪問
這種情況是由于陣列中某塊硬盤的數(shù)據(jù)是不正確的,導(dǎo)致校驗出錯,其實并不是文件本身的問題。這時如果重啟系統(tǒng)的話,操作系統(tǒng)會對這個分區(qū)做Check disk,注意不要讓系統(tǒng)做Check disk。
12.Rebuild失敗或Rebuild過程中意外中斷
Rebuild過程中陣列是不能斷電的,否則陣列將有可能癱瘓。而且磁盤中有壞道的活,在Rebuild過程中也會使Rebuild失敗。