
實(shí)施災(zāi)難恢復(fù) (DR) 解決方案需要做出明智的選擇。NetApp Global Services (NGS) 提出了一種量化的解決方案設(shè)計(jì)方法。
作者簡(jiǎn)介
John Fullbright是NetApp的專業(yè)服務(wù)顧問(wèn),是 Exchange 領(lǐng)域的常駐專家。2006 年 4 月,John榮獲微軟最有價(jià)值專家 (MVP)獎(jiǎng)。加盟 NetApp 之前,John 是微軟全球解決方案支持中心的一名快速響應(yīng)工程師。作為微軟快速現(xiàn)場(chǎng)服務(wù)團(tuán)隊(duì)的成員,John 經(jīng)常被委派去解決微軟重要客戶遇到的難題。
實(shí)施災(zāi)難恢復(fù)(DR)解決方案需要做出明智的選擇。NetApp Global Services (NGS) 提出了一種量化的解決方案設(shè)計(jì)方法。借助這種方法,全球客戶可以了解與不同方法有關(guān)的權(quán)衡點(diǎn),從而做出明智的決策。
例如,美國(guó)一家大型保險(xiǎn)公司最近發(fā)現(xiàn),在24小時(shí)的時(shí)間間隔內(nèi)完成磁帶備份越來(lái)越難。于是,該公司聘請(qǐng) NetApp Global Services幫助為Microsoft Exchange環(huán)境設(shè)計(jì)和實(shí)施災(zāi)難恢復(fù)解決方案,該公司的Exchange的環(huán)境如下所述:
·一家主要子公司距離總部大約1000英里;
·Exchange 裝機(jī)量多達(dá)30000個(gè)(每個(gè)站點(diǎn)15000個(gè));
·Exchange 數(shù)據(jù)傳輸速率高達(dá)14TB(每個(gè)站點(diǎn)的數(shù)據(jù)傳輸速率是 7TB);
·光纖通道SAN基礎(chǔ)設(shè)施;
·站點(diǎn)之間采用OC3連接。
本文著重介紹了影響項(xiàng)目的三個(gè)權(quán)衡點(diǎn),以及該客戶選擇了哪種方式。
第一個(gè)權(quán)衡點(diǎn)
如果發(fā)生站點(diǎn)災(zāi)難,目標(biāo)是高可用性,還是不間斷的備份和恢復(fù),抑或是遠(yuǎn)程恢復(fù)?
基本上可以通過(guò)兩種方法實(shí)現(xiàn)在線數(shù)據(jù)保護(hù):復(fù)制(鏡像)和磁盤到磁盤備份。
通過(guò)復(fù)制,可以將數(shù)據(jù)集完全復(fù)制到另外一個(gè)存儲(chǔ)系統(tǒng)上,該存儲(chǔ)系統(tǒng)既可以在本地站點(diǎn),也可以在其他站點(diǎn)。如果發(fā)生站點(diǎn)災(zāi)難時(shí)的目標(biāo)是確保立即恢復(fù)高可用性或遠(yuǎn)程重新啟動(dòng)操作,這種方法是最佳解決方案。這種方法不能取代備份,這是因?yàn)槿绻承﹥?nèi)容從鏡像的一方消失,那么在下一輪復(fù)制時(shí),這些內(nèi)容也會(huì)從鏡像的另一方消失。距離是一項(xiàng)關(guān)鍵因素,雖然可以在遠(yuǎn)距離內(nèi)實(shí)現(xiàn)異步復(fù)制,但是如果站點(diǎn)之間的距離超過(guò)80公里,那么在站點(diǎn)間同步鏡像數(shù)據(jù)便會(huì)受到技術(shù)上的限制。
通過(guò)功能強(qiáng)大的輔助磁盤,磁盤到磁盤備份和存檔方法既可作為容易出現(xiàn)故障的磁帶系統(tǒng)的補(bǔ)充,也可以取而代之。數(shù)據(jù)通過(guò)網(wǎng)絡(luò)備份到遠(yuǎn)程位置。一旦發(fā)生災(zāi)難,可以從此處恢復(fù)數(shù)據(jù)。與復(fù)制不同的是,主機(jī)不能直接連接到輔助存儲(chǔ)設(shè)備。相反,有了對(duì)數(shù)據(jù)集進(jìn)行反復(fù)更改的歷史記錄,您可以及時(shí)地從任意點(diǎn)恢復(fù)數(shù)據(jù)。
在這種情況下,公司IT團(tuán)隊(duì)決定使用綜合方法。實(shí)施遠(yuǎn)程災(zāi)難恢復(fù)是重中之重。該公司擁有兩個(gè)大型站點(diǎn),相距 1000英里左右,具備相當(dāng)出色的網(wǎng)絡(luò)帶寬連接能力。因此,可以毫不猶豫地決定使用NetApp鏡像軟件,以指定的時(shí)間間隔異步復(fù)制站點(diǎn)之間的Exchange日志文件和數(shù)據(jù)庫(kù)。此外,IT團(tuán)隊(duì)選擇使用NetApp SnapVault軟件遷移到磁盤- 磁盤-磁帶的環(huán)境,從而解決了現(xiàn)有的磁帶備份問(wèn)題。
第二個(gè)權(quán)衡點(diǎn)
如果無(wú)法實(shí)現(xiàn)數(shù)學(xué)方法計(jì)算的結(jié)果,能否增加網(wǎng)絡(luò)帶寬或者可以接受損失多少數(shù)據(jù)量?
為了調(diào)整DR基礎(chǔ)設(shè)施的規(guī)模,必須確定發(fā)生更改的數(shù)據(jù)量。因此,每天必須對(duì)其進(jìn)行復(fù)制或備份。確定更改量之后,下一步就是計(jì)算出發(fā)生災(zāi)難時(shí)可以負(fù)擔(dān)得起的最大丟失數(shù)據(jù)量。如果將更改量除以復(fù)制時(shí)間間隔,可以估算每個(gè)時(shí)間間隔內(nèi)必須傳輸?shù)臄?shù)據(jù)量。此時(shí)需要進(jìn)行權(quán)衡。如果使用數(shù)學(xué)方法得出的結(jié)果對(duì)您不利,則必須增加網(wǎng)絡(luò)帶寬或考慮更長(zhǎng)的恢復(fù)點(diǎn)目標(biāo)(RPO),這可能導(dǎo)致更多數(shù)據(jù)丟失。
考察完各個(gè)組織的要求之后,該團(tuán)隊(duì)建立了一個(gè)間隔為五分鐘的RPO。鑒于周期很短,我們必須在計(jì)算日志更改量時(shí)考慮峰值。具體方法是,使用在五分鐘的時(shí)間間隔內(nèi)進(jìn)程store.exe的每秒平均寫入次數(shù)的perfmon采樣來(lái)創(chuàng)建數(shù)據(jù)集。據(jù)該團(tuán)隊(duì)估計(jì),每24小時(shí)更改量大約是 200GB。如果復(fù)制時(shí)間間隔為五分鐘,則表示每隔五分鐘就要復(fù)制 700MB 左右的數(shù)據(jù)(200GB/天÷288復(fù)制周期/天)。根據(jù)其他網(wǎng)絡(luò)流量,峰值流量可能已經(jīng)超過(guò)可用的OC3網(wǎng)絡(luò)(155 Mbps 或大約19MB/秒)。
IT團(tuán)隊(duì)只接受五分鐘的RPO目標(biāo)也不想升級(jí)網(wǎng)絡(luò)基礎(chǔ)設(shè)施。NGS 發(fā)現(xiàn),對(duì)于首先寫入日志然后從日志寫入數(shù)據(jù)庫(kù)的任何事務(wù)處理應(yīng)用程序,更改量由分散的兩部分組成。新數(shù)據(jù)首先寫入日志文件,然后寫入數(shù)據(jù)庫(kù)。因此,一半的更改量 (100GB) 將來(lái)自日志文件。
1.通過(guò)每五分鐘只復(fù)制日志,該公司在將寬帶需求減半的同時(shí)仍實(shí)現(xiàn)五分鐘的 RPO 目標(biāo)。
Exchange 數(shù)據(jù)庫(kù)每隔 4 小時(shí)便復(fù)制一次。峰值流量不會(huì)超過(guò)13MB。這樣,不僅為日志文件提供了高級(jí)數(shù)據(jù)保護(hù),而且將負(fù)載更加均勻地平攤到全天,從而有助于降低對(duì)網(wǎng)絡(luò)和主存儲(chǔ)設(shè)備的影響。
這種方法可能存在著一個(gè)缺點(diǎn),即恢復(fù)時(shí)間與重放這些日志有關(guān)。測(cè)試完該過(guò)程之后,NGS 確定重放日志只使恢復(fù)時(shí)間增加五分鐘左右。隨著時(shí)間不斷擴(kuò)大,帶寬使用范圍和削減整體帶寬需求所具有的優(yōu)點(diǎn)遠(yuǎn)遠(yuǎn)勝過(guò)這種方法帶來(lái)的影響。
2.隨時(shí)控制I/O速率,確保決不會(huì)超過(guò)網(wǎng)絡(luò)容量。
通過(guò)兩種 NetApp 產(chǎn)品,NGS幫助客戶進(jìn)一步減小復(fù)制和備份流量的影響,可以對(duì)SnapVault和SnapMirror(r) 進(jìn)行調(diào)節(jié),使它們不超過(guò)指定的I/O速率。并非所有的DR 應(yīng)用程序都支持這種功能。但是,如有可能最好設(shè)置閾值,以便活動(dòng)中出現(xiàn)的異常峰值不會(huì)導(dǎo)致意外的結(jié)果。
第三個(gè)權(quán)衡點(diǎn)
可以承受多長(zhǎng)的停機(jī)時(shí)間?
下一步是確定發(fā)生災(zāi)難時(shí)恢復(fù)運(yùn)行所需的時(shí)間。這是恢復(fù)時(shí)間目標(biāo)(RTO)。RPO比較簡(jiǎn)單,但RTO可能比較復(fù)雜,這是因?yàn)楸仨氁紤]恢復(fù)運(yùn)行所要采取的所有步驟。
為了建立實(shí)際的RTO,NGS與該公司的IT團(tuán)隊(duì)通力協(xié)作,記錄與Exchange恢復(fù)聯(lián)機(jī)有關(guān)的所有內(nèi)容,包括斷開復(fù)制鏈接,使復(fù)制LUN可讀/寫;將所有LUN連接到同級(jí)站點(diǎn)上的主機(jī);啟動(dòng)Exchange服務(wù);重放日志;評(píng)估完所有必要步驟(包括進(jìn)行必要的基礎(chǔ)設(shè)施更改、啟動(dòng) Exchange和重放數(shù)小時(shí)的日志文件)之后,客戶建立了為期4小時(shí)的RTO,規(guī)定Exchange數(shù)據(jù)庫(kù)的復(fù)制時(shí)間間隔不超過(guò)4個(gè)小時(shí)。
最終結(jié)果是構(gòu)建多層存儲(chǔ)體系結(jié)構(gòu)。通過(guò)與NGS的通力合作,該IT團(tuán)隊(duì)在滿足原來(lái)預(yù)算要求的同時(shí),得以構(gòu)建一個(gè)提供能夠多級(jí)保護(hù)并從路由故障和站點(diǎn)災(zāi)難恢復(fù)的基礎(chǔ)結(jié)構(gòu):
為了實(shí)現(xiàn)快速恢復(fù),主存儲(chǔ)設(shè)備上最多保存每卷的30個(gè)Snapshot副本(相當(dāng)于五天時(shí)間)和48個(gè)日志副本(相當(dāng)于4個(gè)小時(shí))。使用SnapVault的磁盤到磁盤備份承擔(dān)了主服務(wù)器和存儲(chǔ)設(shè)備上中斷的磁帶備份工作。此后,數(shù)據(jù)可以備份到磁帶,而不會(huì)影響主存儲(chǔ)設(shè)備或Exchange的運(yùn)行。使用SnapMirror的遠(yuǎn)程復(fù)制可以針對(duì)站點(diǎn)災(zāi)難提供保護(hù)。在NetApp存儲(chǔ)設(shè)備上保存250多個(gè)Snapshot副本,不會(huì)影響性能。對(duì)于基Copy-on-Write(根據(jù)寫入的數(shù)據(jù)進(jìn)行備份)的解決方案,情況并不完全是這樣。
CIO頻道人物視窗
CIO頻道方案案例庫(kù)
大數(shù)據(jù)建設(shè)方案案例庫(kù)
電子政務(wù)建設(shè)方案案例庫(kù)
互聯(lián)集成系統(tǒng)構(gòu)建方案案例庫(kù)
商務(wù)智能建設(shè)方案案例庫(kù)
系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄