
2008年上半年,北方聯合電力公司采用遠程異步鏡像(MirrorView)和連續數據保護(CDP)等先進技術,建設了數據中心本地/異地容災系統。奧運前夕,我們對該系統進行了測試和演練,測試鏈路故障、主機故障、陣列故障、應用系統誤操作誤刪除故障、SAN系統網絡及單機設備故障,還進行了生產系統的災難模擬,并順利將ERP應用系統切換到容災中心。所有測試都成功完成,恢復點目標(RPO)和恢復時間目標(RTO)值達到預先設計的要求。同時上述各種數據保護和切換措施,對最終用戶完全透明,用戶端不需更改任何設置,即可訪問恢復后的應用系統。
雖然目前還沒有出現過真正的故障,但演練和測試讓我們有備無患。實踐表明,這一方案能夠實現苛刻條件下應用和數據的恢復。在此,我介紹一下北方聯合電力公司數據中心本地/異地容災系統建設的經驗和體會,供業內外同行參考。
系統概況
北方聯合電力公司數據中心本地/異地容災系統主要包括本地機房的近線復制和遠程機房的異步復制兩個部分。系統架構如圖所示。
容災中心和總部各采用2臺HP主機和2臺CISCO 9000系列智能交換機,互為備份,組成高性能、全冗余的存儲區域網(SAN)。容災中心與總部之間直接通過Cisco MDS 9000連接,采用FCoIP協議,鏈路帶寬為622Mbps。
在總部機房,采用一臺EMC CLARiiON CX3-80作為數據存儲主陣列,以HP EVA6000作為近線復制存儲。采用連續數據保護(CDP)技術,以2臺EMC Recover Point 應用裝置組成群集,負責把HP主機到CX3-80的寫數據重定向到EVA6000上。
在200公里以外的達拉特電廠,我們建設了容災中心,主要設備包括1臺EMC CLARiiON CX3-20和2臺HP主機,為總部機房提供遠程的應用級容災保護。核心技術采用EMC公司的遠程異步鏡像(MirrorView),結合CISCO9016光纖交換機的特性,可以由CX3-80直接把生產數據同步到CX3-20上,不增加主機負擔。
建設背景
北方電力成立后在生產、基建、經營等各方面取得了輝煌的成就,但在市場競爭中面臨著具大的考驗。隨著其它發電公司新機組的相繼投產,北方電力發電總裝機容量在蒙西電網的比例逐年縮小;平均單機容量小,老舊設備多;發電負荷率較前兩年大幅降低,發電量難以保證;再加上員工總額大、負擔多等眾多因素,使公司在企業核心競爭力方面與其它發電公司存在較大差距。因此,公司決定采用國際先進的信息技術和手段,利用先進的管理思想和理念內部挖潛,向管理要效益,提高公司的管控能力,走出一條能夠使北方公司做強做大的健康發展之路。
四年來,我們按照“統一領導、統一規劃、統一標準、統一管理、統一實施”的五統一原則,遵循集團化大集中的管理思想,對公司各個二級單位的信息進行標準化的梳理,逐步建成了覆蓋公司本部至25個二級單位的信息化基礎平臺和信息化應用系統。
信息標準化方面,依靠公司自身的技術力量,完成了13個發電廠10萬以上共54臺機組(小機組退役)、總裝機容量為1379萬KW的KKS設備編碼工作,形成了公司統一的設備編碼體系;完成了公司統一的物資編碼,建立了公司統一的編碼標準,形成了統一的物資編碼體系。制定了《北方電力信息化建設管理規范》等十個管理制度和標準規范,在行業內處于領先水平。
IT基礎管理方面,建立了公司本部至所屬發電廠的622M和155M及本部至各所屬單位2M的兩張廣域網系統,完成了所屬新建及老廠的統一標準化局域網建設;建立了SAP開發、測試、生產運行系統及門戶、檔案、基建MIS等多個管理系統硬件平臺。建立了公司Apsec VPN及SSL VPN加密數據通道,實現了公司本部及所屬單位的移動辦公;完成了公司本部至25個二級單位站點的視頻會議系統。
管理信息系統方面,從2005年3月達拉特電廠試點開始至2007年3月包頭第三熱電廠驗收,共完成了所有(13個)發電廠的生產管理系統BFS++、實時數據庫PI的實施工作,并全部進行了實用化驗收;從2006年2月本部及達電試點實施開始,目前已經完成了本部及所屬8個電廠的信息門戶系統實施工作并進行了實用化驗收,2007的7月9日,該項目由電機工程學會主持評審為國內領先水平;采用大集中的方式,在全公司范圍內實施了SAP的 ERP項目(財務及預算、物資管理兩個模塊),并與生產管理系統BFS++實現了接口;公司所有二級單位實施了OA并與本部上下互聯,實現了整個公司的全電子化公文流轉、合同審批流轉以及統一域名下的集團電子郵件等功能;在所有新擴建項目基建過程中(10個基建項目)統一實施應用了基建MIS系統;在本部及5個發電廠推廣應用了統一的檔案管理信息系統。
隨著各個管理信息系統的實施,信息系統已經成為公司生產經營管理中須臾不能離開的工具,信息系統的容災備份勢在必行。
技術選擇
通過對公司之前的信息平臺及相關技術進行分析,我們認為,傳統備份陣列+磁帶庫的方式可能存在幾方面的缺點:一是傳統備份恢復時間太長。二是傳統的直連存儲(DAS)方式,讓IT存儲系統隨著企業的快速成長而變得繁復累贅,因此需要進行系統資源的整合。三是以往用磁帶進行備份,不僅占用大量的人力資源,人工操作也容易造成失誤。此外,使用磁帶備份的數據保護中30%會失敗,且難以驗證數據的可恢復性。四是陣列發生故障后短時間無法恢復應用系統運行。
因此,北方電力決定建立一個近線虛擬存儲系統,應用系統可以不同的存儲設備上透明地切換。近線虛擬存儲系統首期主要是對核心數據庫小型機的數據進行備份,其次要兼顧OA、門戶、基建等服務器的近線數據存儲和備份。
CDP(連續數據保護技術)是一項新興的技術,也是目前最熱門的數據保護技術之一。它可以捕捉到一切文件級或數據塊級別的數據寫改動,可以對備份對象進行更加細化的粒度的恢復,可以恢復到任意時間點。CDP技術包括兩種:一種是準CDP技術(Near CDP),它只能恢復部分指定時間點的數據,有點類似于存儲系統的邏輯快照。另一種是TrueCDP,我們稱之為真正的CDP,它可以恢復指定時間段內的任何一個時間點。我們的目標是,能夠恢復任意時間點的數據。
此外,我們還考慮到:新的ERP主存儲要具有承擔數據中心存儲池的能力;將主存儲設備內的數據連續備份到近端的存儲設備上;要求該套系統可以兼容其它廠家的存儲產品;當主存儲發生故障時可以手動切換到近端備份存儲設備;可保障主存儲發生故障后數據丟失量不大于10分鐘;新系統要支持異構存儲環境,可以支持對windows、HP UNIX、AIX、LNIX等操作系統在存儲設備上的備份恢復;數據遷移要安全可靠,不允許數據丟失,等等技術因素。
通過對主流的供應商進行綜合考察,我們認為,EMC的解決方案最符合要求。它的CLARiiON CX3存儲系統性能不錯,應用很流行;它的RecoverPoint軟件能夠恢復任意時間點的數據;它的MirrorView遠程復制軟件可以直接在存儲設備之間進行,不需要主機,大大減輕主機的負擔;它在兼容性和異構支持方面表現都不錯。所以,我們最后選擇了EMC的方案。現在來看,無論是對技術方向還是供應商的選擇,結果都還不錯。
意外效益
容災系統實現對信息系統的多重保護,這一點勿容贅述。
容災系統給我們帶來了另一個收獲是,由于容災系統和生產系統的數據是同步的,我們可以將備份系統用作仿真測試系統。上馬新系統時,可以在測試系統上進行,新舊系統并行一段時間后正式切換。例如,我們可以快速地實現整個ERP系統的仿真系統。因為可以恢復任意時間點的數據,所以我們可以在這個系統上做任何的測試,測試完了再把數據恢復回來。今年下半年實施新快速轉換的時候,我們本來是要投資購買一個陣列去實現這個功能,但是通過把災備系統用起來,讓我們投資成本節約了200多萬。
下一步,我們將把OA、信息門戶等更多的系統整合到主存儲中來,充分發揮主存儲作為存儲池的作用,簡化管理,并讓更多的系統得到保護;同時將在信息安全、應用系統整合及統一身份認證等方面做進一步的工作。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄