
建設IT應急(容災)系統似乎是一件不討好的事,花費很多錢只是為了預防“萬一”?!叭f一”如果不出現,大量的投入看起來就浪費了,但是又不得不預防“萬一”。最壞的情況是,盡管花了不少錢,但真正出現“萬一”的時候,應急系統卻沒有發揮作用。
“三多一小”的應急體系
山東移動的BOSS應急體系建設,概括起來就是“三多一小”,即多級冗余,數據為先;多級預案,逐步升級;多級聯動,重點保障。而所謂“小”,就是以“最小的代價”進行“最快應急”。
多級冗余,數據為先:要做到多級冗余,一是主機和磁盤陣列的冗余配置,主機的電源、內存、磁盤、光纖卡、網卡等都是冗余的。冗余的網卡、光纖卡要確保連接在不同的交換機上;二是機房、空調、電源的冗余。電源要配獨立的雙UPS和雙電源線接入;三是物理傳輸路由的冗余。冗余光纖傳輸要來自不同的物理路由;四是數據中心的冗余。三個中心互為災備,任何一個癱瘓,都可以由另外兩個數據中心接管。
多級預案,逐步升級:一級為業務應急預案。在業務本地運行模式下,系統出現故障時啟動,以實現對業務的影響最小,或者沒有影響。通過業務部署、業務冗余處理模塊等多種方式實現;二級為本地接管預案。在單點故障或設備主動維護時,BOSS各個業務系統均實現本地HA(高可用性)接管。關鍵系統例如營業、計費、漫游、接口,都實現了自動接管;三級為容災切換預案。山東移動建設了負荷分擔、互為備份的三中心容災體系。數據庫層采用1對2的架構,采用“存儲底層同步復制+定時快照復制”技術,防止數據的物理或邏輯錯誤;四級為備份恢復系統。它提供生產數據快照及磁帶備份,日常全備和增量備份均直接通過遠程SAN備份到異地中心,用于嚴重事件的應急恢復工作。
從第一級到第四級預案,故障帶來的損害程度逐漸增大,處理時間也逐步增長,當然對業務的影響程度也逐漸增大。根據事件發生的性質和影響程度,優先采用影響業務小的預案,并視情況逐步升級應急預案,目的是使事件對業務的影響減小到最低。
多級聯動,重點保障:建立完善的應急管理制度,才可以保證在遇到突發事件時,應急管理組織體系能夠有效運轉。經過幾年的實踐,山東移動建立了應急監測預警機制、信息溝通機制、應急決策和協調機制、分級負責與響應機制。此舉理順了業務與IT部門在應對突發事件中的關系、應急指揮和實施部門的關系、綜合應急部門和支持廠商的關系,建立了信息統一、管理對接、資源共享、協同有力的應急管理機制,調動了各方面應急管理的積極性。如此以來,一方面梳通內部流程,打通省市間、賬務中心與其他部門間的通道;另一方面,梳通廠家支持流程,與支持廠商建立合作關系,從而構建了“省-市-合作伙伴”多級聯動的應急保障體系。
不同業務及系統的應急代價是完全不同的,同時帶來的應急手段差異也很大,需要以“最小的代價”進行系統的“最快應急”。對開戶、繳費、業務變更等關鍵業務,山東移動自主獨立開發了單獨的關鍵業務保障小系統,獨立于BOSS系統外。同時和BOSS系統建立自動接口,確保緊急情況下可以啟用該系統,進行最關鍵業務的辦理。在系統異常、版本上線、本地接管、容災切換的過程中,可以啟用關鍵業務保障子系統,進而打造一個關鍵業務不間斷的BOSS系統。
云計算成功落地
山東移動BOSS系統的核心業務均構建在EMC的設備和軟件之上,包括EMC Symmetrix DMX存儲陣列、SRDF/快照等。按照慣例,運營商一般將系統架構設計和建設主要交給廠商/系統集成商來主導。山東移動在BOSS應急體系建設中堅持自己主導,與廠商進行互動,充分利用廠商技術、產品、服務和經驗。進行自主創新,取得了良好的效果。
山東移動的“多中心業務容災”模式,就是在應急系統架構上的一個自主創新。具體做法是,將容災機房和生產機房混合部署。例如,A、B、C三個機房,每個機房都有完整的BOSS系統,各自承擔一部分地市的業務。C機房最大,對A和B機房同時進行災備,任何一個機房出現嚴重問題,其他兩個機房就能夠接管全部的業務。
“多中心業務容災”的關鍵在于,根據多年系統維護經驗,提出對業務處理進行縱向拆分。業務處理縱向拆分,就是山東移動根據對業務應用的思考,自己做出的決定。目的是將故障對客戶的影響減小到最低。這也是實現多中心良好運轉的前提。
這樣,山東移動就將業務處理分布到三個數據中心,每個中心平時均有完整的BOSS系統承擔一個區的業務。當一個系統發生故障時,影響的只是該區域,而且可以切換到別的區域系統上應急處理。相比之下,橫向拆分是指讓全省所有用戶運行一個系統。例如當全省的營業系統和全省的賬務系統中的某個系統發生故障時,會影響到全省。
這樣做也有利于提高應急平臺的可用性。當業務處理系統處于“正常狀態”時,業務負載均衡,應急系統處理壓力不大,業務服務響應速度很快。而當某個數據中心的業務系統處于“應急狀態”時,只需要數據中心的相關業務資源進行應急切換即可。可以很快做出應急響應。
在具體拆分業務處理時,山東移動充分利用廠商資源,參照EMC的業務負載分析工具,對業務處理進行合理的拆分。
從技術上,“多中心業務容災”運用了虛擬化技術,將生產資源和容災資源放在統一的資源池里,在節假日或業 務突發時,將容災資源動態分配給生產應用。這種做法,跟時下的熱門話題云計算不謀而合。
“功夫在詩外”
山東移動領導對業務支撐系統的高度重視,是BOSS應急系統得以加強的動力和保障。公司領導要求BOSS系統使用最好的設備,所有的關鍵環節都要求有備份設備。
需要強調的是,應急體系的建設不應該是狹義的。所謂“功夫在詩外”,建立完善的系統,不出問題,少出問題,讓應急系統很少啟用,才是應急體系的根本。此外,應急體系的演練也非常重要。山東移動每個季度都要進行一次演練。山東移動制定了6類應急場景,針對可實施場景進行演練。每次演練都有大的收獲。
山東移動應急體系正式建設以來,BOSS系統退服時間指標逐月下降,客戶投訴率指標下降明顯,而BOSS系統客服滿意度指標上升顯著。話費信息獲取速度、繳費成功率、開機速度都大大提高,營業廳很少遇到故障,應急系統的貢獻非常明顯。
目前山東移動BOSS系統每天計劃外退服時長縮短幾十分之一, 從以前的每年幾百分鐘,減少到100分鐘以內,用戶端幾乎感受不到系統的停頓。每萬名用戶的支撐類投訴比從0.4下降到0.05左右。繳費開機的速度也大大加快,由原來的幾分鐘到目前的平均幾秒鐘數量級。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄