
問及金融行業IT建設的關鍵是什么?十有八九回答信息安全。的確,金融行業對信息技術的依賴程度不斷增加,金融機構——特別是銀行信息安全保障工作的難度也不斷加深。在今年9月召開的銀行業信息安全通報會上,央行行長助理李東榮就表示銀行業信息安全事關經濟金融的穩定大局,銀行業要把信息安全列入領導議事日程。
而銀行業的數據中心作為承載銀行業務的重要IT基礎設施,承擔著穩定運行和業務創新的重任。在銀行新型客戶服務模式下,數據中心需要更高效地支持后臺業務和信息共享需求,同時要24小時不間斷的提供服務,支持如網上銀行,電話銀行,自助銀行,企業銀行,手機銀行等多種服務手段。這對數據中心的資源整合,全面安全,高效管理和業務連續性提出更高的要求。
龐雜的IT基礎平臺需要科學管理使用,特別是業務流程梳理,業務運行的安全性、穩定性及高效性有效結合并進一步提高,而解決這一問題則需要一套完整、行之有效的數據中心日常運維管理解決方案。不久前,中國建設銀行信息技術管理處、北京數據中心環境管理處的張志深處長受邀來到了由比特網和中國計算機用戶協會機房分會攜手打造的最新視頻談話節目——“戈友會”,暢談了大型數據中心運維管理方面的一些重點問題。
股改帶來數據中心的機遇與挑戰
“90年代初期,中國建設銀行的38家分行都作為獨立的法人進行著經營活動。為保障經營活動的正常進行,每個分行都建立了自己的IT系統和獨立的數據中心。”張志深說。與當時多數的金融機構相同,紛繁復雜的信息系統和分散的數據中心并不利于中國建設銀行(以下簡稱建行)信息安全、互聯互通及業務的創新與發展。
2002年,得益于股改的契機,建設信息化發展趨勢發生了巨大的改變,首先是以數據大集中為標志的建行新一輪信息化建設開始。建行的數據大集中工程主要目是達到全行單一法人的經營結構,在全行建立起一套核心業務系統,以支撐業務的正常運作,而核心業務系統的運行則是依托了北京和上海地的數據中心。
在5、6年的時間里,建行總行數據中心部署的設備快速增加,數據中心規模急劇膨脹。機房面積也由股改前的1千平米擴展到1萬平米。在此同時,一級分行數據中心的發展則更加趨于平穩。而這正是印證了建行將更多IT資源應用于總行數據中心的發展策略。與此同時,總行系統的高度集中也為數據中心安全可靠運行,特別是數據中心運維管理的理念、流程和制度等方面提出了更高的要求。
張志深介紹:“建行總行北京和上海兩處數據中心雖然總面積已達到了1萬平米,但密度不大,總耗電量只有5千多kVA。這里承載著建行的核心業務系統以及電子渠道業務系統,包括網銀,清算、證券等交易系統和信息管理系統。”
有建行特色ITIL理念
建行股改后在新的經濟結構下業務進入快速發展通道,總行數據中心也在不斷地演變發展過程中探尋著適合自己的運維管理方法。相對同業機構而言建行總行數據中心的規模是比較大的,2002年數據集中工程實施以來,大量的信息系統部署到了總行數據中心。
張志深首先為我們介紹了建行總行數據中心運維管理的發展歷程:“那時候我們數據中心不論是運維的底子,還是管理方面的經驗,以及隊伍建設的基礎還是非常薄弱的,最近3、4年以來,隨著我們持續不斷對我們的運維管理的工作加以改革,不斷的完善改進,現在基本上建立起來一套專業化的運維管理團隊,日常運維工作正在朝著精細化管理的方面不斷前進。”
談到建行總行數據中心的運維理管理念,張志深說:“現在的管理理念是基于ITIL但是又不僅僅局限于ITIL,而是更好地把ITIL理念和建行實際情況結合起來,發展創新出的一套獨有的運營管理體系、流程和制度。” 而這套有特色的管理流程正是基于張志深和他的團隊根據前期建行總行數據中心運維管理的經驗和教訓總結而來。
2000年中國迎來了一個機房發展的階段——現代機房,隨著刀片服務器、虛擬化技術的出現,機房也產生了多樣化趨勢,高熱密度機房、綜合性的業務機房以及金融企業兩地三中心的大型數據中心展現了機房多樣化發展的趨勢。新技術給建行總行數據中心帶來的挑戰如何應對?成了擺在數據中心運維團隊面前最大的困惑。
面對創新的理念、設備和技術,需要在發展過程中不斷調整數據中心運維管理的方法和思維才能適應這種變革。從而真正把握信息發展的方向,靈活地運作IT系統,讓其實現對業務的創新與增值和IT自身價值的體現。深諳此道張志深正是在數據中心管理的工作中不斷探索,總結出了一套建行的機房運維方法。
探索的道路怎能一帆風順,張志深為我們舉了一個例子。建行的數據大集中工程使得總行數據中心單位面積的電力密度、發熱密度驟增,但當時由于對制冷系統在數據中心密度增大之后的影響預估的不足,而導致部分系統報警時有發生。當時的數據中心機房設計理念中,為保證斷電后的設備持續運行,普遍將UPS使用的蓄電池配很大冗余,有的則能達到設備斷電后一、兩個小時的運行,但是空調的供電能力卻少有人關注。而真正長時間遭遇斷電,空調系統不能快速恢復的情況下,即使擁有長延時的UPS供電的保障,也往往不能按照設計時的預想正常地運轉下去。
現在,建行總行北京、上海兩地一萬平米數據中心支持全系統的業務運行已顯得的些局促,而在張志深看來建行總行數據中心基礎設施的建設與監管部門的要求仍存在著一定的差距。“經過多次論證,從2007年開始,建行總行在北京和武漢新的服務中心已開始規劃。這兩個數據中心將滿足建行未來20年系統發展的需求。而其中的北京數據中心將作為全行的生產中心,武漢將作為災備中心,從而一方面解決了生產中心現有容量不足的問題,同時建立了完善災備系統以滿足監管部門對銀行業務連續性的要求。”張志深說。
把數據中心當作信息系統維護
建行總行數據中心在2002年股改以來的快速變革,也為張志深積累了豐富的數據中心運維管理經驗,物別是在大型高密度數據中心方面。建行數據大集中工程實施,引發了總行數據中心系統和設備的高度集中、電密度的增大。而對于常規數據中心運維來說,高密度數據中心在運維管理方面有著更高的要求。“現在很多的機房管理還維持在什么壞了修什么,什么時候壞了什么時候修的階段,這已經遠遠滿足不了大型數據中心運行的基本要求了。”張志深說:“大型或超大型的數據中心的機房的管理,應該要達到兩個目標的要求,第一、提前能發現問題,消除隱患。第二、通過日常運維及時發現問題,快速定位問題,及時恢復故障。”
在張志深看來,未來的數據中心管理機制體系則應該圍繞這兩個目標建立。確立的目標應依托著怎樣的日常運維觀念和實施內容來實現?根據他的經驗看來應從數據中心的日常監控入手,事件管理、變更管理、應急預案管理和日常施工管理等方面全方位地進行機房的日程監控。實現提前發現問題、消除隱患,首先要有完整的、全方位實時有效的監控系統,并著重監控數據的技術分析。
第二,要對數據中心的日常維護有一個明確的定義,常規操作包括的內容,如空調、UPS、供配電系統。定義操作內容、維護頻度、對應的責任人,要做到有章可循,責任人可追蹤。實現對整個系統的全生命周期的追蹤。
另外,變更管理需要更加地精細化,在變更的過程中會引申出很多新的問題,精細化管理能夠促進提前發現問題,并消除隱患。發現問題時如何快速定位問題和解決問題?在張志深看,這是一個日常工作涉及的常規過程,全面、有效的監控系統和完善的應急預案是必備的。應急預案應是一個閉環管理,從預案的創建、演練、評估到修訂應是一個全過程的管理,絕不能是為了應付某個演練工作,制定后就束之高閣了,而是應該在實際演練和問題發生時不斷地總結和完善。
張志深在采訪的最后總結到,以建行的發展歷程來看,完善數據中心運維管理機制,首先應對基礎建設的運維制定標準。基礎設施系統的完善為數據中心整體運行管理提供了一個必要的物質保證。而滿足數據中心的可用性的要求,則是運維管理的更高一層要求。
“數據中心并不神秘,不要因為它的特殊性和專業性而恐慌。把機房當作一個信息系統來看,我們可以引薦信息系統的最佳管理實踐和方法論,來做好機房的運維管理。針對它的特殊性不斷修正我們的方法論。”張志深在節目的最后總結到。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄