
首創證券早在2003年就開始學習ITIL,并在2004年實現企業IT系統實時監控。2005年首創證券開始按照ITIL理念進行實踐。但在按照ITIL理念實踐的過程中,首創證券發現在系統運營中有很多問題ITIL并沒有解決。
“ITIL給了我們一套處理問題的流程,但是某個問題具體用什么方式來處理、這樣處理是否正確,ITIL并沒有解釋。” 首創證券有限責任公司信息技術總監伏勁松說,“好比企業上了ISO9000并不表示你的產品質量達標,如果實力不夠,只會導致不合格產品數量的急劇增加。”
為了解決IT運營管理中存在的問題,改變IT人員疲于奔命的狀態,首創證券在2008年初開始將IT運維人工操作流程進行自動化的實踐。2009年底,首創證券實現所有業務系統IT自動化運營。
自動化運營新思路
IT運營是指從管理的角度來研究保障IT系統正常運轉所需的人員配置、工作流程設計以及工作流程的控制與執行等范疇。證券業IT技術的快速發展,不僅導致IT系統的復雜性呈指數增長,需要管理的要素已超出人的能力范圍。同時,復雜的系統又對IT運營專業人員提出了更高的技術要求。在這種情況下,前期受人追捧的IT運營管理方法越來越顯得力不從心,IT系統運維人員也漸漸陷入到流程與專業技術所形成的漩渦之中。
這一突出矛盾,在近年來國內眾多企業投入巨資進行ITIL實施的過程中已經得到充分暴露。企業在背負著巨大的IT運營成本的同時,又不得不小心翼翼地應對各種潛在的IT系統故障,形成企業在自己用巨資建立起的IT這根鋼絲繩上跳舞的局面。
證券業由于市場的特殊性,要保證客戶資料和交易過程的安全,系統一旦宕機,后果不可想象,運維人員猶如頂著“火盆”在工作。中國證券業已經發展了20多年,在這20年的IT建設中,又涉及到交易所、登記公司、銀行等,證券公司的IT系統幾乎難以納入到可持續構建的框架之內,它包含了各個時期的IT技術,使得其復雜性高于任何其他行業。此外,時間和價格決定了客戶的交易成本或者投資獲利,因此對實時性要求要高于其它任何一個行業。
“不僅如此,由于缺乏企業應用軟件在運營管理方面所必須遵循的國家標準,因此各個應用軟件開發商在開發應用系統時只注重系統所實現的功能,而忽略了對系統運營管理的必要支持,給后期系統運維帶來極大挑戰。”伏勁松談道。
近幾年,首創證券IT基礎設施的數量、應用系統的數量急劇增加, IT技術的復雜度也在快速加大,IT工作的調度和協調也變得更為復雜。證券業缺乏專業IT運維人員的教育培養體系,又需要相應的業務背景知識,導致相互挖人成為行業普遍現象。目前中國的證券業正處于高速發展時期,業務變化速度快,系統架構難以保持相對的穩定,大量、頻繁的系統變更經常發生。
IT運維人員長期處于高壓力環境下工作,工作內容又瑣碎繁多、重復性強,容易形成疲沓工作狀態,導致人為操作差錯出現。“系統繁多、結構復雜,形成知識分散,過度分離在個人身上,關鍵時會影響問題解決速度。有時一個人員承擔多個應急操作,易產生運維安全隱患。”付勁松解釋道。傳統監控方式過于分散,監控相互獨立,這些分散、片面的應用視圖導致故障難以準確定位。運維管理效率低下,相似問題屢屢發生,運維人員疲于奔命,“救火隊”角色難以擺脫。一旦故障發生,運維人員壓力大,使得既定的應急操作流程在執行過程中產生變形。
近幾年,證券業內約有10%的證券公司開展了ITIL實踐活動,ITIL將日常運維中的活動歸結為10大工作流程,并對每個工作流程給出最佳實踐準則,極大地改善了IT運維管理工作狀況。“但是,ITIL的復雜流程降低了工作效率,對前面所述問題改善效果也并不顯著,甚至是無能為力,因為ITIL回避了兩個實質性問題,也是影響ITIL成敗的關鍵問題:工作流程每一步的操作是否能正確完成;產生的問題是否能在最快的時間內有效診斷和處理。”伏勁松講道。
如何簡化流程、提高系統的可用性、降低IT系統運營成本、優化IT運營管理、有效地利用IT資源,是繼ITIL之后,近年來被IT廠商和企業所關注的焦點問題,IT自動化服務的概念隨之產生。
IT服務自動化不僅可以將IT運維人員從日常重復性勞動中解放出來,重要的是可以提高系統的可用性,杜絕人為差錯所形成的系統故障,提高系統的平均修復時間,同時也大幅度降低了企業的IT運營成本,簡化了繁瑣的ITIL管理流程,IT服務自動化與ITIL的結合讓IT運營管理進入到一個新的階段。
人機合一

“IT自動化運營的核心是采用人機界面整合技術,結合閉環控制方法,運用流程可視化和門戶技術,讓復雜多變環境下的IT自動化實施能夠分批逐步實施。”伏勁松解釋道。IT自動化運營不僅對ITIL流程進行了簡化,大幅度降低了ITIL實施的難度,同時將運維流程、應急流程固化為電子流程,在有效地降低了日常運維過程中人為操作失誤所導致的系統故障的同時,又大大縮短了意外事件發生后的故障修復時間,為IT系統的安全穩定運行創造了一個良性空間。
2008年3月,首創證券IT部門用了4個月的時間完成了自動化腳本的開發階段。IT人員開發獨立的腳本程序存放于各個服務器上,日常維護時手工點擊腳本運營程序。在這一階段,運維人員充分測試了腳本的準確性和有效性,并進一步修改完善已有的腳本程序,使其運營更加穩定。
2008年8月,IT部門構建集中管理平臺,整合多個IT系統,實現統一控制。在這一階段運維人員在前一階段的基礎上,將運營流程自動化實施于整個IT系統中,實現了開始前操作、盤中監控、收盤作業自動化以及部分事故處理自動化,簡化了運維人員對系統的日常操作,有效地防止了人為操作故障的發生。
IT自動化運營管理系統在管理上實現了對集中交易系統、網上交易系統、資產管理系統、風險控制系統、影像系統等多個系統的全面整合,構建統一的集中控制平臺,擺脫了以往運維工作過程中對上百臺設備的交互操作,更好地滿足了證券公司業務的需要。
“尤為突出的是,目前業界對系統的整合多是停留在數據層面的整合,而IT自動化管理系統實現了在應用層級別的有效整合,使系統整合更為快速靈活。”伏勁松談道。
IT自動化管理系統從Agent、任務和流程三個層面實現IT系統業務操作自動化,簡化了日常運行維護工作過程中的人為操作步驟,大幅度降低了人為操作失誤,實現了在無人值守的條件下整個證券業務系統的日常開市與收市處理的自動運行。應用腳本對每一步驟操作都進行交叉檢查與判斷,確保了每一執行過程準確無誤。
當事件發生時,應急處理自動化可以根據設定的觸發條件,立即觸發應急操作流程自動執行,應急操作流程的自動化可大幅度縮短系統的平均修復時間,可將人為干預的應急操作流程從10分鐘的處理過程縮短至1分鐘完成。應急處理自動化有效地控制了故障平均修復時間,避免了當系統發生故障時人為混亂導致的系統故障時間的延長。
中央自動化操作中心,采用精準的自動交互替代人工交互操作,實現了對傳統應用程序的自動操作。操作中心通過交叉核對,準確判斷每一個自動操作是否正確完成。通過集中統一的控制平臺來完成運維操作,操作過程標準化。操作中心設有直觀的可視化流程執行器,
操作人員可以清晰觀地察自動化執行的全過程。此外,靈活的流程執行模式與調度控制,自動化腳本允許單步執行、自動執行、定期執行、條件執行等。
為了避免過去權限不當造成的安全隱患,重新設置權限控制,對哪些人員能夠執行哪些流程是根據權限嚴格管理的。豐富的自動化腳本功能、完整的操作記錄留痕,供檢查與審計使用;交互式流程設計工具,便于快速設計自動化流程。
自動化運維管理系統,建立面向業務級的實時監控和報警。“目前業界的監控軟件,多只停留在基礎環境級別,沒有對業務應用程序的統一監控。部分運營軟件提供商,提供針對其軟件的獨立監控程序,并不能滿足IT運維人員集中監控的需要。”伏勁松解釋道。IT自動化運營管理系統實現了對以下系統的集中實時監控:總部集中交易系統、營業部交易系統、災備中心交易系統。監控內容主要有:環境監控、網絡監控、服務器狀態監控、應用狀態監控、應用性能監控、流程狀態監控和安全監控。
基于IT資源動態調整的風險化解體系,目前業界的風險化解思路,主要體現在應急預案、設備備份等方面。這樣的風險化解思路會大大縮短業務恢復的時間,但很難真正化解業務中斷的可能。并且由于單點故障導致其他設備的負載增加,容易引起在一整條業務應用線路上主機、網絡、應用等多米諾骨牌現象。
首創證券通過針對業務應用的整條交易線的資源分析,給出各個交易單元的IT資源匹配模型,并通過自動化的手段完成對IT資源的重新部署和分配。通過對業務的性能進行端到端的監控,監控局部的故障,在故障發生時,迅速隔離故障,并同時以自動調整和設定整條交易線的資源匹配比例的方式,保證端到端的業務訪問性能以及每個環節的IT資源不會出現交易瓶頸。通過操作自動化,實現對業務IT資源的動態調整,可以保證業務故障僅僅影響極小部分的資源區域,整個業務還是可用。而且可以有效避免整個關聯業務線的大范圍風險事故發生。
2009年初,項目進入ITIL流程的完善階段。在完成集中管理平臺的建設之后,首創證券又進一步參考ITIL流程,設計適合自己的運營管理流程,將自動化的理念巧妙地融入ITIL流程當中。在探索與實現中,ITIL的執行力度比以往有了很大的改進,更有力地保證了IT運營管理工作流程的有效實施。
ITIL自動化體現在大部分配置信息的自動搜集、事件管理的應急處理、問題報告的自動產生、變更管理的審計、可用性數據的自動采集、系統容量數據的自動采集、定制的服務水平報告的自動生成等等。
雖然對于日常IT運維實現了自動化,但當IT自動化運營管理系統的突發事件異常處理功能不能自動處理突發事件時,需要人工干預處理突發事件,系統也提供桌面操作的錄制功能。此項功能完整準確地記錄了運營維護者對系統的應急操作,為IT系統的審計工作提供了最原始的資料。
收益:顯性+隱性
IT自動化運營管理系統不僅為首創證券節省了人力成本、減少差錯率、延長設備使用周期,更有效地降低了IT運營成本。
按首創證券(15家營業部)每年2000億元的成交金額計,傭金比例按0.1%、交易時間按250個交易日、每天交易時間按4小時、客戶索賠比例按10%計算,則年傭金收入為:2000億元×0.1%=2億元;一年的交易時間為:250交易日×4小時/日×60分鐘/小時=60000分鐘;所以,每分鐘的傭金收入為:2億元÷60000分鐘=0.3萬元;每分鐘的客戶索賠金額為:2000億元÷60000分鐘×10%=33.3萬元。
因此,系統每減少一分鐘的宕機時間,為公司避免0.3萬元+33.3萬元=33.6萬元的損失,平均每家營業部損失為33.6萬元÷15家=2.24萬元,對于一家擁有100家營業部的證券公司,減少一分鐘宕機,可避免224萬元的直接經濟損失。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄