
MTTR對可用性的特殊作用
優化可用性的另一個方面與恢復時間有關。可用性是與平均無故障工作時間(MTBF)、平均恢復時間(MTTR)相關聯的函數。所有的系統都會在某個點上出現故障。這是事實,但是,可用性高的系統不會受到太大影響,并且可以快速、高效地修復。有證據顯示,如果MTTR過長,就不可能達到較高的可用性。
從圖7和圖8可以看出,平均恢復時間對提高系統可用性的作用遠大于平均故障時間(MTRF)的作用,其原因有以下幾點:
第一,MTTR對提高可用性的作用是MTBF根本達不到的。
第二,提高MTBF值對可用性的提高并不是總有效的。
第三,MTTR的變化與可用性總是呈線性關系。
另一個需要了解的影響可用性的情況是,數據中心的操作人員無法控制一個部件的MTBF,但是在很大程度上,MTTR是可以控制的。數據中心操作人員可以控制MTTR,這就要求現場必須儲存100%的備件,操作人員需要接受有關設備操作的培訓,同時要了解必要時更換或維修設備的程序。
考慮備件庫存是建立數據中心可用性預期的一個重要組成部分。為此,應對本地人員進行培訓,詳細講解操作程序。與涉及關鍵業務設施的其他領域相比,數據中心的操作人員接受的培訓少,操作程序亦很簡單。此外,復雜性也是造成宕機的重要原因。有最近的統計數據顯示,高達50%的宕機與人為錯誤有關。很明顯,必不可少的培訓和備件是實現高可用性的先決條件。
EPO對可用性的影響
可用性數據是建立在統計學或經驗數據的基礎上。而這些統計或經驗數據又都是基于以前的運行經驗。
其中有一個原則是關于數據中心緊急斷電(EPO)開關的使用。在大部分情況下,EPO系統是必備的,而且它們被設計成數據中心必不可少的重要環節。出于安全原因,它們能夠立即使數據中心完全宕機,但在其設計方面也常有不足之處。鑒于它們對數據中心的影響,必須詳盡地考慮這些因素,仔細檢查隱藏的陷阱。
第二個原則被認為是提高可用性的關鍵原則。該原則指出,高可用性系統要在系統出現故障時使系統的狀態變化最小化。某些系統設計時盡管提供了冗余措施,但如果一個部件發生故障,仍然需要進行狀態的多種變更。換句話說,如果出現故障,最好不要改變狀態,也不要重新確定電源路徑,或者被迫啟動系統;而且此時替代系統已經可以運行,且準備就緒。這樣的系統冗余最可靠,但也會更昂貴。
綜上所述,在建立完全適合客戶需要的系統過程中,需要統籌考慮以下各種因素:
● 當前的系統需求
● 后期未來的系統需求
● 系統可用性要求
● 資金預算狀況
● 商業模型
認真地檢查所有這些因素,會使客戶滿意度達到最高水平,并使項目和業務的成功概率達到最大。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄