
HBase本身利用自動復制機制保證Hbase本身存儲的高可靠性。我們會做一些數據挖掘工作,除了采用MapReduce技術之外,還采用數據倉庫技術,針對海量數據進行高性能查詢和分析工作。中國聯通已經構建了一個全國集中的一級架構海量數據存儲和查詢系統,第一,是一級架構,全國所有用戶所有上網記錄數據都放北京數據中心里,在國內電信行業當中也是首創的方式。
另外一個方式,首先將開源Hadoop、Hbase技術應用商用電信服務系統中來,開源的軟件架構基本上沒有商用系統的,但是這次是商用系統,系統的構成,包括數據采集、數據入庫、數據存儲、數據查詢和數據分析技術,基本技術采用Hadoop,目前上網記錄數據存儲一般不小于30分鐘,30分鐘之前的上網記錄現在可以通過我們系統查詢到。
在實際使用過程中,聯通發現約10分鐘的記錄可以查到,用HBase處理這么海量的數據時候,入庫速度非常非常迅速,另外查詢速度也非常非常迅速。另外系統的存儲不少于6個月原始上網記錄能力,中間的統計報表會保存不少于5年,現在的數據查詢速度,查詢一個用戶上網記錄,比如有幾萬條記錄,在幾千億條記錄當中檢索的時間小于一秒鐘,當然,這個時間不包括查詢頁面的時間。
這是上網記錄詳單內容,存儲了很多用戶上網記錄信息,隨著系統的發展,為了數據挖掘的需要,聯通會進一步提取更多信息存到上網記錄系統當中來。
Hadoop三節點 控制數據
整個系統部署情況是這樣的,我們采用普通PC服務器部署這個系統,Hadoop本身有三個節點,一個是數據存儲節點,現在有178個數據存儲節點,每個數據存儲節點有14T的容量,集群的監控節點有一臺,入庫服務節點24臺,Web查詢應用服務節點20臺,在同一個機架上的數據交換采用千兆交換機。這是查詢系統的界面,用戶詳細信息都可以通過這個系統查詢出來。
在目前情況下,現在已經部署完成了4個省份,北京、黑龍江、浙江、重慶,四個省份所有用戶上網記錄都可以上來,每天入庫條數超過42億條用戶上網數據記錄,每天入庫數據量超過1.2T,在這種數據量的情況下,現在已經保存了幾個月的上網記錄數據,在這種情況下,上網記錄數據保存在一張表當中,保存4個省的數據,一個月可能超過1200億條的數據,在這種情況下,在1200億條數據當中檢索一個用戶數據會達到不小于一秒,目前1200億條只用到15個數據節點,隨著178個數據節點上線之后,保存全國31省的數據以及進行快速入庫、查詢和檢索我們認為都沒有問題。
現在預估,31省上線之后,每個月用戶上網記錄超過8千億條,我們系統明年6月份才可能考慮到下一期擴容工程,在這種情況下,我們相信每個月會有1萬億條數據,保存6個月用戶數據,原始數據量會超過6萬億條,目前每條上網記錄基本上在300個字節,隨著我們把更多的字段加入進來之后,可能平均每條用戶上網記錄的長度還會增加,可能達到400字節,對整個集群的要求會更高。
聯通研究院處長王志軍表示,聯通第一次采用了開源技術,在此之前,在電信行業當中比較少見。聯通采用了Hadoop、HBase,這里面還有用戶管理員信息等等。目前,在客服使用當中感覺也是非常非常好的,更重要的是利用這個系統可以做深入的數據挖掘工作。
中國聯通在查詢用戶上網記錄之前會征得用戶的同意,有可能通過口服開頭同意,如果客服后臺查詢的話,我們可能會通知用戶有人要查詢其上網記錄,在安全方面聯通做了考慮。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄