
對用戶而言,他也是想知道流量到底什么時候發(fā)生的,如果手機的問題,他也知道怎么進行防范,這樣就不會發(fā)生類似問題,根據客戶部門提供的數(shù)據,可能因為無法提供商網流量詳單造成退費和賠付,會影響到運營商流量計費商務模式,所以我們建立這種系統(tǒng)意義非常大,第一,我們的系統(tǒng)供聯(lián)通客服人員使用,提供快速查詢服務,解決流量投訴的問題,另外,我們也準備向最終用戶提供異常的大流量查詢服務。再一個問題,上網記錄數(shù)據本身是數(shù)據的金礦,我們可以通過獲取上網數(shù)據記錄對流量進行統(tǒng)計。
海量數(shù)據的應對之策
對于以上這些問題該如何應對呢?聯(lián)通研究院處長王志軍分析處理問題的難點:上網記錄數(shù)據是海量數(shù)據,經過我們的系統(tǒng)可以分析到,用戶每個用上網記錄基本幾萬到幾十萬,有的用戶五六十萬,我們現(xiàn)在采用的方案是在網關所有用戶流量必經地方采集,分析流量數(shù)據,然后上成上網記錄話單,話單量非常大。
聯(lián)通研究院處長王志軍表示,例如用移動手機訪問新浪網首頁,對流量采集設備基本能生成20條左右上網記錄話單,如果點iPad新聞鏈接,恐怕會產生180條上網記錄,如果訪問淘寶網首頁,會產生60條請求和回應,在手機上網記錄當中有大量DNS查詢和推送服務。以中國聯(lián)通某一個中等省份公司為例,日均上網記錄達到10億條,每個月的數(shù)據接近9T,整個移動互聯(lián)網也在快速發(fā)展。
根據中國聯(lián)通統(tǒng)計,每隔6個月中國聯(lián)通用戶整體上網流量會翻一番,去年平均3G每用戶的流量一年之內翻一番,整個流量增長非常迅速,也帶來了上網記錄的量非常非常大。
傳統(tǒng)IOE方式,IBM小型機,思科數(shù)據庫存儲,EMC存儲,思科數(shù)據庫存儲這么大上網記錄時候已經不可能了,所以,聯(lián)想采用開源的Hadoop解決,Hadoop本身是系統(tǒng)架構,也是開源項目,由Apache基金會開發(fā),Hadoop本身最底層是分布式文件系統(tǒng),這個分布式文件系統(tǒng)叫HDFL,在它之上有分布式處理框架,基于Hadoop整個開源項目,上面構建了結構化的訪問數(shù)據庫,在這之上又提供了類似的數(shù)據挖掘工具,另外也提供了一些分布式同步,以及遠程調用和序列化工具。
Hadoop伴隨大數(shù)據一同火爆起來。現(xiàn)如今,Hadoop已經無人不知無人不曉。Hadoop從它一誕生的那天開始就與大數(shù)據深深地關聯(lián)到了一起。眾所周知,大數(shù)據多是出現(xiàn)在這些領域,包括金融、電信、保險以及一些大型互聯(lián)網企業(yè)等。以電信行業(yè)為例,Hadoop在這些領域的應用情況是怎么樣的呢?
Hadoop+HBase+ MapReduce
對于Hadoop分布式文件系統(tǒng)本身來說,重要的出發(fā)點在于硬件故障是常態(tài),不是非異常的狀態(tài),我們可以摒棄采用IBM小型機方案,Hadoop中數(shù)據可以自動復制,一份數(shù)據可以復制成三份,第一份在一臺服務器上,第二份數(shù)據在另外一臺機架的另外一臺服務器上,第三份數(shù)據可能在另外一臺機架的另外一臺服務器上,作為分布式文件系統(tǒng),每次請求寫入的磁盤和服務器物理地點可能不一樣,可以帶來高并發(fā)的讀寫請求。
MapReduce框架分成很多數(shù)據級,最后再合并處理。HBase分布式數(shù)據庫是分布式存儲系統(tǒng),主要特點在正它是四維存儲系統(tǒng),傳統(tǒng)的數(shù)據庫是二維表的結構,有行、有列,對它來說,除了有行之外,有列的概念,在列和行之間又可以存放多個版本,在這種情況下相當于四維表結構,好處在于可以靈活的表格結構,每個列組里面的列后來都可以隨機應變,我們的采集系統(tǒng)現(xiàn)在在采集一些字段,未來的發(fā)展過程中,為了數(shù)據挖掘的需要,會采集更多的字段,方便我們在一個結構之下進行更多信息的存儲以及后續(xù)的處理工作。
CIO頻道人物視窗
CIO頻道方案案例庫
大數(shù)據建設方案案例庫
電子政務建設方案案例庫
互聯(lián)集成系統(tǒng)構建方案案例庫
商務智能建設方案案例庫
系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄