信息中心

大數(shù)據Hadoop應用分析案例：電信業(yè)的應對之策

對用戶而言，他也是想知道流量到底什么時候發(fā)生的，如果手機的問題，他也知道怎么進行防范，這樣就不會發(fā)生類似問題，根據客戶部門提供的數(shù)據，可能因為無法提供商網流量詳單造成退費和賠付，會影響到運營商流量計費商務模式，所以我們建立這種系統(tǒng)意義非常大，第一，我們的系統(tǒng)供聯(lián)通客服人員使用，提供快速查詢服務，解決流量投訴的問題，另外，我們也準備向最終用戶提供異常的大流量查詢服務。再一個問題，上網記錄數(shù)據本身是數(shù)據的金礦，我們可以通過獲取上網數(shù)據記錄對流量進行統(tǒng)計。

海量數(shù)據的應對之策

對于以上這些問題該如何應對呢？聯(lián)通研究院處長王志軍分析處理問題的難點：上網記錄數(shù)據是海量數(shù)據，經過我們的系統(tǒng)可以分析到，用戶每個用上網記錄基本幾萬到幾十萬，有的用戶五六十萬，我們現(xiàn)在采用的方案是在網關所有用戶流量必經地方采集，分析流量數(shù)據，然后上成上網記錄話單，話單量非常大。

聯(lián)通研究院處長王志軍表示，例如用移動手機訪問新浪網首頁，對流量采集設備基本能生成20條左右上網記錄話單，如果點iPad新聞鏈接，恐怕會產生180條上網記錄，如果訪問淘寶網首頁，會產生60條請求和回應，在手機上網記錄當中有大量DNS查詢和推送服務。以中國聯(lián)通某一個中等省份公司為例，日均上網記錄達到10億條，每個月的數(shù)據接近9T,整個移動互聯(lián)網也在快速發(fā)展。

根據中國聯(lián)通統(tǒng)計，每隔6個月中國聯(lián)通用戶整體上網流量會翻一番，去年平均3G每用戶的流量一年之內翻一番，整個流量增長非常迅速，也帶來了上網記錄的量非常非常大。

傳統(tǒng)IOE方式，IBM小型機，思科數(shù)據庫存儲，EMC存儲，思科數(shù)據庫存儲這么大上網記錄時候已經不可能了，所以，聯(lián)想采用開源的Hadoop解決，Hadoop本身是系統(tǒng)架構，也是開源項目，由Apache基金會開發(fā)，Hadoop本身最底層是分布式文件系統(tǒng)，這個分布式文件系統(tǒng)叫HDFL,在它之上有分布式處理框架，基于Hadoop整個開源項目，上面構建了結構化的訪問數(shù)據庫，在這之上又提供了類似的數(shù)據挖掘工具，另外也提供了一些分布式同步，以及遠程調用和序列化工具。

Hadoop伴隨大數(shù)據一同火爆起來。現(xiàn)如今，Hadoop已經無人不知無人不曉。Hadoop從它一誕生的那天開始就與大數(shù)據深深地關聯(lián)到了一起。眾所周知，大數(shù)據多是出現(xiàn)在這些領域，包括金融、電信、保險以及一些大型互聯(lián)網企業(yè)等。以電信行業(yè)為例，Hadoop在這些領域的應用情況是怎么樣的呢？

Hadoop+HBase+ MapReduce

對于Hadoop分布式文件系統(tǒng)本身來說，重要的出發(fā)點在于硬件故障是常態(tài)，不是非異常的狀態(tài)，我們可以摒棄采用IBM小型機方案，Hadoop中數(shù)據可以自動復制，一份數(shù)據可以復制成三份，第一份在一臺服務器上，第二份數(shù)據在另外一臺機架的另外一臺服務器上，第三份數(shù)據可能在另外一臺機架的另外一臺服務器上，作為分布式文件系統(tǒng)，每次請求寫入的磁盤和服務器物理地點可能不一樣，可以帶來高并發(fā)的讀寫請求。

MapReduce框架分成很多數(shù)據級，最后再合并處理。HBase分布式數(shù)據庫是分布式存儲系統(tǒng)，主要特點在正它是四維存儲系統(tǒng)，傳統(tǒng)的數(shù)據庫是二維表的結構，有行、有列，對它來說，除了有行之外，有列的概念，在列和行之間又可以存放多個版本，在這種情況下相當于四維表結構，好處在于可以靈活的表格結構，每個列組里面的列后來都可以隨機應變，我們的采集系統(tǒng)現(xiàn)在在采集一些字段，未來的發(fā)展過程中，為了數(shù)據挖掘的需要，會采集更多的字段，方便我們在一個結構之下進行更多信息的存儲以及后續(xù)的處理工作。

集成系統(tǒng)網絡情報信息數(shù)據庫

CIO頻道人物視窗
 CIO頻道方案案例庫
 大數(shù)據建設方案案例庫
 電子政務建設方案案例庫
 互聯(lián)集成系統(tǒng)構建方案案例庫
 商務智能建設方案案例庫
 系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄

樂思軟件

信息中心

大數(shù)據Hadoop應用分析案例：電信業(yè)的應對之策

集成系統(tǒng)網絡情報信息數(shù)據庫

輿情監(jiān)測

信息采集

信息中心

技術支持

公司資訊

關于樂思