
有很多普通中小企業,特別是中型的互聯網和物聯網企業,在大數據方面的場景也有很多。本文將首先給大家介紹一下在筆者眼中的大數據,以及大數據的意義和特點,再介紹一下大數據的常見處理流程,之后將會和大家分享一下筆者如何幫助一些中小企業實施大數據相關的解決方案,也就是大數據如何從“小”做起。
任何一個時代或者模式的興起,都離不開與之相關的Killer App,比如,C/S時代的SAP ERP,互聯網 1.0 時代的門戶,以及互聯網 2.0時代的搜索和SNS等,那么在當今云計算這個時代有那些Killer App呢?當然首先想到的肯定是以VMware 和Amazon EC2為代表的虛擬化和相關IaaS服務,除此之外,新近崛起的大數據絕對也是云計算的Killer App之一。不僅類似百度、阿里,以及騰訊這樣的互聯網巨頭有相關的應用需求,而且根據筆者平時與客戶的接觸,發現有很多普通中小企業,特別是中型的互聯網和物聯網企業,在大數據方面的場景也有很多。本文將首先給大家介紹一下在筆者眼中的大數據,以及大數據的意義和特點,再介紹一下大數據的常見處理流程,之后將會和大家分享一下筆者如何幫助一些中小企業實施大數據相關的解決方案,也就是大數據如何從“小”做起。
什么是大數據?
過去計算機產生的數據較簡單,基本上都是一筆筆事務,總量雖大,但整體增長幅度都還是可控的。比如傳統的金融企業,經常使用幾臺大型機就能管理其所有的業務數據。而最近幾年,由于以平板、智能手機和傳感器為代表的智能設備越來越多,這些設備的生成的數據更是遠遠地超過我們的想象。據IDC的統計,全球數字信息在未來幾年將呈現驚人增長,預計到2020年總量將是現在的44倍。據另外一份數據顯示,全球 90% 的數據都是在過去兩年中生成的,并且每年以50%的速度增長。每天,遍布世界各個角落的傳感器、移動設備、在線交易和社交網絡會產生PB級別的數據;每個月,全球網友會發布了10多 億條 Twitter 信息和300多 億條 Facebook 信息。那么這些大數據的存在有什么價值和意義呢?
大數據的意義
筆者個人和一些朋友一直覺得大數據就好比一口油井,因為里面蘊含著非常豐富的價值,如果企業能有效利用其內部存儲的海量數據,那么將會改善其自身的產品和服務,從而提升客戶和受眾的體驗,在大數據時代獲取競爭優勢。并且隨著本身分析和挖掘技術不斷的提升,可以在之前的基礎上提供新的決策模式,從而支持管理者進行快速和精確地決策,這樣能夠超越對手,搶占市場先機。
以下的內容會通過幾個行業來舉例講解一下大數據有哪些意義和作用?
互聯網企業
有一些客戶主要是做網絡輿情或者網絡廣告方面的業務,他們每天都會處理和收集TB級別的日志或者網頁信息,結構化和非結構化數據都有。他們就是通過分析這些數據來為其客戶提供價值,比如分析一下一個男性護膚品廣告是在世界杯期間投放好,還是在亞洲杯期間播出好?在電子商務方面,eBay是個很好的例子。其分析平臺每天處理的數據量高達100PB,超過了納斯達克交易所每天的數據處理量。為了準確分析用戶的購物行為,eBay定義了超過500種類型的數據,對顧客的行為進行跟蹤分析,并且通過這些分析促進eBay自身的業務創新和利潤增長。
智能電網
我們有一個合作伙伴,他們是做智能電網相關的解決方案。對那些電網而言,如果無法準確預估實際電力的使用情況,將會使電網要求電廠發出過量的電力,雖然這些過量電力可以通過某種模式進行保存,但是大量的電力浪費已不可避免。而通過他們智能電網的解決方案,每隔一刻鐘會采集一個省幾千萬用戶的用電數據,之后他們會根據這些數據來精確分析用戶的用電模型,最后通過這個用電模型來優化電力生產,從而有效地減少電力資源的浪費。
車聯網
在車聯網方面,有一家客戶在一個城市有幾十萬臺基于Android的終端,而這些終端每隔一段時間都會發送具體位置的GPS消息給后端的數據集群,接著這些集群會分析這些海量的GPS信息,分析出哪些路段在什么時候比較堵,之后將這些非常有價值的信息不斷地推送給客戶,從而幫助用戶減少在路上所消耗的時間。
醫療行業
在醫療行業,大數據的用例有很多。首先,通過分析大量的病例信息,將有效地幫助醫生治病;其次,假設在一個病人身體的多個節點加入探針設備,而且每個探針每天會采集GB級別關于人體細胞和血液運行狀態的數據,之后計算集群可以根據這些數據來進行分析,這樣能更精確地判斷病因,從而讓醫生對病人進行更具針對性的治療。
機器學習
在這方面,最出名的例子莫過于最近很流行的Siri,它后臺有一個龐大的HBase集群來對類似語言這樣的文本數據進行分析和管理,從而使Siri變成一位越來越老練的個人助手,為iPhone 4S的用戶提供了日期提醒、天氣預報和飯店建議等服務。除此之外,還有IBM的Watson,它通過一個基于Hadoop UIMA框架的集群來挖掘海量的文本信息來實現一定程度的人工智能,并在美國著名知識問答節目Jeopardy中戰勝多位出色的人類選手。
國家安全
這方面最出名的例子,莫過于美國的聯邦情報局(CIA)。在過去10年中,他們通過無人偵察機收集了大量阿富汗那邊地理相關的視頻資料,之后通過分析這些海量視頻資料,來對極具危害性的恐怖組織團伙進行定位。
大數據的特點
大數據,不僅有“大”這個特點,除此之外,它還有很多其他特色。在這方面,業界各個廠商都有自己獨特的見解,但是總體而言,我覺得可以用“4V+1C”來概括,“4V+1C分別代表了Variety(多樣化)、Volume(海量)、Velocity(快速)、Vitality(靈活)以及Complexity(復雜)這五個單詞。
Variety(多樣化)
大數據一般包括以事務為代表的結構化數據、以網頁為代表的半結構化數據和以視頻和語音信息為代表的非結構化等多類數據,并且它們的處理和分析方式區別很大。
Volume(海量)
通過各種智能設備產生了大量的數據,PB級別可謂是常態,筆者接觸的一些客戶每天處理的數據量都在幾十GB、幾百GB左右,估計國內大型互聯網企業每天的數據量已經接近TB級別。
Velocity(快速)
大數據要求快速處理,因為有些數據存在時效性。比如電商的數據,假如今天數據的分析結果要等到明天才能得到,那么將會使電商很難做類似補貨這樣的決策,從而導致這些數據失去了分析的意義。
Vitality(靈活)
在互聯網時代,和以往相比,企業的業務需求更新的頻率加快了很多,那么相關大數據的分析和處理模型必須快速地適應新的業務需求。
Complexity(復雜)
雖然傳統的BI已經很復雜了,但是由于前面4個V的存在,使得針對大數據的處理和分析更艱巨,并且過去那套基于關系型數據庫的BI開始有點不合時宜了,同時也需要根據不同的業務場景,采取不同的處理方式和工具。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄