
大數據近幾年非常火爆,其實從數據技術與處理的縱向流程來講,在2005年時已經有一整套從數據的抽取、清洗,再到數據的建模,最終到數據的展現的完整理論。最近這幾年為什么大數據又會比較火,因為整個流程里某一些環節又開始膨脹,比如數據的來源這個層面,原先我們很多是所謂的結構化的,公司內部的,現在有很多我們做移動互聯網,移動化、社交化、碎片化,導致數據更多。
另外一個環節,數據的可視化,也越來越靈活,形式也越來越多。所以,基于這兩點,大數據這個話題又熱了起來。縱向來講,這個流程相對比較清晰,我們可能需要更多關注的在某些環節里面的東西,然后做深入研究。
例如,網易新聞客戶端,去年跟深圳中科院做了一個云系統分析,把2012年移動端的數據抽取出來做了一個分析,經過大量的數據分析,發現了一些用戶行為習慣。根據數據分析前的預測,使用網易新聞客戶端的人數應該是周末多一些,但經過數據發現,其實周四使用的人更多,跟貼的數量也更多。另外,從內部分享方面來看,根據道iOS跟安卓系統,預先分成兩個版本,分析兩個系統用戶的差異,基于設置了很多關鍵詞,如政治、主權、娛樂,通過數據的分析發現當涉及到跟愛國、主權相關的時候,安卓用戶的關注度較高,而IOS系統的用戶在各個關鍵詞方面的反應都相對比較平均一點兒。

