擁有一億用戶、營業規模達數百億元的大型網絡零售企業京東(JD.com),在大數據應用領域實現了分布式架構與傳統BI工具的有機融合。
成立于2004年的京東商城(以下簡稱為京東)在2012年的交易金額突破600億元,相當于每秒就會產生2000元的交易額。在網絡零售市場深耕近十年之后,京東也正式邁入了PB級數據管理的新時代。對企業而言,PB級(1PB=1024TB)的數據管理算得上是衡量其數據規模和管理能力的一個重要標尺。目前,全球PB級數據管理俱樂部已經擁有Facebook、淘寶等重要成員,能夠躋身其中對京東而言是榮譽,也意味著挑戰。
“針對業務數據快速增長的情況,我們在2012年正式啟動了大數據平臺的搭建。這個自主開發的平臺基于分布式的技術,支持異構數據集市,同時也很好地利用了傳統BI的展現層技術。”京東副總裁李曦說。目前,李曦正帶領著300人的技術團隊不斷地改進和完善京東從數據的獲取、平臺搭建、分析到應用的電商全流程業務數據管理工作。在2012年加入京東之前,李曦在美國硅谷工作多年,相繼服務于Siebel、甲骨文、谷歌等公司。
全流程大數據管理
在數據獲取方面,京東對各個購物頻道的交易數據、出入貨數據、逆向物流、用戶瀏覽日志等數據進行了全面的收集,同時也會從互聯網上抓取一些商品價格等業務相關信息。這些數據會被匯總和存儲在京東自主研發的大數據平臺之上。這個平臺支持不同的數據集市,例如分布式的數據集市,或者是甲骨文、MySQL、微軟SQL Server等關系型數據集市。平臺底層的數據存儲和離線批量數據運算由Hadoop實現,流式計算方面則采用的是開源實時數據處理框架Storm。
在承載匯總、存儲和查詢任務的大數據平臺之上是大數據分析層,這一層級主要涉及到一些建模的工作。例如針對用戶、商品、商家、促銷、反作弊、風險控制、精準營銷、運營優化的數據建模等。而這些數據模型最終的分析結果會在應用層得以展現。目前,京東已經能夠向內部和外部用戶提供BI(商業智能)服務。
其中,內部BI系統向從業務員到高級管理者的不同層級數據消費者提供各種門類的業務報表和歷史報表。而對于在京東售賣貨品的商家,京東數據羅盤則可以向他們展現店鋪流量、訂單數量、實時客流等關鍵業務指標,以及節日促銷指數、價格彈性、用戶喜好等分析功能。
談到傳統BI技術在大數據時代所扮演的角色,李曦表示,傳統BI手段在大數據應用環境中仍然有其價值,尤其是在呈現能力方面。他說:“京東早期的數據分析建立在傳統BI之上,它所采用的中央集中式模式會在主機應用層面造成瓶頸,但傳統BI數據集中的理念并沒有過時,特別是其功能強大的呈現工具同樣適用于互聯網行業。”目前,京東在大數據處理的展現層仍在使用甲骨文BIEE等傳統BI工具。
“作為一家電商企業,京東的零售業務數據基本上是結構化的,而用戶訪問行為數據又是非結構化的,因此京東全流程數據匯總實際上是把結構化、半結構化和非結構化數據融合起來的過程。”李曦說。他表示,這樣的數據組成結構實際影響了京東的大數據技術選擇。在數據倉庫層面,京東選擇了可擴展性強的分布式架構,而在應用層將相對發達的BI工具加以有效利用,實現了傳統與創新的融合。
大數據價值就在身邊
京東對大數據的利用不僅體現在內部管理和服務商家方面,如果你是一位顧客,只要訪問JD.com就能感受到大數據技術為您營造出的購物體驗。在這里,商品的搜索、推薦都是基于京東大數據平臺的實時匯總和結果推送。比方說搜索的排序就可以基于用戶的點擊習慣、用戶好評度等指標進行個性化定制。站內廣告和聯盟廣告的推送也可以根據相關的指標進行定向發布。
李曦表示,經過近三年的探索,大數據技術的價值正在京東業務運營的不同領域得到逐步的體現。基于大數據的匯總與分析,京東正在不斷完善包含電子郵件、短信、廣告等在內的精準營銷體系。站在業務運營優化角度,大數據技術能夠切實提升工作效率,為京東帶來直接的成本節約,并營造出更優的客戶體驗。

