
“面對淘寶業績的倍數成長,我們深刻地感到基于Oracle RAC構建企業級數據倉庫是一個正確的選擇,Oracle解決方案為淘寶數據倉庫提供了支持未來持續成長的延展空間,使我們能夠隨著業務的發展不斷提升數據倉庫環境的性能,滿足公司在市場分析和預測方面迅速增長的業務需求。” ——汪海 淘寶網資深總監
淘寶網(www.taobao.com)由阿里巴巴集團于2003年5月10日投資創辦,淘寶的業務范圍跨越了C2C(個人對個人)和B2C(商家對個人)兩大部分,是亞洲最大的購物網站。
淘寶于2004開始基于Oracle產品構建企業級數據倉庫(EDW),并于2007年、2008年和2009年三次利用Oracle RAC 10g和Oracle RAC 11g對數據倉庫系統進行了升級和擴充,將數據倉庫部署在全球領先的RAC系統——由20個節點組成的單一數據庫集群——之上,使淘寶在數據倉庫規模每年成倍擴大的情況下,實現了數據處理和分析時效性的不斷提升,過去需要數天才能完成的計算現在當天能完成,部分以前屬于小時級別的計算更是提高到了分鐘級別。目前,淘寶數據倉庫能夠每天處理幾億次的用戶行為,日處理的數據量接近30TB,堪稱目前國內每天數據處理量最大、最忙的數據倉庫。
淘寶首席DBA、資深技術專家陳吉平指出:“淘寶數據倉庫不僅僅是一套數據存儲和管理系統,更是一套與業務數據緊密結合的動態數據倉庫系統,系統需要每天甚至每小時動態地處理海量的增量數據和全量數據,Oracle RAC無論是在基礎架構方面和還是在性能方面都非常適合我們實施高效的海量數據處理?!?
構建數據倉庫,續寫電子商務傳奇
淘寶通過搭建一個完全自由競爭的互聯網交易基礎設施,創造出了一個包括了買家、賣家、支付、物流、金融、廣告、搜素等環節在內的商業生態系統。然而面對淘寶所創造的電子商務傳奇,淘寶的管理層清醒地認識到:盡管淘寶的快速發展揭示了中國的確存在巨大的電子商務潛在用戶基礎,但是在另一方面,中國電子商務市場目前還是一個年輕的、還遠沒有成熟的市場,因此淘寶需要為店鋪和消費者不斷提供更新、更全面的服務,從而全面促進客戶體驗,通過企業級數據倉庫來洞察與了解客戶的需求則是實現以上目標的最有效手段之一。
利用Oracle的數據倉庫技術,淘寶實現了將分散在不同業務系統中的業務數據高效地抽取到集中的數據倉庫平臺,這些完整記錄了訪問點擊、交易過程、商品類目屬性以及呼叫中心客服內容等方面信息的海量數據,通過數據倉庫的各種技術手段進行綜合的處理,并生成反映最新狀況的統計分析數據、指標和報表,可以精確地反映出在瀏覽、交易、商品等方面的最新用戶行為和業務趨勢,使淘寶能夠及時了解和掌握用戶的核心興趣和消費特征,在交易中提供精準的個性化服務,同時在店鋪的各個發展階段有針對性地設計增值服務,全方位增強了企業的市場競爭能力。
利用高性能平臺應對海量數據處理的挑戰
目前淘寶數據倉庫的數據量接近30TB,但與大多數數據倉庫不同的是,淘寶這30TB數據基本上都是需要每天進行動態分析的。例如,為了達到監控虛假的交易信息和評價,淘寶數據倉庫需要每天查詢和分析用戶的評價及其星級變換情況,確保淘寶星級誠信體系的權威性。再例如《i淘寶》——淘寶的個性化推薦平臺——可以根據用戶在淘寶上的歷史行為習慣,直接給用戶推薦適合的商品、店鋪、好友等。然而要得出個性化的推薦結果,需要將每天大量的客戶行為軌跡信息與會員信息、商品屬性信息結合起來進行綜合分析處理,看似簡單的個性化推薦其背后是極為龐大的數據計算。淘寶數據倉庫不僅計算量十分巨大,且計算實效性要求很高,這就決定了它對于數據處理能力的需求遠高于一般的數據倉庫。
陳吉平表示:“Oracle RAC 強大的并行處理能力為我們應對處理海量數據的挑戰提供了極大的幫助,在單個節點內部,并行計算和非并行計算的效率差別是很大的。在一次性處理特別大量數據的時候,Oracle RAC的跨節點并行計算功能則體現了更大的作用。”
在《i淘寶》實現個性化推薦的計算中,通過使用Oracle RAC 跨節點并行技術,淘寶數據倉庫實現了相關模塊計算時間的顯著縮短,最多的縮短了2小時以上,最少的也縮短了30分鐘,為淘寶成功實施個性化推薦提供了重要保障。
陳吉平進一步指出:“除了《i淘寶》的個性化推薦之外,淘寶數據倉庫還提供了店鋪內推薦、精確郵件定向營銷以及購物風尚榜等服務項目,同時每天出具400張左右的報表,這些服務項目和數據指標使用起來非常簡單,其實它們都是來自于海量數據的高度濃縮,基于Oracle RAC的高性能平臺很好地支持了這些非常復雜的計算過程?!?
系統可輕松擴展,支持業務的高速發展
從2004年開始構建企業級數據倉庫以來,淘寶數據倉庫不僅所處理業務數據每年增長數倍,更是需要不斷完成新的業務需求。利用Oracle RAC能支持線性擴展的特點,淘寶輕松完成了數據倉庫平臺由Oracle RAC 4節點環境到12節點環境再到20節點環境的擴展,使數據倉庫能夠從容應對業務需求快速變化和業務數據爆炸式增長的挑戰,過去需要數天才能完成的計算現在當天就能完成,部分以前屬于小時級別的計算更是提高到了分鐘級別。
陳吉平表示:“Oracle RAC 支持線性擴展的能力對我們來說特別重要,在大多數情況下,Oracle RAC 能夠實現計算能力和節點數按照線性比例增加,基本上是節點數的翻倍,處理同樣數據量的計算時間減半,這對于我們根據業務的發展趨勢和需求變化,經濟合理地進行IT擴容有非常大的幫助。”
利用Oracle RAC,淘寶實現了根據業務發展需要的對系統進行“按需擴展”。例如,將系統從12節點擴展到20節點,使近500個ETL任務能夠在每天的0:30-9:00之間全部準時完成,保證了數據集市中數據的新鮮度可以到最近的一天,同時實現了在新業務上線后的第一時間內就能夠分析出業務的合理估值和效果。
為什么選擇 Oracle:
陳吉平表示:“淘寶數據倉庫是典型的互聯網數據倉庫,源頭業務變化非??欤@對于數據倉庫平臺的基礎架構和性能方面都構成了極大的挑戰,我們之所以選擇Oracle RAC構建淘寶數據倉庫,主要考慮該系統在以下三個方面的優勢能夠幫助我們應對挑戰:
1、并行處理能力:
淘寶數據倉庫中的許多業務查詢與分析都是動態的,數據處理量十分巨大,且實效性要求很高,Oracle RAC具有非常好的并行處理能力,這對動態查詢和模糊查詢有很大幫助,能夠有效滿足淘寶數據倉庫這種復雜和動態的海量數據分析處理需求。
2、可線性擴展能力:
對于淘寶這樣處于新興行業中且高速發展的企業來說,Oracle RAC 良好的線性擴展能力極為重要,它使得淘寶可以在需要的時候通過向集群中增加低成本的普通服務器來滿足高性能的數據處理需求,從而獲得在目前市場環境下尤為重要的經濟性。更為重要的是,Oracle RAC的線性擴展能力能夠保證我們始終提供整個企業統一的信息視圖和數據集市。
3、高效的系統管理能力:
對于大型的數據倉庫應用系統而言,如何能有效而簡單地進行系統管理是非常重要的。特別是當數據量不斷擴大時,如果沒有一種有效而且簡單的系統管理措施,那么系統的運行費用將會很高。Oracle ASM提供了磁盤管理、數據流量平衡,空間管理以及自動創建和刪除數據文件等自動化的存儲管理功能,可以有效增加數據倉庫系統管理動態數據庫環境的靈活性,提高存儲管理效率并降低管理成本。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄