
“面對(duì)淘寶業(yè)績(jī)的倍數(shù)成長(zhǎng),我們深刻地感到基于Oracle RAC構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)正確的選擇,Oracle解決方案為淘寶數(shù)據(jù)倉(cāng)庫(kù)提供了支持未來(lái)持續(xù)成長(zhǎng)的延展空間,使我們能夠隨著業(yè)務(wù)的發(fā)展不斷提升數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的性能,滿足公司在市場(chǎng)分析和預(yù)測(cè)方面迅速增長(zhǎng)的業(yè)務(wù)需求。” ——汪海 淘寶網(wǎng)資深總監(jiān)
淘寶網(wǎng)(www.taobao.com)由阿里巴巴集團(tuán)于2003年5月10日投資創(chuàng)辦,淘寶的業(yè)務(wù)范圍跨越了C2C(個(gè)人對(duì)個(gè)人)和B2C(商家對(duì)個(gè)人)兩大部分,是亞洲最大的購(gòu)物網(wǎng)站。
淘寶于2004開(kāi)始基于Oracle產(chǎn)品構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(EDW),并于2007年、2008年和2009年三次利用Oracle RAC 10g和Oracle RAC 11g對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)進(jìn)行了升級(jí)和擴(kuò)充,將數(shù)據(jù)倉(cāng)庫(kù)部署在全球領(lǐng)先的RAC系統(tǒng)——由20個(gè)節(jié)點(diǎn)組成的單一數(shù)據(jù)庫(kù)集群——之上,使淘寶在數(shù)據(jù)倉(cāng)庫(kù)規(guī)模每年成倍擴(kuò)大的情況下,實(shí)現(xiàn)了數(shù)據(jù)處理和分析時(shí)效性的不斷提升,過(guò)去需要數(shù)天才能完成的計(jì)算現(xiàn)在當(dāng)天能完成,部分以前屬于小時(shí)級(jí)別的計(jì)算更是提高到了分鐘級(jí)別。目前,淘寶數(shù)據(jù)倉(cāng)庫(kù)能夠每天處理幾億次的用戶行為,日處理的數(shù)據(jù)量接近30TB,堪稱目前國(guó)內(nèi)每天數(shù)據(jù)處理量最大、最忙的數(shù)據(jù)倉(cāng)庫(kù)。
淘寶首席DBA、資深技術(shù)專家陳吉平指出:“淘寶數(shù)據(jù)倉(cāng)庫(kù)不僅僅是一套數(shù)據(jù)存儲(chǔ)和管理系統(tǒng),更是一套與業(yè)務(wù)數(shù)據(jù)緊密結(jié)合的動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),系統(tǒng)需要每天甚至每小時(shí)動(dòng)態(tài)地處理海量的增量數(shù)據(jù)和全量數(shù)據(jù),Oracle RAC無(wú)論是在基礎(chǔ)架構(gòu)方面和還是在性能方面都非常適合我們實(shí)施高效的海量數(shù)據(jù)處理。”
構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),續(xù)寫電子商務(wù)傳奇
淘寶通過(guò)搭建一個(gè)完全自由競(jìng)爭(zhēng)的互聯(lián)網(wǎng)交易基礎(chǔ)設(shè)施,創(chuàng)造出了一個(gè)包括了買家、賣家、支付、物流、金融、廣告、搜素等環(huán)節(jié)在內(nèi)的商業(yè)生態(tài)系統(tǒng)。然而面對(duì)淘寶所創(chuàng)造的電子商務(wù)傳奇,淘寶的管理層清醒地認(rèn)識(shí)到:盡管淘寶的快速發(fā)展揭示了中國(guó)的確存在巨大的電子商務(wù)潛在用戶基礎(chǔ),但是在另一方面,中國(guó)電子商務(wù)市場(chǎng)目前還是一個(gè)年輕的、還遠(yuǎn)沒(méi)有成熟的市場(chǎng),因此淘寶需要為店鋪和消費(fèi)者不斷提供更新、更全面的服務(wù),從而全面促進(jìn)客戶體驗(yàn),通過(guò)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)來(lái)洞察與了解客戶的需求則是實(shí)現(xiàn)以上目標(biāo)的最有效手段之一。
利用Oracle的數(shù)據(jù)倉(cāng)庫(kù)技術(shù),淘寶實(shí)現(xiàn)了將分散在不同業(yè)務(wù)系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)高效地抽取到集中的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),這些完整記錄了訪問(wèn)點(diǎn)擊、交易過(guò)程、商品類目屬性以及呼叫中心客服內(nèi)容等方面信息的海量數(shù)據(jù),通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的各種技術(shù)手段進(jìn)行綜合的處理,并生成反映最新?tīng)顩r的統(tǒng)計(jì)分析數(shù)據(jù)、指標(biāo)和報(bào)表,可以精確地反映出在瀏覽、交易、商品等方面的最新用戶行為和業(yè)務(wù)趨勢(shì),使淘寶能夠及時(shí)了解和掌握用戶的核心興趣和消費(fèi)特征,在交易中提供精準(zhǔn)的個(gè)性化服務(wù),同時(shí)在店鋪的各個(gè)發(fā)展階段有針對(duì)性地設(shè)計(jì)增值服務(wù),全方位增強(qiáng)了企業(yè)的市場(chǎng)競(jìng)爭(zhēng)能力。
利用高性能平臺(tái)應(yīng)對(duì)海量數(shù)據(jù)處理的挑戰(zhàn)
目前淘寶數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量接近30TB,但與大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)不同的是,淘寶這30TB數(shù)據(jù)基本上都是需要每天進(jìn)行動(dòng)態(tài)分析的。例如,為了達(dá)到監(jiān)控虛假的交易信息和評(píng)價(jià),淘寶數(shù)據(jù)倉(cāng)庫(kù)需要每天查詢和分析用戶的評(píng)價(jià)及其星級(jí)變換情況,確保淘寶星級(jí)誠(chéng)信體系的權(quán)威性。再例如《i淘寶》——淘寶的個(gè)性化推薦平臺(tái)——可以根據(jù)用戶在淘寶上的歷史行為習(xí)慣,直接給用戶推薦適合的商品、店鋪、好友等。然而要得出個(gè)性化的推薦結(jié)果,需要將每天大量的客戶行為軌跡信息與會(huì)員信息、商品屬性信息結(jié)合起來(lái)進(jìn)行綜合分析處理,看似簡(jiǎn)單的個(gè)性化推薦其背后是極為龐大的數(shù)據(jù)計(jì)算。淘寶數(shù)據(jù)倉(cāng)庫(kù)不僅計(jì)算量十分巨大,且計(jì)算實(shí)效性要求很高,這就決定了它對(duì)于數(shù)據(jù)處理能力的需求遠(yuǎn)高于一般的數(shù)據(jù)倉(cāng)庫(kù)。
陳吉平表示:“Oracle RAC 強(qiáng)大的并行處理能力為我們應(yīng)對(duì)處理海量數(shù)據(jù)的挑戰(zhàn)提供了極大的幫助,在單個(gè)節(jié)點(diǎn)內(nèi)部,并行計(jì)算和非并行計(jì)算的效率差別是很大的。在一次性處理特別大量數(shù)據(jù)的時(shí)候,Oracle RAC的跨節(jié)點(diǎn)并行計(jì)算功能則體現(xiàn)了更大的作用。”
在《i淘寶》實(shí)現(xiàn)個(gè)性化推薦的計(jì)算中,通過(guò)使用Oracle RAC 跨節(jié)點(diǎn)并行技術(shù),淘寶數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)了相關(guān)模塊計(jì)算時(shí)間的顯著縮短,最多的縮短了2小時(shí)以上,最少的也縮短了30分鐘,為淘寶成功實(shí)施個(gè)性化推薦提供了重要保障。
陳吉平進(jìn)一步指出:“除了《i淘寶》的個(gè)性化推薦之外,淘寶數(shù)據(jù)倉(cāng)庫(kù)還提供了店鋪內(nèi)推薦、精確郵件定向營(yíng)銷以及購(gòu)物風(fēng)尚榜等服務(wù)項(xiàng)目,同時(shí)每天出具400張左右的報(bào)表,這些服務(wù)項(xiàng)目和數(shù)據(jù)指標(biāo)使用起來(lái)非常簡(jiǎn)單,其實(shí)它們都是來(lái)自于海量數(shù)據(jù)的高度濃縮,基于Oracle RAC的高性能平臺(tái)很好地支持了這些非常復(fù)雜的計(jì)算過(guò)程。”
系統(tǒng)可輕松擴(kuò)展,支持業(yè)務(wù)的高速發(fā)展
從2004年開(kāi)始構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)以來(lái),淘寶數(shù)據(jù)倉(cāng)庫(kù)不僅所處理業(yè)務(wù)數(shù)據(jù)每年增長(zhǎng)數(shù)倍,更是需要不斷完成新的業(yè)務(wù)需求。利用Oracle RAC能支持線性擴(kuò)展的特點(diǎn),淘寶輕松完成了數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)由Oracle RAC 4節(jié)點(diǎn)環(huán)境到12節(jié)點(diǎn)環(huán)境再到20節(jié)點(diǎn)環(huán)境的擴(kuò)展,使數(shù)據(jù)倉(cāng)庫(kù)能夠從容應(yīng)對(duì)業(yè)務(wù)需求快速變化和業(yè)務(wù)數(shù)據(jù)爆炸式增長(zhǎng)的挑戰(zhàn),過(guò)去需要數(shù)天才能完成的計(jì)算現(xiàn)在當(dāng)天就能完成,部分以前屬于小時(shí)級(jí)別的計(jì)算更是提高到了分鐘級(jí)別。
陳吉平表示:“Oracle RAC 支持線性擴(kuò)展的能力對(duì)我們來(lái)說(shuō)特別重要,在大多數(shù)情況下,Oracle RAC 能夠?qū)崿F(xiàn)計(jì)算能力和節(jié)點(diǎn)數(shù)按照線性比例增加,基本上是節(jié)點(diǎn)數(shù)的翻倍,處理同樣數(shù)據(jù)量的計(jì)算時(shí)間減半,這對(duì)于我們根據(jù)業(yè)務(wù)的發(fā)展趨勢(shì)和需求變化,經(jīng)濟(jì)合理地進(jìn)行IT擴(kuò)容有非常大的幫助。”
利用Oracle RAC,淘寶實(shí)現(xiàn)了根據(jù)業(yè)務(wù)發(fā)展需要的對(duì)系統(tǒng)進(jìn)行“按需擴(kuò)展”。例如,將系統(tǒng)從12節(jié)點(diǎn)擴(kuò)展到20節(jié)點(diǎn),使近500個(gè)ETL任務(wù)能夠在每天的0:30-9:00之間全部準(zhǔn)時(shí)完成,保證了數(shù)據(jù)集市中數(shù)據(jù)的新鮮度可以到最近的一天,同時(shí)實(shí)現(xiàn)了在新業(yè)務(wù)上線后的第一時(shí)間內(nèi)就能夠分析出業(yè)務(wù)的合理估值和效果。
為什么選擇 Oracle:
陳吉平表示:“淘寶數(shù)據(jù)倉(cāng)庫(kù)是典型的互聯(lián)網(wǎng)數(shù)據(jù)倉(cāng)庫(kù),源頭業(yè)務(wù)變化非常快,這對(duì)于數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的基礎(chǔ)架構(gòu)和性能方面都構(gòu)成了極大的挑戰(zhàn),我們之所以選擇Oracle RAC構(gòu)建淘寶數(shù)據(jù)倉(cāng)庫(kù),主要考慮該系統(tǒng)在以下三個(gè)方面的優(yōu)勢(shì)能夠幫助我們應(yīng)對(duì)挑戰(zhàn):
1、并行處理能力:
淘寶數(shù)據(jù)倉(cāng)庫(kù)中的許多業(yè)務(wù)查詢與分析都是動(dòng)態(tài)的,數(shù)據(jù)處理量十分巨大,且實(shí)效性要求很高,Oracle RAC具有非常好的并行處理能力,這對(duì)動(dòng)態(tài)查詢和模糊查詢有很大幫助,能夠有效滿足淘寶數(shù)據(jù)倉(cāng)庫(kù)這種復(fù)雜和動(dòng)態(tài)的海量數(shù)據(jù)分析處理需求。
2、可線性擴(kuò)展能力:
對(duì)于淘寶這樣處于新興行業(yè)中且高速發(fā)展的企業(yè)來(lái)說(shuō),Oracle RAC 良好的線性擴(kuò)展能力極為重要,它使得淘寶可以在需要的時(shí)候通過(guò)向集群中增加低成本的普通服務(wù)器來(lái)滿足高性能的數(shù)據(jù)處理需求,從而獲得在目前市場(chǎng)環(huán)境下尤為重要的經(jīng)濟(jì)性。更為重要的是,Oracle RAC的線性擴(kuò)展能力能夠保證我們始終提供整個(gè)企業(yè)統(tǒng)一的信息視圖和數(shù)據(jù)集市。
3、高效的系統(tǒng)管理能力:
對(duì)于大型的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用系統(tǒng)而言,如何能有效而簡(jiǎn)單地進(jìn)行系統(tǒng)管理是非常重要的。特別是當(dāng)數(shù)據(jù)量不斷擴(kuò)大時(shí),如果沒(méi)有一種有效而且簡(jiǎn)單的系統(tǒng)管理措施,那么系統(tǒng)的運(yùn)行費(fèi)用將會(huì)很高。Oracle ASM提供了磁盤管理、數(shù)據(jù)流量平衡,空間管理以及自動(dòng)創(chuàng)建和刪除數(shù)據(jù)文件等自動(dòng)化的存儲(chǔ)管理功能,可以有效增加數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理動(dòng)態(tài)數(shù)據(jù)庫(kù)環(huán)境的靈活性,提高存儲(chǔ)管理效率并降低管理成本。
CIO頻道人物視窗
CIO頻道方案案例庫(kù)
大數(shù)據(jù)建設(shè)方案案例庫(kù)
電子政務(wù)建設(shè)方案案例庫(kù)
互聯(lián)集成系統(tǒng)構(gòu)建方案案例庫(kù)
商務(wù)智能建設(shè)方案案例庫(kù)
系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄