
說到eBay的拍賣和購物網站你腦海里會想到什么?1億用戶、3億活躍商品、5萬種產品分類、平均每秒2100美元的交易額,那就對了。當然,你也可以把eBay看作是一家數據管理與業務分析企業:每天50TB的數據量、7500用戶與分析師的分析團隊支持。
數據沙盒(data sandbox)聽上去很小,但它卻是eBay保證數據分析流程順利進行的關鍵組成部分。
在今年四月洛杉磯召開的Gartner商務智能峰會(Gartner Business Intelligence Summit)上,eBay的分析應用技術高級主管Chris Rogaski在演講中說到:“如果人人都想要不同的數據視圖、報表或者儀表盤,我們將無法應付。所以,我們需要提前做好準備,只有這樣,我們的業務分析師和產品經理們才能根據數據做出決策。”
eBay采取了很多措施,使用戶需求得以及時滿足。公司的數據分析平臺結合使用了Teradata的企業數據倉庫(enterprise data warehouse,簡稱EDW)、被eBay稱為“Singularity”的Teradata獨立深層存儲數據庫以及Hadoop系統。EDW用來存儲結構化交易數據;Singularity用來存儲半結構化數據(如網站用戶行為分析);Hadoop則用來處理非結構化數據,其中包括原始用戶行為數據、其他形式的機器生成信息和文本數據等。Rogaski稱,三部分合起來大概占據了90PB的存儲空間。
另外,eBay將虛擬數據集市在EDW中自由分散,供任何想要開發、操控、添加特定數據集的員工進行使用。數據集市是公司的分析作為服務(Analytics as a Service)中的一部分,或者是A3S及其他用戶分析數據程序的一部分。業務用戶和數據分析師使用由eBay的IT部門開發的工具,可擁有(通常也會使用)100GB的空間,這就是在商務智能領域所謂的數據沙盒。
數據沙盒也被稱為分析沙盒,這些由用戶控制的空間被相互隔開,將數據實驗和數據倉庫的生產數據庫環境區別開來。eBay的用戶有權限獲取EDW中的數據,還可以將所需信息復制到數據集市中進行分析。在eBay開發工具的幫助下,他們可以上載附加數據進行分析。Rogaski說:“如果存在一個我們不知道的新的數據源,我們沒辦法將其隔開,對它不進行數據分析。”
企業部門之間的對峙阻礙數據分析
企業中IT部門和業務部門的長期對峙屢見不鮮,其中一部分原因可歸咎于優先級別不同。當業務用戶有業務問題急需解決的時候,IT團隊可能正在進行數據治理或是維護數據質量標準。對于想要深度分析現有數據的分析師來說,工作的中斷會帶來很強的挫敗感。
TechTarget的BI咨詢師兼研究主管Wayne Eckerson說:“分析師常常需要的是還未放入數據倉庫的數據,因為這些數據還未經處理和載入。”
有些時候,數據分析師會認為由自己公司部署的BI和分析工具比Excel更加靈活,能夠秘密建立起IT范圍之外的Excel工具。然而,將Excel推行到企業上下進行數據分析之用并不是理想的方式。Eckerson補充:“每個人都知道分析師可以得出有價值的信息,但是沒有企業是靠電子表格發展壯大起來的。”
Eckerson稱,這時候數據沙盒就起作用了。它可以保證分析用戶獲得所需數據、加強對信息的控制,使企業的數據陰影系統(data shadow systems)逐漸明朗化。
對于BI和IT經理來講,一個精心管理的數據沙盒為用戶提供了一個安全之地,在公司管理架構內對企業數據進行實驗。美國Data Miners咨詢公司的創始人Gordon Linoff說:“這樣一個環境存儲的不是數據的復制,而是適合分析形式的信息。”Linoff還是《數據挖掘技術:市場營銷、銷售與客戶關系管理領域應用》一書的作者之一。
數據沙盒可在數據倉庫、分析數據庫及其外部作為獨立的數據集市構建。在eBay的案例中,Rogaski說,在EDW中采用沙盒作為虛擬數據集市降低了數據活動,減少了用戶對數據進行復制并存儲在其他系統的需求。
期限設定對分析大有幫助
他承認,在用戶占據了沙盒,還是會出現少量的數據復制。“但這很正常,算是我們發展業務付出的一點代價吧。”為了減少復制,eBay在數據系統中使用了期限設定的方法,由分析師設定好數據集使用的一個結束日期。截止日期快到的時候,Rogaski的團隊會與分析師協商,要不要把數據從系統中刪除;這一過程被eBay稱為碎片帳集(garbage collection)。
由于沙盒本身的作用就是處理數據,Linoff相信擁有正確的技能對成功部署非常重要。數據科學家和其他用戶需要操控數據并分析數據當下的活動。他說:“這等于是在學習全新的事物,所以你需要可進行充分利用的技能組合。”
這條規則對許多企業來講都十分有用,但并不適用于所用企業。Rogaski說,eBay的目標之一是讓很大一群人都能獲得它的BI和分析數據。即便是一個毫不了解情況的業務用戶也能夠使用虛擬數據集市。
對于想要建立數據沙盒的企業,Eckerson認為其中一個很大的挑戰是管理。他舉例說到,在用戶將包含獨有數據視圖的報表分發出去之前,企業BI團隊應該核實一下操控的信息,確保指標都正確無誤。
Eckerson說:“你可以讓用戶獲取數據,但你還需要給他們一些指導。沒有人喜歡受限,但他們用的是公司資源,就不得不在某些方面遵守規則。”
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄