
任何上過網的人都知道Yahoo網站。雖然這家公司為全世界超過6.8億用戶提供內容和服務,但是其中很多的服務都是免費的,公司依靠廣告銷售獲取收益。本月初,Yahoo的前任用戶數據和分析副總裁David Mariani向Gartner BI Summit峰會參會人員講述這個搜索引擎巨頭的新分析與數據管理戰略,如何用BI來提高廣告空間對廣告商的價值。
Mariani表示,Yahoo的廣告銷售采用兩種不同的形式:基于搜索的廣告顯示在查詢頁面;顯示或者網頁廣告則在主頁和網站內部顯示。公司新的商業智能(BI)策略正朝優化“性能顯示”網頁廣告發展,目的在于促使訪問者購買、提供一個郵件地址或者點擊一個特定的網站。為了實現這個目的,Yahoo必須確定訪問網站的是誰,然后向該訪問者提供最適合的廣告。Yahoo的最新BI項目要求實時加載、存儲和查詢大量的數據,以便盡可能準確地發起廣告競投。
案例背景:Yahoo創建一個操作方式類似于紐約證券交易所的廣告交易或者網絡來銷售網頁廣告。銷售方就等同于發布者,他們決定是否有空間可以投放廣告,而購買者則是廣告商,他們為產品尋找最佳宣傳方法。Mariani表示廣告商會被基于搜索的廣告所吸引,因為他們可以很容易抓住網站訪問者的興趣。例如,查找關于假期信息的人可能會瀏覽旅游公司的廣告。
但是,使用這種關于個人喜好的信息來優化網頁廣告則難度更更大一些。要使廣告商的網頁廣告空間投資物有所值,Yahoo必須判斷訪問者的意圖。
“我們必須實時分析各種不同的維度,”Mariani說道,包括當天時間、位置、年齡和性別。
為了實現這個目標,每天接收3.5億廣告顯示次數的Yahoo必須對數據流進行分析,以便決定什么廣告能夠最大限度地吸引各個訪問者。每一個廣告顯示次數和在顯示中所發生的行為都會被記錄下來。公司會確定訪問者統計方法,使用算法來進一步優化網頁廣告活動。這實際上要求每個季度將幾千億數據加載到系統中,存儲之后,最端用戶能夠通過查詢在10秒鐘內訪問這些數據。
“我們的系統需要找到能夠發起特殊競投和產生收益的確實有價值的信息,”Mariani說道。
實現:Yahoo通過使用“從現成部件”而非購買一BI產品或者特殊技術來建立一個系統。
組織決定實施一個開源文件管理系統Hadoop,同時表示它是一種幫助公司運行數據聚合提取、轉換和加載(ETL)操作的方法。
Hadoop和聚合引擎會等待事件到達廣告服務器,這些事件每天會包含高達1.2TB的原始數據。提供數據歸檔和分段傳輸功能且支持擴展的Oracle 11g Real Application Clusters (RAC)可以加載到文件時就解析到數據并將它們保存到不同分區中。
然后數據被加載到一個cube,并每天可以從1.2TB壓縮到135GB。SQL Server Analysis Services 2008 R2的多維在線分析處理(MOLAP)技術是作為Yahoo的數據庫引擎運行的,并且會從Oracle加載分區,這會在每個季度產生16TB的數據庫。加載到系統的數據可以在8到12小時后進行查詢。
“建立這個數據倉庫的每一個階段之間都是互相獨立的,”Mariani說道:“它并不是高度并行的,而且其中沒有數據存儲。它都是按照進入的順序進行處理的。”
一旦完成,這個數據庫就會創建一個快照并將它發布到一個負載均衡器所面對的BI銀行查詢服務。換句話說,Yahoo已經完全將加載過程從查詢過程中分離出來。
Yahoo接著實現了兩種不同的查詢界面。首先,使用一個專用查詢界面來幫助優化競投,它有時被稱為BI惡夢。這些查詢必須快速執行,而Yahoo的系統可以在6秒鐘內查詢各處創建的5,000億行數據。Mariani將它稱為自我服務環境,它可以使最終用戶快速地以可視化方式創建。第二種查詢界面是通過組織稱為目標選擇、分析和優化(TAO)的Web應用程序來開發的,它是一個基于特定參數進行查詢的自定義搜索功能。這個查詢會在2秒鐘內完成,并將信息反饋回最終用戶,從而可以在需要時對廣告競投活動進行調整。
“我們的用戶正在實時監控廣告競投活動,而且也在進行實時修改。”Mariani說道。
結果:這個項目已經成功交付1年了。新系統目前一周可以處理大約100,000查詢。Mariani說道,它目前運行良好,而且正在產生“數以百萬的美元”的價值,同時使廣告更加有針對性。
Yahoo已經能夠通過比較使用TAO前后的競投比較來測定它的成功。根據Mariani的看法,由TAO管理的競投活動所獲得的受益高出2倍。
“廣告商喜歡它,發布商也喜歡它,因此有利于Yahoo廣告交易,”Mariani說道。
此外,廣告商愿意花費比不使用TAO管理的競投多15%的費用來采用TAO管理的競投,這意味著Yahoo會因此獲得更多的收益。
通過管理數據和快速訪問數據,Yahoo已經能夠提供一個關于客戶片段的更優快照。儀表板報告可以通過圖表表示諸如會話和點擊率等統計信息。
Yahoo目前正處于建立一個可以處理更多日常廣告顯示數和客戶片段的系統,它可以處理相當于目前水平10倍的數據。Mariani表示,這個指標已經在Yahoo實驗室中實現了。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄