2014年4月10日-12日,第五屆中國數(shù)據(jù)庫技術(shù)大會(DTCC 2014)在北京五洲皇冠國際酒店拉開序幕。在為期三天的會議中,大會將圍繞大數(shù)據(jù)應(yīng)用、數(shù)據(jù)架構(gòu)、數(shù)據(jù)管理(數(shù)據(jù)治理)、傳統(tǒng)數(shù)據(jù)庫軟件等技術(shù)領(lǐng)域展開深入探討,并將邀請一批國內(nèi)頂尖的技術(shù)專家來進(jìn)行分享。本屆大會將在保留數(shù)據(jù)庫軟件應(yīng)用實踐這一傳統(tǒng)主題的基礎(chǔ)上,向大數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)治理與分析、商業(yè)智能等領(lǐng)域進(jìn)行拓展,以滿足于廣大從業(yè)人士和行業(yè)用戶的迫切需要。

第五屆中國數(shù)據(jù)庫技術(shù)大會
自2010年以來,國內(nèi)領(lǐng)先的IT專業(yè)網(wǎng)站IT168聯(lián)合旗下ITPUB、ChinaUnix兩大技術(shù)社區(qū),已經(jīng)連續(xù)舉辦了四屆中國數(shù)據(jù)庫技術(shù)大會,每屆大會與會規(guī)模超千人,大會云集了國內(nèi)水平最高的數(shù)據(jù)架構(gòu)師、數(shù)據(jù)庫管理和運維工程師、數(shù)據(jù)庫開發(fā)工程師、研發(fā)總監(jiān)和IT經(jīng)理等技術(shù)人群,是目前國內(nèi)最受歡迎、人氣最高的的數(shù)據(jù)庫技術(shù)交流盛會。今年是中國數(shù)據(jù)庫技術(shù)大會五周年,大會將繼續(xù)秉承分享IT最佳應(yīng)用實踐的宗旨,圍繞傳統(tǒng)數(shù)據(jù)庫和大數(shù)據(jù)兩條技術(shù)主線,在目前IT技術(shù)和管理快速的大背景下,更加深入地探討數(shù)據(jù)庫技術(shù)的現(xiàn)狀和未來的發(fā)展方向,以及我們在這個轉(zhuǎn)型過程中的實踐經(jīng)驗和教訓(xùn)。
在4月10日下午舉行的《Hadoop技術(shù)實戰(zhàn)和應(yīng)用》專場演講中,來自愛奇藝技術(shù)產(chǎn)品中心的專家孫琦老師為我們分享了關(guān)于《愛奇藝在Hadoop生態(tài)中大數(shù)據(jù)平臺架構(gòu)與實踐》的相關(guān)話題。

愛奇藝技術(shù)產(chǎn)品中心的專家孫琦老師
根據(jù)孫琦老師介紹,自2014年1月以來,愛奇藝PPS已經(jīng)連續(xù)2月日均覆蓋、月度覆蓋、月度時長和人均月度時長均排名第1。在Hadoop生態(tài)建設(shè)方面,愛奇藝目前的狀況是:
· 與2010年8月開始搭建,最初只有50臺機器;
· 目前已經(jīng)具有一定規(guī)模,且在迅速擴容;
· 多機房部署,專線互聯(lián);
· 涵蓋Apache Hadoop生態(tài)的所有主要組件;
· 物理機集群與虛機集群共存的部署模式;
· 公共集群和專屬集群共存的運營模式。

據(jù)了解,愛奇藝Hadoop目前處理的數(shù)據(jù)量為20PB左右,日處理Job數(shù)達(dá)到了100000+,服務(wù)包括搜索、廣告、推薦、日志分析、BI等等。盡管愛奇藝在應(yīng)用Hadoop方面已經(jīng)取得了一系列的成就,但孫琦老師表示,目前愛奇藝還沒完全進(jìn)入Hadoop 2.0時代。
愛奇藝Hadoop生態(tài)圖
· 數(shù)據(jù)格式:ProtoBuf、JSON為主,統(tǒng)一數(shù)據(jù)定義,以便數(shù)據(jù)共享
· 批處理以Hive作業(yè)為主
· Storm、Spark實時計算資源托管在Mesos或Openstack虛機之上
· 大部分HBase應(yīng)用是為離線計算服務(wù)
· 作業(yè)提交管理:入口機 + 專用提交系統(tǒng)
· 系統(tǒng)監(jiān)控:傳統(tǒng)監(jiān)控 (Nagios, Zabbix) + Metrics數(shù)據(jù)聚合
· 成本審計:貨幣化度量項目組開銷

最后,針對愛奇藝Hadoop生態(tài)系統(tǒng),孫琦老師也進(jìn)行了功能方面的回顧。包括已經(jīng)跨機房在多個HBase集群之間配置;數(shù)據(jù)延遲在毫秒級;為業(yè)務(wù)組提供了跨機房數(shù)據(jù)共享的條件;幾次的網(wǎng)絡(luò)故障已經(jīng)證明了該機制的可靠性。
對于未來的計劃,孫琦老師表示,未來將增加HDFS Erasure Code的支持、支持Kerberos;進(jìn)入Hadoop 2.0,實現(xiàn)多框架對資源的共享;統(tǒng)一MR/Spark/Storm作業(yè)提交界面,以及深度整合Openstack、Mesos與Hadoop生態(tài)。

