隨著Oracle宣布Big Data Appliance(大數(shù)據(jù)設備),Oracle聯(lián)合創(chuàng)始人兼首席執(zhí)行官Larry Ellison在去年10月回到了自己大數(shù)據(jù)路線,當時Oracle給人的印象是它將會推出自己的開源Apache Hadoop。
Ozbutun表示Exadata數(shù)據(jù)庫集群、Exalogic中間件集群以及現(xiàn)在的Big Data Appliance的主要關注點在于停止將注意力放在CPU上而應該將注意力放在如何擁有正確的系統(tǒng)I/O和網(wǎng)絡帶寬組合。許多客戶過度配置CPU,而在 網(wǎng)絡和I/O上則犯了過少配置的錯誤。這意味著他們雖然在硬件上花了很多錢,但是卻沒有讓Hadoop運行得更好。Oracle花了數(shù)月時間設置并調(diào)整這 個系統(tǒng),確保機架中沒有不必要的配置,因為——和其他高性能計算客戶一樣——Hadoop的客戶也很小氣。
Big Data Appliance包含CDH3終身貼牌許可以及核心Oracle軟件許可證,每個機架的價格是45萬美元。這比全配置的Exadata要便宜得多,后者包含數(shù)據(jù)庫服務器、Exadata存儲陣列、Oracle 11g R2數(shù)據(jù)庫和Real Application集群擴展,同時96核的Exadata X2-2價格是447萬美元。這個價格里面的硬件成本是110萬美元——只是用于比較。
連接器
除了Big Data Appliance以外,Oracle還推出一套連接器來連接Oracle數(shù)據(jù)庫和Hadoop數(shù)據(jù)倉庫。在去年10月,Oracle就在幻燈片上暗示了這一點,但是沒有討論具體的細節(jié)。
第一個連接器是Oracle Loader for Hadoop。它可以將數(shù)據(jù)從Oracle 11g R2數(shù)據(jù)庫遷移到Hadoop數(shù)據(jù)倉庫。有許多方法可以實現(xiàn)這個功能并,不過Ozbutun表示這個連接器的特點在于它專門針對大宗數(shù)據(jù)分區(qū)、轉換,而其他工作則由Hadoop集群來做而不是由運行Oracle數(shù)據(jù)庫的機器來做。
第二個連接器是Oracle Data Integrator for Hadoop。它是現(xiàn)有Data Integrator(數(shù)據(jù)整合器)工具上的一個功能,可以自動生成MapReduce代碼來分析數(shù)據(jù)并將數(shù)據(jù)集呈給Oracle數(shù)據(jù)庫。
第三個連接器是所謂的Direct Connection for HDFS。它基本上是HDFS文件系統(tǒng)的一部分,可以將數(shù)據(jù)映射為一個Oracle數(shù)據(jù)庫表。
最后第四個連接器是所謂的R Connector for Hadoop。通過這個工具,Oracle確實已經(jīng)消化了開源的R統(tǒng)計分析包并增加了優(yōu)化的算法庫來將其連接到Big Data Appliance堆棧的各種數(shù)據(jù)倉庫。這個連接器并不是基于來自Revolution Analytics的Hadoop友好型R工具。
這四個Hadoop數(shù)據(jù)連接器的捆綁包的價格是每臺服務器處理器2000美元。

