
隨著云時(shí)代的到來(lái)和SaaS概念的引入,越來(lái)越多的企業(yè)開始選擇由SaaS應(yīng)用提供商、運(yùn)營(yíng)商等通過互聯(lián)網(wǎng)平臺(tái)提供SaaS應(yīng)用服務(wù),SaaS應(yīng)用的數(shù)據(jù)量面臨著TB級(jí)的增長(zhǎng)速度;不同的SaaS應(yīng)用體系,提供的數(shù)據(jù)結(jié)構(gòu)也不完全相同,數(shù)據(jù)有文本、圖形甚至小型數(shù)據(jù)庫(kù);SaaS應(yīng)用數(shù)據(jù)隨著云服務(wù)平臺(tái)的分布性特點(diǎn),有可能分布在不同的服務(wù)器上,如何對(duì)這些異構(gòu)異源的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,是云時(shí)代的企業(yè)面臨的難題。
云時(shí)代企業(yè)數(shù)據(jù)挖掘面臨的挑戰(zhàn)
挖掘效率:進(jìn)入云計(jì)算時(shí)代后,BI的思路發(fā)生了轉(zhuǎn)換。以前是基于封閉的企業(yè)數(shù)據(jù)進(jìn)行挖掘,而面對(duì)引入互聯(lián)網(wǎng)應(yīng)用后海量的異構(gòu)數(shù)據(jù)(據(jù)預(yù)計(jì)到2020年,爆發(fā)式增長(zhǎng)的數(shù)據(jù)量將突破35ZB(1ZB=10億TB))時(shí),目前并行挖掘算法的效率很低。
多源數(shù)據(jù):引入云計(jì)算后,企業(yè)數(shù)據(jù)的位置有可能在提供公有云服務(wù)的平臺(tái)上,也可能在企業(yè)自建的私有云上,如何面對(duì)不同的數(shù)據(jù)源進(jìn)行挖掘也是一個(gè)挑戰(zhàn)。
異構(gòu)數(shù)據(jù):Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,如文檔、報(bào)表、網(wǎng)頁(yè)、聲音、圖像、視頻等,而云計(jì)算帶來(lái)了大量的基于互聯(lián)網(wǎng)模式提供的SaaS應(yīng)用,如何梳理有效數(shù)據(jù)是一個(gè)挑戰(zhàn)。
SaaS應(yīng)用的數(shù)據(jù)挖掘希望能夠通過海量數(shù)據(jù)存儲(chǔ)平臺(tái),引入快速并行的挖掘算法,提高數(shù)據(jù)挖掘的質(zhì)量。
CIO頻道人物視窗
CIO頻道方案案例庫(kù)
大數(shù)據(jù)建設(shè)方案案例庫(kù)
電子政務(wù)建設(shè)方案案例庫(kù)
互聯(lián)集成系統(tǒng)構(gòu)建方案案例庫(kù)
商務(wù)智能建設(shè)方案案例庫(kù)
系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄