Intel研究院院長(zhǎng)吳甘沙在其最近的演講“大數(shù)據(jù)分析師的卓越之道” 中特別提到了外部數(shù)據(jù)采集問(wèn)題, 原文如下:
第二個(gè),數(shù)據(jù)采集,這里我非常夸張地強(qiáng)調(diào)“數(shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)!”為什么?因?yàn)榇髷?shù)據(jù)碰到的第一個(gè)問(wèn)題就是數(shù)據(jù)饑渴癥。我們有一次跟阿里聊,他們說(shuō)也缺數(shù)據(jù),只有網(wǎng)上的銷售記錄,而缺乏無(wú)線的數(shù)據(jù)。所以我們強(qiáng)調(diào)全量數(shù)據(jù),我們盡量不采樣。
同時(shí)現(xiàn)在我們企業(yè)已經(jīng)從小數(shù)據(jù)到大數(shù)據(jù),有人說(shuō)數(shù)據(jù)改變太困難了,太貴了,其實(shí)它強(qiáng)調(diào)的是問(wèn)題還沒(méi)存在的時(shí)候。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)是,我先有一個(gè)問(wèn)題,然后根據(jù)這個(gè)問(wèn)題搜集和組織數(shù)據(jù)。從現(xiàn)在的大數(shù)據(jù)來(lái)說(shuō),需要先把數(shù)據(jù)送進(jìn)來(lái),然后再不斷的提問(wèn)題,這就是一種新的思維。我們需要大量的外部數(shù)據(jù)源,而且你要從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。
對(duì)于外部數(shù)據(jù)饑渴癥,最好的方法之一就是采用樂(lè)思網(wǎng)絡(luò)信息采集系統(tǒng),可對(duì)任意外部Web數(shù)據(jù)加以采集整合,解決“巧婦難為無(wú)米之炊”的問(wèn)題。例如,我們的一個(gè)客戶采集整合了大量法院的判決信息,資產(chǎn)信息,從而可在3秒鐘內(nèi)提供特定實(shí)體的資產(chǎn)與負(fù)債情況,很受律師界相關(guān)人士歡迎。