Intel研究院院長吳甘沙在其最近的演講“大數據分析師的卓越之道” 中特別提到了外部數據采集問題, 原文如下:
第二個,數據采集,這里我非??鋸埖貜娬{“數據!數據!數據!”為什么?因為大數據碰到的第一個問題就是數據饑渴癥。我們有一次跟阿里聊,他們說也缺數據,只有網上的銷售記錄,而缺乏無線的數據。所以我們強調全量數據,我們盡量不采樣。
同時現在我們企業已經從小數據到大數據,有人說數據改變太困難了,太貴了,其實它強調的是問題還沒存在的時候。傳統的數據倉庫是,我先有一個問題,然后根據這個問題搜集和組織數據。從現在的大數據來說,需要先把數據送進來,然后再不斷的提問題,這就是一種新的思維。我們需要大量的外部數據源,而且你要從傳統的結構化數據到半結構化、非結構化數據。
對于外部數據饑渴癥,最好的方法之一就是采用樂思網絡信息采集系統,可對任意外部Web數據加以采集整合,解決“巧婦難為無米之炊”的問題。例如,我們的一個客戶采集整合了大量法院的判決信息,資產信息,從而可在3秒鐘內提供特定實體的資產與負債情況,很受律師界相關人士歡迎。