如 今,包括電視在內的許多媒體,都有“大數據分析”相關的一些欄目,大數據的概念也正在悄悄進入普通老百姓的意識中。我最早接觸大數據應用的時候,被其中的 一個重要案例所吸引,那就是谷歌與甲型H1N1流感的傳奇故事。我們不得不佩服谷歌公司的眼光,從其誕生之日,谷歌就保存了用戶所有的搜索記錄,其他許多 公司是不是將這些數據都當做垃圾扔掉了?你以為你在用谷歌搜索呀,其實谷歌也在搜索你!谷歌知道了我們在什么地方、什么時間,對什么東西感興趣。如果將大量用戶的這些東西結合在一起,是不是有巨大的商業價值?現在,谷歌每天都會收到來自全球超過30億條的搜索指令,如此龐大的數據資源足以支撐和幫助它完成各種有趣的工作,關鍵在于你的想象力。
谷 歌的工程師們很早就發現,某些搜索字詞非常有助于了解流感疫情:在流感季節,與流感有關的搜索會明顯增多;到了過敏季節,與過敏有關的搜索會顯著上升;而 到了夏季,與曬傷有關的搜索又會大幅增加。這是很容易理解的,一般的人沒有什么生病的癥狀,是不會去主動查那些與疾病相關的內容的。于是,2008年谷歌 推出了“谷歌流感趨勢”(GFT),這個工具根據匯總的谷歌搜索數據,近乎實時地對全球當前的流感疫情進行估測,但當時并沒有引起太多人的關注。2009 年在H1N1爆發幾周前,谷歌公司的工程師們在Nature上發表了一篇論文,介紹了GFT,成功預測了H1N1在全美范圍的傳播,甚至具體到特定的地區和州,而且判斷非常及時,令公共衛生官員們和計算機科學家們倍感震驚。與習慣性滯后的官方數據相比,谷歌成為了一個更有效、更及時的指示標,不會像疾控中心一樣要在流感爆發一兩周之后才可以做到。這個工具最初運行表現很好,許多國家的研究人員已經證實,其流感樣疾?。╥nfluenza-like illness, ILI)的估計是準確的。
2013 年2月,GFT再次上了頭條,但這次不是因為谷歌流感跟蹤系統又有了什么新的成就。2013年1月,美國流感發生率達到峰值,谷歌流感趨勢的估計比實際數 據高兩倍,就是這個不精確性再次引起了媒體的關注。事實上,在2013年的報道之前,GFT就多次在很長一段時間內過高地估計了流感的流行情況。 從2011年8月到2013年9月108周中,谷歌開發工具超估流感流行高達100個周。2012 - 2013與2011 - 2012的季節相比,它高估了流感流行趨勢超過50%。在去年冬天的流感季節高峰,谷歌追蹤是疾病控制和預防中心(CDC)實際搜集數據的兩倍。這些錯誤 不是隨機分布的。例如,前一周的錯誤會影響預測下一周的錯誤(時間自相關),錯誤的方向和大小隨季節而變化,這些模式使得GFT高估了相當多的信息,而這 些信息原本是可以通過傳統統計方法提取而避免的。
在上周Science上發表的一篇文章“谷歌流感的寓言:大數據分析的陷阱”,就是以這個故事為案例,解釋了大數據分析為何會背離事實,并提出了大數據時代背景下一些值得思考的事。作者認為造成這種結果有兩個重要原因,分別是大數據浮夸(Big Data Hubris)和算法變化。(1)我 們經常隱含的假設是,大數據是傳統的數據收集和分析的替代品,而不是補充。在其他地方,我們斷言大數據有巨大的科學可能性,但是,數據的量并不意味著人們 可以忽略測量的基本問題,構造效度和信度以及數據間的依賴關系。其核心挑戰是大多數大數據得到了大眾的關注,但并沒有產生對科學分析來說有效和可靠的數 據。(2)在谷歌為改善其服務中,也改變了數據生成過程。這些調整有可能人為推高了一些搜索,并導致谷歌的高估。例如,2011年,作為常規搜索算法調整的一部分,谷歌對 于許多查詢開始采用推薦相關搜索詞(包括列出與許多流感相關術語的尋找流感治療的清單)的方式,在2012年,為了響應對癥狀的搜索,谷歌開始提供診斷術 語(當用“喉嚨痛”搜索時,會列出許多相關的搜索詞,見下圖;當然不同的語言差別也是很大的)。研究人員認為,如果是這樣,那么谷歌流感趨勢不準確性就不 是必然的,這并不是谷歌的方法或大數據分析本身存在什么缺陷,可以通過改變搜索引擎的一些策略。


另 外,當研究人員對在過去幾年各種流感相關的查詢進行研究時,他們發現兩個關鍵搜索詞(流感治療,以及如何區分流感、受涼或感冒)與谷歌流感趨勢結合更密 切,而不是實際的流感,看來這些特殊的搜索似乎是導致不準確問題的大部分原因。從大數據追蹤流感是一個特別困難的問題。事實證明,很大一部分與CDC流感 發生率數據相關的搜索詞,并非是得流感的人引起的,而是由影響搜索模式和流感傳播的第三個因素(季節)產生的。事實上,谷歌流感趨勢的開發人員發現那些特定的搜索詞是隨時間而發生變化的,但這些搜索顯然與病毒無關。
這些問題并不限于GFT。研究搜索或社會媒體能否預測某個未知的參數已經成為一種普遍現象,與傳統方法和假設形成了鮮明的對比。盡管這些研究顯示了這些數據的價值,但是還遠未達到要取代傳統的方法或理論的地步。大數據在幫助公共衛生事業方面具有巨大的潛力,但如果沒有足夠的背景信息,僅僅靠數字可能是會誤導人的。谷 歌是一個業務,但也保留著人們的愿望、想法和聯系的數據。確定谷歌流感趨勢出現問題的確切位置并不容易,因為該公司的搜索算法和數據收集過程是其專有技 術。誠然,對局外人來說很難分析谷歌流感趨勢,因為該公司并不愿公開特定搜索詞的原始數據,以及將這些搜索詞出現頻率轉化為流感評估的特定算法。上周Science文章的作者也仍然認為,問題是可以解決的。他們推薦應該將大數據與小數據(即傳統的控制數據集)結合起來,創建對人類行為更深入、更準確的表達。
科 學是一個是站在巨人肩膀上逐漸累積的過程,需要科學家能夠不斷地評估他們建立的工作,而知識的積累需要數據形式的燃料。相關研究者網絡總是想提高大數據項 目的價值,并從這些類型的數據中擠出更多的可操作性的信息。最初GFT是希望產生一個能準確反映當前流行傳染病可能,這樣可早日采取措施進行生命救治的干 預。從根本上講這是正確的,所有的分析表明,這確實是有價值的信息提取。另一個值得重視的問題是數據的源頭,不管是私營企業還是社交媒體都可能存在有意無 意地操縱數據的問題,因為他們總是要確保與其產品的相關性或贏得廣告收入。對各個流感的分析表明,最好的結果來自兩個來源的信息和技術的結合。取代談論“大數據革命”的應該是“全數據革命”(all data revolution),應該用全新的技術和方法對各種問題進行更多更好的分析。
原文鏈接:http://blog.sciencenet.cn/blog-502444-776900.html

