盡管大數(shù)據(jù)已經(jīng)離我們?nèi)绱酥隙ㄟ€會(huì)有人問(wèn),“大數(shù)據(jù)”到底是什么意思?套用Gartner的定義,大數(shù)據(jù)指的是無(wú)法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。

也許這樣說(shuō),你還是不明白大數(shù)據(jù)到底是什么,它對(duì)我們到底有什么用。下面我用個(gè)最貼近我們生活的例子來(lái)告訴你什么是大數(shù)據(jù),以及大數(shù)據(jù)到底能為我們做些什么。

中國(guó)是一個(gè)人口大國(guó),每天因?yàn)榧膊∵M(jìn)出醫(yī)院的不計(jì)其數(shù)。隨著醫(yī)院門診量和住院人數(shù)的不斷增多,醫(yī)療數(shù)據(jù)量也變得無(wú)比龐大。大家都清楚醫(yī)療數(shù)據(jù)被安全地存儲(chǔ)有多關(guān)鍵。誰(shuí)也不希望自己的診療病例轉(zhuǎn)眼就不見,明天要做手術(shù)的患者,今天忽然所有病例都不見了,可見是多么恐怖的一件事情。

同時(shí)因?yàn)榛颊叩臄?shù)據(jù)是不能重復(fù)再現(xiàn)的。不僅是數(shù)據(jù)量得到有效保存,而且還要確保數(shù)據(jù)不能丟失。這是大數(shù)據(jù)的根所在——有數(shù)據(jù),還得是有質(zhì)量、真實(shí)的數(shù)據(jù)。這就解釋了大數(shù)據(jù)在醫(yī)療行業(yè)的由來(lái)。
最直觀的大數(shù)據(jù)案例
近些年,一些大規(guī)模的傳播疾病一直沒有間斷,從非典到H7N9,病毒性流感一波又一波襲擾人類,流感病毒不斷變異并傳播開來(lái),令藥物和疫苗要么準(zhǔn)備不及,要么無(wú)法預(yù)防。但是如果能提早發(fā)現(xiàn)流感的發(fā)病趨勢(shì),不僅能為抗病毒藥物的準(zhǔn)備爭(zhēng)取寶貴的時(shí)間,而且還有助于疫苗研發(fā)機(jī)構(gòu)能盡早采取措施。

作為全球最大的搜索引擎,每時(shí)每刻都有上百萬(wàn)用戶在使用谷歌提供的搜索服務(wù),其中搜索健康信息的人亦不在少數(shù)。這些用戶行為提供了海量的有寶貴價(jià)值的分析數(shù)據(jù)。
可以想見,流感流行季,搜索流感癥狀的人會(huì)飆升,而在流感高發(fā)地帶,這一比例會(huì)相應(yīng)提高。這意味著流感相關(guān)關(guān)鍵詞的搜索趨勢(shì)與流感的流行趨勢(shì)及嚴(yán)重程度存在某種程度的相關(guān)性。盡管并不是每個(gè)搜索這類關(guān)鍵詞的人都有流感癥狀或患有流感,但把這些搜索結(jié)果匯總到一起時(shí),或許可以從中建立起一個(gè)準(zhǔn)確可靠的模型,實(shí)時(shí)監(jiān)控時(shí)下的流感疫情,并對(duì)未來(lái)疫情狀況進(jìn)行估測(cè)。

谷歌的工程師們想到了從大數(shù)據(jù)的篩選過(guò)渡到流感的防治問(wèn)題上。但是他們首先面臨的任務(wù)是選擇流感相關(guān)的關(guān)鍵詞。工程師將關(guān)鍵詞的選擇權(quán)交給機(jī)器。他們挑出谷歌搜索量最大 5000 萬(wàn)個(gè)關(guān)鍵詞,分別代入到事先建好的一個(gè)模型中,而后將這一模型產(chǎn)生的曲線與美國(guó)疾病預(yù)防與控制中心(以下簡(jiǎn)稱美國(guó) CDC)的流感流行曲線進(jìn)行擬合,進(jìn)而篩選到擬合度最高 100 個(gè)關(guān)鍵詞。
再?gòu)倪@ 100 個(gè)預(yù)測(cè)性最好的關(guān)鍵詞中,優(yōu)選出與流感有關(guān)的部分,并將其綜合起來(lái)完成預(yù)測(cè)模型的建立。最終有 45 個(gè)關(guān)鍵詞篩出。

實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),預(yù)測(cè)模型好壞的最佳評(píng)價(jià)標(biāo)準(zhǔn)一定是在實(shí)戰(zhàn)中觀察其能否通過(guò)考驗(yàn)。在回溯驗(yàn)證中,谷歌工程師將美國(guó)紐約市 2003 年至 2007 年的季節(jié)性流感數(shù)據(jù)與模型計(jì)算出的數(shù)據(jù)進(jìn)行了比較,發(fā)現(xiàn)相關(guān)系數(shù)達(dá) 0.90。對(duì)于這一模型,更有用的是“未來(lái)”驗(yàn)證的結(jié)果。在回溯結(jié)果的鼓勵(lì)之下,谷歌工程師從 2008 年初開始,將模型導(dǎo)出的結(jié)果與兩周后美國(guó) CDC 公布的數(shù)據(jù)進(jìn)行對(duì)照。結(jié)果依然令人振奮,相關(guān)性同樣達(dá)到了 0.90。最終,工程師們還將這一模型的建立過(guò)程撰寫成論文發(fā)表在《自然》雜志上。
大數(shù)據(jù)衍生出“流感指數(shù)”
很快,谷歌根據(jù)這一結(jié)果推出了名為“流感指數(shù)(Google Flu Trends)”的產(chǎn)品,據(jù)稱能夠提前兩周提供精確度不低于疾控中心的結(jié)果。目前這一指數(shù)已推廣到全球 29 個(gè)國(guó)家,并由檢測(cè)流感拓展到另一種感染性疾病登革熱。谷歌工程師對(duì)這一產(chǎn)品如此自豪,以至于在產(chǎn)品推介視頻中,CDC 的結(jié)果完全淪為陪襯,但事實(shí)果真如此么?

由于“流感指數(shù)”的高低在很大程度上取決于用戶的搜索行為,有觀察家認(rèn)為,如果一些事件會(huì)影響到用戶的搜索,那么指數(shù)就有可能出現(xiàn)假陽(yáng)性或假陰性。果不其然,在谷歌流感指數(shù)運(yùn)行期間,人們逐漸觀察到原有模型的缺陷。
時(shí)至 2013 年,流感再一次引起了世人的廣泛關(guān)注。在中國(guó),H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人傳人的跡象。而在美國(guó),流感流行狀況也十分嚴(yán)峻。紐約州在 2013 年 1 月還特地發(fā)布“公共健康緊急狀態(tài)”的通告,以警示民眾。這些消息獲得大眾媒體的廣泛報(bào)道。然而,谷歌流感指數(shù)的表現(xiàn)再次讓人大跌眼鏡:指數(shù)估值出現(xiàn)了假陽(yáng)性,即遠(yuǎn)高于 CDC 的統(tǒng)計(jì)數(shù)量。盡管谷歌方面對(duì)此并未置評(píng),但大部分關(guān)注這一指數(shù)的研究者認(rèn)為,流感疫情獲得媒體連篇累牘的報(bào)道,影響了谷歌用戶的搜索行為,導(dǎo)致指數(shù)估值出現(xiàn)偏差。

在谷歌流感指數(shù)啟發(fā)之下,很多研究者試圖利用其他渠道(比如社交網(wǎng)站)的數(shù)據(jù)來(lái)預(yù)測(cè)流感。紐約羅切斯特大學(xué)的一個(gè)數(shù)據(jù)挖掘團(tuán)隊(duì)就曾利用 Twitter 的數(shù)據(jù)進(jìn)行了嘗試。利用團(tuán)隊(duì)開發(fā)的文本分析工具,研究者在一個(gè)月內(nèi)收集了 60 余萬(wàn)人的 440 萬(wàn)條 Twitter 信息,挖掘其中的身體狀態(tài)信息。最終的分析結(jié)果表明,研究人員可以提前 8 天預(yù)報(bào)流感對(duì)個(gè)體的侵襲狀況,而且準(zhǔn)確率高達(dá) 90%。
不過(guò)研究者也承認(rèn),這一算法并非完美,比如 Twitter 的使用者大部分是年輕人,而季節(jié)性流感的襲擾對(duì)象多為抵抗力較弱的老年人和兒童。
大數(shù)據(jù)的醫(yī)療應(yīng)用
臨床診斷
通過(guò)全面分析病人特征數(shù)據(jù)和療效數(shù)據(jù),然后比較多種干預(yù)措施的有效性,可以找到針對(duì)特定病人的最佳治療途徑。
其次體現(xiàn)在臨床決策系統(tǒng)。通過(guò)將醫(yī)生處方和醫(yī)療專家?guī)灬t(yī)學(xué)指導(dǎo)比較,系統(tǒng)可提醒醫(yī)生避免出錯(cuò),如藥品不良反應(yīng)、過(guò)度使用抗生素等,幫助醫(yī)生降低醫(yī)療風(fēng)險(xiǎn)。

最后是可以讓臨床醫(yī)療數(shù)據(jù)更加透明。鄔賀銓表示,美國(guó)疾控中心公布了醫(yī)療數(shù)據(jù),幫助病人作出更明智的決定,從而選擇性價(jià)比更高的治療方案。通過(guò)告訴病人多種不同的醫(yī)療方案,病人可以自己選擇治療方案。
遠(yuǎn)程監(jiān)護(hù)
首先,通過(guò)收集數(shù)據(jù),醫(yī)生可以更好地判斷病人病情。例如充血性心臟衰竭的治療檢查費(fèi)用非常高。但是通過(guò)大數(shù)據(jù)分析發(fā)現(xiàn),凡是充血性心臟衰竭的病人,他的頸靜脈會(huì)擴(kuò)張。所以根據(jù)頸靜脈擴(kuò)張的檢查,就能判斷他是不是充血性心臟衰竭。而頸靜脈的檢查,根本就不要成本,摸一下就夠了。而這也是通過(guò)大量數(shù)據(jù)的搜集而總結(jié)出來(lái)的。
其次,通過(guò)對(duì)數(shù)據(jù)的收集和分析,可實(shí)現(xiàn)計(jì)算機(jī)遠(yuǎn)程監(jiān)護(hù),對(duì)慢性病進(jìn)行管理。比如,充血性心臟的標(biāo)志之一是由于保水而增加體重,因此通過(guò)遠(yuǎn)程監(jiān)控體重可發(fā)現(xiàn)相關(guān)疾病,提醒醫(yī)生及時(shí)采取治療措施,防止急性狀況發(fā)生。
計(jì)算機(jī)遠(yuǎn)程監(jiān)護(hù)還可以減少病人住院時(shí)間、減少急診量,提高家庭護(hù)理比例和門診醫(yī)生預(yù)約量。
醫(yī)療研究
首先體現(xiàn)在預(yù)測(cè)建模。通過(guò)收集臨床實(shí)驗(yàn)前期和結(jié)果的數(shù)據(jù),可以評(píng)價(jià)新藥的安全性、有效性以及潛在的副作用,提高研發(fā)效率。
其次是臨床實(shí)驗(yàn)設(shè)計(jì)的統(tǒng)計(jì)工具和算法。通過(guò)挖掘病人數(shù)據(jù),可以評(píng)估和招募患者是否符合試驗(yàn)條件,并進(jìn)一步找出最合適的臨床實(shí)驗(yàn)基地,從而加快臨床試驗(yàn)進(jìn)程。
其實(shí)善用起來(lái),我們樂(lè)觀的想,大數(shù)據(jù)的使用可以改善公眾健康監(jiān)控。公共衛(wèi)生部門可以通過(guò)覆蓋全國(guó)的患者電子病歷數(shù)據(jù)庫(kù),快速檢測(cè)傳染病,進(jìn)行全面的疫情監(jiān)測(cè),并通過(guò)集成疾病監(jiān)測(cè)和響應(yīng)程序,快速進(jìn)行響應(yīng)。這將帶來(lái)很多好處,包括醫(yī)療索賠支出減少、傳染病感染率降低,衛(wèi)生部門可以更快地檢測(cè)出新的傳染病和疫情。真正的用在實(shí)處,相信會(huì)給我們今后的醫(yī)療環(huán)境帶來(lái)非常大的改善。

