大數(shù)據(jù)區(qū)別于海量數(shù)據(jù)的一個(gè)重要特質(zhì)就是處理大量混合結(jié)構(gòu)的數(shù)據(jù)。在生物醫(yī)學(xué)領(lǐng)域,有很多這類數(shù)據(jù)需要處理。軍事醫(yī)學(xué)科學(xué)院衛(wèi)生勤務(wù)與醫(yī)學(xué)情報(bào)研究所副研究員王玉峰在第四屆中國(guó)云計(jì)算大會(huì)上分享了,他運(yùn)用NoSQL處理生物醫(yī)學(xué)大數(shù)據(jù)的過(guò)程。王玉峰表示,大數(shù)據(jù)整合應(yīng)用涵蓋健康管理數(shù)據(jù),海量測(cè)序數(shù)據(jù);而大數(shù)據(jù)管理、整合、分析則是大數(shù)據(jù)下IT的挑戰(zhàn)。
王玉峰表示,生物醫(yī)學(xué)是融合了醫(yī)學(xué)、生物學(xué)包括工程學(xué)、信息技術(shù)的關(guān)聯(lián)學(xué)科,應(yīng)該說(shuō)基于信息技術(shù),把研究過(guò)程銜接起來(lái),他們想通過(guò)基因工程研究怎么樣把基礎(chǔ)醫(yī)學(xué)研究成果更好的從藥物研發(fā)、藥物研發(fā)來(lái)整合,我們可以通過(guò)這個(gè)圖表簡(jiǎn)單看一下,這個(gè)圖表是五年來(lái)關(guān)于癌癥研究與藥物靶點(diǎn)基因研究的文獻(xiàn),在信息技術(shù)推出,生物醫(yī)學(xué)逐漸轉(zhuǎn)變成重要的研究領(lǐng)域,并且在經(jīng)歷大數(shù)據(jù)的沖擊。第一個(gè)大數(shù)據(jù)來(lái)源,是高通量,個(gè)性化診療基本通過(guò)人與人的基因差異,指導(dǎo)個(gè)性化的用藥,進(jìn)異步增強(qiáng)診療的針對(duì)性,這種過(guò)程是比較復(fù)雜的,花費(fèi)30億美元。
大數(shù)據(jù)的四個(gè)來(lái)源
2005年這項(xiàng)技術(shù)高速發(fā)展,它的測(cè)序能力每五個(gè)月翻一番,藍(lán)色的線存儲(chǔ)的變化趨勢(shì),紅色的是測(cè)序能力增長(zhǎng)。如果一旦按照這個(gè)趨勢(shì)發(fā)展,有人預(yù)測(cè)到2015年全世界有100萬(wàn)人把自己個(gè)人的測(cè)序能夠問(wèn)題,現(xiàn)在可以想象,如果隨著生物學(xué)技術(shù)研究,如果能更好的指導(dǎo)個(gè)性化診療和用藥,對(duì)于人的健康和醫(yī)學(xué)影響是不可估量的。
我們可以看到計(jì)算能力和測(cè)序能力逐步增加。
大數(shù)據(jù)另一個(gè)來(lái)源在藥物研發(fā)領(lǐng)域,也是在生物學(xué)的發(fā)展,藥物研發(fā)發(fā)展模式通過(guò)尋找癌癥,尋找藥物靶點(diǎn),在化合物中尋找發(fā)現(xiàn)化合物,從前面基礎(chǔ)研究到后面基礎(chǔ)設(shè)置,相當(dāng)密集型的過(guò)程,對(duì)于中小型的企業(yè)也在TB以上的。
第三個(gè)數(shù)據(jù)來(lái)源是臨床醫(yī)療,實(shí)驗(yàn)室數(shù)據(jù),不這些數(shù)據(jù)整合在一起,使得醫(yī)療機(jī)構(gòu)面臨的數(shù)據(jù)增長(zhǎng)非常快的,美國(guó)的匹斯堡大學(xué)醫(yī)學(xué)中心UPMC達(dá)到兩個(gè)TB。
第四個(gè)大數(shù)據(jù)來(lái)自于健康管理,移動(dòng)醫(yī)療是這兩年非常熱的領(lǐng)域,企業(yè)調(diào)查說(shuō)會(huì)達(dá)到14億美元,比2010年翻了10倍,便攜化的生理設(shè)備,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展也是大大普及,特別Web2.0的健康服務(wù)與健康網(wǎng)絡(luò),關(guān)于自己個(gè)體健康信息,如果都能連入互聯(lián)網(wǎng)這個(gè)數(shù)量不可估量,移動(dòng)互聯(lián)網(wǎng)8億,可以想像這是未來(lái)的重要的大數(shù)據(jù)來(lái)源。
以上我們看到的生物學(xué)領(lǐng)域關(guān)于大數(shù)據(jù)四個(gè)主要的來(lái)源,事實(shí)上這四個(gè)數(shù)據(jù)來(lái)源并不是孤立的,未來(lái)生物研究學(xué)的人士希望數(shù)據(jù)整合出來(lái),挖掘分析能夠支持臨床的決策,要想實(shí)現(xiàn)這樣的目標(biāo)或者說(shuō)我們可以看到面臨大數(shù)據(jù)諸多的管理者和分析利用的諸多挑戰(zhàn)。事實(shí)上,這些挑戰(zhàn)解決非常難,現(xiàn)在利用云計(jì)算技術(shù)有些先行者和創(chuàng)新者公司和企業(yè)也嘗試用云計(jì)算解決若干個(gè)問(wèn)題,并且也已經(jīng)有了初步的成果,利用云平臺(tái),云這樣的基礎(chǔ)解決方案以服務(wù)的形式發(fā)布出來(lái),可以讓一般的中小規(guī)模的科研機(jī)構(gòu),研究所,能夠享用這些開放服務(wù),站在別人的肩膀上繼續(xù)前進(jìn)。
生物學(xué)大數(shù)據(jù)應(yīng)用的四個(gè)方面
下面從四個(gè)方面來(lái)重點(diǎn)介紹一下在云出現(xiàn)的比較有影響的在云端生物學(xué)大數(shù)據(jù)的應(yīng)用。這四個(gè)方面分別是基因測(cè)序,臨床藥物研發(fā)管理以及健康管理。第一個(gè)案例是Crossbow,這是對(duì)全基因分析的流程軟件,它的意義在于原來(lái)開發(fā)之前,完成一個(gè)人健康分析的在單個(gè)服務(wù)器,這軟件通過(guò)亞馬遜云平臺(tái)上的Hodoop把時(shí)間縮小了。結(jié)果來(lái)看,它現(xiàn)在在32CPU核上任務(wù)壓縮3小時(shí)不到,整個(gè)成本不到100美元,這是眾多工作中的一部分。從Crossbow項(xiàng)目開始,事實(shí)上相關(guān)公司投身到怎樣利用云計(jì)算加速DNS數(shù)據(jù)的分析,其中有個(gè)比較重要的叫DNAnexus,我們可以看到公司提供的服務(wù)初衷在實(shí)驗(yàn)室經(jīng)過(guò)測(cè)序儀,人類基因測(cè)一次數(shù)據(jù),原始數(shù)據(jù)在100個(gè)G到600個(gè)G之間,通過(guò)服務(wù)導(dǎo)入到云服務(wù)平臺(tái),后來(lái)提供了非常靈活的多樣化的各類各樣的關(guān)于數(shù)據(jù)的測(cè)序分析和比對(duì)的工作流程,數(shù)據(jù)可以有效的管理起來(lái),并且測(cè)序結(jié)果能夠很好的以用戶很好的形式展現(xiàn)出來(lái),或者把第三方數(shù)據(jù)安全可靠共享出來(lái)。
這是它的基本業(yè)務(wù)的圖,這個(gè)公司比較有名的一點(diǎn),在去年谷歌投了1500萬(wàn)美元,和谷歌一起接觸CPI的數(shù)據(jù)庫(kù),它原來(lái)是基于亞馬遜的平臺(tái)來(lái)承載它的測(cè)序分析服務(wù),當(dāng)時(shí)號(hào)稱用了亞馬遜10個(gè)CPU,未來(lái)會(huì)遷移到谷歌云平臺(tái)來(lái)。除了DNAnexus美國(guó)研發(fā)投入非???,也有些公司做類似的工作,因?yàn)檫@個(gè)領(lǐng)域中,基于基因測(cè)序的分析,所產(chǎn)生的這種無(wú)論是指導(dǎo)對(duì)方的診療,數(shù)據(jù)挖掘方面意義都非常之大。
第三是臨床醫(yī)療數(shù)據(jù)管理應(yīng)用,美國(guó)的公司Explorys,它是基于私有云的模式,向第三方機(jī)構(gòu)提供服務(wù),第三方機(jī)構(gòu)可以把自己臨床數(shù)據(jù)、運(yùn)維數(shù)據(jù)財(cái)務(wù)數(shù)據(jù)托管到這個(gè)平臺(tái)來(lái),這個(gè)平臺(tái)提供最大的好處能實(shí)時(shí)提供數(shù)據(jù)分析,這個(gè)規(guī)模托管了1300萬(wàn)人,大概4400億的內(nèi)容,數(shù)據(jù)規(guī)模在60個(gè)TB左右,2013年達(dá)到70個(gè)TB,頂層技術(shù)在Hodoop上走的。
第四個(gè)應(yīng)用是電子病歷,這個(gè)公司也是美國(guó)的公司,叫Practice Fusion,美國(guó)這種是中小之多,降低成本可以使用Saas的方式,他們規(guī)模有10萬(wàn)個(gè),兩千萬(wàn)個(gè)注冊(cè)病人,提供的功能醫(yī)生安排,病人的診療計(jì)劃與簽約,甚至面向病人個(gè)人的管理,他們也會(huì)提供。
第五個(gè)應(yīng)用基于臨床的醫(yī)療方面的應(yīng)用,這家研究中心是德州大學(xué)安德森腫瘤中心,在全美名列前茅,滿足自己醫(yī)院臨床診療服務(wù),民像分析服務(wù)他們自建了私有云,提供了資源合理的虛擬化和動(dòng)態(tài)的處理能力,私有云現(xiàn)在來(lái)看,它的能力在八千個(gè)處理器并且能夠支撐三個(gè)TB以上的數(shù)據(jù),他們承載能力非常多樣,包括腫瘤的病理學(xué)的研究、流行病學(xué),對(duì)于病因的精準(zhǔn)預(yù)測(cè)和模型研究,他們之所以承建打算用私有云技術(shù)來(lái)解決,他們有兩方面考慮,一方面是大型私人醫(yī)療機(jī)構(gòu)很關(guān)心病理的問(wèn)題,他們數(shù)據(jù)規(guī)模相當(dāng)大,用了10億張的數(shù)據(jù),據(jù)他們CIO說(shuō),他們幾家大的提供商來(lái)交流,發(fā)現(xiàn)公有云給他們提供的服務(wù)平臺(tái)的服務(wù)質(zhì)量保證, 可能沒有辦辦法接受,所以打算自己投資建立私有云的數(shù)據(jù)中心。
第六個(gè)案例是藥物研發(fā)過(guò)程管理,藥物研發(fā)管理是耗時(shí)非常長(zhǎng),數(shù)據(jù)量非常龐大的過(guò)程,日本富士通公司針對(duì)研究過(guò)程中的數(shù)據(jù)管理提供了Saas服務(wù),這個(gè)服務(wù)主要面向日本的中小型企業(yè),在美國(guó)有一家公司做得比較好,AMAG,這家公司2009年完全把IT業(yè)務(wù),自己不買服務(wù)器,并且所有的業(yè)務(wù)都是采用SaaS模式的軟件服務(wù),目前他們使用了很多家的SaaS服務(wù),包括存儲(chǔ),他們現(xiàn)在在Egnyte存儲(chǔ)量達(dá)到6TB,他們這個(gè)非常鮮明,目前來(lái)看,他們數(shù)據(jù)安全得到有效的保證。
最后案例介紹的微軟的HealthVault,很多人應(yīng)該知道這個(gè)平臺(tái),它是2007年發(fā)布的,目標(biāo)希望來(lái)管理個(gè)人及家庭的健康儀,現(xiàn)在達(dá)到功能比如說(shuō)手中可以來(lái)錄入上傳,可以從便攜設(shè)備,到第三方的機(jī)構(gòu)導(dǎo)入病歷記錄,通過(guò)提供開放的SDK或者開放的接口支持與第三方應(yīng)用的集成,提供實(shí)現(xiàn)了Store的模式應(yīng)用。這是微軟自己私有云,現(xiàn)在 號(hào)稱這個(gè)云往安卓上遷移,前段提供了Web,生理檢測(cè)設(shè)備提供了標(biāo)準(zhǔn)接口的模式。對(duì)以上的發(fā)言做個(gè)小結(jié),可以看到在生物醫(yī)學(xué)的大數(shù)據(jù)應(yīng)用領(lǐng)域,已經(jīng)嘗試大數(shù)據(jù)的來(lái)做,他們更多的基于無(wú)論公有云還是私有云,最終都是希望能夠提供把大數(shù)據(jù)能力開放出來(lái)?,F(xiàn)在從大數(shù)據(jù)研究來(lái)看,都是在歐美。
可以說(shuō)從以上應(yīng)用可以看到,很多廠商他們考慮利用云計(jì)算處理大數(shù)據(jù)的時(shí)候更多考慮安全和帶寬成本問(wèn)題,大數(shù)據(jù)集中在本地,極端在云端數(shù)據(jù)交換開銷往往使你的業(yè)務(wù)性能非常受拖累,之所以很多應(yīng)用遷移到云端重要的考慮大數(shù)據(jù)本身也在往云端遷移,特別在生物醫(yī)學(xué)領(lǐng)域現(xiàn)象非常明顯,在亞馬遜,現(xiàn)在包括生物醫(yī)學(xué)領(lǐng)域這種TB的數(shù)據(jù),在亞馬遜都有很好的做法,你在上面部署數(shù)據(jù)流程的在亞馬遜自然可以使用這些數(shù)據(jù)。云計(jì)算在Hadoop起到了非常重要的作用。可以看到隨著測(cè)序技術(shù)的普及,臨床病歷,生物學(xué)快速運(yùn)用進(jìn)入常態(tài)化,我們面對(duì)各種應(yīng)用基本都是大數(shù)據(jù)應(yīng)用,云計(jì)算為大數(shù)據(jù)應(yīng)用提供了很好的模式,我們應(yīng)該推動(dòng)醫(yī)學(xué)數(shù)據(jù)的整合與應(yīng)用,并且借鑒Marketplace的模式來(lái)構(gòu)建我們自己的生物醫(yī)學(xué)的數(shù)據(jù)集資源。

