2008年Google成立10周年,英國Nature雜志曾出版關于“討論大數(shù)據(jù)處理的技術問題和未來挑戰(zhàn)”的專輯,最早提出了“Big?Data”的概念。隨著計算機科學技術和信息工程技術的迅猛發(fā)展和普及應用,各行業(yè)數(shù)據(jù)呈爆炸性增長,大數(shù)據(jù)處理的迫切性和重要性已經(jīng)獲得全球?qū)W術界、工業(yè)界和各國政府的高度關注和重視。2012年3月,美國總統(tǒng)奧巴馬簽署并發(fā)布了“大數(shù)據(jù)研究發(fā)展創(chuàng)新計劃”,該計劃由美國國家自然科學基金會(NationalScience?Foundation,NSF)、美國國立衛(wèi)生研究院(National?Institutes?of?Health,NIH)、能源部(Department?of?Energy,DOE)、國防部(Department?of?Defense,DOD)等6大部門聯(lián)合投資2億美元啟動。中國的學術界和工業(yè)界也在積極趕超世界前沿,廣泛開展大數(shù)據(jù)技術的研究和開發(fā)。“十一五”以來,國家科技部973、863?計劃聯(lián)合工業(yè)和信息化部開展的核高基等科技重大專項、國家自然科學基金等重大科研計劃均已將大數(shù)據(jù)列為重要的研究內(nèi)容。
人類基因組計劃(human?genome?project,HGP)、基因組單體型圖計劃(hapmapproject)、全基因組關聯(lián)分析(genome-wide?association?study,GWAS)、DNA元件百科全書(encyclopedia?of?DNA?elements,ENCODE)、表觀路線圖(NIH?roadmap?epigenomics)等大型組學計劃的順利完成,帶動了生命科學領域的重大變革。高通量測序、高性能質(zhì)譜等組學技術得以快速發(fā)展,生命科學研究產(chǎn)生了大量有價值的包括基因組學、轉(zhuǎn)錄組學、蛋白質(zhì)組學、代謝組學等在內(nèi)的“生物大數(shù)據(jù)”。整合分析多重組學數(shù)據(jù)和臨床資料,構(gòu)建健康與疾病的知識網(wǎng)絡,將有望對疾病發(fā)展和不同病理狀態(tài)進行更加準確的分類,為不同遺傳背景的患者提供個體化診斷及精準治療。
1 精準醫(yī)學大數(shù)據(jù)的系統(tǒng)整合與挖掘分析
1.1 生物醫(yī)學大數(shù)據(jù)的集成與管理
隨著信息技術的飛速發(fā)展,生物醫(yī)學領域進入了海量數(shù)據(jù)時代。一方面,傳統(tǒng)醫(yī)療領域每天都在產(chǎn)生大量的診斷影像圖像、病理分析圖等,而且患者的數(shù)據(jù)通常需要保留至少50年以上,這些數(shù)據(jù)不僅包括大量在線或?qū)崟r數(shù)據(jù),還包括臨床決策支持中的診斷和用藥建議、各種結(jié)構(gòu)化數(shù)據(jù)表、非(半)結(jié)構(gòu)化文本文檔、醫(yī)療影像、電子錄音等多種數(shù)據(jù)。另一方面,各種組學數(shù)據(jù)是目前生物醫(yī)學領域增長最快的數(shù)據(jù)類型,是精準醫(yī)學研究的重要組成部分。
測序技術的發(fā)展日新月異,1999年來自多個國家的科學家花費30億美金、10年時間完成了一個人的基因圖譜序列,2007年測定一個亞洲人基因圖譜序列花費3000萬人民幣。目前測定一個人的基因圖譜序列只需數(shù)千元人民幣,Illumina公司生產(chǎn)的HiSeq?X?Ten測序儀1年至少可以完成18000人的全基因組測序。在此背景下,生命健康領域快速產(chǎn)生了大量的組學數(shù)據(jù)。與此同時,各國也紛紛開展以組學為基礎、以個性化治療為目的精準醫(yī)學計劃。來自16個國家的科學家共同參與的腫瘤基因組圖譜計劃(the?cancer?genome?atlas,TCGA)已經(jīng)收入上萬例患者樣本,涵蓋42種腫瘤類型,目前已發(fā)現(xiàn)近1000萬個與癌癥相關的基因突變,數(shù)據(jù)量超過5PB。美國100萬人基因組研究的精準醫(yī)療(precision?medicine?initiative)計劃正在全面展開;英國“10萬基因組計劃”也進行到了關鍵時刻。基因組技術正在以超乎人們想象的速度成為診斷和治療疾病的實用工具,N?Engl?J?Med專門為此向臨床醫(yī)師發(fā)布基因組測序的臨床應用指南,希望幫助他們更有效地利用這一新技術。
對于生物醫(yī)學大數(shù)據(jù)的有效管理和利用是使其體現(xiàn)出巨大科學與產(chǎn)業(yè)價值的關鍵,同時也是大數(shù)據(jù)應用的技術瓶頸。20世紀80~90年代,美國、日本、歐洲等發(fā)達國家和地區(qū)即已率先建立世界三大生物數(shù)據(jù)中心:美國國家生物技術信息中心(NCBI)、日本DNA?數(shù)據(jù)庫(DDBJ)、歐洲生物信息研究所(EBI),掌握并管理全世界的生物數(shù)據(jù)和知識資源,并處于壟斷地位。我國人口眾多,具有豐富的生物樣本資源,但是,我國產(chǎn)生的許多科研數(shù)據(jù)資源不得不提交至上述數(shù)據(jù)中心,導致我國投入大量資金與人力產(chǎn)生的生物數(shù)據(jù)嚴重流失,嚴重威脅我國生物數(shù)字主權(quán)。
盡快建設一個國家級的生命信息中心不但意義重大,而且非常緊迫。為了更加有效地管理與利用生物醫(yī)學大數(shù)據(jù),科技部已經(jīng)率先啟動面向精準醫(yī)學大數(shù)據(jù)管理和服務需求的“生物大數(shù)據(jù)開發(fā)與利用關鍵技術研究”等重大研究計劃,積極建設“組學大數(shù)據(jù)中心和知識庫”“疾病大數(shù)據(jù)處理分析與應用”“基于區(qū)域醫(yī)療與健康大數(shù)據(jù)處理分析與應用”等國家級的研究中心和技術聯(lián)盟。在技術層面,相對于世界三大數(shù)據(jù)中心建設之初,計算機硬件和軟件技術均已取得了長足的進步,我國已經(jīng)制造出穩(wěn)定高性能和高并行化的超級計算機,并掌握了高輸入輸出的分布式存儲技術。我國有條件發(fā)揮后發(fā)優(yōu)勢,盡快滿足精準醫(yī)學快速發(fā)展所面臨的數(shù)據(jù)和分析的需求。
1.2 生物醫(yī)學大數(shù)據(jù)的挖掘與分析
面對生物醫(yī)學領域以幾何級數(shù)增長的多樣化、海量數(shù)據(jù),建立標準化的分析方法極為重要,這是不同醫(yī)療單位、科研團體之間實現(xiàn)數(shù)據(jù)共享、資源整合,并進一步實現(xiàn)精準醫(yī)療的前提。在醫(yī)療病歷的數(shù)據(jù)匯總和整合方面,美國初創(chuàng)公司Flatiron?Health采取了匹配算法和人工復核的手段實現(xiàn)臨床數(shù)據(jù)的挖掘,代表著行業(yè)內(nèi)的標準策略。整體來說,傳統(tǒng)醫(yī)療數(shù)據(jù)的挖掘仍處于開始階段,依賴于模式識別、自然語言處理、混合型人機學習等技術的發(fā)展。
組學數(shù)據(jù)類型較傳統(tǒng)醫(yī)療數(shù)據(jù)少,產(chǎn)生平臺相對一致,主要集中于Illumina、Life?Technologies和Roche三家公司,但面臨單一數(shù)據(jù)量大、可重復性差、處理流程多樣等問題。基因組方面,已有大量的工具來鑒定個體基因組中的SNP、indel、copynumber?variation、基因融合等,但不同工具結(jié)果間的一致性相對較低。在轉(zhuǎn)錄組學研究領域,Su等通過比較不同平臺、不同實驗室、不同分析流程處理的RNA-Seq數(shù)據(jù)發(fā)現(xiàn)未被注釋的exonexonjunction超過80%可以被qPCR證實,而基因表達水平若需在不同平臺和實驗室之間取得較高的一致性則需設定特殊的過濾標準。這些現(xiàn)狀顯示出建立準確、統(tǒng)一、可追溯的分析標準的必要性。在此背景下,美國腫瘤研究所聯(lián)合Broad?研究所、系統(tǒng)生物學研究所(Institute?for?Systems?Biology,ISB)和七橋基因組公司(Seven?Bridges?Genomics)開展了云試點項目(the?cloud?pilots?program,http://cbiit.nci.nih.gov/ncip/nci-cancer-genomics-cloud-pilots),希望實現(xiàn)從樣本收集到醫(yī)療數(shù)據(jù)、組學數(shù)據(jù)的分析、可視化等的統(tǒng)一。另有一系列商業(yè)和非商業(yè)化的云計算解決方案也在積極嘗試中,如DNAnexus(https://www.dnanexus.com),Galaxy(https://usegalaxy.org),CloudMan等。
1.3 精準醫(yī)學大數(shù)據(jù)的整合與共享
有效利用生物醫(yī)學大數(shù)據(jù)的重要基礎是“聚類”。整合多種組學數(shù)據(jù)以及將組學數(shù)據(jù)和臨床數(shù)據(jù)結(jié)合并用于臨床診斷、藥物開發(fā)等精準醫(yī)學范疇,需要統(tǒng)計基因組學、臨床應用生物信息學、病理學、治療等多領域?qū)<矣行f(xié)作才能實現(xiàn)。雖然整合的過程困難重重,但國家級的基因組計劃已經(jīng)成為世界各國發(fā)展的熱點,已有類似的整合研究正在探索中。實驗技術方面,Macaulay等開發(fā)出了稱為G&T-seq的新型測序方法,能夠?qū)崿F(xiàn)大規(guī)模的DNA和RNA平行測序,同時展現(xiàn)單個細胞的基因組序列和基因活性。生物信息方法學方面,Kaplan-Meier分析通過測序數(shù)據(jù)和臨床生存數(shù)據(jù)的結(jié)合可以篩選出多種類型的標志物。通過整合基因組突變、表達、拷貝數(shù)等數(shù)據(jù)可以富集出影響疾病的通路。PARADIG整合多種組學數(shù)據(jù),通過統(tǒng)計推斷得出患者特異的疾病通路,并能依據(jù)通路將患者分組,進一步指導臨床治療。Yuan等整合了體細胞拷貝數(shù)變化、DNA甲基化、miRNA/mRNA/蛋白質(zhì)表達數(shù)據(jù)和臨床數(shù)據(jù),通過LASSO+Cox、隨機生存森林等計算一致性指數(shù),得出結(jié)論:分子數(shù)據(jù)結(jié)合臨床數(shù)據(jù)較二者獨立情況下更能準確地預測患者生存情況。近年來還發(fā)現(xiàn)微生物組與人類健康密切相關,QIIME等工具可整合微生物組和臨床數(shù)據(jù),進而發(fā)現(xiàn)腸道菌群與神經(jīng)系統(tǒng)、肝臟等疾病之間的關系,為精準醫(yī)學的實現(xiàn)提供了新的視角。
上述分析層面的整合集中于研究階段,應用層面的整合和共享是提高大數(shù)據(jù)再利用率和用于精準醫(yī)學的進一步要求。在數(shù)據(jù)整合方面,理清數(shù)據(jù)集之間的關系,如原始數(shù)據(jù)集、元數(shù)據(jù)集和知識型數(shù)據(jù)集之間的關系,平衡搜索速度和結(jié)果的特異性等尤為重要。云計算支撐大數(shù)據(jù)的解決方案為:結(jié)構(gòu)化數(shù)據(jù)采用數(shù)據(jù)庫和數(shù)據(jù)倉庫技術管理。半結(jié)構(gòu)化數(shù)據(jù)采用網(wǎng)頁、搜索引擎等技術展示。非結(jié)構(gòu)化數(shù)據(jù)用深度學習、網(wǎng)絡交互和群體智能處理。對非結(jié)構(gòu)化數(shù)據(jù)隨著挖掘過程的自適應簡約,頻繁使用的熱數(shù)據(jù)逐步變?yōu)榘虢Y(jié)構(gòu)化甚至結(jié)構(gòu)化,其余轉(zhuǎn)為冷存儲。在數(shù)據(jù)共享方面,一方面要有高性能的互聯(lián)網(wǎng)架構(gòu),實現(xiàn)高效率的存儲和傳輸;另一方面要注意數(shù)據(jù)的隱私和安全,通過數(shù)據(jù)加密、屏蔽隱私數(shù)據(jù)等技術手段和國家層面的法律法規(guī)的約束和引導才能得到保證。
2 生物大數(shù)據(jù)的精準醫(yī)學應用
2.1 大數(shù)據(jù)時代的疾病風險評估與健康指導
在過去很長一段時間,人們只有在身體不適、已經(jīng)患某種疾病時才去尋求專業(yè)醫(yī)療的幫助。而此時疾病往往已進展至較為嚴重的階段,錯過了最佳的治療時間。大數(shù)據(jù)時代的到來,特別是基因組、轉(zhuǎn)錄組、表觀組、蛋白質(zhì)組、代謝組、微生物組等生物大數(shù)據(jù)的不斷積累,為利用多重組學數(shù)據(jù)評估健康人群的患病風險提供了重要的理論依據(jù),《黃帝內(nèi)經(jīng)》提出的“上醫(yī)治未病”有望成為現(xiàn)實(圖1)。
美國影星Angelina?Jolie面對自身BRCA基因缺陷、家族女性親屬患乳腺癌去世等腫瘤高發(fā)風險,接受乳腺和卵巢的外科切除手術已為大家熟知。美國斯坦福大學遺傳與個體化組學中心主任Michael?Snyder教授是利用組學數(shù)據(jù)評估個體健康研究的先行者,54歲時開始采集自身血液樣本,歷經(jīng)14個月,共獲得20個時間點的樣品。通過整合分析樣品的基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組和自身抗體譜,Michael?Snyder團隊不僅全面揭示了個體在疾病和健康狀態(tài)下各分子的動態(tài)變化,也表明其患2型糖尿病等疾病的風險較高。盡管Michael家族并未有人罹患2型糖尿病,其本身也不超重,但通過咨詢臨床醫(yī)師,發(fā)現(xiàn)其糖代謝已超過正常界限。根據(jù)醫(yī)師的建議,Michael?Snyder教授調(diào)整了自己的飲食結(jié)構(gòu)和生活規(guī)律,加入了鍛煉計劃。6個月后,其血糖水平恢復正常。
人類基因組計劃的總負責人、美國NIH?現(xiàn)任主任Francis?S.?Collins?博士也曾嘗試了三家公司(23andMe、deCODE、Navigenics)的精準醫(yī)學定制服務,根據(jù)檢測結(jié)果“聯(lián)系了私人教練,下定決心節(jié)食并增加運動,以減少罹患糖尿病的風險。此外,還查閱了關于黃斑變性的研究文獻,發(fā)現(xiàn)多攝取不飽和脂肪酸對預防該病大有裨益。因此,在食譜中增加了更多的魚類。鑒于我可能有罹患青光眼的風險,我也下定決心每年進行1次眼部檢查,包括眼壓測量”。
在我國,隨著測序技術日趨成熟、測序成本日益降低,為臨床服務的測序服務商不斷增多。相信在不遠的將來,隨著基因檢測服務的逐步完善與規(guī)范,更多的普通人群也能像Snyder教授和Collins教授一樣,獲得專業(yè)解讀的個人基因組學信息,監(jiān)控個人健康狀況,更好地規(guī)劃自己的生活和未來。
2.2 整合分析多組學和臨床數(shù)據(jù)確定疾病靶點
自Pauling等確定鐮刀型細胞貧血癥(sickle?cell?anemia)的分子遺傳機制以來,目前已被確定的遺傳病超過5000種,主要包括單基因遺傳病、多基因遺傳病、染色體異常遺傳病等三大類。高通量測序和生物大數(shù)據(jù)分析已成功用于多基因遺傳病檢測、無創(chuàng)產(chǎn)前篩查(NIPT)和胚胎植入前遺傳學檢測(PGD)等臨床實踐,取得了良好的社會效益和經(jīng)濟效益。此外,高通量測序在檢測外周循環(huán)血液中的腫瘤細胞或腫瘤DNA/RNA,用于早期腫瘤篩查、檢測腫瘤復發(fā)、觀察臨床療效等方面也具有其獨特的優(yōu)勢。
我國科學家已經(jīng)在疾病隊列人群的全基因組關聯(lián)分析(genome-wide?association?study,GWAS)等多組學研究中積累了豐富的工作經(jīng)驗,為闡明復雜疾病發(fā)生的分子機制提供了重要的理論依據(jù)。1998年,中南大學夏家輝院士等成功地克隆人類遺傳性神經(jīng)性耳聾的致病基因GJB3。交通大學賀林院士的團隊率先完成第1例孟德爾常染色體遺傳病A-1型短指(趾)癥致病基因的克隆與突變檢測;通過對患病家系的遺傳連鎖分析,定位了第1例以中國人姓氏命名的罕見恒齒缺失的孟德爾常染色體顯性遺傳病“賀–趙缺陷癥”的致病基因。安徽醫(yī)科大學張學軍教授等在銀屑病、系統(tǒng)性紅斑狼瘡、麻風、白癜風等復雜疾病的GWAS研究中發(fā)現(xiàn)一系列疾病易感基因。中山大學腫瘤醫(yī)院曾益新院士等開展的鼻咽癌GWAS除證實人類白細胞抗原與鼻咽癌的關聯(lián)性外,發(fā)現(xiàn)多個新的易感基因。軍事醫(yī)學科學院賀福初院士和周鋼橋教授開展的肝臟蛋白質(zhì)組和肝癌的GWAS研究,發(fā)現(xiàn)乙型肝炎病毒相關肝癌的易感基因。中國醫(yī)學科學院基礎醫(yī)學研究所張學教授對于遺傳性脫發(fā)相關藥物靶點以及他與沈巖院士合作的反常性痤瘡家族基因的研究。中國醫(yī)學科學院腫瘤研究所詹啟敏院士團隊在廣東潮汕地區(qū)開展食管鱗狀細胞癌研究。林東昕院士課題組開展的肺癌、食管癌流行病學研究;林東昕院士與鄭州大學王立東教授等對河南安陽地區(qū)的食管癌隊列研究等。
一些復雜疾病往往是由遺傳、環(huán)境等多重因素導致的,僅依賴于臨床上的影像診斷和病理分析等難以對疾病作出準確的診斷和分類。綜合分析多種組學數(shù)據(jù)和臨床數(shù)據(jù),能夠更加準確地確定各疾病的亞型。在乳腺癌中,不同的分子亞型在臨床癥狀、治療反應和效果方面有明顯差異。由轉(zhuǎn)錄組數(shù)據(jù)確定的胰腺癌三種亞型,患者治療后的反應具有差異性。而不同分子亞型的結(jié)直腸癌患者的存活時間顯著差異。除癌癥外,這種綜合分析也被用于其他復雜疾病的診療,如自閉癥譜系障礙。綜合分析外顯子組數(shù)據(jù)、基因表達譜、蛋白質(zhì)表達譜以及臨床上的心理測試和影像診斷,研究人員提出了新的自閉癥亞型,這一成果不僅加強了自閉癥診斷,也為后期選擇有效的治療方案提供了依據(jù)。
2.3 精準醫(yī)學藥物研發(fā)及用藥指導
單一靶點的藥物可以靶向特定的腫瘤細胞。腫瘤是多基因疾病,需要多靶點的藥物治療。腫瘤的特點是過度增殖,因此開發(fā)的抗腫瘤藥物主要用于抑制腫瘤生長,相應的分子靶標大多數(shù)屬于激酶與受體。多組學數(shù)據(jù)與臨床數(shù)據(jù)的整合分析,為疾病新靶點的確定提供了更加有效的技術手段。20世紀80年代后期,研究人員針對發(fā)現(xiàn)的一種過度表達HER2蛋白的侵襲性乳腺癌亞型研發(fā)了曲妥珠單抗(赫賽汀)用于治療HER2過度表達的轉(zhuǎn)移性乳腺癌。此后,曲妥珠單抗也被用于治療HER2過度表達性胃癌或食管胃結(jié)合部癌以及尿道癌,是基因靶向藥物的成功范例。在精準醫(yī)療時代,相信更多的藥物研發(fā)將集中針對一種或多種疾病的靶點。
在用藥指導方面,臨床上多數(shù)僅根據(jù)癥狀體征、輔助檢查和影像學資料進行診斷,針對具有相同或相似癥狀指標的患者,將使用同樣的治療方案。而實際上,不同患者對同一種藥物的敏感性存在差異。個體間的用藥差異與患者本身的遺傳背景有緊密的關系。精準醫(yī)療能夠根據(jù)分子特征將患者進行細致分類,為有效治療提供參考。在指導臨床用藥方面,以常用抗凝藥物華法林為例,美國食品和藥物管理局(FDA)于2010?年2月修改了華法林的藥物說明書,建議在使用該處方藥前,要對維生素K環(huán)氧化物還原酶和P450代謝酶CYP2C9進行基因檢測,針對不同的基因類型,配合抗凝藥學實踐,進行藥物劑量調(diào)整,可減少抗凝過量的發(fā)生,具有積極的臨床意義。中日友好醫(yī)院院長王辰院士介紹,目前美國已有166種藥物的說明書標注有相關的基因信息,歐洲藥品管理局(EMA)有88?種,日本藥品和醫(yī)療器械局(PMDA)有28種,而中國僅有不超過10種藥物使用說明提出模糊要求而且不強制執(zhí)行。如果能堅持推廣精準用藥臨床醫(yī)學指導,可望能有效避免卡馬西平、氯吡格雷、別嘌醇、甲氨蝶呤、巰嘌呤等藥物的嚴重不良事件,減少藥品的無效使用和醫(yī)保的不必要支出。
3 結(jié)語
現(xiàn)階段我國在基因測序技術、臨床隊列以及生物醫(yī)學大數(shù)據(jù)等方面已經(jīng)奠定了良好的研究基礎。然而,在生物大數(shù)據(jù)、生物樣本等資源共享方面仍然面臨一定的挑戰(zhàn)。同時,如何有效集成、整合、分析不同來源、不同層次的生物大數(shù)據(jù),提供有效靶點用于臨床試驗與用藥指導,也是備受關注的重要科學問題。針對正在醞釀啟動的精準醫(yī)學計劃,我國政府也在積極出臺相關的法律和法規(guī),在創(chuàng)新科技政策的引導下,積極推動并協(xié)調(diào)多部門合作。各種行業(yè)協(xié)會、學術團體同時努力發(fā)揮其交流融合的優(yōu)勢。在基礎研究方面,盡快建立符合精準醫(yī)學需求的大型隊列、標準化生物標本庫、中國人遺傳特征等大數(shù)據(jù)資料和相應的分析標準。在醫(yī)療活動的具體實施層面,及時納入精準醫(yī)學的評價和治療體系,對不同基因型的患者提供個體化診斷及精準藥物治療。地方政府、企業(yè)和金融機構(gòu)也通過各種形式積極參與,通過“交叉融合、協(xié)同創(chuàng)新”,相信適合我國國情的精準醫(yī)學體系能很快進入具體實施階段。
來源:《中國醫(yī)學前沿雜志(電子版)》,2015,7(6):4-10.?
作者:李艷明,楊亞東,張昭軍,方向東