2008年Google成立10周年,英國Nature雜志曾出版關于“討論大數據處理的技術問題和未來挑戰”的專輯,最早提出了“Big?Data”的概念。隨著計算機科學技術和信息工程技術的迅猛發展和普及應用,各行業數據呈爆炸性增長,大數據處理的迫切性和重要性已經獲得全球學術界、工業界和各國政府的高度關注和重視。2012年3月,美國總統奧巴馬簽署并發布了“大數據研究發展創新計劃”,該計劃由美國國家自然科學基金會(NationalScience?Foundation,NSF)、美國國立衛生研究院(National?Institutes?of?Health,NIH)、能源部(Department?of?Energy,DOE)、國防部(Department?of?Defense,DOD)等6大部門聯合投資2億美元啟動。中國的學術界和工業界也在積極趕超世界前沿,廣泛開展大數據技術的研究和開發。“十一五”以來,國家科技部973、863?計劃聯合工業和信息化部開展的核高基等科技重大專項、國家自然科學基金等重大科研計劃均已將大數據列為重要的研究內容。
人類基因組計劃(human?genome?project,HGP)、基因組單體型圖計劃(hapmapproject)、全基因組關聯分析(genome-wide?association?study,GWAS)、DNA元件百科全書(encyclopedia?of?DNA?elements,ENCODE)、表觀路線圖(NIH?roadmap?epigenomics)等大型組學計劃的順利完成,帶動了生命科學領域的重大變革。高通量測序、高性能質譜等組學技術得以快速發展,生命科學研究產生了大量有價值的包括基因組學、轉錄組學、蛋白質組學、代謝組學等在內的“生物大數據”。整合分析多重組學數據和臨床資料,構建健康與疾病的知識網絡,將有望對疾病發展和不同病理狀態進行更加準確的分類,為不同遺傳背景的患者提供個體化診斷及精準治療。
1 精準醫學大數據的系統整合與挖掘分析
1.1 生物醫學大數據的集成與管理
隨著信息技術的飛速發展,生物醫學領域進入了海量數據時代。一方面,傳統醫療領域每天都在產生大量的診斷影像圖像、病理分析圖等,而且患者的數據通常需要保留至少50年以上,這些數據不僅包括大量在線或實時數據,還包括臨床決策支持中的診斷和用藥建議、各種結構化數據表、非(半)結構化文本文檔、醫療影像、電子錄音等多種數據。另一方面,各種組學數據是目前生物醫學領域增長最快的數據類型,是精準醫學研究的重要組成部分。
測序技術的發展日新月異,1999年來自多個國家的科學家花費30億美金、10年時間完成了一個人的基因圖譜序列,2007年測定一個亞洲人基因圖譜序列花費3000萬人民幣。目前測定一個人的基因圖譜序列只需數千元人民幣,Illumina公司生產的HiSeq?X?Ten測序儀1年至少可以完成18000人的全基因組測序。在此背景下,生命健康領域快速產生了大量的組學數據。與此同時,各國也紛紛開展以組學為基礎、以個性化治療為目的精準醫學計劃。來自16個國家的科學家共同參與的腫瘤基因組圖譜計劃(the?cancer?genome?atlas,TCGA)已經收入上萬例患者樣本,涵蓋42種腫瘤類型,目前已發現近1000萬個與癌癥相關的基因突變,數據量超過5PB。美國100萬人基因組研究的精準醫療(precision?medicine?initiative)計劃正在全面展開;英國“10萬基因組計劃”也進行到了關鍵時刻。基因組技術正在以超乎人們想象的速度成為診斷和治療疾病的實用工具,N?Engl?J?Med專門為此向臨床醫師發布基因組測序的臨床應用指南,希望幫助他們更有效地利用這一新技術。
對于生物醫學大數據的有效管理和利用是使其體現出巨大科學與產業價值的關鍵,同時也是大數據應用的技術瓶頸。20世紀80~90年代,美國、日本、歐洲等發達國家和地區即已率先建立世界三大生物數據中心:美國國家生物技術信息中心(NCBI)、日本DNA?數據庫(DDBJ)、歐洲生物信息研究所(EBI),掌握并管理全世界的生物數據和知識資源,并處于壟斷地位。我國人口眾多,具有豐富的生物樣本資源,但是,我國產生的許多科研數據資源不得不提交至上述數據中心,導致我國投入大量資金與人力產生的生物數據嚴重流失,嚴重威脅我國生物數字主權。
盡快建設一個國家級的生命信息中心不但意義重大,而且非常緊迫。為了更加有效地管理與利用生物醫學大數據,科技部已經率先啟動面向精準醫學大數據管理和服務需求的“生物大數據開發與利用關鍵技術研究”等重大研究計劃,積極建設“組學大數據中心和知識庫”“疾病大數據處理分析與應用”“基于區域醫療與健康大數據處理分析與應用”等國家級的研究中心和技術聯盟。在技術層面,相對于世界三大數據中心建設之初,計算機硬件和軟件技術均已取得了長足的進步,我國已經制造出穩定高性能和高并行化的超級計算機,并掌握了高輸入輸出的分布式存儲技術。我國有條件發揮后發優勢,盡快滿足精準醫學快速發展所面臨的數據和分析的需求。
1.2 生物醫學大數據的挖掘與分析
面對生物醫學領域以幾何級數增長的多樣化、海量數據,建立標準化的分析方法極為重要,這是不同醫療單位、科研團體之間實現數據共享、資源整合,并進一步實現精準醫療的前提。在醫療病歷的數據匯總和整合方面,美國初創公司Flatiron?Health采取了匹配算法和人工復核的手段實現臨床數據的挖掘,代表著行業內的標準策略。整體來說,傳統醫療數據的挖掘仍處于開始階段,依賴于模式識別、自然語言處理、混合型人機學習等技術的發展。
組學數據類型較傳統醫療數據少,產生平臺相對一致,主要集中于Illumina、Life?Technologies和Roche三家公司,但面臨單一數據量大、可重復性差、處理流程多樣等問題。基因組方面,已有大量的工具來鑒定個體基因組中的SNP、indel、copynumber?variation、基因融合等,但不同工具結果間的一致性相對較低。在轉錄組學研究領域,Su等通過比較不同平臺、不同實驗室、不同分析流程處理的RNA-Seq數據發現未被注釋的exonexonjunction超過80%可以被qPCR證實,而基因表達水平若需在不同平臺和實驗室之間取得較高的一致性則需設定特殊的過濾標準。這些現狀顯示出建立準確、統一、可追溯的分析標準的必要性。在此背景下,美國腫瘤研究所聯合Broad?研究所、系統生物學研究所(Institute?for?Systems?Biology,ISB)和七橋基因組公司(Seven?Bridges?Genomics)開展了云試點項目(the?cloud?pilots?program,http://cbiit.nci.nih.gov/ncip/nci-cancer-genomics-cloud-pilots),希望實現從樣本收集到醫療數據、組學數據的分析、可視化等的統一。另有一系列商業和非商業化的云計算解決方案也在積極嘗試中,如DNAnexus(https://www.dnanexus.com),Galaxy(https://usegalaxy.org),CloudMan等。
1.3 精準醫學大數據的整合與共享
有效利用生物醫學大數據的重要基礎是“聚類”。整合多種組學數據以及將組學數據和臨床數據結合并用于臨床診斷、藥物開發等精準醫學范疇,需要統計基因組學、臨床應用生物信息學、病理學、治療等多領域專家有效協作才能實現。雖然整合的過程困難重重,但國家級的基因組計劃已經成為世界各國發展的熱點,已有類似的整合研究正在探索中。實驗技術方面,Macaulay等開發出了稱為G&T-seq的新型測序方法,能夠實現大規模的DNA和RNA平行測序,同時展現單個細胞的基因組序列和基因活性。生物信息方法學方面,Kaplan-Meier分析通過測序數據和臨床生存數據的結合可以篩選出多種類型的標志物。通過整合基因組突變、表達、拷貝數等數據可以富集出影響疾病的通路。PARADIG整合多種組學數據,通過統計推斷得出患者特異的疾病通路,并能依據通路將患者分組,進一步指導臨床治療。Yuan等整合了體細胞拷貝數變化、DNA甲基化、miRNA/mRNA/蛋白質表達數據和臨床數據,通過LASSO+Cox、隨機生存森林等計算一致性指數,得出結論:分子數據結合臨床數據較二者獨立情況下更能準確地預測患者生存情況。近年來還發現微生物組與人類健康密切相關,QIIME等工具可整合微生物組和臨床數據,進而發現腸道菌群與神經系統、肝臟等疾病之間的關系,為精準醫學的實現提供了新的視角。
上述分析層面的整合集中于研究階段,應用層面的整合和共享是提高大數據再利用率和用于精準醫學的進一步要求。在數據整合方面,理清數據集之間的關系,如原始數據集、元數據集和知識型數據集之間的關系,平衡搜索速度和結果的特異性等尤為重要。云計算支撐大數據的解決方案為:結構化數據采用數據庫和數據倉庫技術管理。半結構化數據采用網頁、搜索引擎等技術展示。非結構化數據用深度學習、網絡交互和群體智能處理。對非結構化數據隨著挖掘過程的自適應簡約,頻繁使用的熱數據逐步變為半結構化甚至結構化,其余轉為冷存儲。在數據共享方面,一方面要有高性能的互聯網架構,實現高效率的存儲和傳輸;另一方面要注意數據的隱私和安全,通過數據加密、屏蔽隱私數據等技術手段和國家層面的法律法規的約束和引導才能得到保證。
2 生物大數據的精準醫學應用
2.1 大數據時代的疾病風險評估與健康指導
在過去很長一段時間,人們只有在身體不適、已經患某種疾病時才去尋求專業醫療的幫助。而此時疾病往往已進展至較為嚴重的階段,錯過了最佳的治療時間。大數據時代的到來,特別是基因組、轉錄組、表觀組、蛋白質組、代謝組、微生物組等生物大數據的不斷積累,為利用多重組學數據評估健康人群的患病風險提供了重要的理論依據,《黃帝內經》提出的“上醫治未病”有望成為現實(圖1)。
美國影星Angelina?Jolie面對自身BRCA基因缺陷、家族女性親屬患乳腺癌去世等腫瘤高發風險,接受乳腺和卵巢的外科切除手術已為大家熟知。美國斯坦福大學遺傳與個體化組學中心主任Michael?Snyder教授是利用組學數據評估個體健康研究的先行者,54歲時開始采集自身血液樣本,歷經14個月,共獲得20個時間點的樣品。通過整合分析樣品的基因組、轉錄組、蛋白質組、代謝組和自身抗體譜,Michael?Snyder團隊不僅全面揭示了個體在疾病和健康狀態下各分子的動態變化,也表明其患2型糖尿病等疾病的風險較高。盡管Michael家族并未有人罹患2型糖尿病,其本身也不超重,但通過咨詢臨床醫師,發現其糖代謝已超過正常界限。根據醫師的建議,Michael?Snyder教授調整了自己的飲食結構和生活規律,加入了鍛煉計劃。6個月后,其血糖水平恢復正常。
人類基因組計劃的總負責人、美國NIH?現任主任Francis?S.?Collins?博士也曾嘗試了三家公司(23andMe、deCODE、Navigenics)的精準醫學定制服務,根據檢測結果“聯系了私人教練,下定決心節食并增加運動,以減少罹患糖尿病的風險。此外,還查閱了關于黃斑變性的研究文獻,發現多攝取不飽和脂肪酸對預防該病大有裨益。因此,在食譜中增加了更多的魚類。鑒于我可能有罹患青光眼的風險,我也下定決心每年進行1次眼部檢查,包括眼壓測量”。
在我國,隨著測序技術日趨成熟、測序成本日益降低,為臨床服務的測序服務商不斷增多。相信在不遠的將來,隨著基因檢測服務的逐步完善與規范,更多的普通人群也能像Snyder教授和Collins教授一樣,獲得專業解讀的個人基因組學信息,監控個人健康狀況,更好地規劃自己的生活和未來。
2.2 整合分析多組學和臨床數據確定疾病靶點
自Pauling等確定鐮刀型細胞貧血癥(sickle?cell?anemia)的分子遺傳機制以來,目前已被確定的遺傳病超過5000種,主要包括單基因遺傳病、多基因遺傳病、染色體異常遺傳病等三大類。高通量測序和生物大數據分析已成功用于多基因遺傳病檢測、無創產前篩查(NIPT)和胚胎植入前遺傳學檢測(PGD)等臨床實踐,取得了良好的社會效益和經濟效益。此外,高通量測序在檢測外周循環血液中的腫瘤細胞或腫瘤DNA/RNA,用于早期腫瘤篩查、檢測腫瘤復發、觀察臨床療效等方面也具有其獨特的優勢。
我國科學家已經在疾病隊列人群的全基因組關聯分析(genome-wide?association?study,GWAS)等多組學研究中積累了豐富的工作經驗,為闡明復雜疾病發生的分子機制提供了重要的理論依據。1998年,中南大學夏家輝院士等成功地克隆人類遺傳性神經性耳聾的致病基因GJB3。交通大學賀林院士的團隊率先完成第1例孟德爾常染色體遺傳病A-1型短指(趾)癥致病基因的克隆與突變檢測;通過對患病家系的遺傳連鎖分析,定位了第1例以中國人姓氏命名的罕見恒齒缺失的孟德爾常染色體顯性遺傳病“賀–趙缺陷癥”的致病基因。安徽醫科大學張學軍教授等在銀屑病、系統性紅斑狼瘡、麻風、白癜風等復雜疾病的GWAS研究中發現一系列疾病易感基因。中山大學腫瘤醫院曾益新院士等開展的鼻咽癌GWAS除證實人類白細胞抗原與鼻咽癌的關聯性外,發現多個新的易感基因。軍事醫學科學院賀福初院士和周鋼橋教授開展的肝臟蛋白質組和肝癌的GWAS研究,發現乙型肝炎病毒相關肝癌的易感基因。中國醫學科學院基礎醫學研究所張學教授對于遺傳性脫發相關藥物靶點以及他與沈巖院士合作的反常性痤瘡家族基因的研究。中國醫學科學院腫瘤研究所詹啟敏院士團隊在廣東潮汕地區開展食管鱗狀細胞癌研究。林東昕院士課題組開展的肺癌、食管癌流行病學研究;林東昕院士與鄭州大學王立東教授等對河南安陽地區的食管癌隊列研究等。
一些復雜疾病往往是由遺傳、環境等多重因素導致的,僅依賴于臨床上的影像診斷和病理分析等難以對疾病作出準確的診斷和分類。綜合分析多種組學數據和臨床數據,能夠更加準確地確定各疾病的亞型。在乳腺癌中,不同的分子亞型在臨床癥狀、治療反應和效果方面有明顯差異。由轉錄組數據確定的胰腺癌三種亞型,患者治療后的反應具有差異性。而不同分子亞型的結直腸癌患者的存活時間顯著差異。除癌癥外,這種綜合分析也被用于其他復雜疾病的診療,如自閉癥譜系障礙。綜合分析外顯子組數據、基因表達譜、蛋白質表達譜以及臨床上的心理測試和影像診斷,研究人員提出了新的自閉癥亞型,這一成果不僅加強了自閉癥診斷,也為后期選擇有效的治療方案提供了依據。
2.3 精準醫學藥物研發及用藥指導
單一靶點的藥物可以靶向特定的腫瘤細胞。腫瘤是多基因疾病,需要多靶點的藥物治療。腫瘤的特點是過度增殖,因此開發的抗腫瘤藥物主要用于抑制腫瘤生長,相應的分子靶標大多數屬于激酶與受體。多組學數據與臨床數據的整合分析,為疾病新靶點的確定提供了更加有效的技術手段。20世紀80年代后期,研究人員針對發現的一種過度表達HER2蛋白的侵襲性乳腺癌亞型研發了曲妥珠單抗(赫賽汀)用于治療HER2過度表達的轉移性乳腺癌。此后,曲妥珠單抗也被用于治療HER2過度表達性胃癌或食管胃結合部癌以及尿道癌,是基因靶向藥物的成功范例。在精準醫療時代,相信更多的藥物研發將集中針對一種或多種疾病的靶點。
在用藥指導方面,臨床上多數僅根據癥狀體征、輔助檢查和影像學資料進行診斷,針對具有相同或相似癥狀指標的患者,將使用同樣的治療方案。而實際上,不同患者對同一種藥物的敏感性存在差異。個體間的用藥差異與患者本身的遺傳背景有緊密的關系。精準醫療能夠根據分子特征將患者進行細致分類,為有效治療提供參考。在指導臨床用藥方面,以常用抗凝藥物華法林為例,美國食品和藥物管理局(FDA)于2010?年2月修改了華法林的藥物說明書,建議在使用該處方藥前,要對維生素K環氧化物還原酶和P450代謝酶CYP2C9進行基因檢測,針對不同的基因類型,配合抗凝藥學實踐,進行藥物劑量調整,可減少抗凝過量的發生,具有積極的臨床意義。中日友好醫院院長王辰院士介紹,目前美國已有166種藥物的說明書標注有相關的基因信息,歐洲藥品管理局(EMA)有88?種,日本藥品和醫療器械局(PMDA)有28種,而中國僅有不超過10種藥物使用說明提出模糊要求而且不強制執行。如果能堅持推廣精準用藥臨床醫學指導,可望能有效避免卡馬西平、氯吡格雷、別嘌醇、甲氨蝶呤、巰嘌呤等藥物的嚴重不良事件,減少藥品的無效使用和醫保的不必要支出。
3 結語
現階段我國在基因測序技術、臨床隊列以及生物醫學大數據等方面已經奠定了良好的研究基礎。然而,在生物大數據、生物樣本等資源共享方面仍然面臨一定的挑戰。同時,如何有效集成、整合、分析不同來源、不同層次的生物大數據,提供有效靶點用于臨床試驗與用藥指導,也是備受關注的重要科學問題。針對正在醞釀啟動的精準醫學計劃,我國政府也在積極出臺相關的法律和法規,在創新科技政策的引導下,積極推動并協調多部門合作。各種行業協會、學術團體同時努力發揮其交流融合的優勢。在基礎研究方面,盡快建立符合精準醫學需求的大型隊列、標準化生物標本庫、中國人遺傳特征等大數據資料和相應的分析標準。在醫療活動的具體實施層面,及時納入精準醫學的評價和治療體系,對不同基因型的患者提供個體化診斷及精準藥物治療。地方政府、企業和金融機構也通過各種形式積極參與,通過“交叉融合、協同創新”,相信適合我國國情的精準醫學體系能很快進入具體實施階段。
來源:《中國醫學前沿雜志(電子版)》,2015,7(6):4-10.?
作者:李艷明,楊亞東,張昭軍,方向東