發(fā)布日期:2017-04-20
國家癌癥中心/中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院腫瘤醫(yī)院 胸外科 高亦博
國家癌癥中心依托中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院,是全國腫瘤防治研究和信息交流的中心,承擔(dān)著采集和發(fā)布全國腫瘤登記數(shù)據(jù)、建立全國癌癥防治協(xié)作網(wǎng)絡(luò)、開展全國癌癥防控科學(xué)研究的職責(zé),牽頭組織實施城市、農(nóng)村、淮河流域癌癥早診早治項目以及腫瘤高發(fā)現(xiàn)場工作,也是國家腫瘤規(guī)范化診治質(zhì)控中心、國家腫瘤臨床醫(yī)學(xué)研究中心等,是全國腫瘤臨床大數(shù)據(jù)匯集、分析、研究、上報、發(fā)布的中心。在參與國家癌癥中心/中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院承擔(dān)的腫瘤臨床大數(shù)據(jù)相關(guān)研究項目過程中,也曾反復(fù)遇到一些難點和問題,在處理過程中得出了一些經(jīng)驗和體會,由此對未來的腫瘤大數(shù)據(jù)研究重點和難點有了更深認識。
腫瘤臨床大數(shù)據(jù)系列研究布局
醫(yī)科院腫瘤醫(yī)院胸外科早在“十五”、“十一五”時期,即依托中國抗癌協(xié)會食管癌專業(yè)委員會,牽頭開展全國食管癌規(guī)范化診治監(jiān)察網(wǎng)絡(luò)平臺的建設(shè)工作。作為國內(nèi)最早建立的腫瘤專病大數(shù)據(jù)智能化信息網(wǎng)絡(luò)平臺,聯(lián)網(wǎng)全國82家在食管癌臨床診治方面具有較大規(guī)模和較高水平的三級甲等醫(yī)院,并設(shè)立了12個地區(qū)級分中心,涵蓋了除臺灣、西藏的所有省級行政單位,采用規(guī)范化的數(shù)據(jù)標(biāo)準(zhǔn)和網(wǎng)絡(luò)直報平臺,累計錄入食管癌的手術(shù)和綜合治療病例3.26萬例,為全國食管癌診治技術(shù)和模式的規(guī)范化做出了獨特貢獻,作為“食管癌規(guī)范化診治關(guān)鍵技術(shù)的研究與應(yīng)用推廣”的重要組成部分,獲得2013年國家科學(xué)技術(shù)進步獎一等獎。
十二五期間,在此前食管癌臨床大數(shù)據(jù)網(wǎng)絡(luò)建設(shè)和研究成功經(jīng)驗的基礎(chǔ)上,國家癌癥中心/腫瘤醫(yī)院承擔(dān)了國家科技支撐計劃項目“基于癌癥監(jiān)測信息網(wǎng)絡(luò)的腫瘤規(guī)范化診治研究”和國家高技術(shù)發(fā)展(863)計劃“惡性腫瘤大數(shù)據(jù)處理分析與應(yīng)用研究”的任務(wù),針對我國發(fā)病率、死亡率高,社會負擔(dān)較重的八大腫瘤:肺癌、肝癌、食管癌、胃癌、結(jié)腸癌、直腸癌、乳腺癌、宮頸癌,聯(lián)網(wǎng)東北、華北、華中、華東、華南、西南、西北七個大區(qū),14家有代表性和地區(qū)領(lǐng)先示范作用的省級腫瘤醫(yī)院/癌癥中心,開展腫瘤大數(shù)據(jù)獲取、存儲、處理與分析的關(guān)鍵技術(shù)研究,構(gòu)建腫瘤大數(shù)據(jù)中心和系統(tǒng)平臺;應(yīng)用大數(shù)據(jù)技術(shù)對腫瘤治療過程中產(chǎn)生的海量臨床數(shù)據(jù)進行處理與分析,形成以腫瘤單病種為主題的數(shù)據(jù)集;構(gòu)建知識庫及分析模型庫,為腫瘤疾病的診治提供決策支持;開展腫瘤規(guī)范化診治研究,建立質(zhì)量控制體系,優(yōu)化腫瘤防控策略,提高腫瘤的綜合診治水平等。
腫瘤臨床大數(shù)據(jù)系列研究主要內(nèi)容和進展
當(dāng)前腫瘤大數(shù)據(jù)研究的具體內(nèi)容可以簡要概括為以下幾個方面:①確定采集數(shù)據(jù)的內(nèi)容及規(guī)范:包括患者人口學(xué)基本信息、發(fā)病及診斷信息、治療信息、隨訪信息、科研信息等;②構(gòu)建全國癌癥監(jiān)測網(wǎng)絡(luò):搭建網(wǎng)絡(luò)基礎(chǔ)架構(gòu)、數(shù)據(jù)交換、數(shù)據(jù)中心、業(yè)務(wù)應(yīng)用、綜合管理等;③構(gòu)建腫瘤單病種數(shù)據(jù)庫:確定各專業(yè)數(shù)據(jù)庫字段,將結(jié)構(gòu)化字段自動導(dǎo)入系統(tǒng),采用數(shù)據(jù)挖掘工具將非結(jié)構(gòu)化數(shù)據(jù)納入等;④綜合數(shù)據(jù)分析:預(yù)定報表模型深入挖掘分析腫瘤分型,診療,癌癥死亡分析,癌癥控制統(tǒng)計分析,治療費用等;⑤數(shù)據(jù)上報質(zhì)量控制:設(shè)計信息系統(tǒng)標(biāo)準(zhǔn)數(shù)據(jù)接口,規(guī)范數(shù)據(jù)字典;收集各醫(yī)院的接口數(shù)據(jù),校驗上報數(shù)據(jù),對整體性、種類完整性、數(shù)據(jù)項完整性等進行檢查;數(shù)據(jù)清洗,處理問題數(shù)據(jù),收集原始資料,保障數(shù)據(jù)溯源;組織醫(yī)療專業(yè)人員進行業(yè)務(wù)邏輯核查和數(shù)據(jù)修正,并對數(shù)據(jù)字典和采集規(guī)范進行補充、完善等;⑥癌癥規(guī)范化診治研究:制定或更新適合中國國情的癌癥診治規(guī)范,修改完善符合我國患者特點的癌癥分期標(biāo)準(zhǔn),獲得符合循證醫(yī)學(xué)的高級別證據(jù)用以指導(dǎo)臨床。
截至2016年,項目已經(jīng)由行業(yè)專家協(xié)商制定擬采集的數(shù)據(jù)內(nèi)容及規(guī)范,編制統(tǒng)一的數(shù)據(jù)字典,結(jié)合我國廣泛采用的醫(yī)療信息化系統(tǒng)特點,確定了包括電子病歷、檢驗檢查、處方醫(yī)囑、治療計劃、隨訪信息等在內(nèi)的20個大項、400余個小項的采集規(guī)范;完成國家癌癥中心與 14 家省級腫瘤醫(yī)院的加密VPN網(wǎng)絡(luò)接入,完成服務(wù)器、防火墻、網(wǎng)關(guān)等基本硬件的部署,實現(xiàn)了數(shù)據(jù)推送和抓?。唤⒘俗灾髦R產(chǎn)權(quán)的集成開發(fā)環(huán)境,支持各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理。參考大數(shù)據(jù)項目的數(shù)據(jù)規(guī)范和工作經(jīng)驗,制定了多種常見腫瘤的單病種規(guī)范化診治的醫(yī)療質(zhì)控指標(biāo),已上報國家衛(wèi)生計生委醫(yī)政醫(yī)管局。
腫瘤臨床大數(shù)據(jù)研究中的常見問題與解決
通常認為,可以視為大數(shù)據(jù)的數(shù)據(jù)資源一般具有:數(shù)據(jù)總量大、數(shù)據(jù)結(jié)構(gòu)和類型復(fù)雜、單位數(shù)據(jù)價值密度較低、生成速度快等幾個共同特征。因此其數(shù)據(jù)特征與常規(guī)的基礎(chǔ)和臨床醫(yī)學(xué)研究、循證醫(yī)學(xué)臨床試驗等均有比較顯著的區(qū)別,對開展和從事大數(shù)據(jù)研究的醫(yī)療機構(gòu)和相關(guān)專業(yè)人員提出了獨特的需求和挑戰(zhàn)。在此僅舉三個典型話題進行初步的探討。
1.保障醫(yī)院信息化系統(tǒng)運營安全是開展臨床大數(shù)據(jù)研究的前提
醫(yī)院信息化系統(tǒng)已成為大型醫(yī)院臨床業(yè)務(wù)正常運轉(zhuǎn)的必備條件,其持續(xù)穩(wěn)定運行的保障是醫(yī)院信息部門的工作重點。另一方面由于工作職責(zé)優(yōu)先級的不同,醫(yī)療機構(gòu)開展的公共衛(wèi)生、基因組學(xué)研究對大數(shù)據(jù)存儲、管理和分析的需求往往不能從院級醫(yī)療信息平臺得到充分保障,時常造成資源的重復(fù)建設(shè),提高了研究的時間、人力和經(jīng)費成本。兩方面的矛盾需求可以采用與醫(yī)院業(yè)務(wù)系統(tǒng)相對獨立建立大數(shù)據(jù)研究專用數(shù)據(jù)倉庫,并且在運行壓力較小時與集成平臺或臨床數(shù)據(jù)倉庫通信的方式獲取數(shù)據(jù)來解決,直至開發(fā)成具有比較完整獨立的業(yè)務(wù)邏輯的產(chǎn)品后,再反哺業(yè)務(wù)系統(tǒng)。
2. 臨床大數(shù)據(jù)內(nèi)涵和外延的延伸模糊了數(shù)據(jù)規(guī)范性、規(guī)則完備性、參照完整性的邊界
除了臨床診療中被動積累的業(yè)務(wù)系統(tǒng)運行數(shù)據(jù)、電子病歷和影像檢查數(shù)據(jù)以外,醫(yī)療機構(gòu)主動開展的腫瘤相關(guān)基礎(chǔ)和臨床研究也產(chǎn)生了具有龐大數(shù)據(jù)量或涉及大規(guī)模人群的基因組學(xué)、人群或隊列篩查體檢數(shù)據(jù)等,已成為腫瘤大數(shù)據(jù)的重要來源。但由于各自數(shù)據(jù)類型和結(jié)構(gòu)特征的巨大差異,很少有成熟的醫(yī)療信息化平臺或工具可以將之整合,導(dǎo)致付出很高成本獲得的數(shù)據(jù)資源難以充分發(fā)揮其作用和價值。此外,盡管臨床大數(shù)據(jù)的采集不再設(shè)置很高門檻,然而循證醫(yī)學(xué)臨床研究范式中的選擇性偏倚、幸存者偏倚、測量偏倚等混雜偏倚和數(shù)據(jù)間的交互作用仍是設(shè)計數(shù)據(jù)分析策略、報表、發(fā)布研究結(jié)論等過程中需要充分考慮的問題,即腫瘤臨床大數(shù)據(jù)研究本質(zhì)上仍然屬于醫(yī)學(xué)研究,其結(jié)論的得出不應(yīng)因為采用大數(shù)據(jù)技術(shù)而對方法的合理性或結(jié)論的可信度降低要求。
3. 需要著力注意避免專業(yè)偏見和關(guān)注虛假需求
當(dāng)前從事大數(shù)據(jù)研究開發(fā)的復(fù)合型人才嚴重缺乏,從業(yè)人員很大一部分來自于IT產(chǎn)業(yè),或者具有分子生物學(xué)或生物信息學(xué)基礎(chǔ)研究背景,然而不同學(xué)科、不同角色的需求大相徑庭,在研究和產(chǎn)品中常會限于先驗偏見或偏離真實需求。比較典型的例子如以下四種。
(1)不能擺脫原有專業(yè)思維習(xí)慣:腫瘤學(xué)和基因組學(xué)研究常傾向于使用覆蓋數(shù)百個基因,可能有較多新發(fā)現(xiàn)的基因測序Panel,甚至用全外顯子組、全基因組測序在臨床樣本中進行篩選,然而臨床應(yīng)用需求則主要集中于有靶向和免疫治療藥物使用指征的個別基因甚至個別突變位點的檢測。過多的基因分析結(jié)果給臨床解讀、醫(yī)患溝通和實際應(yīng)用都帶來了過多的工作量,卻難有明確的臨床獲益。
(2)對研發(fā)成本和實用難度估計不足:部分醫(yī)療大數(shù)據(jù)研究團隊在尚無充分證據(jù)時,貿(mào)然將產(chǎn)品定位為替代醫(yī)生的智力勞動,然而其成本或效率優(yōu)勢仍主要存在于紙面估算,只關(guān)注到理論邊際成本很低的優(yōu)勢,而對前期開發(fā)、驗證和推廣的時間成本和社會成本估計不足。
(3)研究目的與真實需求錯配:例如以媒體報道的看病難、看病貴為默認前提,而實際上在很多情況下一般性醫(yī)療服務(wù)可及性不差,但是有效需求不足;優(yōu)質(zhì)醫(yī)療服務(wù)可及性差,但由于負荷已滿而缺乏進一步提高可及性的動力。部分所謂顛覆性技術(shù)成果并未設(shè)置嚴格的對照,缺乏專業(yè)權(quán)威認可的嚴格實踐檢驗,并且沒有充分考慮醫(yī)療行為主客體即醫(yī)生與患者的心理訴求。
(4)超越知識和技術(shù)發(fā)展階段:通過機器學(xué)習(xí)支持臨床決策支持和提高診療水平,必須依賴大批高質(zhì)量的訓(xùn)練數(shù)據(jù)和詳盡臨床轉(zhuǎn)歸、結(jié)局、隨訪等信息的迭代優(yōu)化,這樣的數(shù)據(jù)仍然十分稀缺。近年來生物醫(yī)學(xué)界已經(jīng)越來越多地意識到公開發(fā)表論文中,大部分的結(jié)論無法嚴格重現(xiàn)。根據(jù)眾所周知的“Garbage In,Garbage Out”(無用輸入,無用輸出)一般規(guī)律,當(dāng)大多數(shù)醫(yī)生診療水平無法與頂尖專家相比時,大數(shù)據(jù)研究方式反而有可能成為劣勢。
結(jié)語和展望
隨著大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,以及臨床大數(shù)據(jù)研究開發(fā)的快速推進,腫瘤臨床大數(shù)據(jù)研究未來的發(fā)展方向仍會繼續(xù)堅持科學(xué)審慎原則,整合生物-醫(yī)學(xué)大數(shù)據(jù),推動臨床真實需求導(dǎo)向和應(yīng)用驅(qū)動的增量改進。以國家級重大研發(fā)項目為牽引,依托腫瘤早診早治和規(guī)范化診治體系、醫(yī)保單一付費體系等,醫(yī)療大數(shù)據(jù)的所有權(quán)、使用權(quán)、收益權(quán)的歸屬問題,患者知情同意、隱私保護,醫(yī)療機構(gòu)信息煙囪、信息孤島等長期困擾臨床大數(shù)據(jù)技術(shù)發(fā)展的問題有望得到緩解。
來源:中國數(shù)字醫(yī)學(xué)