健康大(dà)數(shù)據安全要(yào)闖哪些δ≥↕¥(xiē)技(jì)術(shù)關
2018-10-17 11:30:56

對(duì)于醫(yī)療行(xíng)業(yè)來(lái)★>→說(shuō),大(dà)數(shù)據一(yī)直是(shì)一(yī)個(gè)待挖掘的(de​♠✔)“金(jīn)礦”,但(dàn)是(shì)對(duì)于大(dà‌δ↕¶)數(shù)據應用(yòng)存在的(de)問(wèn)£ 題,很(hěn)多(duō)人(rén)還(hái)停留在數(shù)據安全、數(shù)α↓據共享等表層的(de)名詞理(lǐ)解上(shàng)。

為(wèi)了(le)讓大(dà)家(jiā)深度理(lǐ)解大(dà)數(shù)據φ↔✘¶應用(yòng)存在的(de)安全挑戰,本文(wén)特整理∞↔₽(lǐ)中國(guó)信息安全測評中心大(dà)數(shù)據安全∞¶™α高(gāo)級專家(jiā)陳錦近(jìn)日(rì)在北(bě≈≤i)京健康醫(yī)療大(dà)數(shù)據論壇¶← 上(shàng)的(de)演講,從(cóng)技(jì)術(shε≤₩λù)的(de)角度剖析,大(dà)數(shù)據安全風λ©β(fēng)險究竟是(shì)如(rú)何産生(shēng)的(de),會α§(huì)帶來(lái)什(shén)麽影(yǐng)響,©‍β÷如(rú)何建立防護體(tǐ)系。

醫(yī)療大(dà)數(shù)據有(yǒu)四個§←(gè)特征

健康醫(yī)療大(dà)數(shù)據有(y↓÷ǒu)四個(gè)特征。一(yī)是(shì)高(gāo)度敏感。這(zhè)些↔γ(xiē)數(shù)據和(hé)個(gè)人(rén)直接<​↑ 相(xiàng)關,涉及個(gè)人(rén)隐私;價值高('₽©₹gāo),是(shì)其他(tā)類别數(shù)據的(de)50倍以上 ₽€(shàng),極易成為(wèi)被攻擊的(de)目标。二是(shì)處理(lǐ)方式的(dδβεαe)變化(huà)。因為(wèi)大(dà)數(shù)據量大£©÷§(dà)、類型多(duō)、變化(huà)快(kuài),需要(yào)新型≤₹的(de)計(jì)算(suàn)架構來(lái)處理(lǐ),包括分(fēn)支計(jì)算(s≠γσ↑uàn)、分(fēn)支存儲等;同時(shí),在分(fēn)析的(de♠§)時(shí)候,需要(yào)用(yòng)到(dào)一(yī)些(xiē ✔)機(jī)器(qì)學習(xí)的(de)算(suàn)法。三是(shì)應用(yò §ε ng)理(lǐ)念的(de)變化(huà)。現(xiàn)在大(dà)家(jiā)都(dōu)∏™知(zhī)道(dào),要(yào)應用(yòng)健康醫(yī)療數(sh​©✔ù)據去(qù)輔助醫(yī)療決策,提高(gāo)工(gōng)作(zuò£∑♦)效率。這(zhè)就(jiù)帶動了(le)業(yè)務創新,即數(shβ↔≈ù)據業(yè)務化(huà),基于醫(yī)療大(d↑λ↑à)數(shù)據進行(xíng)分(fē∏≈n)析挖掘,發現(xiàn)新價值,推出新産品,提供新的(✘≠​de)基于數(shù)據的(de)服務,如(rú)疾病預測♥ £、預防等。四是(shì)數(shù)據流動。£× 在開(kāi)放(fàng)共享的(de)過程中,數(sh‌÷ ‍ù)據不(bù)可(kě)避免地(dì)需要(yào∑↓)流動。數(shù)據業(yè)務化(huà)和(hé)數(shù)據​ ♣'流動帶來(lái)兩個(gè)重要(yào)的(de)數(ελ γshù)據安全問(wèn)題,即數(shù)據洩露、數(shù)據濫用(yòng)等。

在IT時(shí)代,各個(gè)業(yè≤→)務系統是(shì)相(xiàng)互獨立的(de),而且各個∏™✘(gè)業(yè)務系統之間(jiān)沒有(yǒu)交集。而到(dào)了(le)大(dà≠♠δ)數(shù)據時(shí)代,各個(gè)業(yè)務系統會(huì)進行(xíng)彙 '≈聚融合,形成一(yī)個(gè)新的(de)數(shù)據δ× δ集,然後再進行(xíng)數(shù)據挖掘分(fēnε≠)析,開(kāi)辟新的(de)業(yè)務。這(zhè)種模式典型的(d&∑γe)應用(yòng),就(jiù)是(shì)華大α↔(dà)基因推出的(de)腫瘤基因檢測服務。第二種是(shì)第三方應用(yòng),依托♥≤↑♥相(xiàng)關的(de)業(yè)務系統訪問(wèn)數(shù)據,對(duì)外(w<€×≥ài)提供分(fēn)析服務。第三種是(shì)通(tōng)過數(shγ₽™¥ù)據合作(zuò)的(de)方式,實現(xiàn)數(shù)據的(de)交換和(hΩ™é)共享。這(zhè)種模式的(de)典型應↓‌ ₩用(yòng)就(jiù)是(shì)健康醫(yī)療大(dà)數(shù)據交易中心。通(t∞↓ōng)過以上(shàng)三種模式,基本實現(xiàn)了(le)數(shù γ¥)據業(yè)務化(huà)的(de)特點,以及數(shù≠€)據在不(bù)同的(de)組織機(jī♣$)構和(hé)網絡區(qū)域內(nèi)進行(xíng)流動的(de)特點。

安全問(wèn)題面臨四大(dà)挑戰

健康醫(yī)療大(dà)數(shù)據面臨的(de)安全挑戰,包括基礎平台安全、數(shù)¶→據安全、用(yòng)戶隐私安全、安全防護幾個(gè)方面。

首先是(shì)基礎平台安全挑戰。

Hadoop是(shì)一(yī)個(gè)能(néng)夠β↕¶Ω對(duì)大(dà)量數(shù)據進行(xíng)分(f≠σσεēn)布式處理(lǐ)的(de)軟件(jiàn)框架,在大(dà)數(shù)據處理(l<≠&"ǐ)應用(yòng)中得(de)到(dào)廣泛應用(yòng),因為(wèi)其自(€♦zì)身(shēn)在數(shù)據提取、變形和(hé)加載方面具有(yǒu)天然優勢。但™≤α​(dàn)是(shì),Hadoop最初是(shì)考δ∏慮在可(kě)信的(de)環境中運行(xíng),沒有(yǒu)考慮安全機(jī)​γ制(zhì)問(wèn)題。在運行(xíng)過程中,發現(xiàn ≠)存在數(shù)據被篡改、作(zuò)業(yè)被惡意提交等問(wèn)題,随後加Ω ₩•入數(shù)據認證、訪問(wèn)控制(zhì)、加密等安全機(jī&÷)制(zhì),但(dàn)是(shì)仍然存在不(bσ→ù)足,表現(xiàn)在三個(gè)方面。♣σ∑一(yī)是(shì)在身(shēn)份管理(lǐ)和(hé)訪問(wèn)控©≠制(zhì)方面,依賴Linux的(de)身(shēn)份管 '理(lǐ)與權限控制(zhì)機(jī)制(zhì),不(bù)能(nén‍♦♥g)滿足基于角色的(de)身(shēn)份管理(lǐ)和(hé)細粒度訪問(wèn)控制(≠←zhì)等需求。二是(shì)在安全審計(jì)≈♣&上(shàng),因為(wèi)大(dà)數(shù)據系統各組件(jiàn)π✘隻有(yǒu)簡單的(de)日(rì)志(zhì)記錄功能(néng),并沒有©§✔ε(yǒu)原生(shēng)安全審計(jì)功能(néng),需要(yào)使用∞¥↔(yòng)外(wài)部附加工(gōng)具進行(™¶®xíng)日(rì)志(zhì)分(fēn)析。三是(shì)這(zhè)些(xiē)系統是(β÷‍shì)開(kāi)源的(de),我國(guó)推出的™≠​(de)大(dà)多(duō)數(shù)大(dà)數(→↑shù)據産品是(shì)基于開(kāi)源設計(jì)的(de),但↕÷₽≠(dàn)開(kāi)源組件(jiàn)缺乏嚴格的(de)測試和(hé)安全認證,對(duì)組件γ≤€(jiàn)漏洞和(hé)惡意後門(mén)防範能(néng)力不(♥πbù)足。

另外(wài),傳統訪問(wèn)控制(zhì)機(jī)制(zhì)難以滿¥φ©足需求,這(zhè)表現(xiàn)在幾個(gè€←₽)方面。一(yī)是(shì)多(duō)源數(sh↓←≠¥ù)據大(dà)量彙聚增加了(le)訪問(wèn)控制(zhì)策略制(zhì)定和(héφφ≥>)管理(lǐ)的(de)難度,過度授權和(hé)授權不(bù)足現(xiàn)象嚴™≠γ 重。二是(shì)非結構化(huà)和(hé)半☆∞€®結構化(huà)數(shù)據精細化(huà)描述困難,無法準确為(wèi)用♥ε≥¥(yòng)戶指定其可(kě)以訪問(wèn)的(de)數Ω&​(shù)據範圍,難以實現(xiàn)最§<♥↑小(xiǎo)授權原則。三是(shì)數(shù)據存儲和(h♥φé)流動場(chǎng)景複雜(zá),使得(de)數(shù)據加密的(↕β←±de)實現(xiàn)異常困難。海(hǎi)量數(shù)σ≠據的(de)密鑰管理(lǐ)也(yě)是(shì)亟待解決的(de)難題。

同時(shí),大(dà)規模集群安全配置難度成倍增長(cháng)。因為♣β₹(wèi)開(kāi)源Hadoop系統的(≠≥¶de)身(shēn)份認證、權限管理(lǐ)、加密₩©↕←、審計(jì)等功能(néng)都(dōu)沒有(§∞yǒu)實現(xiàn)的(de)話(huà),必須對(duì)​>☆各個(gè)組件(jiàn)進行(xíng)安全配置。但♠☆(dàn)是(shì)目前并沒有(yǒu)有(yǒu)效的(de)技(jì)術(shù)手段能(n>≤éng)評估安全配置效果的(de)好(hǎo)壞,從(cóng)而導緻系統 •$存在很(hěn)多(duō)問(wèn)題,甚至數(shù)據洩露事(shì♦↓±)件(jiàn)的(de)發生(shēng)。2017年(nián)6月(yuè™‍→),Shodan互聯網搜索引擎分(fēn)析顯示,Hadoop服務器(qì)因配置不(bù)安§<↔♠全導緻海(hǎi)量數(shù)據暴露,涉及4500台​☆HDFS服務器(qì),數(shù)據量高(gāo)達5.12PB。

第二是(shì)數(shù)據安全挑戰。

健康醫(yī)療領域數(shù)據洩露事∑∞♦(shì)件(jiàn)時(shí)有(yǒu)σα發生(shēng)。今年(nián)8月(yuè),因為(wèi)✔∞←MongoDB數(shù)據庫安全配置不(bù)當,導緻墨西(xī)哥(☆←→πgē)200萬公民(mín)的(de)醫<©φ(yī)療健康數(shù)據洩露。2016年(n∑€™ián)7月(yuè),我國(guó)30個(gè)省份至少(shǎo)275位艾滋病感染者的(d≥≤e)個(gè)人(rén)信息遭洩露。

數(shù)據洩露的(de)潛在隐患同樣不(bù)容樂(yuè)觀。據✔↕Shodan統計(jì),截至2017年(nián)2月×☆÷₽(yuè)3日(rì),中國(guó)有(yǒu)150"₩≠4個(gè)MongoDB數(shù)據庫暴露在公網,存在嚴$♥'↑重安全問(wèn)題。IDC市(shì)場(chǎng)研究公司βσε預計(jì),在2020年(nián),全球42%的(de)電(diàn)子∑ו(zǐ)健康數(shù)據會(huì)處于無保護狀态。

內(nèi)部威脅是(shì)健康醫(y♦αī)療領域數(shù)據洩露的(de)主要$✔∑≈(yào)原因。根據Verizon發布的(de)報(bào)告統計(jì∞↕‌¶),醫(yī)療行(xíng)業(yè)是(shì)內(nèi)部威脅高(gāo)于外(w$☆∞×ài)部威脅的(de)唯一(yī)一(yī)個(gè)行(xíng)業(yè)。一(yī)∏¶方面,健康醫(yī)療行(xíng)業(yè)的(de)數(shù)據安全意識薄弱,管理(l$♣¥ǐ)不(bù)嚴;另一(yī)方面,系統♠±安全防護能(néng)力不(bù)足。一(yī)些(xiē)行(xíng)業(yè)內(nèi)λ‍ε部員(yuán)工(gōng)在經濟利益或者好(hǎo)奇心驅使下(xià)窺探患者隐私,盜取數(≤§shù)據。

數(shù)據采集環節是(shì)影(yǐng)響決策分(fēn)析的(de)新風(f™÷ēng)險點。健康醫(yī)療大(dà)數(shù)據量大(dà)ε§ 、種類多(duō)、來(lái)源比較複雜(zá),為(wèi)數(shù)據的(de‍✔®)真實性和(hé)完整性校(xiào)驗帶來(lái)了(le)困難。目前并沒有(yǒu)有π∞(yǒu)效的(de)機(jī)制(zhì),去(qù)對(duì)數(sh≥×ù)據的(de)真實性和(hé)完整性進行(xíng)鑒别,無法剔除虛假、惡£ε意數(shù)據。這(zhè)導緻一(yī≥☆±)些(xiē)黑(hēi)客通(tōng)過網絡工(gōng)具的(de)手段向數(shù)據 λ♦γ采集終端中注入髒數(shù)據,破壞數(s‌∏✔♦hù)據真實性,引導數(shù)據分(fēn)析↔≥↕₹的(de)結果,實現(xiàn)操縱數(shù)據分(fēn)析結果的(de)目的(∞★de)。

數(shù)據開(kāi)放(fàng)共享面臨諸多(du∞✔®ō)因素制(zhì)約。一(yī)是(shì)權利屬性制(zhì)約,在大(dà​→$)數(shù)據時(shí)代,誰擁有(yǒu)了(le)數∑↑$(shù)據,誰就(jiù)有(yǒu)了(le)發言權。二是(shì)财富屬性制(zhì)約γα,數(shù)據是(shì)新的(de)“石油”,誰擁有(↔×÷yǒu)了(le)數(shù)據,誰就(jiù)擁有(yǒu)了( £™πle)财富。三是(shì)體(tǐ)制(zhì)機(jī)制(zhì)制(zhì)<α★₽約,政策法規層面缺乏指導數(shù)據開(kāi)放(fàng)共♠¶↕$享的(de)具體(tǐ)細則。以上(shàng)種種,嶩★導緻這(zhè)些(xiē)數(shù)據不(bù)願開(kā±×Ωi)放(fàng)、不(bù)敢開(kāi)放(fàng)、不(bù)能(n↔★'éng)開(kāi)放(fàng)、不(bù)會(huì)開(kā×​§i)放(fàng)。

數(shù)據流動的(de)複雜(zá)性導緻數(shù)據存在被濫用(↑✔βyòng)的(de)風(fēng)險。數(shù)據流動路(lù)徑變得(de)複雜(zá)±π≥,不(bù)再是(shì)以前單向、單路(lù)徑以及在組織內(nèi)部的₽λ(de)簡單流動模式,而是(shì)變成雙向、多(duō)路(lù)徑、跨組織的∏€(de)複雜(zá)流動模式。這(zhè)種模式下(xià),跨越了(le)數(shù)據控制(z£‍&hì)者和(hé)安全域,數(shù)據溯源中數(shù)據标記 ≤的(de)可(kě)信性驗證困難,數(shù)據标記和(hé≤β±)數(shù)據內(nèi)容之間(jiān)捆'‍≤綁的(de)安全性難以保證,導緻數(shù)據無法追÷&蹤溯源,加劇(jù)數(shù)據被濫用(yòng)的(de)風(fēng)險。

第三是(shì)個(gè)人(rén)隐私安全挑戰。

傳統隐私保護技(jì)術(shù)因大(dà)數(shù ​™₹)據的(de)超強分(fēn)析能(néng)力®​≈×可(kě)能(néng)失效。數(shù)據分(fēn)析 →≈挖掘帶來(lái)隐私洩露風(fēng)險。我們在進行(xín&‌g)隐私處理(lǐ)的(de)時(shí)候,用(yòng)到(dào)的(de)算(s©♥uàn)法、規則都(dōu)是(shì)不(bù)一(yī)樣的(de),這(zh䣶è)種情況下(xià),就(jiù)會(huì)對(duì)多(duō£↑α)來(lái)源、多(duō)類型的(de)數(shù)據集進行♥₹(xíng)關聯分(fēn)析和(hé)深度挖掘,可(kě)能(néng)會(huì)複原匿名化(↕←huà)數(shù)據。

傳統隐私保護技(jì)術(shù)難以适應非關系數(shù)據庫。大(dà)數λπ$←(shù)據的(de)很(hěn)多(duō)數(shù)據是(shì)半結構化★♦(huà)或者非結構化(huà)的(de),基本通(tōngπ®‌)過非關系型數(shù)據庫(NoSQL)進行(xíng)存儲,₽÷♣δ目前并沒有(yǒu)嚴格的(de)訪問(wèn)控制(zhì)機(jī)制(zhì)及相(↔λxiàng)對(duì)完善的(de)隐私保護工(gōng)具來(lái)适應這(zh≥&®è)種非關系型數(shù)據庫的(de)保護。

第四是(shì)安全防護挑戰。

大(dà)數(shù)據是(shì)一(yī)把雙₽♥刃劍,分(fēn)析結果滿足業(yè)務目标、業(yè)務需求的(de)同時(shí),也(y×ε÷ě)對(duì)安全防護技(jì)術(shù)帶來(lái)挑戰₹‍ →。傳統的(de)攻擊一(yī)般是(shì)竊取數(shù)據,或者是(shì)癱瘓系統,攻擊的♥&Ω (de)效果要(yào)麽是(shì)讓系統宕機(jī),要(yào)麽是(sσ★®hì)信息洩露。但(dàn)是(shì)"¶'現(xiàn)在大(dà)數(shù)據的(de)攻擊目标變成了(le)污染數(shùδ‍)據和(hé)幹擾分(fēn)析結果,攻擊的(de)效果是(shì)使分(fēn)析結$≈₹♥果發生(shēng)偏差。這(zhè)種污染數(shù)據或者影(yǐng)響數€™β(shù)據分(fēn)析結果的(de)行(xíng)為(wè¶∏Ωi)是(shì)很(hěn)難檢測的(d★₹e)。

在數(shù)據開(kāi)放(fàng)共享的(de)過程中,更多(du'π∑ō)的(de)角色參與進來(lái),增加數(shù)據洩露風(fēng)險;數(shù)據跨$¥♠§域傳輸和(hé)脫離(lí)挂空(kōng),導緻數(shù)據管理(σ‍¥≠lǐ)和(hé)流向追蹤困難,數(shù)據濫用(yòng)存在風(fēng≤¶'↕)險;傳統的(de)靜(jìng)态隔離(lí)安±£÷‌全保護方法滿足不(bù)了(le)需求,必€£↕•須通(tōng)過動态變化(huà)的(de↕π)視(shì)角分(fēn)析和(hé)判¶♦•∏斷數(shù)據安全風(fēng)險,構建以健康醫(yī)療數(shù)據為(wèi)中心€$≈∞的(de)動态風(fēng)險控制(zhì)和(hé)持續監測防護體✔±(tǐ)系,應對(duì)數(shù)據流動過程中面臨的(de)安全風(✘©™∑fēng)險。

防護要(yào)從(cóng)三方面著​π(zhe)手。一(yī)是(shì)建立大(dà)↓ 數(shù)據安全保障體(tǐ)系,重點保障數φσ≥♦(shù)據在流動過程中的(de)安全。二是←Ωε(shì)開(kāi)展大(dà)數(sλ≈hù)據安全分(fēn)析,重點針對(duì)數(s≠​hù)據內(nèi)容污染、幹擾分(fēn)析結果的(de)行(xíng)為(£∏wèi)來(lái)進行(xíng)分(fēn)析;三是(shì)建設大(dà)γ¶α數(shù)據安全風(fēng)險評估體(tǐ)系,從(cóng)主動識别風(fēng)險、消α×↕™除風(fēng)險的(de)角度去(qù)開(kāi)展工(gō↓ €×ng)作(zuò),提前把風(fēng)險控制(zhì)在能(nén‌ £g)夠接受的(de)範圍內(nèi)。

關閉
用(yòng)手機(jī)掃描二維碼關閉