本發(fā)明屬于核電,具體涉及一種基于圖層蒙版的非結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)脫敏方法及裝置。
背景技術(shù):
1、隨著信息技術(shù)的高速發(fā)展,企業(yè)業(yè)務(wù)系統(tǒng)積累了大量個(gè)人隱私數(shù)據(jù)和企業(yè)高價(jià)值信息。這些數(shù)據(jù)除了內(nèi)部流轉(zhuǎn)外,還需要進(jìn)行外部“共享”,這是國(guó)家大數(shù)據(jù)發(fā)展戰(zhàn)略規(guī)劃的需求和前提。如何保證數(shù)據(jù)在產(chǎn)生、交換、共享、開(kāi)發(fā)測(cè)試等場(chǎng)景下的安全可用,成為目前客戶(hù)急需解決的關(guān)鍵問(wèn)題。數(shù)據(jù)脫敏技術(shù)作為解決這一問(wèn)題的重要手段之一,通過(guò)對(duì)原始數(shù)據(jù)中的敏感字段進(jìn)行處理,從而降低數(shù)據(jù)敏感度和減少個(gè)人隱私風(fēng)險(xiǎn)。
2、現(xiàn)有的數(shù)據(jù)脫敏技術(shù)主要分為靜態(tài)數(shù)據(jù)脫敏和動(dòng)態(tài)數(shù)據(jù)脫敏。靜態(tài)數(shù)據(jù)脫敏適用于批量進(jìn)行脫敏數(shù)據(jù),如用于模型訓(xùn)練的測(cè)試數(shù)據(jù),或數(shù)據(jù)的導(dǎo)出用于離線(xiàn)數(shù)據(jù)分析。而動(dòng)態(tài)數(shù)據(jù)脫敏則主要應(yīng)用于生產(chǎn)環(huán)境,訪(fǎng)問(wèn)敏感數(shù)據(jù)時(shí)實(shí)時(shí)進(jìn)行脫敏,以適應(yīng)不同角色、不同權(quán)限下的脫敏需求。然而,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的脫敏處理,現(xiàn)有技術(shù)仍存在一定的局限性,難以在保證數(shù)據(jù)一致性和有效性的同時(shí),實(shí)現(xiàn)高效、準(zhǔn)確的脫敏處理。
技術(shù)實(shí)現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問(wèn)題,提供了一種基于圖層蒙版的非結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)脫敏方法及裝置。
2、根據(jù)本公開(kāi)實(shí)施例的一方面,提供一種基于圖層蒙版的非結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)脫敏方法,所述方法包括:
3、步驟1,所述數(shù)據(jù)預(yù)處理,對(duì)待處理的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行解析,根據(jù)預(yù)設(shè)的敏感詞從非結(jié)構(gòu)化數(shù)據(jù)中識(shí)別得到敏感字段;
4、步驟2,生成圖層蒙版,根據(jù)識(shí)別出的敏感字段,生成相應(yīng)的圖層蒙版;
5、步驟3,數(shù)據(jù)脫敏處理,將生成的圖層蒙版應(yīng)用到非結(jié)構(gòu)化數(shù)據(jù)上,覆蓋敏感字段,形成脫敏處理后的非結(jié)構(gòu)化數(shù)據(jù);
6、步驟4,數(shù)據(jù)輸出,將脫敏處理后的非結(jié)構(gòu)化數(shù)據(jù)用于共享、傳遞、測(cè)試環(huán)境等多個(gè)場(chǎng)景。
7、在一種可能的實(shí)現(xiàn)方式中,步驟1包括:
8、步驟11,采用圖像識(shí)別技術(shù),對(duì)圖像數(shù)據(jù)進(jìn)行全面掃描,將圖像中的文字部分轉(zhuǎn)換為可編輯的文本內(nèi)容,并定位文字內(nèi)容在圖像數(shù)據(jù)中的位置坐標(biāo);
9、步驟12,根據(jù)預(yù)設(shè)的敏感詞集合遍歷文本內(nèi)容進(jìn)行模糊匹配,將與敏感詞集合中敏感詞相似度大于預(yù)設(shè)閾值的文本字段作為潛在敏感字段;
10、步驟13,根據(jù)預(yù)設(shè)的敏感詞集合,采用正則表達(dá)式、關(guān)鍵詞匹配對(duì)篩選出的潛在敏感字段進(jìn)行二次匹配識(shí)別得到最終的敏感字段;
11、步驟14,根據(jù)文字內(nèi)容在圖像數(shù)據(jù)中的位置坐標(biāo),記錄每個(gè)敏感字段的位置坐標(biāo);這些坐標(biāo)信息對(duì)于后續(xù)的圖層蒙版生成至關(guān)重要,因?yàn)樗鼈儗Q定蒙版需要覆蓋的具體區(qū)域;
12、步驟15,根據(jù)各敏感字段的位置坐標(biāo),在圖像數(shù)據(jù)中對(duì)各敏感字段進(jìn)行標(biāo)記,以便后續(xù)處理。
13、在一種可能的實(shí)現(xiàn)方式中,步驟2包括:
14、步驟21,根據(jù)敏感字段的類(lèi)型和位置,確定蒙版的形狀、顏色、透明度、邊框,根據(jù)字段的輪廓生成不規(guī)則形狀的圖層蒙版,根據(jù)字段的輪廓生成不規(guī)則形狀的圖層蒙版;版顏色能夠根據(jù)脫敏需求進(jìn)行調(diào)整,蒙版透明度能夠根據(jù)脫敏需求進(jìn)行調(diào)整;對(duì)于圖像數(shù)據(jù),能夠設(shè)置蒙版的紋理或模糊效果。
15、在一種可能的實(shí)現(xiàn)方式中,步驟3包括:
16、步驟31,將生成的圖層蒙版應(yīng)用到圖像數(shù)據(jù)上,覆蓋敏感字段,并將蒙版圖層與原始圖像進(jìn)行合成;
17、步驟32,根據(jù)不同場(chǎng)景的需求,動(dòng)態(tài)調(diào)整蒙版的參數(shù),以實(shí)現(xiàn)不同級(jí)別的脫敏處理。
18、根據(jù)本公開(kāi)實(shí)施例的另一方面,提供一種基于圖層蒙版的非結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)脫敏裝置,所述裝置包括:
19、數(shù)據(jù)預(yù)處理模塊,用于對(duì)待處理的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行解析,根據(jù)預(yù)設(shè)的敏感詞從非結(jié)構(gòu)化數(shù)據(jù)中識(shí)別得到敏感字段;
20、生成圖層蒙版模塊,用于根據(jù)識(shí)別出的敏感字段,生成相應(yīng)的圖層蒙版;
21、數(shù)據(jù)脫敏處理模塊,用于將生成的圖層蒙版應(yīng)用到非結(jié)構(gòu)化數(shù)據(jù)上,覆蓋敏感字段,形成脫敏處理后的非結(jié)構(gòu)化數(shù)據(jù);
22、數(shù)據(jù)輸出模塊,用于將脫敏處理后的非結(jié)構(gòu)化數(shù)據(jù)用于共享、傳遞、測(cè)試環(huán)境等多個(gè)場(chǎng)景。
23、在一種可能的實(shí)現(xiàn)方式中,數(shù)據(jù)預(yù)處理模塊包括:
24、識(shí)別模塊,用于采用圖像識(shí)別技術(shù),對(duì)圖像數(shù)據(jù)進(jìn)行全面掃描,將圖像中的文字部分轉(zhuǎn)換為可編輯的文本內(nèi)容,并定位文字內(nèi)容在圖像數(shù)據(jù)中的位置坐標(biāo);這一步驟不僅要求識(shí)別出文字內(nèi)容,還需要準(zhǔn)確確定文字在圖像中的位置坐標(biāo),為后續(xù)處理提供精確的空間信息;
25、模糊匹配模塊,用于根據(jù)預(yù)設(shè)的敏感詞集合遍歷文本內(nèi)容進(jìn)行模糊匹配,將與敏感詞集合中敏感詞相似度大于預(yù)設(shè)閾值的文本字段作為潛在敏感字段;敏感詞集合包括姓名、身份證號(hào)、手機(jī)號(hào)、銀行卡號(hào)等常見(jiàn)敏感字段的文本塊,這樣,本公開(kāi)可以依據(jù)預(yù)設(shè)的敏感詞集合進(jìn)行相似度匹配,快速鎖定潛在敏感字段及相應(yīng)的區(qū)域;
26、二次匹配模塊,用于根據(jù)預(yù)設(shè)的敏感詞集合,采用正則表達(dá)式、關(guān)鍵詞匹配對(duì)篩選出的潛在敏感字段進(jìn)行二次匹配識(shí)別得到最終的敏感字段;
27、坐標(biāo)確定模塊,用于根據(jù)文字內(nèi)容在圖像數(shù)據(jù)中的位置坐標(biāo),記錄每個(gè)敏感字段的位置坐標(biāo);這些坐標(biāo)信息對(duì)于后續(xù)的圖層蒙版生成至關(guān)重要,因?yàn)樗鼈儗Q定蒙版需要覆蓋的具體區(qū)域;
28、標(biāo)記模塊,用于根據(jù)各敏感字段的位置坐標(biāo),在圖像數(shù)據(jù)中對(duì)各敏感字段進(jìn)行標(biāo)記,以便后續(xù)處理。
29、在一種可能的實(shí)現(xiàn)方式中,生成圖層蒙版模塊包括:
30、輪廓確定模塊,用于根據(jù)敏感字段的類(lèi)型和位置,確定蒙版的形狀,根據(jù)字段的輪廓生成不規(guī)則形狀的圖層蒙版。
31、在一種可能的實(shí)現(xiàn)方式中,數(shù)據(jù)脫敏處理模塊包括:
32、合成模塊,用于將生成的圖層蒙版應(yīng)用到圖像數(shù)據(jù)上,覆蓋敏感字段,并將蒙版圖層與原始圖像進(jìn)行合成;
33、調(diào)整模塊,用于根據(jù)不同場(chǎng)景的需求,動(dòng)態(tài)調(diào)整蒙版的參數(shù),以實(shí)現(xiàn)不同級(jí)別的脫敏處理。
34、根據(jù)本公開(kāi)實(shí)施例的另一方面,提供一種基于圖層蒙版的非結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)脫敏裝置,所述裝置包括:
35、處理器;
36、用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
37、其中,所述處理器被配置為執(zhí)行上述的方法。
38、根據(jù)本公開(kāi)實(shí)施例的另一方面,提供一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法。
39、本公開(kāi)的有益效果在于:本公開(kāi)采用圖層蒙版技術(shù),通過(guò)圖像識(shí)別技術(shù),實(shí)現(xiàn)了敏感詞的快速和在圖像中的定位,由此對(duì)非結(jié)構(gòu)化數(shù)據(jù)的快速、準(zhǔn)確的脫敏處理,提高了數(shù)據(jù)脫敏的效率。并且通過(guò)動(dòng)態(tài)調(diào)整圖層蒙版的參數(shù),本發(fā)明可以適應(yīng)不同條件下的脫敏需求,增強(qiáng)了數(shù)據(jù)脫敏的靈活性。最后在脫敏處理過(guò)程中,保留了數(shù)據(jù)的原有特征、業(yè)務(wù)規(guī)則和數(shù)據(jù)關(guān)聯(lián)性,同時(shí)實(shí)現(xiàn)了對(duì)敏感信息的有效遮蔽,提高了數(shù)據(jù)的安全性。
1.一種基于圖層蒙版的非結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)脫敏方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟2包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟3包括:
5.一種基于圖層蒙版的非結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)脫敏裝置,其特征在于,所述裝置包括:
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,數(shù)據(jù)預(yù)處理模塊包括:
7.根據(jù)權(quán)利要求1所述的裝置,其特征在于,生成圖層蒙版模塊包括:
8.根據(jù)權(quán)利要求1所述的裝置,其特征在于,數(shù)據(jù)脫敏處理模塊包括:
9.一種基于圖層蒙版的非結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)脫敏裝置,其特征在于,所述裝置包括:
10.一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序指令,其特征在于,所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至3中任意一項(xiàng)所述的方法。