本發(fā)明涉及數(shù)據(jù)安全,具體來說是一種圖片敏感信息檢測方法及系統(tǒng)。
背景技術(shù):
1、移動互聯(lián)時代,各級企事業(yè)單位的敏感、隱私或涉密數(shù)據(jù)泄露事件頻發(fā)高發(fā),不僅給相關(guān)單位帶來不可挽回的經(jīng)濟(jì)損失,同時還給國防安全、社會穩(wěn)定帶來極大挑戰(zhàn)。數(shù)據(jù)安全越來越成為各級企事業(yè)單位關(guān)注的關(guān)鍵問題。
2、政務(wù)業(yè)務(wù)系統(tǒng)承載數(shù)據(jù)價值高、敏感信息集中,并且需要面向眾多應(yīng)用部門和大量用戶,風(fēng)險暴露面大,信息安全管控難度高。尤其是在人機(jī)交互數(shù)據(jù)使用的過程中,當(dāng)電子數(shù)據(jù)轉(zhuǎn)換為人類可直接感知的信息形式,如通過顯示屏幕轉(zhuǎn)換為光學(xué)信息后,往往脫離了傳統(tǒng)數(shù)據(jù)安全的管控范圍,存在巨大的數(shù)據(jù)泄露風(fēng)險。
3、屏幕顯示是人機(jī)交互必備的核心部件之一,而各種智能終端的普及則使得屏幕拍照等形式的竊密行為變得更加方便,同時對于拍照泄密、竊密的責(zé)任人通過傳統(tǒng)手段往往難以追溯。尤其在智能手機(jī)終端廣泛使用的當(dāng)下,對關(guān)鍵信息的保密安全防范面臨著重大挑戰(zhàn),失泄密管控的難度正日益增加。目前,屏幕拍攝、截圖形式的泄密行為,已成為許多單位安全保密工作的管理盲區(qū)和核心痛點。
4、隨著移動設(shè)備的普及和互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)泄露問題日益嚴(yán)重。企事業(yè)單位的敏感、隱私或涉密數(shù)據(jù)泄露頻發(fā),給個人隱私、企業(yè)利益帶來巨大挑戰(zhàn)。傳統(tǒng)的解決方案一是通過在網(wǎng)絡(luò)出口和終端設(shè)備上安裝dlp數(shù)據(jù)防泄露軟件進(jìn)行外發(fā)數(shù)據(jù)的審計,二是通過在終端設(shè)備上安裝水印軟件和防泄密軟件來進(jìn)行數(shù)據(jù)泄露防護(hù)。三是傳統(tǒng)的圖片敏感信息識別技術(shù)是利用基于深度學(xué)習(xí)的方法利用?cnn?等網(wǎng)絡(luò)提取圖像的卷積特征,敏感信息判斷邊界模糊,泛化能力差,容易受到圖像處理操作(如壓縮、濾波等)的影響。
5、傳統(tǒng)的dlp軟件主要依賴于預(yù)定義的規(guī)則和模式,對于已知的威脅可以做出反應(yīng),但對于未知的威脅和變種可能效果有限。針對泄露的外發(fā)數(shù)據(jù)無法準(zhǔn)確的進(jìn)行溯源和定位泄密源頭。
6、傳統(tǒng)的水印產(chǎn)品軟件只能對已經(jīng)發(fā)生的數(shù)據(jù)泄露進(jìn)行事后溯源和定責(zé),無法及時有效地預(yù)警潛在的數(shù)據(jù)泄露風(fēng)險。且傳統(tǒng)的防泄密軟件是利用基于深度學(xué)習(xí)的方法利用cnn?等網(wǎng)絡(luò)提取圖像的卷積特征。這些特征通常針對特定的隱寫算法或特定的圖像類型設(shè)計,泛化能力有限。并且通常提取的是圖像的統(tǒng)計特征或底層視覺特征,往往難以直觀地解釋,且容易受到圖像處理操作(如壓縮、濾波等)的影響。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于如何主動發(fā)現(xiàn)與檢測帶有敏感信息的外發(fā)圖片。
2、本發(fā)明通過以下技術(shù)手段實現(xiàn)解決上述技術(shù)問題的:
3、圖片敏感信息檢測方法,包括:
4、s1.對終端桌面和網(wǎng)頁應(yīng)用界面進(jìn)行水印嵌入;
5、s2.檢測用戶端的圖片外發(fā)行為并截取外發(fā)圖片;
6、s3.對所述外發(fā)圖片進(jìn)行敏感信息檢測,具體為:
7、對所述外發(fā)圖片進(jìn)行全局視覺特征提取和局部語義特征提取,生成兩段圖片特征強(qiáng)關(guān)聯(lián)的語義信息;
8、識別并提取所述外發(fā)圖片中的文字;
9、將所述兩段圖片特征強(qiáng)關(guān)聯(lián)的語義信息和所述外發(fā)圖片中的文字通過大語言模型引導(dǎo)生成兩段正向/反向假設(shè)文本和對應(yīng)答案;
10、將所述兩段正向/反向假設(shè)文本和對應(yīng)答案通過矛盾驗證和證據(jù)合成,生成強(qiáng)化后的合成證據(jù)向量;
11、基于所述合成證據(jù)向量評估所述外發(fā)圖片是否攜帶敏感信息;
12、s4.對攜帶敏感信息的所述外發(fā)圖片進(jìn)行水印檢測及溯源。
13、本發(fā)明通過結(jié)合現(xiàn)有的安全建設(shè)現(xiàn)狀,利用多模態(tài)大模型的優(yōu)勢加強(qiáng)對圖片敏感信息的檢測,構(gòu)建對終端屏幕、網(wǎng)頁應(yīng)用界面截圖或拍照泄露行為的主動發(fā)現(xiàn)與檢測能力。服務(wù)于政務(wù)辦公平臺重要數(shù)據(jù)使用過程中發(fā)現(xiàn)的可疑泄露信息,實現(xiàn)數(shù)據(jù)泄露的主動發(fā)現(xiàn),在泄露事件進(jìn)一步擴(kuò)散前進(jìn)行有效預(yù)警??梢约皶r發(fā)現(xiàn)潛在的數(shù)據(jù)泄露風(fēng)險,從而采取相應(yīng)的措施進(jìn)行防范,減少數(shù)據(jù)泄露造成的損失。
14、進(jìn)一步的,所述s3中生成兩段圖片特征強(qiáng)關(guān)聯(lián)的語義信息和識別并提取所述外發(fā)圖片中的文字,具體為:
15、將所述外發(fā)圖片通過blip-2模型獲取圖像的整體語義與視覺信息,輸出全局視覺表征向量,通過detr模型識別所述圖像中的重要目標(biāo)對象,輸出相應(yīng)的局部特征向量;
16、通過ocr對所述圖像中的文本進(jìn)行識別,輸出對應(yīng)的文字內(nèi)容及其位置,將所述全局視覺表征向量、局部特征向量和所述文字內(nèi)容及其位置信息進(jìn)行組合,生成對所述圖像的初步文本描述。
17、進(jìn)一步的,所述s3中兩段正向/反向假設(shè)文本和對應(yīng)答案生成方法為:將所述外發(fā)圖片初步描述和提示詞輸入deepseek-r1大語言模型;deepseek-r1大語言模型在接收到所述外發(fā)圖片初步描述與提示詞后,根據(jù)圖像內(nèi)容及提示要求做一輪推理,給出思考結(jié)果;
18、其中deepseek-r1大語言模型輸出兩段文本為:
19、第一段文本:回答「非假設(shè)性」提問——“該圖片是否攜帶敏感信息?”。
20、第二段文本:基于第一段的結(jié)果,提出相反的假設(shè)并讓?deepseek-r1大語言模型進(jìn)一步推理;若第一段判斷“該圖片不含敏感信息”,那么第二段會假設(shè)“圖片含敏感信息”,要求模型給出與之相符的論證或理由;若第一段判斷“該圖片含敏感信息”,那么第二段會假設(shè)“圖片不含敏感信息”,再讓deepseek-r1大語言模型推理可能的原因或上下文。
21、進(jìn)一步的,所述s3中矛盾驗證和證據(jù)合成具體為:
22、通過量化分析生成的正向與反向假設(shè)文本之間的矛盾強(qiáng)度,構(gòu)建多模態(tài)聯(lián)合證據(jù);
23、首先,基于文本編碼器提取語義嵌入,結(jié)合自然語言推理模型輸出的邏輯矛盾概率,通過加權(quán)融合公式計算綜合矛盾系數(shù)γ,動態(tài)平衡語義分歧與邏輯悖論;
24、隨后,將全局與局部視覺特征拼接后,與γ值共同輸入跨模態(tài)融合網(wǎng)絡(luò),利用門控機(jī)制篩選有效信息,生成強(qiáng)化后的合成證據(jù)向量;
25、矛盾強(qiáng)度計算公式如下:
26、
27、其中:t1,t2為正反向文本,λ是語義與邏輯矛盾的平衡因子,e是文本編碼器,d是文本嵌入維度,p(·)是自然語言推理模型輸出的矛盾/蘊(yùn)含概率;
28、證據(jù)合成公式如下:
29、
30、其中:是視覺特征融合權(quán)重矩陣,k×2d表示這是一個具有k行、2d列的矩陣;通過可學(xué)習(xí)參數(shù)建立全局特征與局部特征的關(guān)聯(lián)映射;是矛盾強(qiáng)度投影向量,將標(biāo)量γ值擴(kuò)展為k維權(quán)重向量,使高矛盾區(qū)域在特征空間中產(chǎn)生顯著偏移;gelu是高斯誤差線性單元激活函數(shù),[fglobal;flocal]為特征拼接操作。
31、進(jìn)一步的,所述s3中基于證據(jù)向量評估所述外發(fā)圖片是否攜帶敏感信息具體方法為:
32、首先,計算合成證據(jù)向量的馬氏距離,通過指數(shù)衰減函數(shù)生成特征合法性評分ρ,所述評分ρ直接參與敏感概率計算形成抗擾置信度;
33、隨后,引入熵感知的動態(tài)閾值機(jī)制,當(dāng)所述評分ρ值低于設(shè)定值時,自動放寬判定邊界并將樣本標(biāo)記為"待復(fù)審";
34、最終決策時,系統(tǒng)對高ρ值樣本執(zhí)行嚴(yán)格閾值判定,而對中低ρ值樣本啟動防御性決策流程。
35、本發(fā)明還提供一種圖片敏感信息檢測系統(tǒng),包括:
36、水印嵌入模塊:對終端桌面和網(wǎng)頁應(yīng)用界面進(jìn)行水印嵌入;
37、檢測模塊:檢測用戶端的外發(fā)圖片,其中所述外發(fā)圖片包含水?。?/p>
38、敏感信息檢測模塊:將所述外發(fā)圖片進(jìn)行全局視覺特征提取和局部語義特征提取,生成兩段圖片特征強(qiáng)關(guān)聯(lián)的語義信息;識別并提取所述外發(fā)圖片中的文字;將所述兩段圖片特征強(qiáng)關(guān)聯(lián)的語義信息和所述外發(fā)圖片中的文字通過大語言模型引導(dǎo)生成兩段正向/反向假設(shè)文本和對應(yīng)答案;將所述兩段正向/反向假設(shè)文本和對應(yīng)答案通過矛盾驗證和證據(jù)合成,生成強(qiáng)化后的合成證據(jù)向量;基于所述合成證據(jù)向量評估所述外發(fā)圖片是否攜帶敏感信息;
39、溯源模塊:對攜帶敏感信息的所述外發(fā)圖片進(jìn)行水印檢測及溯源。
40、進(jìn)一步的,所述敏感信息檢測模塊中語義信息和文字識別具體為:外發(fā)圖片通過blip-2模型獲取圖像的整體語義與視覺信息,輸出全局視覺表征向量;通過detr模型識別所述圖像中的重要目標(biāo)對象,輸出相應(yīng)的局部特征向量;通過ocr對所述圖像中的文本進(jìn)行識別,輸出對應(yīng)的文字內(nèi)容及其位置;將所述全局視覺表征向量、局部特征向量和所述文字內(nèi)容及其位置信息進(jìn)行組合,生成對所述圖像的初步文本描述。
41、進(jìn)一步的,所述敏感信息檢測模塊中兩段正向/反向假設(shè)文本和對應(yīng)答案生成方法為:將外發(fā)圖片初步描述和提示詞輸入deepseek-r1大語言模型;deepseek-r1大語言模型在接收到圖片初步描述與提示詞后,根據(jù)圖像內(nèi)容及提示要求做一輪推理,給出思考結(jié)果;
42、其中deepseek-r1大語言模型輸出兩段文本為:
43、第一段文本:回答「非假設(shè)性」提問——“該圖片是否攜帶敏感信息?”。
44、第二段文本:基于第一段的結(jié)果,提出相反的假設(shè)并讓?deepseek-r1大語言模型進(jìn)一步推理;若第一段判斷“該圖片不含敏感信息”,那么第二段會假設(shè)“圖片含敏感信息”,要求模型給出與之相符的論證或理由;若第一段判斷“該圖片含敏感信息”,那么第二段會假設(shè)“圖片不含敏感信息”,再讓deepseek-r1大語言模型推理可能的原因或上下文。
45、進(jìn)一步的,所述敏感信息檢測模塊中矛盾驗證和證據(jù)合成具體為:通過量化分析生成的正向與反向假設(shè)文本之間的矛盾強(qiáng)度,構(gòu)建多模態(tài)聯(lián)合證據(jù);首先,基于文本編碼器提取語義嵌入,結(jié)合自然語言推理模型輸出的邏輯矛盾概率,通過加權(quán)融合公式計算綜合矛盾系數(shù)γ,動態(tài)平衡語義分歧與邏輯悖論;隨后,將全局與局部視覺特征拼接后,與γ值共同輸入跨模態(tài)融合網(wǎng)絡(luò),利用門控機(jī)制篩選有效信息,生成強(qiáng)化后的合成證據(jù)向量;
46、矛盾強(qiáng)度計算公式如下:
47、
48、其中:t1,t2為正反向文本,λ是語義與邏輯矛盾的平衡因子,e是文本編碼器,d是文本嵌入維度,p(·)是自然語言推理模型輸出的矛盾/蘊(yùn)含概率;
49、證據(jù)合成公式如下:
50、
51、其中:是視覺特征融合權(quán)重矩陣,k×2d表示這是一個具有k行、2d列的矩陣;通過可學(xué)習(xí)參數(shù)建立全局特征與局部特征的關(guān)聯(lián)映射;是矛盾強(qiáng)度投影向量,將標(biāo)量γ值擴(kuò)展為k維權(quán)重向量,使高矛盾區(qū)域在特征空間中產(chǎn)生顯著偏移;gelu是高斯誤差線性單元激活函數(shù),[fglobal;flocal]為特征拼接操作。
52、進(jìn)一步的,所述敏感信息檢測模塊中基于證據(jù)向量輸出圖片是否攜帶敏感信息具體方法為:首先計算合成證據(jù)向量的馬氏距離,通過指數(shù)衰減函數(shù)生成特征合法性評分ρ,所述評分ρ直接參與敏感概率計算形成抗擾置信度;隨后引入熵感知的動態(tài)閾值機(jī)制,當(dāng)ρ值低于設(shè)定值時自動放寬判定邊界并將樣本標(biāo)記為"待復(fù)審";最終決策時,系統(tǒng)對高ρ值樣本執(zhí)行嚴(yán)格閾值判定,而對中低ρ值樣本啟動防御性決策流程。
53、本發(fā)明的優(yōu)點在于:
54、主動發(fā)現(xiàn)與檢測能力:本發(fā)明通過實時監(jiān)測終端屏幕、網(wǎng)頁應(yīng)用界面截圖或拍照等行為,能夠在數(shù)據(jù)泄露事件發(fā)生前及時發(fā)現(xiàn)并預(yù)警,而傳統(tǒng)的數(shù)據(jù)泄露檢測方法往往只能在數(shù)據(jù)泄露發(fā)生后進(jìn)行事后發(fā)現(xiàn)和處理。
55、基于多模態(tài)大模型的圖片敏感信息檢測方法:調(diào)用多模態(tài)大模型,利用大規(guī)模預(yù)訓(xùn)練模型的語義表示能力輸出高質(zhì)量的分析結(jié)果。結(jié)合特征交叉融合模塊和決策評分模塊,精準(zhǔn)地捕捉到可能存在的敏感信息線索并判斷結(jié)果,增強(qiáng)圖像敏感信息檢測的準(zhǔn)確性和泛化能力。
56、水印信息檢測與溯源聯(lián)動:本發(fā)明通過水印信息檢測技術(shù),快速定位到泄露源,并與數(shù)字水印溯源平臺聯(lián)動,實現(xiàn)快速追蹤溯源,精準(zhǔn)定位數(shù)據(jù)泄露源頭。這一創(chuàng)新技術(shù)能夠有效地追溯數(shù)據(jù)泄露的責(zé)任人,從而更好地防范類似事件的再次發(fā)生。
57、完善的安全防護(hù)體系:本方案不僅實現(xiàn)了對數(shù)據(jù)泄露的主動發(fā)現(xiàn)與及時預(yù)警,同時借助dlp技術(shù)和ocr內(nèi)容識別,構(gòu)建了完善的數(shù)據(jù)安全防護(hù)體系,提高了企業(yè)單位在面對數(shù)據(jù)泄露問題時的應(yīng)對效率和效果。
58、綜上所述,本發(fā)明通過主動發(fā)現(xiàn)與檢測數(shù)據(jù)泄露、基于多模態(tài)大模型的圖片敏感信息檢測技術(shù)、水印信息檢測與溯源聯(lián)動以及完善的安全防護(hù)體系等技術(shù)特征,解決了移動互聯(lián)時代各單位面臨的敏感、隱私或涉密數(shù)據(jù)泄露問題,為個人隱私、企業(yè)利益提供了有力保障。