本發(fā)明涉及數(shù)據(jù)管理,特別是涉及一種基于數(shù)據(jù)標識的數(shù)據(jù)安全智能化治理方法。
背景技術:
1、數(shù)據(jù)安全治理的本質(zhì)是通過構建體系化的數(shù)據(jù)安全機制,明確數(shù)據(jù)安全的目標、內(nèi)容和范圍,保障已有成果充分利用,缺失能力有計劃的補齊,進而形成數(shù)據(jù)安全能力閉環(huán)。當前數(shù)據(jù)安全治理的方法,主要存在以下不足:
2、(1)數(shù)據(jù)對象細粒度不足:對于數(shù)據(jù)對象的分析不夠細致,多以一些元數(shù)據(jù)信息,如文件名稱、id等,作為鑒別數(shù)據(jù)的依據(jù),難以支撐豐富、細致的數(shù)據(jù)安全管控需求。
3、(2)規(guī)則繁瑣且自適應能力缺乏:許多數(shù)據(jù)安全措施仍然依賴于大量的手動配置,這不僅效率低下,而且容易出錯。數(shù)據(jù)安全治理的手段、策略無法自適應新的安全威脅和環(huán)境變化,需要人工更新和調(diào)整。
4、(3)數(shù)據(jù)安全治理的體系化不足:對于當前的數(shù)據(jù)安全治理手段,多為堆砌各類安全防護設備,并各自體現(xiàn)數(shù)據(jù)安全防護能力,不同設備之間的能力或效果難以進行融合、關聯(lián)。
技術實現(xiàn)思路
1、鑒于此,本發(fā)明提供了一種基于數(shù)據(jù)標識的數(shù)據(jù)安全智能化治理方法,通過豐富多維的數(shù)據(jù)標識為基礎,結合自動化的安全分析與管控策略,實現(xiàn)高效、智能、體系聯(lián)動的數(shù)據(jù)安全治理。
2、本發(fā)明公開了一種基于數(shù)據(jù)標識的數(shù)據(jù)安全智能化治理方法,其包括:
3、識別數(shù)據(jù)源并對其進行標識;對數(shù)據(jù)源信息進行配置,授權對數(shù)據(jù)源的訪問操作;
4、配置數(shù)據(jù)的類別與級別,獲取數(shù)據(jù)內(nèi)容的分類分級檢索規(guī)則,預先根據(jù)帶標簽的樣本進行學習訓練,利用訓練得到的智能分類模型對數(shù)據(jù)內(nèi)容進行分類預測;識別各類數(shù)據(jù)庫中的結構化數(shù)據(jù),提取標識信息;識別各類文件服務器中的各種非結構化數(shù)據(jù),提取標識信息;
5、添加并管理各類數(shù)據(jù)安全防護設備,配置并下發(fā)基于數(shù)據(jù)標識的安全防護策略;所述安全防護策略包括防泄漏策略、脫敏策略和安全審計策略;
6、采集日志和標識信息,通過安全審計策略得到異常記錄或風險告警;獲取日志的異常數(shù)據(jù)訪問行為,記錄異常的特征信息,并生成異常檢測結果;將得到的異常記錄或風險告警和異常檢測結果進行融合關聯(lián)分析。
7、進一步地,獲取所述智能分類模型的方法包括:
8、將預先準備的帶標簽的樣本數(shù)據(jù)提供給設備,設備基于機器學習算法進行訓練學習,提煉出樣本數(shù)據(jù)的共同點生成智能預測模型;
9、若無法明確數(shù)據(jù)的分類標簽并提供按標簽分好類的樣本數(shù)據(jù),則使用聚類技術,利用無監(jiān)督的機器學習,將大量混合文件按照內(nèi)容相似度自動進行聚類,完成聚類后,用戶配合每一類數(shù)據(jù)進行標簽的確認;若聚類結果不符合要求,則調(diào)整參數(shù)與配置,再次完成數(shù)據(jù)聚類,完成聚類的標簽確認后,將所有帶標簽的樣本數(shù)據(jù)提供給設備,以使設備基于機器學習算法進行訓練學習。
10、進一步地,所述識別各類數(shù)據(jù)庫中的結構化數(shù)據(jù),提取標識信息,包括:
11、對各類數(shù)據(jù)庫進行深度掃描,識別存儲其內(nèi)的結構化數(shù)據(jù),以數(shù)據(jù)字段為最小單位,提取包括元數(shù)據(jù)、數(shù)據(jù)hash、模糊hash,以及分類分級屬性在內(nèi)的各項標識信息。
12、進一步地,所述識別各類文件服務器中的各種非結構化數(shù)據(jù),提取標識信息,包括:
13、對各類文件服務器進行深度掃描,識別存儲其內(nèi)的各種非結構化數(shù)據(jù),以單個文件為最小單位,自動提取包括元數(shù)據(jù)、整體文件hash、文件內(nèi)容模糊hash,以及分類分級屬性在內(nèi)的各項標識信息;元數(shù)據(jù)用于描述數(shù)據(jù)的基礎信息,整體文件hash用于鑒別數(shù)據(jù)的唯一性,文件內(nèi)容模糊hash用于分析數(shù)據(jù)的相似度,分級分類屬性用于判斷數(shù)據(jù)的安全要素。
14、進一步地,所述添加并管理各類數(shù)據(jù)安全防護設備,配置并下發(fā)基于數(shù)據(jù)標識的安全防護策略,包括:
15、添加各類數(shù)據(jù)安全防護設備并對其進行配置,管理數(shù)據(jù)安全防護設備的連接狀態(tài)、監(jiān)測數(shù)據(jù)安全防護設備的運行狀態(tài);制定以數(shù)據(jù)標識為基礎的各項安全防護策略,建立敏感數(shù)據(jù)標識庫;下發(fā)敏感數(shù)據(jù)標識庫及保護策略給數(shù)據(jù)安全防護設備;所述敏感數(shù)據(jù)標識庫包括數(shù)據(jù)標識中的安全等級為預設級別以上的標識。
16、進一步地,所述采集日志和標識信息,通過安全審計策略得到異常記錄或風險告警,包括:
17、通過流量采集數(shù)據(jù)源訪問日志,通過接口采集三方系統(tǒng)日志,通過接口采集數(shù)據(jù)標識信息;根據(jù)字段映射,將采集的日志解析為結構化數(shù)據(jù);根據(jù)日志產(chǎn)生的階段,數(shù)據(jù)庫訪問日志對應數(shù)據(jù)查詢操作行為、三方系統(tǒng)日志對應系統(tǒng)類型關聯(lián)的操作行為,每條日志遍歷安全審計策略列表中該操作行為下的策略,根據(jù)策略命中情況,產(chǎn)生異常記錄或風險告警。
18、進一步地,所述獲取日志的異常數(shù)據(jù)訪問行為,記錄異常的特征信息,并生成異常檢測結果,包括:
19、流量采集與預處理:提供數(shù)據(jù)訪問流量日志樣本數(shù)據(jù),采用無監(jiān)督學習算法,訓練數(shù)據(jù)訪問行為聚類模型,學習不同用戶群體的行為模式;
20、特征提取:從原始特征中選擇出所需的特征子集,從流量數(shù)據(jù)中提取特征,并在分組切片后對各個特征進行聚合;
21、聚類:自動識別流量群體中的正常和異常模式,通過聚類,識別出異常、正常群體模式;
22、構建基線:通過聚類得到流量日志的行為標簽后,構建基線模型用于對未來的流量進行預測,基線模型包含統(tǒng)計基線和記憶基線;
23、實時更新和動態(tài)響應:記憶基線按細粒度時間區(qū)間定時訓練增量更新模型參數(shù),通過api直接調(diào)用;
24、利用基線模型,基于正常行為特征區(qū)間,對采集的數(shù)據(jù)訪問日志進行特征提取和基線比對,將超出特征區(qū)間的行為定義為異常數(shù)據(jù)訪問行為,記錄異常的特征信息,并生成異常檢測結果。
25、進一步地,所述將得到的異常記錄或風險告警和異常檢測結果進行融合關聯(lián)分析,包括:
26、各類數(shù)據(jù)安全設備依據(jù)基于數(shù)據(jù)標識的數(shù)據(jù)保護策略進行數(shù)據(jù)安全監(jiān)測執(zhí)行,并上報告警、防護處置數(shù)據(jù)進行統(tǒng)一匯總;
27、通過對指定時間內(nèi)的多種數(shù)據(jù)安全日志進行融合關聯(lián)分析,將有關數(shù)據(jù)操作行為串聯(lián)成安全事件,還原事件的發(fā)生鏈路;事件包括數(shù)據(jù)泄露和數(shù)據(jù)濫用;
28、基于融合分析結果,向各類數(shù)據(jù)安全設備下發(fā)指令,實現(xiàn)數(shù)據(jù)全生命周期的安全管控。
29、由于采用了上述技術方案,本發(fā)明具有如下的優(yōu)點:
30、1、本發(fā)明針對傳統(tǒng)的數(shù)據(jù)安全治理方法中,無法精準描述數(shù)據(jù)信息,追蹤數(shù)據(jù)變化,以及各類安全防護能力與效果未形成有效聯(lián)動,難以進行融合分析等情況,提出了針對數(shù)據(jù)的多維標識方法?;跀?shù)據(jù)標識,實現(xiàn)了各類防護策略、風險告警信息相融合,可以更加全面的識別數(shù)據(jù)對象、準確跟蹤數(shù)據(jù)變化,以及綜合提升防護效率、分析效果等。
31、2、本發(fā)明針對傳統(tǒng)的數(shù)據(jù)安全治理方法中,實現(xiàn)數(shù)據(jù)分類分級以及數(shù)據(jù)安全審計等,需要頻繁更新規(guī)則、效率低、易出錯等問題,提出了基于標簽樣本數(shù)據(jù)、行為基線數(shù)據(jù),結合人工智能機器學習算法,可以輔助或替代基于傳統(tǒng)規(guī)則的檢測手段,降低人工損耗,并提升分級分類與異常檢測的準確性。
1.一種基于數(shù)據(jù)標識的數(shù)據(jù)安全智能化治理方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,獲取所述智能分類模型的方法包括:
3.根據(jù)權利要求1所述的方法,其特征在于,所述識別各類數(shù)據(jù)庫中的結構化數(shù)據(jù),提取標識信息,包括:
4.根據(jù)權利要求1所述的方法,其特征在于,所述識別各類文件服務器中的各種非結構化數(shù)據(jù),提取標識信息,包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述添加并管理各類數(shù)據(jù)安全防護設備,配置并下發(fā)基于數(shù)據(jù)標識的安全防護策略,包括:
6.根據(jù)權利要求1所述的方法,其特征在于,所述采集日志和標識信息,通過安全審計策略得到異常記錄或風險告警,包括:
7.根據(jù)權利要求1所述的方法,其特征在于,所述獲取日志的異常數(shù)據(jù)訪問行為,記錄異常的特征信息,并生成異常檢測結果,包括:
8.根據(jù)權利要求1所述的方法,其特征在于,所述將得到的異常記錄或風險告警和異常檢測結果進行融合關聯(lián)分析,包括: