本發(fā)明涉及智能存儲與安全管理,特別是一種基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)和數(shù)字化管理的快速發(fā)展,基礎(chǔ)設施建設領(lǐng)域的數(shù)字化轉(zhuǎn)型需求日益增加,特別是在大型基礎(chǔ)設施建設項目中,隨著工程數(shù)據(jù)、項目檔案和施工記錄等信息的不斷累積,如何高效、安全地存儲和管理這些龐大的檔案數(shù)據(jù)成為關(guān)鍵技術(shù)挑戰(zhàn),分布式存儲技術(shù)作為一種能夠提供高可靠性、高擴展性和高并發(fā)性能的存儲方案,已在多個行業(yè)中得到了廣泛應用,通過將數(shù)據(jù)分片存儲于多個節(jié)點,分布式存儲技術(shù)不僅降低了單點故障的風險,還顯著提升了系統(tǒng)的吞吐能力,然而,分布式存儲在實際應用中也存在一些問題,如檔案訪問權(quán)限的動態(tài)管理、安全防護機制的實時響應能力較弱,以及異常行為的精確識別和預警能力不足,此外,隨著人工智能和數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,許多研究開始探索如何通過智能化手段對分布式存儲系統(tǒng)中的用戶行為和數(shù)據(jù)訪問模式進行動態(tài)優(yōu)化,從而實現(xiàn)對異常行為的精準檢測與響應。
2、現(xiàn)有技術(shù)主要集中于基于規(guī)則的靜態(tài)安全管理和簡單的流量分析方法,這些方法在面對復雜多變的用戶行為時表現(xiàn)出明顯的局限性,傳統(tǒng)的檔案管理方法通常缺乏對用戶訪問行為的深度建模,難以精準描述用戶行為的變化趨勢,大多數(shù)現(xiàn)有方法僅依賴簡單的統(tǒng)計特征進行異常檢測,忽略了用戶行為在時間維度上的動態(tài)關(guān)聯(lián)性,導致異常檢測的準確性和響應的及時性較差,由于分布式存儲系統(tǒng)中節(jié)點之間的流量特征和數(shù)據(jù)訪問頻率差異較大,現(xiàn)有技術(shù)難以提供針對性強且資源優(yōu)化的安全防護方案,這不僅增加了系統(tǒng)的資源消耗,也在一定程度上限制了系統(tǒng)的適應能力,在實現(xiàn)對用戶行為精準建模的同時,提供高效的異常檢測與動態(tài)響應方案,成為現(xiàn)有技術(shù)亟待解決的核心問題。
技術(shù)實現(xiàn)思路
1、鑒于上述現(xiàn)有存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明提供了一種基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法及系統(tǒng)解決現(xiàn)有分布式存儲技術(shù)在面對大規(guī)模數(shù)字基建業(yè)績檔案管理時,存在對用戶行為建模不足、異常檢測不準確、安全響應不及時等問題。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
4、第一方面,本發(fā)明提供了一種基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法,其包括:
5、實時收集用戶的元數(shù)據(jù)并進行預處理;
6、基于每位用戶過去時間內(nèi)的元數(shù)據(jù)構(gòu)建流量特征矩陣;
7、對流量特征矩陣使用低秩分解得到殘差矩陣;
8、根據(jù)殘差矩陣構(gòu)建聯(lián)合優(yōu)化目標函數(shù)輸出最優(yōu)殘差矩陣;
9、基于最優(yōu)殘差矩陣構(gòu)建時間序列預測模型輸出預測殘差矩陣;
10、基于預測殘差矩陣進行異常類別區(qū)間分類并制定分級安全響應策略。
11、作為本發(fā)明所述基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法的一種優(yōu)選方案,其中:所述實時收集用戶的元數(shù)據(jù)并進行預處理包括:
12、檔案管理員上傳檔案文件并手動輸入檔案等級至檔案管理系統(tǒng);
13、通過檔案等級對檔案文件的分片大小進行調(diào)整并采用不同的加密算法,將不同加密算法生成的密鑰記錄至數(shù)據(jù)索引庫;
14、用戶通過檔案管理系統(tǒng)選擇目標檔案文件并發(fā)出操作請求,檔案管理系統(tǒng)接收到用戶的操作請求后,實時收集用戶的元數(shù)據(jù);
15、所述元數(shù)據(jù)包括用戶id、目標檔案文件路徑、時間戳和操作請求;
16、檔案管理系統(tǒng)驗證用戶的權(quán)限,若操作請求不匹配用戶權(quán)限,檔案管理系統(tǒng)拒絕該用戶訪問并記錄該操作請求為“失敗日志”,否則,檔案管理系統(tǒng)記錄該操作請求為“成功日志”并進行預處理;
17、所述預處理包括將元數(shù)據(jù)中每個數(shù)據(jù)作為特征,對每個特征進行格式化和歸一化處理。
18、作為本發(fā)明所述基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法的一種優(yōu)選方案,其中:所述基于每位用戶過去時間內(nèi)的元數(shù)據(jù)構(gòu)建流量特征矩陣;
19、基于每位用戶過去時間內(nèi)的元數(shù)據(jù)提取流量統(tǒng)計特征;
20、所述流量統(tǒng)計特征包括訪問次數(shù)、數(shù)據(jù)包數(shù)量、目的地址數(shù)量、響應數(shù)量、目的端口數(shù)量、網(wǎng)絡流大小和生存時間;
21、基于流量統(tǒng)計特征構(gòu)建流量特征矩陣w,其中,流量特征矩陣w的每行表示一個用戶的所有流量統(tǒng)計特征,每列表示不同用戶的流量統(tǒng)計特征;
22、對每列特征值進行歸一化處理,使用余弦相似度計算任意兩位用戶之間的行為相似度,根據(jù)用戶的行為相似度設定相似性閾值并構(gòu)建領(lǐng)接矩陣a,若兩位用戶之間的行為相似度大于相似性閾值,則認為兩位用戶的行為相似,在領(lǐng)接矩陣a中標記為1,否則,認為兩位用戶的行為不相似,在鄰接矩陣a中標記為0。
23、作為本發(fā)明所述基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法的一種優(yōu)選方案,其中:所述對流量特征矩陣使用低秩分解得到殘差矩陣包括:
24、計算流量特征矩陣w中每列的列范數(shù),按照列范數(shù)的大小遞減排序并選取最重要的前q列作為核心列子矩陣,通過計算流量特征矩陣w中每行的行范數(shù),按照行范數(shù)的大小遞減排序并選取最重要的前e行作為核心行子矩陣;
25、根據(jù)得到的核心列子矩陣和核心行子矩陣組成核矩陣u;
26、計算核矩陣得到流量特征矩陣w的低秩近似矩陣cur;
27、構(gòu)建殘差矩陣e,衡量流量特征矩陣w與其低秩近似矩陣cur之間的偏差值。
28、作為本發(fā)明所述基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法的一種優(yōu)選方案,其中:所述根據(jù)殘差矩陣構(gòu)建聯(lián)合優(yōu)化目標函數(shù)輸出最優(yōu)殘差矩陣包括:
29、根據(jù)殘差矩陣e,使用異常檢測損失函數(shù)計算異常檢測損失值,表達式為:
30、
31、其中,l表示異常檢測損失函數(shù)的損失值,α表示異常檢測的調(diào)節(jié)系數(shù),m和n分別表示流量特征矩陣w的行數(shù)和列數(shù),ωij表示殘差矩陣e中第i行第j列的元素的權(quán)重,rij表示殘差矩陣e中第i行第j列的元素;
32、所述異常檢測的調(diào)節(jié)系數(shù)通過計算殘差矩陣e中所有元素的均值和標準差,根據(jù)實際需求預設期望的異常行為比例ρ,根據(jù)異常行為比例定義異常行為的檢測范圍,選擇殘差矩陣e的上分位數(shù)1-ρ作為異常檢測的閾值te,表達式為:
33、te=μe+k·σe,
34、其中,μe表示殘差矩陣e中所有元素的均值,σe表示殘差矩陣e中所有元素的標準差,k是根據(jù)上分位數(shù)1-ρ計算出的標準正態(tài)分布的分位數(shù);
35、根據(jù)得到的閾值動態(tài)調(diào)整調(diào)節(jié)系數(shù),表達式為:
36、
37、其中,e表示自然指數(shù),k表示調(diào)節(jié)異常檢測的靈敏度的參數(shù);
38、所述權(quán)重根據(jù)行為相似度賦予,表達式為:
39、
40、其中,a(i,:)和a(j,:)分別是第i位用戶和第j位用戶與其他不同的用戶之間的行為相似度向量;
41、使用分式和指數(shù)函數(shù)構(gòu)建非線性壓縮成本函數(shù),表達式為:
42、
43、其中,p表示壓縮成本函數(shù)的損失值,λ表示壓縮成本的調(diào)節(jié)系數(shù),γ表示秩控制的放大因子,r表示對流量特征矩陣w使用低秩分解后的秩,ψ表示非線性增長速率調(diào)節(jié)參數(shù);
44、所述秩表示低秩分解的核心參數(shù),秩的數(shù)量最多為min(q,e),min(q,e)表示低秩分解中的核矩陣能夠表示的最大秩;
45、根據(jù)異常檢測損失函數(shù)和壓縮成本函數(shù)的損失值動態(tài)調(diào)整秩,表達式為:
46、
47、其中,r*表示優(yōu)化后的秩;
48、通過將核心列子矩陣加入稀疏性約束構(gòu)建稀疏性約束函數(shù),表達式為:
49、
50、其中,s表示稀疏性約束函數(shù)的損失值,η表示稀疏性權(quán)重系數(shù),p表示核心列子矩陣的列數(shù),||cb||1表示核心列子矩陣中第b列的l1范數(shù);
51、構(gòu)建聯(lián)合優(yōu)化目標函數(shù),表達式為:
52、
53、其中,l表示異常檢測損失函數(shù)的損失值,p表示壓縮成本函數(shù)的損失值,s表示稀疏性約束函數(shù)的損失值;
54、使用增廣拉格朗日乘子法分解聯(lián)合優(yōu)化目標函數(shù),通過固定秩的值,優(yōu)化低秩近似矩陣cur,并通過動態(tài)調(diào)整秩的值,重新計算聯(lián)合優(yōu)化目標函數(shù)的損失值,設定損失閾值,若兩次迭代中聯(lián)合優(yōu)化目標函數(shù)之間的損失值差值小于損失閾值,則表示該聯(lián)合優(yōu)化目標函數(shù)收斂,停止迭代,輸出最優(yōu)解,得到最優(yōu)殘差矩陣,否則,繼續(xù)迭代;
55、通過將實時的殘差矩陣輸入到聯(lián)合優(yōu)化目標函數(shù)中,輸出最優(yōu)殘差矩陣。
56、作為本發(fā)明所述基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法的一種優(yōu)選方案,其中:所述基于最優(yōu)殘差矩陣構(gòu)建時間序列預測模型輸出預測殘差矩陣包括:
57、將得到的最優(yōu)殘差矩陣按照時間維度劃分為多個時間窗口,使用均方偏差計算每列的異常波動值,從當前時間點中選擇異常波動值最高的前h列特征作為異常波動特征,提取最優(yōu)殘差矩陣中所有時間窗口內(nèi)的所有異常波動特征并進行歸一化處理,將所有異常波動特征劃分為訓練集和測試集;
58、所述構(gòu)建時間序列預測模型指使用長短期記憶網(wǎng)絡作為時間序列預測模型,包括輸入層、lstm隱藏層和全連接輸出層;
59、將訓練集輸入到時間序列預測模型,通過前向傳播輸出下個時間窗口的預測殘差矩陣,使用均方誤差作為損失函數(shù),通過損失函數(shù)計算預測特征值與真實特征值的誤差,利用adam優(yōu)化器更新參數(shù)以最小化誤差,設置迭代次數(shù),若訓練集的損失值連續(xù)d次未下降,則提前停止迭代,否則,繼續(xù)迭代,直到達到最大迭代次數(shù);
60、使用測試集測試時間序列預測模型的性能,評估異常檢測的精確率、召回率和f1分數(shù);
61、通過將所有用戶實時的最優(yōu)殘差矩陣輸入時間序列預測模型,生成下個時間窗口的所有用戶的預測殘差矩陣。
62、作為本發(fā)明所述基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法的一種優(yōu)選方案,其中:所述基于預測殘差矩陣進行異常類別區(qū)間分類并制定分級安全響應策略包括:
63、基于得到的預測殘差矩陣,設定異常閾值并檢索預測殘差矩陣;
64、若預測殘差矩陣中的預測特征值大于異常閾值,則提取該預測特征值對應的用戶并將該用戶標記為未來異常用戶,否則,不進行操作;
65、提取每位未來異常用戶在預測殘差矩陣中的所有預測特征值進行歸一化處理并構(gòu)建異常特征向量;
66、使用k-means聚類算法,根據(jù)所有用戶的異常特征向量,設置聚類數(shù)目為3,隨機選擇3個用戶的異常特征向量作為初始簇中心,計算每個用戶的異常特征向量與所有初始簇中心的歐式距離,并將該用戶分配給距離最近的簇中心,重新計算每個簇中所有用戶的異常特征向量的均值作為新的簇中心,設定最大迭代次數(shù),重復分配用戶到最近的聚類中心和更新聚類中心的步驟,直到達到最大迭代次數(shù),每個簇對應一個異常類別區(qū)間;
67、所述異常類別區(qū)間包括高頻訪問區(qū)間、敏感訪問區(qū)間和流量突增異常區(qū)間;
68、根據(jù)異常類別區(qū)間制定分級安全響應策略;
69、若未來異常用戶處于高頻訪問區(qū)間,則提示用戶操作過于頻繁,并建議稍后再試,臨時限制用戶訪問頻率,記錄訪問日志;
70、若未來異常用戶處于敏感訪問區(qū)間,則臨時限制用戶訪問權(quán)限,要求重新驗證身份,通知管理員;
71、若未來異常用戶處于流量突增異常區(qū)間,則阻斷用戶請求,啟用ddos防護。
72、第二方面,本發(fā)明提供了一種基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理系統(tǒng),包括:
73、數(shù)據(jù)采集模塊,用于實時收集用戶的元數(shù)據(jù)并進行預處理;
74、矩陣構(gòu)建模塊,用于基于每位用戶過去時間內(nèi)的元數(shù)據(jù)構(gòu)建流量特征矩陣;
75、低秩分解模塊,用于對流量特征矩陣使用低秩分解得到殘差矩陣;
76、優(yōu)化輸出模塊,用于根據(jù)殘差矩陣構(gòu)建聯(lián)合優(yōu)化目標函數(shù)輸出最優(yōu)殘差矩陣;
77、模型構(gòu)建模塊,用于基于最優(yōu)殘差矩陣構(gòu)建時間序列預測模型輸出預測殘差矩陣;
78、分類處理模塊,用于基于預測殘差矩陣進行異常類別區(qū)間分類并制定分級安全響應策略。
79、第三方面,本發(fā)明提供了一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其中:所述計算機程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明第一方面所述的基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法的任一步驟。
80、第四方面,本發(fā)明提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其中:所述計算機程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明第一方面所述的基于分布式存儲技術(shù)的數(shù)字基建業(yè)績檔案管理方法的任一步驟。
81、本發(fā)明有益效果為:利用低秩分解生成殘差矩陣,并通過聯(lián)合優(yōu)化目標函數(shù)和時間序列預測模型實現(xiàn)異常行為的精準檢測與預測,顯著提高了檢測精度和系統(tǒng)的魯棒性,實現(xiàn)了動態(tài)稀疏性約束和資源優(yōu)化,基于異常類別區(qū)間劃分制定分級安全響應策略,針對高頻訪問、敏感訪問和流量突增等行為實施精細化防護。