最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于強化學習的安全策略匹配方法、計算機程序產(chǎn)品、存儲介質(zhì)及終端

文檔序號:41949291發(fā)布日期:2025-05-16 14:07閱讀:3來源:國知局
基于強化學習的安全策略匹配方法、計算機程序產(chǎn)品、存儲介質(zhì)及終端

本發(fā)明涉及網(wǎng)絡(luò)安全,尤其涉及一種基于強化學習的安全策略匹配方法、計算機程序產(chǎn)品、存儲介質(zhì)及終端。


背景技術(shù):

1、安全策略生成模型在網(wǎng)絡(luò)安全領(lǐng)域發(fā)揮著重要作用,基于規(guī)則的安全策略生成模型是最早的安全策略生成模型之一。該模型基于已知的威脅特征和攻擊模式,制定一系列規(guī)則以檢測和防御安全威脅。然而,這種模型的局限性在于它只能應(yīng)對已知威脅,對于新型或變種的攻擊手段往往無法輸出有效的安全策略。此外,隨著威脅的不斷增多和變化,規(guī)則的維護和更新也變得越來越復雜和困難。

2、隨著統(tǒng)計學的發(fā)展,基于統(tǒng)計的安全策略生成模型逐漸興起。這種模型通過分析網(wǎng)絡(luò)流量、用戶行為等數(shù)據(jù),利用統(tǒng)計方法識別異常行為,從而生成相應(yīng)的安全策略。然而,統(tǒng)計方法往往也只能識別出與已知模式不同的異常行為,對于未知威脅的識別能力有限。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的問題,提供了基于強化學習的安全策略匹配方法、計算機程序產(chǎn)品、存儲介質(zhì)及終端。

2、本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn):一種基于強化學習的安全策略匹配方法,該方法包括以下步驟:

3、對網(wǎng)絡(luò)環(huán)境、策略優(yōu)化模型以及經(jīng)驗緩沖區(qū)進行初始化處理,網(wǎng)絡(luò)環(huán)境包括網(wǎng)絡(luò)狀態(tài),網(wǎng)絡(luò)狀態(tài)包括網(wǎng)絡(luò)流量,策略優(yōu)化模型包括策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò);

4、給定狀態(tài)st,策略網(wǎng)絡(luò)根據(jù)概率分布選擇一個動作at并執(zhí)行,網(wǎng)絡(luò)環(huán)境以下一個狀態(tài)st+1和立即獎勵rt進行響應(yīng),并獲取給定狀態(tài)st下價值網(wǎng)絡(luò)輸出的狀態(tài)值v(st),將交互數(shù)據(jù)st,at,rt,st+1,v(st)存儲至經(jīng)驗緩沖區(qū);

5、在迭代更新時,計算當前策略處于給定狀態(tài)st下采取行為at的概率ρθ(at∣st)、之前策略在給定狀態(tài)st下采取行為at的概率并計算概率ρθ(at∣st)與概率的比值kt;采用廣義優(yōu)勢估計法計算優(yōu)勢函數(shù)優(yōu)勢函數(shù)表示狀態(tài)st下行為at相對于均值的偏差;

6、根據(jù)交互數(shù)據(jù)、比值kt、優(yōu)勢函數(shù)計算目標函數(shù),包括基于kl懲罰項優(yōu)化的目標函數(shù)以及限制新舊策略比例進行剪切操作的目標函數(shù),根據(jù)目標函數(shù)更新策略網(wǎng)絡(luò);

7、重復上述步驟,直至達到終止迭代條件,策略網(wǎng)絡(luò)逐漸收斂至最優(yōu)調(diào)度策略,并采用最優(yōu)調(diào)度策略處理網(wǎng)絡(luò)威脅。

8、在一示例中,所述對網(wǎng)絡(luò)環(huán)境、策略優(yōu)化模型以及經(jīng)驗緩沖區(qū)進行初始化處理之前,還包括:

9、對網(wǎng)絡(luò)進行實時監(jiān)控,采集流量信息并存儲至網(wǎng)絡(luò)流量數(shù)據(jù)庫,并根據(jù)流量信息確定網(wǎng)絡(luò)攻擊信息,包括源ip地址、目的ip地址、流量速率、威脅類型;

10、將網(wǎng)絡(luò)攻擊信息在策略數(shù)據(jù)庫中匹配,若匹配成功,執(zhí)行策略數(shù)據(jù)庫中對應(yīng)匹配的策略,若匹配失敗,進入對網(wǎng)絡(luò)環(huán)境、策略優(yōu)化模型以及經(jīng)驗緩沖區(qū)進行初始化處理步驟。

11、在一示例中,所述采用最優(yōu)調(diào)度策略處理網(wǎng)絡(luò)威脅之后,還包括:

12、將最優(yōu)調(diào)度策略存儲至策略數(shù)據(jù)庫;

13、計算策略數(shù)據(jù)庫中與網(wǎng)絡(luò)攻擊事件具有相同源ip地址和目標ip地址的事件占所有已處理網(wǎng)絡(luò)攻擊事件總數(shù)的比例r1;計算網(wǎng)絡(luò)流量數(shù)據(jù)庫中與網(wǎng)絡(luò)攻擊事件具有相同源ip地址和目標ip地址的事件的網(wǎng)絡(luò)流量占總網(wǎng)絡(luò)流量的比例r2,若r1>r2*閾值,判定為高危路徑,執(zhí)行封禁操作。

14、在一示例中,所述基于kl懲罰項優(yōu)化的目標函數(shù)lkl(θ)的計算表達式為:

15、

16、其中,表示估計的期望值;μ表示kl散度的懲罰系數(shù);表示給定狀態(tài)st下,舊策略對所有可能動作的概率分布;ρθ(·∣st)表示給定狀態(tài)st下,當前策略ρθ對所有可能動作的概率分布;表示新舊策略之間的kl散度。

17、在一示例中,所述計算基于kl懲罰項優(yōu)化的目標函數(shù)之后,還包括計算新舊策略之間的kl散度的期望值,并根據(jù)期望值與目標期望閾值的大小關(guān)系調(diào)整懲罰系數(shù)。

18、在一示例中,所述新舊策略之間的kl散度的期望值d的計算表達式為:

19、

20、其中,表示估計的期望值;表示新舊策略之間的kl散度。

21、在一示例中,所述限制新舊策略比例進行剪切操作的目標函數(shù)lclip(θ)的計算表達式為:

22、

23、其中,表示t時刻估計的期望值;σ代表截斷超參數(shù);clip()代表截斷函數(shù),限制比例kt大于等于1-σ且小于等于1+σ。

24、需要進一步說明的是,上述各示例對應(yīng)的技術(shù)特征可以相互組合或替換構(gòu)成新的技術(shù)方案。

25、本發(fā)明還包括一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述任一示例或多個示例組合形成的所述基于強化學習的安全策略匹配方法的步驟。

26、本發(fā)明還包括一種存儲介質(zhì),其上存儲有計算機指令,所述計算機指令運行時執(zhí)行上述任一示例或多個示例組成形成的所述基于強化學習的安全策略匹配方法的步驟。

27、本發(fā)明還包括一種終端,包括存儲器和處理器,所述存儲器上存儲有可在所述處理器上運行的計算機指令,所述處理器運行所述計算機指令時執(zhí)行上述任一示例或多個示例形成的所述的基于強化學習的安全策略匹配方法的步驟。

28、與現(xiàn)有技術(shù)相比,本發(fā)明有益效果是:

29、1.在一示例中,強化學習通過策略優(yōu)化模型與網(wǎng)絡(luò)環(huán)境的不斷交互,實時感知網(wǎng)絡(luò)環(huán)境狀態(tài)的變化,能夠及時捕捉到網(wǎng)絡(luò)環(huán)境的動態(tài)變化,如新的攻擊流量出現(xiàn)等;根據(jù)接收到的獎勵信號,模型能夠評估當前策略的有效性,并據(jù)此動態(tài)調(diào)整策略;當面對新型網(wǎng)絡(luò)威脅時,若舊策略無法有效應(yīng)對導致獎勵降低,模型會自動探索新的策略,以尋找更優(yōu)的應(yīng)對方案,從而實現(xiàn)對策略的快速優(yōu)化和更新,使模型能夠更好地應(yīng)對網(wǎng)絡(luò)環(huán)境的復雜性和動態(tài)性,當網(wǎng)絡(luò)環(huán)境或攻擊手段發(fā)生變化時,能夠迅速調(diào)整策略以應(yīng)對新的挑戰(zhàn)。

30、2.在一示例中,將kl散度對參數(shù)變化的幅度約束加在目標函數(shù)中,并構(gòu)建一個新的目標函數(shù)剪切優(yōu)勢函數(shù),有效限制了策略更新的步長,避免了每次迭代策略參數(shù)過大的變化,從而確保策略更新的平滑性和穩(wěn)定性,同時簡化了問題的求解方式,提高了安全策略生成效率,實現(xiàn)了對網(wǎng)絡(luò)威脅的高效響應(yīng)。

31、3.在一示例中,通過引入策略數(shù)據(jù)庫,在受到網(wǎng)絡(luò)攻擊時優(yōu)先將網(wǎng)絡(luò)攻擊的信息在策略數(shù)據(jù)庫中進行匹配,能夠快速選擇策略數(shù)據(jù)庫中對應(yīng)匹配的歷史策略,進一步提高了對網(wǎng)絡(luò)威脅的響應(yīng)速率。

32、4.在一示例中,通過對比策略數(shù)據(jù)庫和網(wǎng)絡(luò)流量數(shù)據(jù)庫中的數(shù)據(jù),能夠更準確地識別高危路徑,及時發(fā)現(xiàn)和響應(yīng)潛在的威脅,立即執(zhí)行封禁操作,減少攻擊對網(wǎng)絡(luò)的影響。



技術(shù)特征:

1.一種基于強化學習的安全策略匹配方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于強化學習的安全策略匹配方法,其特征在于,所述對網(wǎng)絡(luò)環(huán)境、策略優(yōu)化模型以及經(jīng)驗緩沖區(qū)進行初始化處理之前,還包括:

3.根據(jù)權(quán)利要求2所述的基于強化學習的安全策略匹配方法,其特征在于,所述采用最優(yōu)調(diào)度策略處理網(wǎng)絡(luò)威脅之后,還包括:

4.根據(jù)權(quán)利要求1所述的基于強化學習的安全策略匹配方法,其特征在于,所述基于kl懲罰項優(yōu)化的目標函數(shù)lkl(θ)的計算表達式為:

5.根據(jù)權(quán)利要求1所述的基于強化學習的安全策略匹配方法,其特征在于,所述計算基于kl懲罰項優(yōu)化的目標函數(shù)之后,還包括計算新舊策略之間的kl散度的期望值,并根據(jù)期望值與目標期望閾值的大小關(guān)系調(diào)整懲罰系數(shù)。

6.根據(jù)權(quán)利要求5所述的基于強化學習的安全策略匹配方法,其特征在于,所述新舊策略之間的kl散度的期望值d的計算表達式為:

7.根據(jù)權(quán)利要求1所述的基于強化學習的安全策略匹配方法,其特征在于,所述限制新舊策略比例進行剪切操作的目標函數(shù)lclip(θ)的計算表達式為:

8.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-7任一項所述的基于強化學習的安全策略匹配方法的步驟。

9.一種存儲介質(zhì),其上存儲有計算機指令,其特征在于,所述計算機指令運行時執(zhí)行權(quán)利要求1-7任意一項所述的基于強化學習的安全策略匹配方法的步驟。

10.一種終端,包括存儲器和處理器,所述存儲器上存儲有可在所述處理器上運行的計算機指令,其特征在于,所述處理器運行所述計算機指令時執(zhí)行權(quán)利要求1-7任意一項所述的基于強化學習的安全策略匹配方法的步驟。


技術(shù)總結(jié)
本發(fā)明公開了基于強化學習的安全策略匹配方法、計算機程序產(chǎn)品、存儲介質(zhì)及終端,屬于網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,使用PPO模型的策略網(wǎng)絡(luò)與網(wǎng)絡(luò)環(huán)境進行交互,計算策略網(wǎng)絡(luò)基于KL懲罰項優(yōu)化的目標函數(shù)以及限制新舊策略比例進行剪切操作的目標函數(shù),根據(jù)兩個目標函數(shù)更新策略網(wǎng)絡(luò),多次迭代使網(wǎng)絡(luò)輸出最優(yōu)調(diào)度策略,并采用最優(yōu)調(diào)度策略處理網(wǎng)絡(luò)威脅。PPO模型能夠評估當前策略的有效性,并據(jù)此動態(tài)調(diào)整策略,當面對新型網(wǎng)絡(luò)威脅時,若舊策略無法有效應(yīng)對導致獎勵降低,模型會自動探索新的策略,以尋找更優(yōu)的應(yīng)對方案,從而實現(xiàn)對策略的快速優(yōu)化和更新,當網(wǎng)絡(luò)環(huán)境或攻擊手段發(fā)生變化時,能夠迅速調(diào)整策略以應(yīng)對新的挑戰(zhàn)。

技術(shù)研發(fā)人員:匡平,史佳怡,馮志坤
受保護的技術(shù)使用者:電子科技大學
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1