最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于可解釋性技術(shù)的對抗性惡意軟件生成方法及系統(tǒng)

文檔序號:41945561發(fā)布日期:2025-05-16 14:02閱讀:4來源:國知局
本發(fā)明涉及信息安全,尤其涉及一種基于可解釋性技術(shù)的對抗性惡意軟件生成方法及系統(tǒng)。
背景技術(shù)
::1、惡意軟件檢測器是抵御惡意軟件的首要屏障。最近,靜態(tài)反惡意軟件檢測器借助深度學習技術(shù)在識別惡意軟件方面取得顯著進展,現(xiàn)代商業(yè)惡意軟件檢測器也日益依賴于機器學習技術(shù)。盡管如此,惡意軟件攻擊者通過采用各種規(guī)避技巧來設(shè)計能夠逃避機器學習檢測器的惡意軟件,使得這些檢測系統(tǒng)容易受到對抗性攻擊。為了應(yīng)對這種情況,安全公司正不斷開發(fā)新的防御策略以應(yīng)對惡意軟件攻擊。與此同時,惡意軟件的攻擊者也在不斷采用新技術(shù)來攻擊這些檢測系統(tǒng),使得惡意軟件的檢測問題形成了一場攻防雙方的持續(xù)博弈對決。研究惡意軟件的攻擊策略不僅能為開發(fā)反惡意軟件的解決方案提供新的思路,也促進安全防御者開發(fā)新的防御技術(shù),探索并補強現(xiàn)有檢測系統(tǒng)的漏洞,從而增強對未知惡意軟件攻擊的檢測能力,提升整體的網(wǎng)絡(luò)安全水平。2、在對抗性惡意軟件生成領(lǐng)域,主要通過修改pe(portable?executable,可移植的可執(zhí)行文件)文件的方式來生成能夠逃避檢測的軟件。這些修改通常包括修改pe文件頭部的某些屬性、在pe文件末尾追加從良性樣本中提取的字節(jié),以及使用加密算法對文件的某些部分進行加密。這些修改技術(shù)是生成高逃逸率對抗性惡意軟件的關(guān)鍵。在實際的惡意軟件攻擊過程中,攻擊者所面臨的惡意軟件檢測器是黑盒的。在黑盒環(huán)境中,由于無法獲取到檢測模型的具體架構(gòu)、參數(shù)或梯度信息,因此很難直接了解檢測器如何評判文件的惡意程度。強化學習可以解決智能體與環(huán)境交互過程中的策略選擇的問題,使用強化學習可以在與環(huán)境交互的過程中通過強化學習算法選擇最優(yōu)的修改動作對惡意軟件進行變異,通過使用某個修改序列生成對抗性惡意軟件逃逸惡意軟件檢測器的檢測。強化學習的填充內(nèi)容選擇上可以視為mab(multi-armedbandits,多臂老虎機)問題,面對多個填充內(nèi)容,在沒有先驗知識的情況下,無法知道每個填充內(nèi)容對逃逸檢測器檢測的影響。3、鑒于上述分析,現(xiàn)有技術(shù)存在的急需解決的技術(shù)問題為:4、(1)在黑盒環(huán)境中,攻擊者無法接觸到惡意軟件檢測模型的內(nèi)部架構(gòu)、參數(shù)和梯度等關(guān)鍵信息。這導致修改代理訓練的效率極其低下,因為修改代理無法從環(huán)境中獲得明確的指導和有用的反饋,使得制造對抗性軟件的過程顯得尤為艱難。此外,使用強化學習生成高效對抗性軟件所需的修改操作序列通常較長,這不僅增加了對惡意軟件檢測模型的查詢頻次,還加劇了操作的復雜性和資源消耗。這些因素共同阻礙了攻擊者迅速調(diào)整并優(yōu)化惡意軟件的規(guī)避策略,導致對抗性惡意軟件的逃逸率低和可用性受限?;谶@些原因,攻擊者難以迅速調(diào)整使用的規(guī)避策略對惡意軟件修改以繞過檢測系統(tǒng),導致對抗性惡意軟件逃逸率低,可用性低。5、(2)在修改pe惡意軟件的過程中,pe惡意軟件基礎(chǔ)修改操作通常隨機選擇填充內(nèi)容,而選取恰當?shù)奶畛鋬?nèi)容對于繞過檢測系統(tǒng)至關(guān)重要。若選擇不當,強化學習修改代理將難以獲得最大化的獎勵,進而無法選取最有效的填充內(nèi)容修改惡意軟件,從而無法生成具有高逃逸率的對抗性惡意軟件。6、(3)當前研究方法所生成的對抗性惡意軟件遷移性低,雖然針對單一檢測器有效,但無法廣泛應(yīng)對多個惡意軟件檢測器,而且在商業(yè)檢測器中的逃逸效果不佳。技術(shù)實現(xiàn)思路1、本發(fā)明提供一種基于可解釋性技術(shù)的對抗性惡意軟件生成方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中無法生成具有高逃逸率的對抗性惡意軟件,遷移性低的缺陷,實現(xiàn)提高對抗性惡意軟件的生成能力和遷移性。2、本發(fā)明提供一種基于可解釋性技術(shù)的對抗性惡意軟件生成方法,包括:3、使用ember模型和sorel模型的特征提取器對惡意軟件進行特征提取,使用可解釋性技術(shù)shap庫的treeexplainer模塊解釋所述ember模型和sorel模型,計算提取特征的shap值,并根據(jù)所述提取特征的shap值計算強化學習的動作修改器中動作的shap優(yōu)先級;4、使用ucb算法從數(shù)據(jù)池中選擇填充數(shù)據(jù),根據(jù)所述填充數(shù)據(jù)執(zhí)行所述強化學習選擇的動作對所述惡意軟件的pe文件進行修改,并使用多種惡意軟件檢測器對修改后的所述惡意軟件進行逃逸評估,直到所述惡意軟件逃逸成功或達成最大嘗試修改次數(shù),得到對抗性惡意軟件;5、所述強化學習的過程包括若未逃逸成功,則根據(jù)所述多種惡意軟件檢測器對所述惡意軟件的檢測結(jié)果、執(zhí)行的動作長度和pe文件修改前后的差異確定獎勵函數(shù)值;根據(jù)所述shap優(yōu)先級、獎勵函數(shù)值和強化學習代理的td誤差得到與強化學習環(huán)境交互過程中產(chǎn)生的外部獎勵;使用icm模塊計算所述強化學習代理的內(nèi)部獎勵,根據(jù)所述外部獎勵和內(nèi)部獎勵進行學習,選擇每步的動作。6、根據(jù)本發(fā)明提供的一種基于可解釋性技術(shù)的對抗性惡意軟件生成系統(tǒng),shap優(yōu)先級計算模塊,用于使用ember模型和sorel模型的特征提取器對惡意軟件進行特征提取,使用可解釋性技術(shù)shap庫的treeexplainer模塊解釋所述ember模型和sorel模型,計算提取特征的shap值,并根據(jù)所述提取特征的shap值計算強化學習的動作修改器中動作的shap優(yōu)先級;7、對抗性惡意軟件生成模塊,用于使用ucb算法從數(shù)據(jù)池中選擇填充數(shù)據(jù),根據(jù)所述填充數(shù)據(jù)執(zhí)行所述強化學習選擇的動作對所述惡意軟件的pe文件進行修改,并使用多種惡意軟件檢測器對修改后的所述惡意軟件進行逃逸評估,直到所述惡意軟件對所述多種惡意軟件檢測器逃逸成功或達成最大嘗試修改次數(shù),得到對抗性惡意軟件;8、強化學習代理學習模塊用于,若未逃逸成功,則根據(jù)所述多種惡意軟件檢測器對所述惡意軟件的檢測結(jié)果、執(zhí)行的動作長度和pe文件修改前后的差異確定獎勵函數(shù)值;根據(jù)所述shap優(yōu)先級、獎勵函數(shù)值和強化學習代理的td誤差得到與強化學習環(huán)境交互過程中產(chǎn)生的外部獎勵;使用icm模塊計算所述強化學習代理的內(nèi)部獎勵,根據(jù)所述外部獎勵和內(nèi)部獎勵進行學習,選擇每步的動作。9、本發(fā)明提供的基于可解釋性技術(shù)的對抗性惡意軟件生成方法及系統(tǒng),通過基于shap優(yōu)先級、獎勵函數(shù)值和強化學習代理的td誤差,實現(xiàn)通過優(yōu)先經(jīng)驗重放的強化學習從動作空間中選擇動作對惡意軟件進行修改,有效地縮短了強化學習動作選擇序列,提高了攻擊逃逸率和遷移性;使用ucb算法選擇最高置信度修改內(nèi)容解決了強化學習修改動作操作內(nèi)容選取隨機化的問題,通過引入icm模塊鼓勵強化學習修改代理去探索那些尚未被充分探索的狀態(tài),大大減少了使用強化學習代理生成對抗性惡意軟件時對檢測模型的查詢次數(shù),提高強化學習修改代理探索速率,加速學習過程,提高對抗性惡意軟件的生成能力。技術(shù)特征:1.一種基于可解釋性技術(shù)的對抗性惡意軟件生成方法,其特征在于,包括:2.根據(jù)權(quán)利要求1所述的基于可解釋性技術(shù)的對抗性惡意軟件生成方法,其特征在于,根據(jù)所述提取特征的shap值計算強化學習的動作修改器中動作的shap優(yōu)先級,包括:3.根據(jù)權(quán)利要求1所述的基于可解釋性技術(shù)的對抗性惡意軟件生成方法,其特征在于,在根據(jù)所述提取特征的shap值計算強化學習的動作修改器中動作的shap優(yōu)先級之前,還包括:4.根據(jù)權(quán)利要求1所述的基于可解釋性技術(shù)的對抗性惡意軟件生成方法,其特征在于,根據(jù)所述多種惡意軟件檢測器對所述惡意軟件的檢測結(jié)果、執(zhí)行的動作長度和pe文件修改前后的差異確定獎勵函數(shù)值,包括:5.根據(jù)權(quán)利要求4所述的基于可解釋性技術(shù)的對抗性惡意軟件生成方法,其特征在于,所述檢測獎勵r_d的計算公式為:6.根據(jù)權(quán)利要求1所述的基于可解釋性技術(shù)的對抗性惡意軟件生成方法,其特征在于,通過以下公式根據(jù)所述shap優(yōu)先級、獎勵函數(shù)值和強化學習代理的td誤差得到與強化學習環(huán)境交互過程中產(chǎn)生的外部獎勵p:7.根據(jù)權(quán)利要求1所述的基于可解釋性技術(shù)的對抗性惡意軟件生成方法,其特征在于,使用icm模塊計算所述強化學習代理的內(nèi)部獎勵,根據(jù)所述外部獎勵和內(nèi)部獎勵進行學習,選擇每步的動作,包括:8.根據(jù)權(quán)利要求1-7任一所述的基于可解釋性技術(shù)的對抗性惡意軟件生成方法,其特征在于,在得到對抗性惡意軟件之后,還包括:9.一種基于可解釋性技術(shù)的對抗性惡意軟件生成系統(tǒng),其特征在于,包括:10.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至8任一項所述基于可解釋性技術(shù)的對抗性惡意軟件生成方法。技術(shù)總結(jié)本發(fā)明提供一種基于可解釋性技術(shù)的對抗性惡意軟件生成方法及系統(tǒng),該方法使用UCB算法選擇最高置信度修改內(nèi)容解決了強化學習修改動作操作內(nèi)容選取隨機化的問題,通過引入ICM模塊鼓勵強化學習修改代理去探索那些尚未被充分探索的狀態(tài),提高強化學習修改代理探索速率,加速學習過程。為此,本發(fā)明主要分為強化學習動作修改器的SHAP優(yōu)先級計算、基于UCB算法的強化學習動作修改器進行對抗性惡意軟件生成、獎勵函數(shù)設(shè)計、基于優(yōu)先經(jīng)驗重放的強化學習代理學習和對抗性惡意軟件功能完整性測試。本發(fā)明提高對抗性惡意軟件的生成能力和遷移性。技術(shù)研發(fā)人員:彭浩,石磊,鐘鳴,張旭鴻,張波,紀守領(lǐng),李生紅,趙丹丹,丁智國,韓建民,朱信忠受保護的技術(shù)使用者:浙江師范大學技術(shù)研發(fā)日:技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1