本發(fā)明涉及網(wǎng)絡(luò)安全,特別涉及一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法及裝置。
背景技術(shù):
1、在網(wǎng)絡(luò)流量監(jiān)控中,識(shí)別異常數(shù)據(jù)流對(duì)于保障網(wǎng)絡(luò)安全至關(guān)重要。傳統(tǒng)的異常檢測(cè)方法可以分為靜態(tài)特征分析、端口檢測(cè)、協(xié)議解析等方式,然而現(xiàn)實(shí)中容易受到加密技術(shù)、非標(biāo)準(zhǔn)端口等技術(shù)影響,導(dǎo)致誤報(bào)率較高。此外,傳統(tǒng)方法通常默認(rèn)正負(fù)樣本是平衡的,但在實(shí)際應(yīng)用中,異常數(shù)據(jù)流往往只占很小比例,導(dǎo)致訓(xùn)練集高度不平衡。這種不平衡性使得標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)模型難以有效捕捉異常模式,從而影響了檢測(cè)精度。此外,傳統(tǒng)方法多基于單個(gè)數(shù)據(jù)包進(jìn)行分析,忽略了同一數(shù)據(jù)流內(nèi)多個(gè)數(shù)據(jù)包之間的關(guān)聯(lián)性。因此,現(xiàn)有技術(shù)在處理類別不平衡問題和多示例關(guān)聯(lián)性方面存在明顯不足,亟需一種更高效且準(zhǔn)確的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、鑒于現(xiàn)有技術(shù)中的上述缺陷或不足,本發(fā)明提供了一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法及裝置,能夠高效且準(zhǔn)確地檢測(cè)網(wǎng)絡(luò)流量中的異常數(shù)據(jù)流。
2、本發(fā)明的一個(gè)方面,提供了一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法,包括:
3、將網(wǎng)絡(luò)流量劃分為正包集合和負(fù)包集合;其中,所述正包集合包括多個(gè)正包,所述正包為存在至少一個(gè)異常數(shù)據(jù)包的數(shù)據(jù)流,所述負(fù)包集合包括多個(gè)負(fù)包,所述負(fù)包為全部是正常數(shù)據(jù)包的數(shù)據(jù)流,所述正包和負(fù)包均含有多個(gè)示例,每個(gè)示例對(duì)應(yīng)一個(gè)數(shù)據(jù)包;
4、對(duì)正包集合中的所有正包進(jìn)行過采樣操作,以擴(kuò)充每個(gè)正包中的示例,得到擴(kuò)充后的新的正包集合;
5、對(duì)負(fù)包集合中的所有負(fù)包進(jìn)行欠采樣操作,以縮減每個(gè)負(fù)包中的示例,得到縮減后的新的負(fù)包集合;
6、基于成本權(quán)重和類別權(quán)重構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的代價(jià)敏感損失函數(shù);其中,成本權(quán)重表示異常數(shù)據(jù)流被誤判為正常數(shù)據(jù)流的代價(jià),類別權(quán)重表示標(biāo)簽是正包或負(fù)包時(shí)的權(quán)重;
7、根據(jù)所述代價(jià)敏感損失函數(shù)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型線性分類器,所述神經(jīng)網(wǎng)絡(luò)模型線性分類器用于判別網(wǎng)絡(luò)流量數(shù)據(jù)流是正包還是負(fù)包;
8、對(duì)所述神經(jīng)網(wǎng)絡(luò)模型線性分類器進(jìn)行訓(xùn)練,根據(jù)每一輪訓(xùn)練的漏報(bào)數(shù)和誤報(bào)數(shù),更新所述神經(jīng)網(wǎng)絡(luò)模型線性分類器的成本權(quán)重,以實(shí)現(xiàn)自適應(yīng)的代價(jià)敏感學(xué)習(xí),直至達(dá)到優(yōu)化目標(biāo);
9、用優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型線性分類器對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別。
10、本發(fā)明的另一方面,還提供了一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)裝置,包括:
11、樣本劃分模塊,被配置為將網(wǎng)絡(luò)流量劃分為正包集合和負(fù)包集合;其中,所述正包集合包括多個(gè)正包,所述正包為存在至少一個(gè)異常數(shù)據(jù)包的數(shù)據(jù)流,所述負(fù)包集合包括多個(gè)負(fù)包,所述負(fù)包為全部是正常數(shù)據(jù)包的數(shù)據(jù)流,所述正包和負(fù)包均含有多個(gè)示例,每個(gè)示例對(duì)應(yīng)一個(gè)數(shù)據(jù)包;
12、過采樣模塊,被配置為對(duì)正包集合中的所有正包進(jìn)行過采樣操作,以擴(kuò)充每個(gè)正包中的示例,得到擴(kuò)充后的新的正包集合;
13、欠采樣模塊,被配置為對(duì)負(fù)包集合中的所有負(fù)包進(jìn)行欠采樣操作,以縮減每個(gè)負(fù)包中的示例,得到縮減后的新的負(fù)包集合;
14、損失函數(shù)構(gòu)建模塊,被配置為基于成本權(quán)重和類別權(quán)重構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的代價(jià)敏感損失函數(shù);其中,成本權(quán)重表示異常數(shù)據(jù)流被誤判為正常數(shù)據(jù)流的代價(jià),類別權(quán)重表示標(biāo)簽是正包或負(fù)包時(shí)的權(quán)重;
15、分類器構(gòu)建模塊,被配置為根據(jù)所述代價(jià)敏感損失函數(shù)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型線性分類器,所述神經(jīng)網(wǎng)絡(luò)模型線性分類器用于判別網(wǎng)絡(luò)流量數(shù)據(jù)流是正包還是負(fù)包;
16、訓(xùn)練模塊,被配置為對(duì)所述神經(jīng)網(wǎng)絡(luò)模型線性分類器進(jìn)行訓(xùn)練,根據(jù)每一輪訓(xùn)練的漏報(bào)數(shù)和誤報(bào)數(shù),更新所述神經(jīng)網(wǎng)絡(luò)模型線性分類器的成本權(quán)重,以實(shí)現(xiàn)自適應(yīng)的代價(jià)敏感學(xué)習(xí),直至達(dá)到優(yōu)化目標(biāo);
17、分類識(shí)別模塊,被配置為用優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型線性分類器對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別。
18、本發(fā)明提供的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法及裝置,通過引入多示例學(xué)習(xí)框架,不僅考慮了每個(gè)數(shù)據(jù)流內(nèi)的數(shù)據(jù)包特征,而且充分考慮了同一會(huì)話內(nèi)多個(gè)數(shù)據(jù)包之間的關(guān)聯(lián)性,從而更全面地理解數(shù)據(jù)流的整體行為模式,此外針對(duì)類別不平衡問題進(jìn)行了優(yōu)化,降低因樣本不平衡導(dǎo)致的誤報(bào)率和漏報(bào)率,提高對(duì)稀有異常事件的敏感度,為網(wǎng)絡(luò)監(jiān)控系統(tǒng)提供更加智能、可靠的異常流量檢測(cè)手段。
1.一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法,其特征在于,所述對(duì)正包集合中的所有正包進(jìn)行過采樣操作,以擴(kuò)充每個(gè)正包中的示例,得到擴(kuò)充后的新的正包集合的步驟,包括:
3.根據(jù)權(quán)利要求1所述的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法,其特征在于,所述對(duì)負(fù)包集合中的所有負(fù)包進(jìn)行欠采樣操作,以縮減每個(gè)負(fù)包中的示例,得到縮減后的新的負(fù)包集合的步驟,包括:
4.根據(jù)權(quán)利要求1所述的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法,其特征在于,所述代價(jià)敏感損失函數(shù)表示為:
5.根據(jù)權(quán)利要求4所述的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法,其特征在于:
6.根據(jù)權(quán)利要求5所述的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法,其特征在于,對(duì)所述神經(jīng)網(wǎng)絡(luò)模型線性分類器進(jìn)行訓(xùn)練,根據(jù)每一輪訓(xùn)練的漏報(bào)數(shù)和誤報(bào)數(shù),更新所述神經(jīng)網(wǎng)絡(luò)模型線性分類器的成本權(quán)重的步驟,包括:
7.根據(jù)權(quán)利要求6所述的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)方法,其特征在于,所述優(yōu)化目標(biāo)滿足如下條件:
8.一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)裝置,其特征在于,包括:
9.根據(jù)權(quán)利要求8所述的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)裝置,其特征在于:
10.根據(jù)權(quán)利要求8所述的一種基于不平衡多示例學(xué)習(xí)的異常數(shù)據(jù)流分類檢測(cè)裝置,其特征在于: