專利名稱::一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,是一種應(yīng)用于網(wǎng)絡(luò)系統(tǒng)中電數(shù)字?jǐn)?shù)據(jù)處理傳輸,屬于一種應(yīng)用于網(wǎng)絡(luò)流量監(jiān)測領(lǐng)域相關(guān)網(wǎng)絡(luò)安全產(chǎn)品核心關(guān)鍵技術(shù)一一異常流量監(jiān)測、類型識別和物理定位方法。
背景技術(shù):
:網(wǎng)絡(luò)流量異常檢測是指采集被監(jiān)測網(wǎng)絡(luò)中的網(wǎng)絡(luò)流量數(shù)據(jù)(包括網(wǎng)絡(luò)報(bào)文和數(shù)據(jù)流),通過數(shù)據(jù)統(tǒng)計(jì)或挖掘技術(shù),發(fā)現(xiàn)隱藏在正常網(wǎng)絡(luò)流量中的各類異常流量事件,并產(chǎn)生異常流量凈艮警事件,方便網(wǎng)絡(luò)管理員及時(shí)響應(yīng)。傳統(tǒng)異常流量檢測方法往往都是檢測網(wǎng)絡(luò)中真實(shí)流量(包括報(bào)文數(shù)或字節(jié)數(shù))的突變情況,從而推斷出異常流量事件的發(fā)生時(shí)間。比如,當(dāng)發(fā)現(xiàn)80端口流量曲線產(chǎn)生突變時(shí),則認(rèn)為在HTTP服務(wù)上發(fā)生了流量異常。傳統(tǒng)異常流量檢測方法已在當(dāng)前的網(wǎng)絡(luò)流量監(jiān)測領(lǐng)域得到廣泛應(yīng)用。但傳統(tǒng)異常流量監(jiān)測方法存在以下兩點(diǎn)不足1)無法檢測出那些不會(huì)導(dǎo)致網(wǎng)絡(luò)流量曲線產(chǎn)生明顯突變的異常流量事件,比如網(wǎng)絡(luò)掃描事件,因?yàn)樗?jīng)常被正常的網(wǎng)絡(luò)通信流量所淹沒;2)檢測出的網(wǎng)絡(luò)異常流量事件信息并不充分,比如,大多數(shù)傳統(tǒng)異常流量檢測工具無法識別具體的異常流量類型(是拒絕服務(wù)攻擊還是正常突發(fā)性訪問?),以及異常流量事件發(fā)生的具體位置(該異常流量事件發(fā)生在哪個(gè)IP主機(jī)上?),因此,無法滿足網(wǎng)絡(luò)管理員的實(shí)時(shí)響應(yīng)需求。網(wǎng)絡(luò)管理員不得不借助其它工具(比如Sniffer)來獲取與該異常流量事件相關(guān)的各種關(guān)鍵參數(shù)信息。從宏觀層面來看,各種類型異常流量事件的通信模式是有區(qū)別的,比如,當(dāng)一個(gè)TCP-SYNFlood攻擊發(fā)生時(shí),表現(xiàn)為大量的IP地址同時(shí)向某一IP地址發(fā)送TCP-SYN報(bào)文。同時(shí),當(dāng)一個(gè)異常流量事件發(fā)生時(shí),與該事件相關(guān)活動(dòng)主機(jī)在整個(gè)網(wǎng)絡(luò)中表現(xiàn)是非?;钴S的,主要表現(xiàn)在傳輸?shù)膱?bào)文數(shù)量明顯比其它活動(dòng)主^/L多。如果可以基于先—驗(yàn)知識建立各種類型異常流量事件的通信^t式,而在異常檢測時(shí),通過提取網(wǎng)絡(luò)中的活躍主機(jī)通信模式,并與各異常流量事件通信模式相比較(分類問題),就可能識別出發(fā)生在活躍主機(jī)上的異常流量事件。
發(fā)明內(nèi)容為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明提出了一種基于主機(jī)活躍性和通信模式分析的異常流量檢測方法,能夠在高速網(wǎng)絡(luò)環(huán)境下實(shí)時(shí)確定異常流量事件發(fā)生的時(shí)間,識別出異常流量事件的類型,并能對該異常流量事件進(jìn)行物理定位。本發(fā)明的目的是這樣實(shí)現(xiàn)的一種基于主機(jī)活躍性和通信才莫式分析實(shí)時(shí)異常流量檢測方法,包括提供各種網(wǎng)絡(luò)服務(wù)的廣域網(wǎng)以及與廣域網(wǎng)連接的區(qū)域網(wǎng)和局域網(wǎng)和安裝在集中檢測i殳備上的抽樣單元、提取計(jì)算單元、比較單元、知識庫單元,其特征在于所述的步驟①創(chuàng)建"R文抽樣循環(huán)緩沖區(qū);②抽樣單元的時(shí)間窗開啟,統(tǒng)計(jì)開始;③抽樣單元按照報(bào)文分類對報(bào)文進(jìn)行活躍IP統(tǒng)計(jì)和自適應(yīng)抽樣;④抽樣單元的時(shí)間窗關(guān)閉,統(tǒng)計(jì)結(jié)束;⑤提取計(jì)算單元基于哈希表結(jié)構(gòu)提取活躍IP地址集合并計(jì)算特征分布熵向量;⑥提取計(jì)算單元基于報(bào)文抽樣循環(huán)區(qū)提取活躍IP并計(jì)算報(bào)文通訊模式;⑦比較單元從知識庫單元提取異常流量通訊模式樣本與上一步驟獲得的通訊模式進(jìn)行比較,如相同則報(bào)警,如不同則回到步驟②。本發(fā)明產(chǎn)生的有益效果是本發(fā)明基于先驗(yàn)知識建立各種類型異常流量事件的通信模式,而在異常檢測時(shí),通過提取網(wǎng)絡(luò)中的活躍主機(jī)通信模式,并與各異常流量事件通信模式相比較(分類問題),就可能識別出發(fā)生在活躍主機(jī)上的異常流量事件。解決了應(yīng)用于網(wǎng)絡(luò)流量監(jiān)測領(lǐng)域相關(guān)網(wǎng)絡(luò)安全產(chǎn)品核心關(guān)鍵技術(shù)問題一一異常流量監(jiān)測、類型識別和物理定位。本發(fā)明支持的異常流量檢測事件包括cx流、各種Flood事件、Flash-Crowd、端口掃描、網(wǎng)絡(luò)掃描、設(shè)備故障和蠕蟲掃描事件。面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明。圖1為基于主機(jī)活躍性和通信才莫式分析實(shí)時(shí)異常流量檢測方法結(jié)構(gòu)示意圖2為基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法的運(yùn)行示意圖3為Flash-Crowd事件在相關(guān)報(bào)文子空間中行為模式;圖4為用于統(tǒng)計(jì)和l是取各才艮文子空間活躍主機(jī)的哈希表結(jié)構(gòu)。具體實(shí)施例方式本發(fā)明涉及一種基于主機(jī)活躍性和通信模式分析的異常流量檢測方法,能夠在高速網(wǎng)絡(luò)環(huán)境下實(shí)時(shí)確定異常流量事件發(fā)生的時(shí)間,識別出異常流量事件的類型,并能對該異常流量事件進(jìn)^f于物理定位。本發(fā)明所述的異常流量檢測方法總體思想將網(wǎng)絡(luò)報(bào)文總體空間按異常流量事件相關(guān)報(bào)文類型劃分為多個(gè)報(bào)文子空間對每一個(gè)報(bào)文子空間,進(jìn)行活動(dòng)主機(jī)4艮文傳輸統(tǒng)計(jì)和自適應(yīng)報(bào)文抽樣,通過對活動(dòng)主機(jī)報(bào)文傳輸統(tǒng)計(jì)結(jié)果進(jìn)行挖掘,提取出^4艮文子空間中的活躍主機(jī)(TopN),然后對報(bào)文抽樣緩沖區(qū)中與活躍主4幾相關(guān)的抽樣4艮文集合進(jìn)行凈艮文特征分布統(tǒng)計(jì)分析,得到各活躍主機(jī)通信模式,最后通過將各活躍主機(jī)通信模式與先前建立的異常流量事件通信模式進(jìn)行相似性比較,從而檢測出發(fā)生在各活躍主機(jī)上的異常流量事件及具體事件類型。圖1為基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法結(jié)構(gòu)示意圖包括提供各種網(wǎng)絡(luò)服務(wù)的廣域網(wǎng)以及與廣域網(wǎng)連接的區(qū)域網(wǎng)和局域網(wǎng)和安裝在集中檢測設(shè)備上的抽樣單元、提取計(jì)算單元、比較單元、知識庫單元。本實(shí)施例的主要思路是基于分類報(bào)文提取異常流量事件通信模式,因此,在線異常流量檢測時(shí),同樣必須采取分類報(bào)文方法提取被監(jiān)測網(wǎng)絡(luò)中活躍主機(jī)的通信模式。對于不同類型報(bào)文子空間,本實(shí)施例基于高效哈希表方法統(tǒng)計(jì)各活動(dòng)主機(jī)報(bào)文傳輸情況以及采用自適應(yīng)報(bào)文抽樣策略對傳輸?shù)木W(wǎng)絡(luò)報(bào)文進(jìn)行抽樣,然后基于活動(dòng)主機(jī)報(bào)文傳輸統(tǒng)計(jì)結(jié)果提取出活躍主機(jī),然后從各類型報(bào)文子空間相關(guān)報(bào)文抽樣緩沖區(qū)中抽取各活躍主機(jī)相關(guān)抽樣報(bào)文并計(jì)算出活躍主才幾的通信模式,最后利用先前構(gòu)建的異常流量事件分類器對各活躍主機(jī)的通信模式進(jìn)行分類,發(fā)現(xiàn)可能的異常流量事件及其具體類型。本實(shí)施例采用高效哈希表方法來統(tǒng)計(jì)各類型報(bào)文子空間中各活動(dòng)主機(jī)(包括源活躍IP和目活躍IP)的活躍情況(共16個(gè)哈希表結(jié)構(gòu)),并分別為表2中的各報(bào)文抽樣子空間創(chuàng)建才艮文抽樣循環(huán)緩沖區(qū)(共8個(gè)報(bào)文抽樣緩沖區(qū)),采用自適應(yīng)報(bào)文抽樣策略來對各報(bào)文子空間中傳輸?shù)膱?bào)文進(jìn)行抽樣存儲(chǔ)。本實(shí)施例采用基于固定時(shí)間窗口的異常流量檢測方法。固定時(shí)間窗統(tǒng)計(jì)開始時(shí),對于每一個(gè)網(wǎng)絡(luò)報(bào)文,首先判別其報(bào)文類型,抽取網(wǎng)絡(luò)報(bào)文〈SIP,DIP,Sport,DPort〉四元組屬性,更新與該報(bào)文類型對應(yīng)的源活躍IP和目活躍IP相關(guān)哈希表結(jié)構(gòu),同時(shí)由該類型報(bào)文子空間抽樣策略決定該報(bào)文是否被采樣,如果被采樣,則將該報(bào)文四元組記錄順序存儲(chǔ)到對應(yīng)報(bào)文抽樣循環(huán)緩沖區(qū)中。固定時(shí)間窗統(tǒng)計(jì)結(jié)束時(shí),首先對各類報(bào)文子空間對應(yīng)的源活躍IP和目活躍IP哈希表結(jié)構(gòu)進(jìn)行遍歷,提取出各類報(bào)文相關(guān)的源活躍IP和目活躍IP集合;對于提取的每一活躍IP地址(源活躍IP或目活躍IP),從相應(yīng)纟艮文抽樣循環(huán)緩沖區(qū)中抽取與該活躍IP相關(guān)的報(bào)文樣本集,并基于標(biāo)準(zhǔn)熵方法計(jì)算出活躍IP報(bào)文樣本在〈SIP,DIP,Sport,DPort〉四元屬性上的特征分布熵向量。這里需要計(jì)算兩個(gè)特征分布熵向量,一個(gè)對應(yīng)于活躍IP為源IP條件下的4維特征分布熵向量(筒稱為源特征分布向量),另一個(gè)對應(yīng)于活躍IP為目IP條件下的4維特征分布熵向量(簡稱為宿特征分布向量)。最后,從各類報(bào)文子空間相關(guān)的源活躍IP和目活躍IP哈希表結(jié)構(gòu)提取的活躍IP活躍性,以及從各類報(bào)文抽樣循環(huán)緩沖區(qū)中提取的活躍IP源特征分布向量和宿特征分布向量值,構(gòu)成了各活躍IP的通信模式。采用先前構(gòu)建的異常流量事件分類器對各活躍IP通信模式進(jìn)行分類,可預(yù)測各活躍IP是否與某一具體的異常流量事件相關(guān),從而產(chǎn)生異常流量事件報(bào)警。圖2為基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法的運(yùn)行示意圖,運(yùn)行步驟歸結(jié)如下(-)創(chuàng)建循環(huán)緩沖區(qū)。創(chuàng)建16和哈希表結(jié)構(gòu)和8個(gè)報(bào)文抽樣循環(huán)緩沖區(qū)。本實(shí)施例采用高效哈希表方法來統(tǒng)計(jì)各類型報(bào)文子空間中各活動(dòng)主機(jī)(包括源活躍IP和目活躍IP)的活躍情況(共16個(gè)哈希表結(jié)構(gòu)),并分別為表2中的各報(bào)文抽樣子空間創(chuàng)建報(bào)文抽樣循環(huán)緩沖區(qū)(共8個(gè)報(bào)文抽樣緩沖區(qū)),采用自適應(yīng)報(bào)文抽樣策略來對M艮文子空間中傳輸?shù)膱?bào)文進(jìn)行抽樣存儲(chǔ)。(:i)抽樣單元的時(shí)間窗開啟,統(tǒng)計(jì)開始;曰抽樣單元按照報(bào)文分類對報(bào)文進(jìn)行活躍IP統(tǒng)計(jì)和自適應(yīng)抽樣;所述的單夭按昭報(bào)文分;i判別報(bào)文類型;ii抽耳又報(bào)文SIP、DIP、Sport、Dport四元組屬性;iii更新與該才艮文組的源活躍IP和目活躍IP相關(guān)哈希表結(jié)構(gòu);iv由該類型報(bào)文子空間抽樣策略決定該報(bào)文是否被采樣;v將獲得并采用的報(bào)文四元組記錄順序存儲(chǔ)到對應(yīng)報(bào)文抽樣循環(huán)緩沖區(qū)中。卿抽樣單元的時(shí)間窗關(guān)閉,統(tǒng)計(jì)結(jié)束;(E)提取計(jì)算單元基于哈希表結(jié)構(gòu)提取活躍IP地址集合并計(jì)算特征分布熵向量,計(jì)算方法I對各類報(bào)文子空間對應(yīng)的源活躍IP和目活躍IP哈希表結(jié)構(gòu)進(jìn)行遍歷;II提取出各類報(bào)文相關(guān)的源活躍IP和目活躍IP集合;ni對于提取的每一活躍源活躍IP或目活躍IP,從相應(yīng)報(bào)文抽樣循環(huán)緩沖區(qū)中抽取與該活躍IP相關(guān)的才艮文樣本集;IV基于標(biāo)準(zhǔn)熵方法計(jì)算出活躍IP報(bào)文樣本在SIP、DIP、Sport、DPor四元屬性上的特征分布熵向量。所述的特征分布熵向量包括源特征分布熵向量和宿特征分布熵向量。的提取計(jì)算單元基于報(bào)文抽樣循環(huán)區(qū)提取活躍IP并計(jì)算報(bào)文通訊模式。提耳又方法①從各類報(bào)文子空間相關(guān)的源活躍ip和目活躍ip哈希表結(jié)構(gòu)提取的活躍IP活5夭性;②從各類報(bào)文抽樣循環(huán)緩沖區(qū)中提取的活躍ip源特征分布向量和宿特征分布向量值;③將提取的活躍IP活躍性和活躍IP的源特征分布向量、宿特征分布向量值構(gòu)成了各活躍IP的通信模式。(t)比較單元從知識庫單元提取異常流量通訊模式樣本與上一步驟獲得的通訊^t式進(jìn)行比較,如相同則報(bào)警,如不同則回到步驟。,繼續(xù)下一輪檢測?;诠1斫Y(jié)構(gòu)的活躍主機(jī)報(bào)文傳輸統(tǒng)計(jì)和活躍IP提取的說明本實(shí)施例基于高效的哈希表結(jié)構(gòu)統(tǒng)計(jì)各類報(bào)文子空間中各活動(dòng)主機(jī)的報(bào)文傳輸情況,并據(jù)此提取出各類報(bào)文子空間中的源活躍EP集合和目活躍IP集合。本發(fā)明將整體報(bào)文空間劃分為8個(gè)報(bào)文子空間,對于每個(gè)報(bào)文子空間,需要分別提取源活躍IP集合和目活躍IP集合,因此,總共需要設(shè)置16個(gè)哈希表結(jié)構(gòu)。本實(shí)施例設(shè)計(jì)的哈希表如圖4所示。本哈希表由65536個(gè)哈希桶組成,每個(gè)。合希桶可以順序存儲(chǔ)4個(gè)活動(dòng)主機(jī)才艮文傳輸統(tǒng)計(jì)記錄。為本哈希表的高效映射函數(shù)(鍵值生成函數(shù)),負(fù)責(zé)將整個(gè)活動(dòng)主機(jī)IP地址空間(32bits)均勻分配到各哈希桶中(16bits空間)。具有相同哈希鍵值的活動(dòng)主機(jī)IP地址將被分配到同一個(gè)p合希桶中并順序存儲(chǔ),當(dāng)同一桶中的活動(dòng)主機(jī)ip地址超過4個(gè)時(shí),報(bào)文傳輸統(tǒng)計(jì)數(shù)最少的那個(gè)活動(dòng)主機(jī)報(bào)文傳輸記錄將被替換。單位時(shí)間窗報(bào)文統(tǒng)計(jì)開始時(shí),對于每一個(gè)網(wǎng)絡(luò)報(bào)文,首先判別其報(bào)文類型,提取出報(bào)文源IP地址和目IP地址并找到對應(yīng)的源活躍IP和目活躍IP哈希表結(jié)構(gòu),基于鍵值生成函數(shù)H1分別對源IP和目IP進(jìn)行哈希運(yùn)算,得到p合希桶索引值keyl和key2,然后分別對相關(guān)源活躍IP哈希表的Keyl哈希桶和目活躍IP哈希表的Key2哈希桶進(jìn)行更新,更新操作為如果對應(yīng)記錄存在,則更新其計(jì)數(shù)《直;如果對應(yīng)記錄不存在,則創(chuàng)建活動(dòng)主機(jī)報(bào)文傳輸記錄并順序存儲(chǔ)到存儲(chǔ)區(qū)尾部(存儲(chǔ)區(qū)未滿情況下),或者替換四個(gè)報(bào)文傳輸記錄中報(bào)文計(jì)數(shù)最小者(存儲(chǔ)區(qū)滿情況下)。單位時(shí)間窗報(bào)文統(tǒng)計(jì)結(jié)束時(shí),將遍歷各高效哈希表,從哈希表中提取出活躍主機(jī)集合(TopN)。從高效哈希表中提取TopN的活躍主機(jī)集合算法描述如下首先,設(shè)置用于存儲(chǔ)TopN個(gè)活動(dòng)主機(jī)報(bào)文傳輸統(tǒng)計(jì)記錄的存儲(chǔ)數(shù)組,表示為T[l..N],并將T[l..N]計(jì)數(shù)器清零。然后,取哈希表中前N個(gè)活動(dòng)主機(jī)報(bào)文傳輸記錄到T[l..N]數(shù)組中,并設(shè)置報(bào)文傳輸統(tǒng)計(jì)最小值CNT—MIN為這N個(gè)記錄中最小值;最后,遍歷哈希表中其余活動(dòng)主機(jī)報(bào)文傳輸記錄,對于哈希表中每一活動(dòng)主機(jī)報(bào)文傳輸記錄,如果其才艮文傳輸統(tǒng)計(jì)值CNT>CNT—MIN,則本記錄將替換T數(shù)組中具有CNT一MIN計(jì)數(shù)值的那個(gè)報(bào)文傳輸記錄,并同時(shí)調(diào)整CNT—MIN值為T數(shù)組中統(tǒng)計(jì)值最小者。哈希表遍歷結(jié)束后,數(shù)組T中存儲(chǔ)的就是提取出的TopN活躍主機(jī)集合(包括IP地址和報(bào)文傳輸計(jì)數(shù)值)?;诔闃訄?bào)文緩沖區(qū)計(jì)算指定活躍IP特征分布向量的說明本實(shí)施例采用自適應(yīng)抽樣策略實(shí)現(xiàn)對M艮文子空間的報(bào)文抽樣。這里為各類才艮文子空間設(shè)置固定大小的報(bào)文抽樣緩沖區(qū),并根據(jù)實(shí)際報(bào)文速率和固定緩沖區(qū)大小來確定各類報(bào)文子空間的報(bào)文抽樣頻率,從而使得抽樣產(chǎn)生的報(bào)文樣本盡可能反映原始網(wǎng)絡(luò)報(bào)文總體特征當(dāng)網(wǎng)絡(luò)中實(shí)際報(bào)文速率較低時(shí),將自動(dòng)調(diào)高報(bào)文抽樣頻率,反之則自動(dòng)調(diào)低報(bào)文抽樣頻率。對于抽樣到的網(wǎng)絡(luò)報(bào)文,抽取并存儲(chǔ)其四元標(biāo)識(SIP,DIP,Sport,DPort}。如果固定時(shí)間窗內(nèi)抽樣的網(wǎng)絡(luò)報(bào)文數(shù)超過了固定抽樣循環(huán)緩沖區(qū)大小,則新抽樣的網(wǎng)糾艮文將順序覆蓋最先抽樣的網(wǎng)絡(luò)報(bào)文。當(dāng)固定時(shí)間窗統(tǒng)計(jì)結(jié)束后,可從各類報(bào)文抽樣報(bào)文緩沖區(qū)中抽取與指定活躍IP相關(guān)的網(wǎng)絡(luò)報(bào)文抽樣集合,并據(jù)此計(jì)算活躍IP的源和宿特征分布向量。為有效計(jì)算活躍IP相關(guān)的抽樣報(bào)文樣品分別在SIP,DIP,SPORT,DPORT屬性上的熵,本實(shí)施例采用一種基于均勻映射和線性計(jì)數(shù)數(shù)組的近似熵高效計(jì)算方法對于某一報(bào)文屬性,設(shè)置一個(gè)大小合適(假設(shè)為m)的線性計(jì)數(shù)數(shù)組V,然后采用均勻映射函數(shù)將每一活躍IP相關(guān)抽樣才艮文樣品指定屬性的值映射到線性數(shù)組V中某一單元并計(jì)數(shù)加1;最后基于線性計(jì)數(shù)數(shù)組V計(jì)算活躍IP相關(guān)報(bào)文抽樣樣品在指定報(bào)文屬性上取值的熵<formula>formulaseeoriginaldocumentpage14</formula>司;其中=£,通過上述近似熵計(jì)算方法,可以高效計(jì)算出活躍IP相關(guān)報(bào)文抽樣樣品在SIP,DIP,SPORT和DPORT才艮文屬性上取值的近似熵。通過對各類凈艮文緩沖區(qū)采取運(yùn)用上述近似熵計(jì)算方法,最終可以得到指定活躍IP在M艮文子空間中的源特征分布向量和宿特征分布向量。要實(shí)現(xiàn)基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法必須先建立知識庫單元,也就是基于先驗(yàn)知識構(gòu)建異常流量檢測模型,知識庫單元收集各類型異常流量事件樣本。在構(gòu)建異常流量檢測模型時(shí),需要收集各種類型異常流量檢測事件樣本。本實(shí)施例支持的異常流量檢測事件包括a流、各種Flood事件、Flash-Crowd、端口掃描、網(wǎng)絡(luò)掃描、設(shè)備故障和蠕蟲掃描事件。有關(guān)各類型異常流量事件描述見表1。表l本發(fā)明方法支持的異常流量事件<table>tableseeoriginaldocumentpage15</column></row><table>本異常流量檢測方法選擇在網(wǎng)絡(luò)報(bào)文層面來抽取各類型異常流量事件的通信模式。為了易于區(qū)分各類型異常流量事件的通信模式,這里采用報(bào)文分類方法來提取各異常流量事件通信模式,即將整個(gè)網(wǎng)糾艮文空間按報(bào)文類型劃分為多個(gè)報(bào)文子空間,然后分別在各類型報(bào)文子空間中提取各異常流量事件的局部通信特征,最后通過合并從各類型報(bào)文子空間中提取的局部通信特征得到完整通信模式。本發(fā)明將總體網(wǎng)絡(luò)"t艮文空間劃分為8個(gè)網(wǎng)絡(luò)報(bào)文子空間,與各子空間相關(guān)的網(wǎng)糾艮文類型及其相關(guān)異常流量事件見表2。表28個(gè)網(wǎng)絡(luò)報(bào)文抽樣子空間和關(guān)聯(lián)的異常流量事件<table>tableseeoriginaldocumentpage16</column></row><table>本發(fā)明從兩個(gè)方面刻畫各異常流量事件在相關(guān)報(bào)文子空間中的通信模式異常事件發(fā)生點(diǎn)活躍度和異常事件相關(guān)4艮文特征分布。異常事件發(fā)生點(diǎn)活躍度是指在整個(gè)異常流量事件過程中發(fā)送或接收的網(wǎng)全I(xiàn)4艮文數(shù);異常事件相關(guān)報(bào)文特征分布是指事件相關(guān)報(bào)文抽樣樣品在源IP(SIP)、目IP(DIP)、源端口(Sport)和目端口(DPort)四個(gè)報(bào)文屬性上取值的發(fā)散或聚合情況,這里采用標(biāo)準(zhǔn)熵方法來度量M艮文屬性取值的發(fā)散或聚合情況,并將通過標(biāo)準(zhǔn)熵公式計(jì)算出的異常事件相關(guān)報(bào)文在源IP(SIP)、目IP(DIP)、源端口(Sport)和目端口(DPort)四個(gè)報(bào)文屬性上的熵表示為(HOT,HDIP,HSP。rt,HDP。rt)。在提取了各類型異常流量事件的通信模式后,本發(fā)明將基于這些異常流量通信才莫式構(gòu)建一個(gè)適于在線異常流量檢測使用的異常流量事件分類器。本發(fā)明選擇決策樹技術(shù)來構(gòu)建異常流量事件分類器,因?yàn)槠湟子诶斫?,并且分類預(yù)測效率高。知識庫單元構(gòu)建方法的具體步驟歸結(jié)如下①將整個(gè)網(wǎng)絡(luò)報(bào)文空間按才良文類型劃分為多個(gè)才艮文子空間;②分別在各類型報(bào)文子空間中提取各異常流量事件的局部通信特征;③通過合并從各類型報(bào)文子空間中提取的局部通信特征得到完整通信模式;④基于這些異常流量通信模式構(gòu)建一個(gè)適于在線異常流量檢測使用的知識庫單元。異常流量事件樣本通信模式提取的說明本發(fā)明方法結(jié)合異常流量事件發(fā)生源的活躍性和異常流量事件相關(guān)報(bào)文特征分布情況來構(gòu)建各異常流量事件的通信模式。本發(fā)明方法在提取各異常流量事件通信模式前,對異常流量事件相關(guān)報(bào)文進(jìn)行了分類。本發(fā)明之異常流量才全測方法支持的異常流量事件類型見表1,在異常流量事件建模和實(shí)時(shí)異常流量檢測時(shí)采取的報(bào)文子空間劃分方法見表2。以Flash-Crowd異常流量事件為例說明基于異常事件發(fā)生點(diǎn)活躍度和相關(guān)報(bào)文特征分布來提取異常事件通信模式的過程。Flash-Crowd事件表示一種突發(fā)性的大量主機(jī)訪問某一IP地址所提供服務(wù)(惡意或者良性行為)的場景。以TCP類型網(wǎng)絡(luò)應(yīng)用服務(wù)為例,可以將Flash-Crowd事件相關(guān)報(bào)文劃分到SYN-Only、SYN-ACK和ACK-Only三個(gè)才艮文子空間中。Flash-Crowd事件在相關(guān)報(bào)文子空間中的通信行為見圖3。統(tǒng)計(jì)這三個(gè)寺艮文子空間中的Flash-Crowd事件樣本報(bào)文數(shù)量發(fā)現(xiàn)在SYN-Only報(bào)文子空間中存在大量的來自不同源IP地址的SYN-Only報(bào)文涌向同一個(gè)目IP地址(即Flash-Crowd事件發(fā)生點(diǎn));在SYN-ACK報(bào)文子空間中存在大量的從同一個(gè)IP地址發(fā)往不同IP地址的SYN-ACK報(bào)文;在ACK-Only報(bào)文子空間同樣存在大量的來自不同源IP地址的ACK-Only報(bào)文涌向同一個(gè)目IP地址。分析這三個(gè)報(bào)文子空間中Flash-Crowd事件相關(guān)報(bào)文樣本的4個(gè)報(bào)文屬性(SIP,DIP,Sport,DPort)取值情況發(fā)現(xiàn)在SYN-Only報(bào)文子空間中,F(xiàn)lash-Crowd事件相關(guān)報(bào)文樣本集的源IP地址(SIP)取值具有發(fā)散性,目IP地址(DIP)取值固定在一個(gè)IP地址上,源端口(Sport)取值具有發(fā)散性,目端口(DPort)取值則固定在少數(shù)幾個(gè)端口值上;在SYN-ACK報(bào)文子空間中,F(xiàn)lash-Crowd事件相關(guān)才艮文樣本集的源IP地址(SIP)取值固定,目IP地址取值具有發(fā)散性,源端口(Sport)取值則固定在少數(shù)幾個(gè)端口值上,目端口(DPort)取值具有發(fā)散性;在ACK-Only報(bào)文子空間中,F(xiàn)lash-Crowd事件相關(guān)報(bào)文樣本集的源IP地址(SIP)取值具有發(fā)散性,目IP地址(DIP)取值固定在一個(gè)IP地址上,源端口(Sport)取值具有發(fā)散性,目端口(DPort)取值則固定在少數(shù)幾個(gè)端口值上?;诰唧w閾值的Flash-Crowd事件的通信特征可描述如下Flash-Crowd異常事件發(fā)生點(diǎn)活躍性特征Flash-Crowd事件發(fā)生點(diǎn)每秒鐘接收到的SYN-ONLY才艮文超過40個(gè),發(fā)送的SYN-ACK報(bào)文超過40個(gè),同時(shí)接收到的ACK-ONLY報(bào)文也超過了40個(gè);Flash-Crowd事件相關(guān)才艮文分布特征在SYN-ONLY報(bào)文子空間,F(xiàn)lash-Crowd事件相關(guān)報(bào)文抽樣集各屬性取值分布(熵)表現(xiàn)為Hsff趨于1,Hmp超于0,Hs一趨于中間值,Hop。rt趨于0;在SYN-ACK報(bào)文子空間,F(xiàn)lash-Crowd事件相關(guān)報(bào)文抽樣集各屬性取值分布(熵)表現(xiàn)為H^趨于0,Ho!p趨于1,Hsp加趨于0,Hop。rt趨于中間值;在ACK-ONLY報(bào)文子空間,F(xiàn)lash-Crowd事件相關(guān)報(bào)文抽樣集各屬性取值分布(熵)表現(xiàn)為H觀趨于1,Hd!p趁于0,Hs一趨于中間值,Hop時(shí)趨于O。權(quán)利要求1.一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,包括提供各種網(wǎng)絡(luò)服務(wù)的廣域網(wǎng)以及與廣域網(wǎng)連接的區(qū)域網(wǎng)和局域網(wǎng)和安裝在集中檢測設(shè)備上的抽樣單元、提取計(jì)算單元、比較單元、知識庫單元,其特征在于所述的步驟①創(chuàng)建報(bào)文抽樣循環(huán)緩沖區(qū);②抽樣單元的時(shí)間窗開啟,統(tǒng)計(jì)開始;③抽樣單元按照報(bào)文分類對報(bào)文進(jìn)行活躍IP統(tǒng)計(jì)和自適應(yīng)抽樣;④抽樣單元的時(shí)間窗關(guān)閉,統(tǒng)計(jì)結(jié)束;⑤提取計(jì)算單元基于哈希表結(jié)構(gòu)提取活躍IP地址集合并計(jì)算特征分布熵向量;⑥提取計(jì)算單元基于報(bào)文抽樣循環(huán)區(qū)提取活躍IP并計(jì)算報(bào)文通訊模式;⑦比較單元從知識庫單元提取異常流量通訊模式樣本與上一步驟獲得的通訊模式進(jìn)行比較,如相同則報(bào)警,如不同則回到步驟②。2.根據(jù)權(quán)利要求1所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,其特征在于所述的循環(huán)緩沖區(qū)包括16個(gè)哈希表結(jié)構(gòu)和8個(gè)報(bào)文抽樣循環(huán)緩沖分區(qū)。3.根據(jù)權(quán)利要求1所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,其特征在于所述的抽樣單元按照報(bào)文分類對報(bào)文進(jìn)行活躍IP統(tǒng)計(jì)和自適應(yīng)抽一羊的方法①判別4艮文類型;②抽取報(bào)文SIP、DIP、Sport、Dport四元組屬性;③更新與該報(bào)文組的源活躍IP和目活躍IP相關(guān)哈希表結(jié)構(gòu);④由該類型報(bào)文子空間抽樣策略決定該報(bào)文是否被釆樣;⑤將獲得并釆用的報(bào)文四元組記錄順序存儲(chǔ)到對應(yīng)報(bào)文抽樣循環(huán)緩沖區(qū)中。4.根據(jù)權(quán)利要求1所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量4全測方法,其特征在于所述的4是取計(jì)算單元基于哈希表結(jié)構(gòu)提取活躍IP地址集合并計(jì)算特征分布熵向量的方法①對各類報(bào)文子空間對應(yīng)的源活躍IP和目活躍IP哈希表結(jié)構(gòu)進(jìn)行遍歷;②提取出各類報(bào)文相關(guān)的源活躍IP和目活躍IP集合;③對于提取的每一活躍源活躍IP或目活躍IP,從相應(yīng)報(bào)文抽樣循環(huán)緩沖區(qū)中抽取與該活躍IP相關(guān)的報(bào)文樣本集;④基于標(biāo)準(zhǔn)熵方法計(jì)算出活躍IP報(bào)文樣本在SIP、DIP、Sport、DPor四元屬性上的特征分布熵向量。5.根據(jù)權(quán)利要求4所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,其特征在于所述的特征分布熵向量包括源特征分布熵向量和宿特征分布熵向量。6.根據(jù)權(quán)利要求1所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,其特征在于所述的提取計(jì)算單元基于報(bào)文抽樣循環(huán)區(qū)提取活躍IP并計(jì)算^^文通訊^^式的方法①從各類報(bào)文子空間相關(guān)的源活躍IP和目活躍IP哈希表結(jié)構(gòu)提取的活躍IP活i夭性;②從各類報(bào)文抽樣循環(huán)緩沖區(qū)中提取的活躍ip源特征分布向量和宿特征分布向量值;③將提取的活躍IP活躍性和活躍IP的源特征分布向量、宿特征分布向量值構(gòu)成了各活躍IP的通信模式。7.根據(jù)權(quán)利要求1所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,其特征在于所述的知識庫單元收集各類型異常流量事件樣本,所述的知識庫單元構(gòu)建的方法①將整個(gè)網(wǎng)絡(luò)報(bào)文空間按報(bào)文類型劃分為多個(gè)報(bào)文子空間;②分別在各類型報(bào)文子空間中提取各異常流量事件的局部通信特征;③通過合并從各類型報(bào)文子空間中提取的局部通信特征得到完整通信模式;④基于這些異常流量通信模式構(gòu)建一個(gè)適于在線異常流量檢測使用的知識庫單元。8.根據(jù)權(quán)利要求7所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量4企測方法,其特征在于所述的知識庫單元收集各類型異常流量事件樣本包括ot流、Flood、Flash-Crowd、端口掃描、網(wǎng)絡(luò)掃描、設(shè)備故障和蠕蟲掃描,或所述的知識庫單元結(jié)構(gòu)為決策樹結(jié)構(gòu)。9.根據(jù)權(quán)利要求7所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,其特征在于所述的各類型報(bào)文子空間包括TCP-SYNOnly、TCP-SYNACK、TCP-RST、TCP-ACKONLY、UDP、ICMP-Req、ICMP-Rply和ICMP-unreach。10.根據(jù)權(quán)利要求7所述的一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,其特征在于所述的通訊模式的描述方法異常事件發(fā)生點(diǎn)活躍度和異常事件相關(guān)報(bào)文特征分布,所述的異常事件發(fā)生點(diǎn)活躍度是指在整個(gè)異常流量事件過程中發(fā)送或接收的網(wǎng)絡(luò)報(bào)文數(shù);所述的異常事件相關(guān)報(bào)文特征分布是指事件相關(guān)報(bào)文抽樣樣品在源IP(SIP)、目IP(DIP)、源端口和目端口四個(gè)報(bào)文屬性上取值的發(fā)散或聚合情況,所述的異常事件相關(guān)4艮文特征分布的計(jì)算方法是采用線性計(jì)數(shù)數(shù)組和均勻映射方法來高效計(jì)算近似熵,得到異常流量事件樣本在不同類型報(bào)文子空間中的源和宿特征分布向量。全文摘要本發(fā)明涉及一種基于主機(jī)活躍性和通信模式分析實(shí)時(shí)異常流量檢測方法,本發(fā)明能夠在高速網(wǎng)絡(luò)環(huán)境下實(shí)時(shí)確定異常流量事件發(fā)生的時(shí)間,識別出異常流量事件的類型,并能對該異常流量事件進(jìn)行物理定位。本發(fā)明包括提供各種網(wǎng)絡(luò)服務(wù)的廣域網(wǎng)以及與廣域網(wǎng)連接的區(qū)域網(wǎng)和局域網(wǎng)和安裝在集中檢測設(shè)備上的抽樣單元、提取計(jì)算單元、比較單元、知識庫單元。本發(fā)明基于先驗(yàn)知識建立各種類型異常流量事件的通信模式,而在異常檢測時(shí),通過提取網(wǎng)絡(luò)中的活躍主機(jī)通信模式,并與各異常流量事件通信模式相比較,就可能識別出發(fā)生在活躍主機(jī)上的異常流量事件,支持的異常流量檢測事件包括α流、各種Flood事件、Flash-Crowd、端口掃描、網(wǎng)絡(luò)掃描、設(shè)備故障和蠕蟲掃描事件。文檔編號H04L12/26GK101309179SQ20071009939公開日2008年11月19日申請日期2007年5月18日優(yōu)先權(quán)日2007年5月18日發(fā)明者華東明,葉潤國,許金鵬,趙東賓,駱擁政申請人:北京啟明星辰信息技術(shù)有限公司