本發(fā)明屬于網(wǎng)絡(luò)安全,具體涉及一種基于quic特有特征和圖結(jié)構(gòu)的少樣本增量網(wǎng)站指紋識(shí)別方法、系統(tǒng)、介質(zhì)及程序產(chǎn)品。
背景技術(shù):
::1、quic(quick?udp?internet?connections)作為一種新的通用傳輸層網(wǎng)絡(luò)協(xié)議,為用戶提供更快、更穩(wěn)定、更安全的web服務(wù)。與其他協(xié)議相比,quic加密了更多的信息,包括tls握手、流id等。由于幾乎沒有與加密通信相關(guān)的可用明文,因此網(wǎng)絡(luò)用戶的隱私得到了保證。由于quic的流量傳輸模式仍然存在隱私泄露的可能性,因此可以將流量與特定網(wǎng)站關(guān)聯(lián)起來。在不解密的情況下識(shí)別流量屬于哪個(gè)站點(diǎn)被稱為網(wǎng)站指紋(websitefingerprinting,wf)攻擊。研究人員可以通過實(shí)施wf攻擊來分析quic協(xié)議的漏洞。2、由于漏洞分析為quic協(xié)議提供了重要的支持,wf攻擊已成為研究的熱點(diǎn)。wf攻擊可以根據(jù)從監(jiān)控列表中的網(wǎng)站捕獲的加密流量的元數(shù)據(jù)(大小、方向、時(shí)間)生成指紋。由于quic協(xié)議的部署是漸進(jìn)的且尚未完全部署,wf攻擊者監(jiān)控列表中的一些網(wǎng)站可能不支持quic協(xié)議。它不再是可能的抓取quic流量為所有監(jiān)控網(wǎng)站提前。攻擊者必須不斷抓取新的支持quic的網(wǎng)站流量來訓(xùn)練新的攻擊模型。為了對(duì)新支持quic協(xié)議的網(wǎng)站實(shí)現(xiàn)幾乎即時(shí)的wf攻擊,攻擊者必須減少爬行時(shí)間。這意味著只有少數(shù)支持quic的新網(wǎng)站的培訓(xùn)流量可以用于培訓(xùn)。這種wf攻擊可以稱為fsiwf(few-shot?incremental?website?fingerprinting)攻擊。3、現(xiàn)有的fsiwf攻擊可分為基于端到端深度學(xué)習(xí)[sanjit?bhat,david?lu,albertkwon,and?srinivas?devadas.2019.var-cnn:a?data-efficient?websitefingerprinting?attack?based?on?deep?learning.proceedings?on?privacy?enhancingtechnologies?2019,4(2019),292–310][jan?luxemburk,karel?hynek,and2023.encryptedtraffic?classification:the?quic?case.in?20237thnetworktrafficmeasurement?andanalysis?conference(tma).ieee,1–10]和基于遷移學(xué)習(xí)[janluxemburk,karel?hynek,and2023.encrypted?traffic?classification:thequic?case.in?20237thnetworktraffic?measurement?andanalysis?conference(tma).ieee,1–10][payap?sirinam,nate?mathews,mohammad?saidur?rahman,and?matthewwright.2019.triplet?fingerprinting:more?practical?and?portable?websitefingerprinting?with?n-shot?learning.in?proceedings?of?the?2019acm?conferenceon?computer?and?communications?security.1131–1148]兩種類型。端到端基于深度學(xué)習(xí)的wf攻擊依賴于訓(xùn)練數(shù)據(jù)量,無法基于少量流量構(gòu)建有效的特征表示。基于遷移學(xué)習(xí)的方法使用大量的數(shù)據(jù)預(yù)訓(xùn)練一個(gè)強(qiáng)大的模型,并用少量的新任務(wù)數(shù)據(jù)對(duì)分類器進(jìn)行微調(diào)。這些方法的有效性依賴于預(yù)訓(xùn)練數(shù)據(jù)的豐富多樣性。由于監(jiān)測列表中最初啟用quic的網(wǎng)站較少,因此它們擁有有限的預(yù)訓(xùn)練數(shù)據(jù)多樣性。4、這導(dǎo)致預(yù)訓(xùn)練模型的表示能力較差,進(jìn)一步限制了fsifw攻擊的有效性。此外,兩種類型的方法都遵循基于tcp的fsiwf攻擊中使用的特征[payap?sirinam,mohsen?imani,marc?juarez,andmatthew?wright.2018.deep?fingerprinting:undermining?websitefingerprinting?defenses?with?deep?learning.in?proceedings?ofthe?2018acmconference?on?computer?and?communications?security.1928–1943],并且不關(guān)心quic特定的特征(即與1-rtt和0-rtt數(shù)據(jù)包相關(guān))。quic流量的不完全表示[tlamelo?emmanuel,thabiso?maupong,dimane?mpoeleng,thabo?semong,banyatsang?mphago,and?otengtabona.2021.a?survey?on?missing?data?in?machine?learning.journal?ofbig?data8,1(2021),1–37]限制了它們在quic流量下的fsiwf攻擊性能。綜上所述,現(xiàn)有方法的有效性受到quic流量特征和深度特征的較差表示的限制。為了提高表示能力,本發(fā)明在分析了特定與quic特征的基礎(chǔ)上提出了一種新的fsiwf攻擊模型,通過分析和挖掘特征關(guān)聯(lián),增強(qiáng)了攻擊模型的表現(xiàn)力,實(shí)現(xiàn)了更高的準(zhǔn)確率和對(duì)新啟用quic網(wǎng)站的有效檢測。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明的目的在于提供一種基于quic特有特征和圖結(jié)構(gòu)的少樣本增量網(wǎng)站指紋識(shí)別方法、系統(tǒng)、介質(zhì)及程序產(chǎn)品,適用于訓(xùn)練數(shù)據(jù)有限且不斷出現(xiàn)新quic支持網(wǎng)站的場景。本發(fā)明的方法將quic特有的流量特征融入圖結(jié)構(gòu)特征表示中,通過全局特征聚合器和圖卷積網(wǎng)絡(luò)(gcn)進(jìn)行特征分析和挖掘,從而增強(qiáng)quic流量的特征表達(dá)能力。相比傳統(tǒng)方法,該方法在少樣本增量式網(wǎng)站識(shí)別中顯著提高了檢測和分類的準(zhǔn)確性,使得在監(jiān)控列表中及時(shí)識(shí)別新出現(xiàn)的quic支持網(wǎng)站成為可能,并有效優(yōu)化識(shí)別模型的適應(yīng)能力。2、本發(fā)明的目的通過如下技術(shù)方案來實(shí)現(xiàn):3、一種基于quic特有特征和圖結(jié)構(gòu)的少樣本增量網(wǎng)站指紋識(shí)別方法,包括以下步驟:4、步驟1:quic流量特征提取;5、首先,從quic流量中提取其特有的流量特征,這些特征包括但不限于數(shù)據(jù)包的大小、時(shí)序、協(xié)議特征等。這些特征為后續(xù)的分析提供了基礎(chǔ)數(shù)據(jù),確保能夠全面捕捉quic流量的獨(dú)特屬性。6、步驟2:圖結(jié)構(gòu)構(gòu)建與特征表示;7、將步驟1提取到的quic流量特征映射到圖結(jié)構(gòu)中,通過圖卷積網(wǎng)絡(luò)gcn對(duì)這些特征進(jìn)行全局關(guān)聯(lián)分析;圖結(jié)構(gòu)不僅能夠捕捉特征之間的潛在關(guān)聯(lián),還能夠通過多層次的卷積操作,增強(qiáng)對(duì)流量特征的表示能力;8、步驟3:增量式模型訓(xùn)練與少樣本學(xué)習(xí);9、在步驟2的圖結(jié)構(gòu)構(gòu)建完成后,對(duì)識(shí)別模型進(jìn)行增量式訓(xùn)練,通過少樣本學(xué)習(xí)方法,利用有限的訓(xùn)練數(shù)據(jù),不斷優(yōu)化模型的識(shí)別能力;該步驟確保了模型在新quic支持網(wǎng)站不斷出現(xiàn)的情況下,依然能夠保持較高的識(shí)別準(zhǔn)確率;10、步驟4:網(wǎng)站識(shí)別與分類;11、利用訓(xùn)步驟3練好的模型對(duì)新采集的quic流量數(shù)據(jù)進(jìn)行識(shí)別和分類,尤其對(duì)新出現(xiàn)的quic支持網(wǎng)站,通過結(jié)合圖結(jié)構(gòu)分析與模型的增量學(xué)習(xí)機(jī)制,實(shí)現(xiàn)對(duì)新網(wǎng)站的準(zhǔn)確識(shí)別和分類,并根據(jù)實(shí)時(shí)情況不斷更新模型。12、進(jìn)一步地,所述步驟1具體為:13、步驟1.1:流量采集設(shè)備將部署網(wǎng)絡(luò)監(jiān)控工具,tshark和tcpdump,實(shí)時(shí)監(jiān)控和捕獲通過網(wǎng)絡(luò)接口的quic流量;quic協(xié)議通過udp傳輸數(shù)據(jù),并捕獲所有udp端口上的數(shù)據(jù)包;14、步驟1.2:流量采集系統(tǒng)在捕獲到的原始流量數(shù)據(jù)基礎(chǔ)上,進(jìn)行數(shù)據(jù)包預(yù)處理;預(yù)處理包括去除無關(guān)數(shù)據(jù)包(如無效數(shù)據(jù)包和噪聲數(shù)據(jù)包),對(duì)流量數(shù)據(jù)進(jìn)行去重和時(shí)間同步,以確保所分析的數(shù)據(jù)包序列具有一致性和準(zhǔn)確性;再對(duì)數(shù)據(jù)包進(jìn)行協(xié)議解析,提取出quic協(xié)議相關(guān)的字段;15、步驟1.3:對(duì)提取到的quic特征進(jìn)行重要性分析,確定對(duì)網(wǎng)站識(shí)別任務(wù)最關(guān)鍵的特征;將網(wǎng)站的域名作為已知變量y,將每個(gè)特征作為未知變量x;通過條件熵與最小絕對(duì)收縮和選擇算子,其中,條件熵計(jì)算公式如下:16、17、其中,x∈x,y∈y,p表示概率分布,h表示每個(gè)特征的條件熵;18、最小絕對(duì)收縮和選擇算子是一種自動(dòng)利用l1正則化使部分特征權(quán)值為0的回歸分析,實(shí)現(xiàn)特征選擇;回歸的損失函數(shù)定義為:19、20、其中,n為樣本數(shù),c為待調(diào)整的常數(shù)系數(shù),||c||1為l1范數(shù),α為超參數(shù),本發(fā)明設(shè)置α為0.0001;21、進(jìn)一步地,所述步驟1.2中提取出quic協(xié)議相關(guān)的字段包括但不限于:22、init_pkt_cnt:初始數(shù)據(jù)包計(jì)數(shù);23、init_pkt_size_tot:初始報(bào)文總大??;24、one_rtt_pkt_cnt:1-rtt報(bào)文計(jì)數(shù);25、one_rtt_pkt_size_tot:1-rtt報(bào)文總大??;26、one_rtt_pkt_size_avg:1-rtt報(bào)文的平均大?。?7、zero_rtt_pkt_cnt:0-rtt報(bào)文計(jì)數(shù);28、zero_rtt_pkt_size_tot:0-rtt報(bào)文總大?。?9、zero_rtt_pkt_size_avg:0-rtt報(bào)文的平均大??;30、handshake_pkt_cnt:握手報(bào)文計(jì)數(shù);31、handshake_pkt_size_tot:握手報(bào)文總大??;32、certain_cnt_tot:1250大小報(bào)文數(shù)。33、進(jìn)一步地,所述步驟2具體為:34、步驟2.1:將每個(gè)quic流量實(shí)例視為一個(gè)節(jié)點(diǎn),不同實(shí)例之間的特征相似性作為邊來連接節(jié)點(diǎn);圖的邊權(quán)重根據(jù)兩個(gè)流量實(shí)例的特征相似度來確定;使用圖神經(jīng)網(wǎng)絡(luò)gnn或其他嵌入技術(shù),將每個(gè)節(jié)點(diǎn)(即流量實(shí)例)的特征表示為一個(gè)低維向量;通過學(xué)習(xí)節(jié)點(diǎn)及其鄰居的特征關(guān)系,使相似的流量實(shí)例在嵌入空間中距離更近;35、步驟2.2:在圖結(jié)構(gòu)構(gòu)建完成后,使用現(xiàn)有的流量數(shù)據(jù)訓(xùn)練一個(gè)初始模型;通過圖神經(jīng)網(wǎng)絡(luò)(graph?convolutional?network,gcn)對(duì)節(jié)點(diǎn)特征進(jìn)行訓(xùn)練,目標(biāo)是識(shí)別流量的類別或來源網(wǎng)站;36、步驟2.3:隨著新的quic流量數(shù)據(jù)的加入,對(duì)原有模型進(jìn)行更新,具體為:37、新節(jié)點(diǎn)的圖嵌入:將新加入的流量實(shí)例節(jié)點(diǎn)嵌入到現(xiàn)有的圖結(jié)構(gòu)中,更新圖的連接關(guān)系和邊權(quán)重;38、局部更新:僅對(duì)受新數(shù)據(jù)影響的部分圖結(jié)構(gòu)進(jìn)行模型參數(shù)的更新;39、損失函數(shù)優(yōu)化:針對(duì)增量數(shù)據(jù),定義損失函數(shù),包括分類損失和嵌入損失;分類損失使用交叉熵,嵌入損失則確保新節(jié)點(diǎn)的特征在嵌入空間中與其相似節(jié)點(diǎn)保持接近;40、步驟2.4:使用準(zhǔn)確率、召回率、f1-score指標(biāo)評(píng)估模型在增量學(xué)習(xí)后的性能;根據(jù)評(píng)估結(jié)果,調(diào)整模型的超參數(shù)或結(jié)構(gòu)(如gnn的層數(shù)、嵌入維度等),持續(xù)提升模型的識(shí)別能力。41、進(jìn)一步地,所述步驟3具體為:42、步驟3.1:在不同時(shí)間點(diǎn)抓取網(wǎng)站流量數(shù)據(jù),確保數(shù)據(jù)包含新的quic協(xié)議下的目標(biāo)網(wǎng)站流量;為每一條流量數(shù)據(jù)標(biāo)注對(duì)應(yīng)的網(wǎng)站標(biāo)簽,形成有標(biāo)注的數(shù)據(jù)集;將收集到的數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集,確保各個(gè)子集都能代表不同的網(wǎng)站特征和時(shí)間變化;在評(píng)估模型時(shí),使用準(zhǔn)確率(衡量模型預(yù)測正確的流量占總流量的比例)、精確率(precision,模型對(duì)正類樣本的預(yù)測準(zhǔn)確性)和召回率(recall,模型能找到的所有正類樣本的比例)作為評(píng)價(jià)指標(biāo)來衡量模型的性能;43、步驟3.2:將特征圖輸入到模型中進(jìn)行訓(xùn)練,得到初始的模型參數(shù);將驗(yàn)證集數(shù)據(jù)輸入模型,計(jì)算模型的預(yù)測結(jié)果,并根據(jù)選取的評(píng)估指標(biāo)進(jìn)行評(píng)估,判斷模型是否過擬合或欠擬合;44、步驟3.3:將包含新網(wǎng)站流量的數(shù)據(jù)輸入到模型中,利用模型進(jìn)行初步預(yù)測;將新數(shù)據(jù)加入到模型中,更新模型參數(shù),提升模型對(duì)新數(shù)據(jù)的識(shí)別能力;使用更新后的模型在測試集上進(jìn)行評(píng)估,衡量模型在加入新數(shù)據(jù)后的表現(xiàn);45、步驟3.4:在測試集上進(jìn)行全局性能驗(yàn)證,確保模型的泛化能力。46、進(jìn)一步地,所述步驟3.4進(jìn)行全局性能驗(yàn)證,具體包括:47、全局評(píng)估:在測試集上運(yùn)行模型,計(jì)算所有評(píng)估指標(biāo),得到整體性能結(jié)果;48、調(diào)優(yōu)與再訓(xùn)練:根據(jù)評(píng)估結(jié)果,對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu),如調(diào)整學(xué)習(xí)率、正則化參數(shù),并在全數(shù)據(jù)集上重新訓(xùn)練模型,確保最終模型達(dá)到最優(yōu)性能。49、一種基于quic特有特征和圖結(jié)構(gòu)的少樣本增量網(wǎng)站指紋識(shí)別系統(tǒng),包括流量監(jiān)測與數(shù)據(jù)收集裝置,特征提取與特征庫管理裝置,模型更新與優(yōu)化裝置;50、所述流量監(jiān)測與數(shù)據(jù)收集裝置負(fù)責(zé)實(shí)時(shí)監(jiān)測網(wǎng)絡(luò)流量,檢測并收集來自新網(wǎng)站的加密流量數(shù)據(jù);51、所述特征提取與特征庫管理裝置負(fù)責(zé)從收集到的流量數(shù)據(jù)中提取關(guān)鍵特征,并更新特征庫以提升模型對(duì)新流量的識(shí)別能力;52、所述模型更新與優(yōu)化裝置通過增量訓(xùn)練和參數(shù)調(diào)優(yōu),實(shí)現(xiàn)模型的動(dòng)態(tài)更新和優(yōu)化,以保證其在新環(huán)境中的識(shí)別準(zhǔn)確性。53、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)一種基于quic特有特征和圖結(jié)構(gòu)的少樣本增量網(wǎng)站指紋識(shí)別方法的步驟。54、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)一種基于quic特有特征和圖結(jié)構(gòu)的少樣本增量網(wǎng)站指紋識(shí)別方法的步驟。55、本發(fā)明的有益效果在于:56、本發(fā)明通過針對(duì)quic流量的特征提取和增量學(xué)習(xí),實(shí)現(xiàn)了對(duì)新出現(xiàn)的網(wǎng)站流量的高效識(shí)別,顯著提升了在加密流量環(huán)境下網(wǎng)站識(shí)別的準(zhǔn)確性和適應(yīng)性。當(dāng)前第1頁12當(dāng)前第1頁12