本發(fā)明涉及交通安全領域,具體涉及一種虛實多模態(tài)知識遷移的行人穿越預測方法及系統(tǒng)。
背景技術(shù):
1、行人過馬路預測(pcp)問題日益受到重視,越來越多的學者對行人姿態(tài)、邊界框、車輛速度以及語義分割圖的相關內(nèi)容進行研究。然而,在實踐中標注這些線索頗具挑戰(zhàn)性,尤其是惡劣的天氣與光照條件對pcp構(gòu)成了難題。因此,提升行人過馬路行為檢測模型的泛化能力關鍵在于增強樣本多樣性,鑒于實際場景中行人過馬路行為的標注數(shù)據(jù)有限,當前研究趨勢是生成具備動態(tài)變化的合成數(shù)據(jù)集,通過引入域適應技術(shù)來豐富訓練數(shù)據(jù),進而優(yōu)化模型在不同環(huán)境下的表現(xiàn),通過采用域適應框架來提高預測性能。然而不同領域的知識存在顯著的跨域分布差異,這一特性要求在處理個性化內(nèi)容提供任務時,存在準確性低的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種虛實多模態(tài)知識遷移的行人穿越預測方法及系統(tǒng),以解決上述問題。
2、為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,本發(fā)明提供一種虛實多模態(tài)知識遷移的行人穿越預測方法,包括:
4、通過利用模型生成的合成數(shù)據(jù)中的行人框?qū)χR提取器中的教師模型進行預訓練,得到獲取未來p時刻的行人框數(shù)據(jù)特征;
5、通過風格轉(zhuǎn)換器,將合成數(shù)據(jù)的rgb幀在各種條件下的視覺特征轉(zhuǎn)化為對應的真實rgb圖,獲得風格轉(zhuǎn)換特征;
6、將合成數(shù)據(jù)的深度圖、合成數(shù)據(jù)的語義分割圖與真實rgb圖進行整合,得到共享特征嵌入;
7、將行人框數(shù)據(jù)特征、風格轉(zhuǎn)換特征以及共享特征整合進可學習的門控單元進行融合,預測行人穿越意圖信號。
8、進一步的,所述通過利用合成數(shù)據(jù)中的行人框?qū)χR提取器中的教師模型進行預訓練,得到獲取未來p時刻的行人框數(shù)據(jù)特征,包括:
9、采用合成數(shù)據(jù)集,將行人的0至t時刻的邊界框作為輸入提供給教師模型transformer網(wǎng)絡,以此獲取合成數(shù)據(jù)在t至t+p時刻的行人框信息,完成預訓練階段并固定模型參數(shù);
10、采用教師模型對真實數(shù)據(jù)中的行人框進行指導,同時利用學生模型,即resnet+lstm網(wǎng)絡,預測并獲取真實數(shù)據(jù)在t~t+p時刻的行人框信息。
11、進一步的,所述通過風格轉(zhuǎn)換器,將合成數(shù)據(jù)的rgb幀在各種條件下的視覺特征轉(zhuǎn)化為對應的真實rgb圖,包括:
12、通過裁剪行人邊界框周圍的矩形區(qū)域并縮放,以消除全局圖像中的無關背景噪聲;
13、經(jīng)處理的rgb幀通過應用自適應實例規(guī)范化adain方法生成風格遷移圖像集合,隨后,這些圖像通過輸入時空主干網(wǎng)絡backbone模型進行編碼,以預測行人的穿越意圖。
14、進一步的,所述將合成深度圖、合成語義分割圖與真實rgb圖進行整合,得到共享特征嵌入,包括:
15、通過裁剪行人邊界框周圍的矩形區(qū)域并縮放;
16、對于行人框周邊的矩形區(qū)域,將輸入數(shù)據(jù)通過同骨干網(wǎng)絡進行編碼,利用disa網(wǎng)絡執(zhí)行雙向近似,以識別共享特征分布。
17、進一步的,將行人框數(shù)據(jù)特征、風格轉(zhuǎn)換特征以及共享特征整合進可學習的門控單元進行融合,具體包括:
18、將行人框數(shù)據(jù)特征、風格轉(zhuǎn)換特征以及共享特征進行堆疊操作獲得輸入向量f;
19、將輸入向量f通過線性層和歸一化層獲得特征融合的門控權(quán)重w;
20、利用向量f和w的加權(quán)求和實現(xiàn)門控操作的向量融合。
21、進一步的,預測行人穿越意圖信號,包括:
22、將門控融合向量通過線性層和gumbel-softmax函數(shù)獲得行人穿越意圖概率得分。
23、第二方面,本發(fā)明提供一種虛實多模態(tài)知識遷移的行人穿越預測系統(tǒng),包括:
24、行人框數(shù)據(jù)特征獲取模塊,用于通過利用合成數(shù)據(jù)中的行人框?qū)χR提取器中的教師模型進行預訓練,得到獲取未來p時刻的行人框數(shù)據(jù)特征;
25、風格轉(zhuǎn)換模塊,用于通過風格轉(zhuǎn)換器,將合成數(shù)據(jù)的rgb幀在各種條件下的視覺特征轉(zhuǎn)化為對應的真實rgb圖;
26、共享特征獲取模塊,用于將合成深度圖、合成語義分割圖與真實rgb圖進行整合,得到共享特征嵌入;
27、預測輸出模塊,用于將行人框數(shù)據(jù)特征、風格轉(zhuǎn)換特征以及共享特征整合進可學習的門控單元進行融合,預測行人穿越意圖信號。
28、進一步的,所述通過利用合成數(shù)據(jù)中的行人框?qū)χR提取器中的教師模型進行預訓練,得到獲取未來p時刻的行人框數(shù)據(jù)特征,包括:
29、采用合成數(shù)據(jù)集,將行人的0至t時刻的邊界框作為輸入提供給教師模型transformer網(wǎng)絡,以此獲取合成數(shù)據(jù)在t至t+p時刻的行人框信息,完成預訓練階段并固定模型參數(shù);
30、采用教師模型對真實數(shù)據(jù)中的行人框進行指導,同時利用學生模型,即resnet+lstm網(wǎng)絡,預測并獲取真實數(shù)據(jù)在t~t+p時刻的行人框信息。
31、第三方面,本發(fā)明提供一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述一種虛實多模態(tài)知識遷移的行人穿越預測方法的步驟。
32、第四方面,本發(fā)明提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述一種虛實多模態(tài)知識遷移的行人穿越預測方法的步驟。
33、與現(xiàn)有技術(shù)相比,本發(fā)明有以下技術(shù)效果:
34、本發(fā)明提出了一種虛實多模態(tài)知識遷移的行人穿越預測方法,通過整合風格遷移、分布逼近與知識蒸餾等先進技術(shù),實現(xiàn)了對不同類別間跨域知識的有效遷移,顯著提升了行人過馬路預測的準確性。
35、通過利用合成數(shù)據(jù)中的行人框?qū)處熌P停╰ransformer網(wǎng)絡)進行預訓練,教師模型能夠?qū)W習到行人運動的規(guī)律和模式。這有助于在后續(xù)步驟中有效指導學生模型(resnet+lstm網(wǎng)絡)進行行人框的預測。
36、預訓練過程提高了模型的泛化能力,使其在面對真實數(shù)據(jù)時能夠更快地適應和準確預測。
37、教師模型對真實數(shù)據(jù)中的行人框進行指導,通過知識蒸餾的方式,將學生模型的預測結(jié)果向教師模型的預測結(jié)果靠攏,知識蒸餾能夠充分利用教師模型學到的知識,提升學生模型的預測性能,同時保持學生模型的輕量級和高效性。
38、通過風格轉(zhuǎn)換器,將合成數(shù)據(jù)的rgb幀在各種條件下的視覺特征轉(zhuǎn)化為對應的真實rgb幀。這一步驟有效縮小了合成數(shù)據(jù)與真實數(shù)據(jù)之間的域差距,提高了模型的泛化能力。
39、應用adain(自適應實例規(guī)范化)方法生成風格遷移圖像集合,這些圖像通過輸入時空backbone模型進行編碼,以預測行人的穿越意圖。adain方法能夠快速、有效地實現(xiàn)風格遷移,同時保持圖像內(nèi)容不變,為后續(xù)的意圖預測提供了更真實、更豐富的視覺特征。
40、通過分布逼近器整合合成深度圖、合成語義分割圖與真實rgb圖,以獲取共享特征嵌入。這一步驟實現(xiàn)了多模態(tài)信息的有效融合,通過逼近真實數(shù)據(jù)的分布,提高了模型的預測準確性。
41、對于行人框周邊的矩形區(qū)域,利用disa網(wǎng)絡執(zhí)行雙向近似,以識別共享特征分布。disa網(wǎng)絡能夠更準確地捕捉行人運動的關鍵特征,為后續(xù)的意圖預測提供了更可靠的特征支持。
42、將行人框特征、風格轉(zhuǎn)換特征以及共享特征向量整合進可學習的門控單元進行融合。門控單元能夠自適應地調(diào)整不同特征的權(quán)重,實現(xiàn)特征的有效融合,提高了模型的預測準確性。融合特征輸入用于預測行人穿越意圖信號。通過整合多模態(tài)信息并進行有效的特征融合,模型能夠更準確地預測行人的穿越意圖,為自動駕駛、智能交通等領域提供了重要的技術(shù)支持。
43、本技術(shù)方案通過整合風格遷移、分布逼近與知識蒸餾等先進技術(shù),實現(xiàn)了對不同類別間跨域知識的有效遷移,顯著提升了行人過馬路預測的準確性。具體來說,通過教師模型的預訓練和知識蒸餾,提高了學生模型的預測性能;通過風格遷移和adain方法,縮小了合成數(shù)據(jù)與真實數(shù)據(jù)之間的域差距;通過分布逼近器和disa網(wǎng)絡,實現(xiàn)了多模態(tài)信息的有效融合和特征提??;通過可學習的門控單元和融合特征輸入,提高了模型的意圖預測準確性。這些技術(shù)效果共同作用,使得本技術(shù)方案在行人穿越預測領域具有顯著的優(yōu)勢和應用前景。