本發(fā)明涉及交通安全領(lǐng)域,具體涉及一種駕駛注意力啟發(fā)的交通事故風險預測方法及系統(tǒng)。
背景技術(shù):
1、交通事故預測旨在提前識別可能發(fā)生的事故,從而即時進行判斷,以有效防止交通事故的發(fā)生。自動駕駛與輔助駕駛系統(tǒng)日益聚焦于提前預測鄰近道路參與者的行為,涵蓋軌跡預測、動作預測、意圖預測、碰撞規(guī)避乃至端到端學習,旨在提升行車安全與效率。然而,交通事故通常會在短暫且出乎意料的時刻及地點發(fā)生。精確預測則需要識別事故的稀疏時空模式及正常狀態(tài)向危險狀態(tài)的突變。此外,天氣、光照條件的多樣性、事故類型的復雜性以及數(shù)據(jù)的高度不平衡性共同構(gòu)成了這一挑戰(zhàn)的關(guān)鍵因素。
2、基于視頻的交通事故預測模型的研究逐漸增多,這些研究專注于預測事故的發(fā)生時間(tta)與類型,尤其側(cè)重于大規(guī)模事故的識別。深入分析這些模型,其核心在于探索對象軌跡片段與深度學習中視覺上下文特征之間的協(xié)調(diào)性或關(guān)聯(lián)性。空間交互模型,尤其是時空注意力網(wǎng)絡,在分析視覺情境與事故預測領(lǐng)域備受推崇。然而,事故在復雜環(huán)境條件下的發(fā)生,如物體難以檢測或跟蹤,常常成為這些方法效能受限的關(guān)鍵因素。某些學者提議采用注視引導的深度強化學習事故預測模型。該模型在離線預訓練階段構(gòu)建了駕駛員注意力圖,但在認知啟發(fā)式視頻理解與文字描述交互作用的深入探究上存在不足。
3、先前的研究主要側(cè)重于基于對象的時空相關(guān)性,但針對適應固有長尾數(shù)據(jù)分布及顯著環(huán)境變化的問題仍存在難點。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種駕駛注意力啟發(fā)的交通事故風險預測方法及系統(tǒng),以解決上述問題。
2、為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,本發(fā)明提供一種駕駛注意力啟發(fā)的交通事故風險預測方法,包括:
4、獲取駕駛場景圖像,預處理后轉(zhuǎn)化為連續(xù)圖像幀;
5、基于注意力機制的文本到視頻注意轉(zhuǎn)移融合,并將文本信息轉(zhuǎn)換為視頻表征,生成具備連貫語義的跨模態(tài)特征;
6、將跨模態(tài)特征通過圖卷積網(wǎng)絡實現(xiàn)語義上下文遷移,并將由此生成的語義上下文特征矩陣構(gòu)建雙路徑模型;
7、采用多任務學習策略,通過雙路徑模型,識別并預測駕駛員注意力分散導致的潛在事故風險。
8、進一步的,所述獲取駕駛場景圖像,預處理后轉(zhuǎn)化為連續(xù)圖像幀,包括:
9、將所采集的駕駛場景圖像的尺寸分辨率調(diào)整為長邊m×寬邊n;
10、計算所有圖片的平均像素值,并將每一幅圖像減去平均像素值,消除單幀圖像間的差異性,實現(xiàn)標準化處理。
11、進一步的,所述基于注意力機制的文本到視頻注意轉(zhuǎn)移融合,并將文本信息轉(zhuǎn)換為視頻表征,生成具備連貫語義的跨模態(tài)特征,包括:
12、將長邊為m、寬邊為n的視頻幀與文本描述,分別通過具有n×n大小卷積核的2d卷積層進行patch?embedding處理,以及利用預訓練的bert模型對文本進行編碼,從而獲取視頻與文本的嵌入信息;
13、將視頻幀與文本描述的嵌入整合進一個具備共享權(quán)重的多頭自注意力模型,刻畫視覺特征與文本詞匯之間的關(guān)聯(lián)性;
14、構(gòu)建融合位移融合機制的視覺與文本嵌入向量,輸入位置感知交叉注意力的跨模態(tài)融合模塊,生成整合連貫文本信息的跨模態(tài)特征,實現(xiàn)注意力導向文本與視頻間的位移融合。
15、進一步的,將跨模態(tài)特征通過圖卷積網(wǎng)絡實現(xiàn)語義上下文遷移,包括:
16、通過將整合后的跨模態(tài)特征引入一層圖卷積網(wǎng)絡,以探索駕駛場景中的語義上下文,進而獲取語義上下文特征矩陣。
17、進一步的,將生成的語義上下文特征矩陣構(gòu)建雙路徑模型,包括:
18、一條路徑涉及利用包含門控循環(huán)單元的事故分數(shù)解碼模塊處理特征矩陣,進行視頻級別的事故預測;
19、另一條路徑用于生成幀級駕駛員注意力圖,將特征矩陣輸入模塊以實現(xiàn)幀級別的重建。
20、進一步的,所述采用多任務學習策略,通過雙路徑模型,識別并預測駕駛員注意力分散導致的潛在事故風險,包括:
21、駕駛員注意力圖重建,基于語義上下文特征矩陣,通過多層反卷積層的運用,利用自注意力網(wǎng)絡實現(xiàn)駕駛員注意力圖的重建,為事故預測中的語義學習提供關(guān)鍵牽引;
22、采用門控循環(huán)單元的事故分數(shù)解碼模塊,分別對正例和負例的特征矩陣進行處理,以捕捉語義上下文特征在時間維度上的動態(tài)變化,隨后通過softmax函數(shù)計算最終的事故風險評分,實現(xiàn)對交通事故的預測;
23、進一步的,在模型訓練中,通過駕駛員注意力圖重建和事故風險預測任務協(xié)同優(yōu)化以訓練模型。
24、第二方面,本發(fā)明提供一種駕駛注意力啟發(fā)的交通事故風險預測系統(tǒng),包括:
25、數(shù)據(jù)獲取模塊,用于獲取駕駛場景圖像,預處理后轉(zhuǎn)化為連續(xù)圖像幀;
26、跨模態(tài)特征生成模塊,用于基于注意力機制的文本到視頻注意轉(zhuǎn)移融合,并將文本信息轉(zhuǎn)換為視頻表征,生成具備連貫語義的跨模態(tài)特征;
27、雙路徑模型構(gòu)建模塊,用于將跨模態(tài)特征通過圖卷積網(wǎng)絡實現(xiàn)語義上下文遷移,并將由此生成的語義上下文特征矩陣構(gòu)建雙路徑模型;
28、預測輸出模塊,用于采用多任務學習策略,通過雙路徑模型,識別并預測駕駛員注意力分散導致的潛在事故風險。
29、第三方面,本發(fā)明提供一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述一種駕駛注意力啟發(fā)的交通事故風險預測方法的步驟。
30、第四方面,本發(fā)明提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述一種駕駛注意力啟發(fā)的交通事故風險預測方法的步驟。
31、與現(xiàn)有技術(shù)相比,本發(fā)明有以下技術(shù)效果:
32、本發(fā)明引入了一種駕駛注意力啟發(fā)的交通事故風險預測方法,該方法旨在通過借鑒駕駛員的注意力模式和基于視覺文本場景的描述來優(yōu)化模型訓練過程。我們在研究中探索了駕駛情境下的文本描述與駕駛員注意力的關(guān)系,旨在通過提供語義指引來輔助快速辨識事故中的相關(guān)對象。有效捕捉場景中目標間的時空關(guān)聯(lián)性。增強其在復雜場景與惡劣環(huán)境下的適應能力。顯著增強了系統(tǒng)的預測準確性和可靠性。
33、本發(fā)明提出一種基于駕駛注意力啟發(fā)的交通事故風險預測方法,該方法采用共享權(quán)重的自注意力網(wǎng)絡處理連續(xù)幀圖片與事故發(fā)生前的文本描述,生成視覺與語義的融合特征,通過位置感知交叉注意力融合模塊整合文本和視覺信息,以保持融合層后的token位置信息,探索局部與全局token表示間的聯(lián)系,輔助交通場景中基于視頻的事故預測。融合后的跨模態(tài)特征通過gcn網(wǎng)絡輸入至兩條路徑,分別用于視頻級事故預測與幀級駕駛員注意力圖重建,利用門控循環(huán)單元關(guān)聯(lián)語義上下文隨時間的變化。時刻t時的語義上下文特征矩陣用于駕駛員注意力圖重建,以學習事故預測中的核心語義。通過多任務優(yōu)化,模型在交通事故預測路徑中對正負例視頻片段進行采樣,最終獲得預測事故概率。將文本描述與駕駛員注意力整合至預測網(wǎng)絡中,旨在為交通場景內(nèi)容提供密集的語義指導,并高效定位與安全駕駛緊密相關(guān)的關(guān)鍵區(qū)域。利用注意力機制在各模塊中識別關(guān)鍵語義線索,以增強事故預測的魯棒性,從而顯著提升駕駛安全性。