本發(fā)明屬于無人船避碰、強化學習等,具體涉及一種基于掩碼注意力機制和sac的無人艇智能避碰方法。
背景技術(shù):
1、無人艇(unmanned?surface?vehicle,?usv)作為智能海洋裝備的核心載體,在海洋環(huán)境監(jiān)測、海上搜救、港口巡檢及軍事偵察等領(lǐng)域發(fā)揮著不可替代的作用。然而,隨著海洋任務(wù)復雜度的不斷提升,傳統(tǒng)避碰方法(如人工勢場法、動態(tài)窗口法)在動態(tài)障礙物交互、多目標協(xié)同避碰等場景中逐漸暴露出環(huán)境適應性差、計算實時性不足等局限性。近年來,基于深度強化學習(deep?reinforcement?learning,?drl)的避碰方法憑借其對復雜動態(tài)環(huán)境的適應能力與端到端決策優(yōu)勢,為usv避碰問題提供了新的解決方案,已成為該領(lǐng)域的研究熱點。
2、目前,基于drl的usv避碰算法主要分為兩類:
3、基于價值的算法(如dqn、double?dqn):該類算法通過q-learning框架學習狀態(tài)-動作價值函數(shù),以最大化長期獎勵為目標。其優(yōu)勢在于理論收斂性明確,但存在高估偏差問題,且受限于離散動作空間,難以滿足usv連續(xù)轉(zhuǎn)向與變速的控制需求。
4、基于策略的算法(如ppo、sac):該類算法直接優(yōu)化策略函數(shù),通過策略梯度更新參數(shù),避免了價值函數(shù)計算的復雜性。基于策略的算法支持連續(xù)動作輸出,在復雜、連續(xù)的環(huán)境中表現(xiàn)出更強的靈活性和魯棒性,尤其適用于無人艇避碰任務(wù)中高維、動態(tài)的狀態(tài)空間。
5、然而,基于策略的算法在實際應用中仍面臨挑戰(zhàn)。當目標船數(shù)量動態(tài)變化時,傳統(tǒng)方法需固定狀態(tài)空間維度,導致算法在泛化性與適應性上存在不足?,F(xiàn)有技術(shù)通常采用填充或截斷策略處理可變目標船數(shù)量,但填充可能引入冗余噪聲,降低訓練效率;截斷則可能導致關(guān)鍵障礙物信息丟失,增加航行風險。
6、相關(guān)現(xiàn)有技術(shù)
7、與本發(fā)明最接近的現(xiàn)有技術(shù)包括:
8、授權(quán)公告號cn117168468b的專利提出了一種基于近端策略優(yōu)化的多無人艇協(xié)同導航方法;
9、授權(quán)公告號cn110658829b的專利公開了一種基于生成對抗模仿學習的船舶避碰決策方法;
10、專利公開號cn117523925a的專利設(shè)計了一種結(jié)合深度強化學習與lstm神經(jīng)網(wǎng)絡(luò)的群無人艇避碰方法;
11、專利公開號cn116954232a的專利提出了一種基于強化學習的多船避碰決策系統(tǒng)。
12、上述技術(shù)均未有效解決目標船數(shù)量動態(tài)變化與sac算法固定狀態(tài)空間需求之間的矛盾,導致避碰策略的適應性和泛化能力受限。在實際航行中,目標船數(shù)量隨海域、時間及航行條件動態(tài)變化,而現(xiàn)有方法通常僅建模固定數(shù)量的目標船,通過填充或截斷適配輸入維度。這種處理方式存在顯著缺陷:填充冗余信息可能干擾模型訓練,而截斷關(guān)鍵目標船信息則可能在高密度航行場景中引發(fā)安全隱患。
技術(shù)實現(xiàn)思路
1、為解決現(xiàn)有方案沒有考慮到目標船數(shù)量動態(tài)變化與sac算法固定狀態(tài)空間維度約束,導致無人艇在復雜海況下避碰策略適應性不足、泛化能力較差,無法很好地應對不同密度航行環(huán)境中的動態(tài)避碰需求,本發(fā)明提出一種基于掩碼注意力機制和sac的無人艇智能避碰方法。通過使用掩碼注意力機制對變長目標船信息進行自適應處理,并結(jié)合sac算法進行強化學習訓練,可以有效解決現(xiàn)有方法無法動態(tài)適應目標船數(shù)量變化、填充或截斷策略導致的信息損失、以及固定狀態(tài)維度約束影響決策穩(wěn)定性等難題,從而提升無人艇避碰系統(tǒng)的智能化水平和航行安全性。
2、其核心設(shè)計為:
3、一種基于掩碼注意力機制和sac的無人艇智能避碰方法,包括:
4、動態(tài)目標船信息處理:通過掩碼注意力機制對實時獲取的變長目標船信息進行自適應特征融合,基于目標船的實時碰撞風險評分動態(tài)生成掩碼注意力權(quán)重,通過填充或截斷策略屏蔽無效目標船數(shù)據(jù),生成維度統(tǒng)一的融合狀態(tài)特征;
5、sac框架協(xié)同優(yōu)化:
6、將所述融合狀態(tài)特征輸入actor網(wǎng)絡(luò),生成連續(xù)避碰動作策略;
7、將所述融合狀態(tài)特征輸入critic網(wǎng)絡(luò),通過雙q網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合熵正則化項估計狀態(tài)-動作價值函數(shù),平衡策略探索與利用;
8、端到端決策執(zhí)行:通過訓練階段優(yōu)化網(wǎng)絡(luò)參數(shù),并在部署階段實時輸出避碰控制指令。
9、本發(fā)明以上核心設(shè)計在于將掩碼注意力機制嵌入sac框架,以解決動態(tài)目標船數(shù)量變化導致的輸入維度沖突。如圖3所示,融合狀態(tài)特征(fin)通過掩碼注意力生成模塊(步驟s3,參見后文實施例部分,下同)處理后,同時輸入至actor網(wǎng)絡(luò)(步驟s4.2)和critic網(wǎng)絡(luò)(步驟6)。在訓練階段(步驟1-8),模型通過熵正則化優(yōu)化策略網(wǎng)絡(luò)參數(shù),結(jié)合動態(tài)掩碼機制實現(xiàn)魯棒性學習;在部署階段(步驟s1-s6),加載訓練完成的actor網(wǎng)絡(luò)實時輸出避碰動作。此設(shè)計在“具體實施方式”中通過動態(tài)優(yōu)先級規(guī)則(步驟s2.4)和端到端決策流程(步驟s5)驗證了其有效性。
10、其中,掩碼注意力生成模塊:對應步驟s3.2-s3.9(圖2流程),通過分離式特征融合(本船狀態(tài)與目標船狀態(tài)獨立處理)生成融合特征fin;
11、actor-critic協(xié)同優(yōu)化:步驟s4.2(actor網(wǎng)絡(luò))與步驟7.2-7.5(critic網(wǎng)絡(luò))明確輸入為fin,通過熵正則化(式24-式27)平衡探索與利用。
12、端到端決策流程:
13、步驟s5(動作映射)與步驟s6(實時控制)驗證部署階段的有效性。
14、進一步地,所述掩碼的生成規(guī)則包括:
15、完全屏蔽處理:
16、當目標船數(shù)量超過預設(shè)閾值時,選擇碰撞風險評分最大的n艘目標船;
17、對無效目標船通過填充0或截斷多余目標實現(xiàn)完全屏蔽;
18、梯度保留機制:
19、在訓練階段,對無效目標船對應的注意力得分施加極小值,以保留梯度傳播。
20、其中,訓練階段(梯度保留):
21、步驟s3.6:“對無效目標船注意力得分設(shè)定為10-9,避免參與softmax計算但保留梯度傳播”(對應式9-式10)。
22、部署階段(完全屏蔽):
23、步驟s2.4:“當目標船數(shù)量超過閾值時,填充0或截斷多余目標”(對應狀態(tài)構(gòu)建邏輯)。
24、動態(tài)優(yōu)先級規(guī)則:
25、步驟s2.4:“選擇碰撞風險最大的n艘目標船”,評分基于式20。
26、進一步地,所述融合狀態(tài)特征的構(gòu)建包括:
27、將本船狀態(tài)sos與目標船狀態(tài)sts分離處理,通過獨立線性變換生成查詢向量q和鍵值向量{k,?v};
28、將查詢向量q與各目標船鍵向量ki拼接后輸入加性注意力網(wǎng)絡(luò),生成動態(tài)注意力權(quán)重αi;
29、根據(jù)動態(tài)注意力權(quán)重αi對值向量vi加權(quán)求和,生成目標船融合特征fts,并與本船特征q拼接為最終輸入向量fin。
30、進一步地,所述critic網(wǎng)絡(luò)的輸入為掩碼注意力機制生成的融合狀態(tài)特征fin,通過雙q網(wǎng)絡(luò)結(jié)合熵項優(yōu)化價值函數(shù),其目標q值計算結(jié)合掩碼注意力機制生成的狀態(tài)特征和策略熵的負對數(shù)項,動態(tài)平衡探索與利用;所述actor網(wǎng)絡(luò)通過最大化掩碼注意力加權(quán)后的熵正則化價值更新策略參數(shù),critic網(wǎng)絡(luò)參數(shù)通過混合系數(shù)τ進行軟更新。
31、其中,雙q網(wǎng)絡(luò)設(shè)計:
32、步驟7.2:“critic網(wǎng)絡(luò)采用雙q結(jié)構(gòu),通過最小化兩個q網(wǎng)絡(luò)輸出的均方誤差優(yōu)化價值函數(shù)”。
33、熵正則化項:
34、式24(目標q值計算)包含熵項,自適應溫度系數(shù)α通過式26優(yōu)化。
35、軟更新機制:
36、式27(目標網(wǎng)絡(luò)參數(shù)更新),混合系數(shù)τ=0.005。
37、進一步地,所述避碰動作策略的輸出包括:
38、將actor網(wǎng)絡(luò)輸出的歸一化動作參數(shù)通過線性映射轉(zhuǎn)換為推力和力矩;
39、根據(jù)螺旋槳動力學模型將推力轉(zhuǎn)換為轉(zhuǎn)速指令,根據(jù)舵機模型將力矩轉(zhuǎn)換為舵角指令。
40、進一步地,所述訓練階段的獎勵函數(shù)為多目標加權(quán)和,包括:
41、距離獎勵項:引導無人艇快速接近目標點;
42、航向獎勵項:保持航向朝向目標點;
43、碰撞風險懲罰項:基于目標船與無人艇的最近會遇距離和會遇時間計算動態(tài)威脅評分;
44、規(guī)則合規(guī)性懲罰項:強制符合《國際海上避碰規(guī)則》的轉(zhuǎn)向和航速約束。
45、進一步地,所述動態(tài)目標船信息的優(yōu)先級規(guī)則為:當探測到的目標船數(shù)量超過預設(shè)閾值時,選擇基于最近會遇距離和最近會遇時間計算的碰撞風險最大的n艘目標船。
46、進一步地,所述sac框架的critic網(wǎng)絡(luò)輸入為掩碼注意力機制生成的融合狀態(tài)特征。
47、進一步地,所述訓練階段的無人艇動力學模型為三自由度mmg模型,包括縱蕩、橫蕩和艏搖運動方程。
48、以及,一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上所述方法的步驟。
49、一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上所述方法的步驟。
50、盡管實施例以sac為核心框架,但本領(lǐng)域技術(shù)人員可考慮基于“actor-critic架構(gòu)通用性”將其等同替換為td3或ppo。但本發(fā)明實施例的sac框架方案仍為最佳實現(xiàn)方案。
51、相比于現(xiàn)有技術(shù),本發(fā)明及其優(yōu)選方案的智能避碰方法通過將掩碼注意力機制與sac框架深度融合,在動態(tài)復雜航行場景中實現(xiàn)以下突出技術(shù)效果:
52、動態(tài)環(huán)境適應性提升:
53、訓練階段通過極小值保留無效目標船梯度,學習有效目標的權(quán)重分配規(guī)則;
54、部署階段通過完全屏蔽處理避免冗余信息干擾,動態(tài)聚焦關(guān)鍵威脅目標。
55、決策效率與安全性增強:
56、actor網(wǎng)絡(luò)基于線性映射生成連續(xù)避碰動作,實現(xiàn)航向與推力精準控制;
57、critic網(wǎng)絡(luò)通過的雙q結(jié)構(gòu)和熵正則化項優(yōu)化價值估計,平衡探索與利用。
58、規(guī)則合規(guī)性保障:
59、獎勵函數(shù)設(shè)計強制避碰策略符合《國際海上避碰規(guī)則》,提升航行安全性與合規(guī)性。