本發(fā)明屬于無人船避碰及自主決策等,具體涉及一種基于記憶機制深度強化學習的無人船避碰方法。
背景技術(shù):
1、隨著海上無人系統(tǒng)技術(shù)的快速發(fā)展,無人船在海洋資源勘探、海上搜救等領(lǐng)域的應用日益廣泛。在實際航行任務中,無人船需要應對浮標、島嶼等靜態(tài)障礙物以及具有不確定運動狀態(tài)的船舶類動態(tài)障礙物的雙重威脅,這對自主避碰算法提出了嚴苛的要求。特別是在復雜海洋環(huán)境下,受限于傳感器探測范圍(如毫米波雷達視角限制)和環(huán)境干擾(如波浪、潮流作用),無人船往往無法實時獲取障礙物的完整狀態(tài)信息(包括航向、速度、尺寸等關(guān)鍵參數(shù)),導致現(xiàn)有避碰算法在感知受限場景下的決策可靠性顯著降低。
2、目前針對感知受限問題的解決方案主要分為兩類:其一是通過增加激光雷達、多光譜傳感器等感知設(shè)備提升環(huán)境感知能力,但該方法顯著增加硬件成本和系統(tǒng)復雜度,且多源傳感器數(shù)據(jù)融合存在技術(shù)瓶頸;其二是改進決策算法設(shè)計,然而傳統(tǒng)算法存在固有缺陷:動態(tài)改進a*算法雖結(jié)合了colregs規(guī)則,但對環(huán)境模型的精確度依賴性強,在動態(tài)障礙物密集場景下路徑重規(guī)劃效率低下;人工勢場法(apf)在靜態(tài)障礙規(guī)避中表現(xiàn)良好,但動態(tài)環(huán)境下多障礙物勢場疊加易導致局部最優(yōu)陷阱;相對速度障礙法(rvo)基于幾何預測的避碰策略難以應對復雜環(huán)境擾動,且在障礙物信息缺失時失效風險高。盡管深度強化學習(drl)在決策任務中展現(xiàn)出潛力,但傳統(tǒng)drl模型存在環(huán)境信息依賴性強、稀疏獎勵學習效率低等問題,在感知受限時避碰性能急劇下降。
3、相關(guān)現(xiàn)有技術(shù)中,授權(quán)專利cn202411556502.2(基于全局最優(yōu)的無人船避障路徑規(guī)劃方法及系統(tǒng))雖提升了路徑規(guī)劃精度,但未解決動態(tài)障礙物交互和感知受限問題;專利cn202010717418.x(一種基于深度強化學習且顧及海洋環(huán)境要素的無人船路徑規(guī)劃方法)重點考慮海洋環(huán)境建模,但未涉及信息缺失場景的決策優(yōu)化;專利cn201911043840.5(一種基于深度強化學習的群無人艇智能避碰方法)針對多智能體協(xié)同場景設(shè)計,但其基于完整環(huán)境信息的假設(shè)在單船感知受限時適用性受限。由此可見,現(xiàn)有技術(shù)尚未有效解決傳感器受限條件下無人船對動態(tài)障礙物的自主避碰難題。
技術(shù)實現(xiàn)思路
1、本發(fā)明公開了一種基于記憶機制與強化學習的無人船避碰決策方案,用于解決感知受限條件下無人船因環(huán)境信息不完整導致的避碰決策失效問題。其核心設(shè)計為結(jié)合歷史航行數(shù)據(jù)與強化學習框架的協(xié)同優(yōu)化,實現(xiàn)動態(tài)障礙物的安全、合規(guī)避碰。
2、其核心設(shè)計為:
3、一種基于記憶機制與強化學習的無人船避碰方法,包括以下步驟:
4、(1)動態(tài)存儲無人船的歷史航行狀態(tài)序列,構(gòu)建固定長度的記憶空間,所述狀態(tài)序列包括目標點相對位置、障礙物相對位置及歷史動作數(shù)據(jù);
5、(2)將所述記憶空間中的狀態(tài)序列輸入強化學習決策網(wǎng)絡(luò),通過門控循環(huán)單元(gru)提取時序特征,并結(jié)合多層感知機(mlp)生成避碰動作指令;
6、(3)基于所述避碰動作指令控制無人船航行,并根據(jù)復合獎勵函數(shù)計算即時獎勵值優(yōu)化網(wǎng)絡(luò)參數(shù),實現(xiàn)感知受限下的自主避碰。
7、進一步地,所述強化學習決策網(wǎng)絡(luò)采用軟演員-評論家算法,通過最小化價值網(wǎng)絡(luò)損失函數(shù)與最大化策略熵優(yōu)化網(wǎng)絡(luò)參數(shù)。
8、進一步地,所述記憶空間通過先進先出隊列實現(xiàn),每次更新時移除最舊狀態(tài)數(shù)據(jù)并新增當前狀態(tài)數(shù)據(jù)。
9、所述記憶空間采用先進先出(fifo)隊列實現(xiàn)滾動更新,每次新增當前狀態(tài)時自動淘汰最舊歷史數(shù)據(jù),確保存儲的n步狀態(tài)序列嚴格按時間順序排列。該設(shè)計解決了傳統(tǒng)方法因無效歷史數(shù)據(jù)干擾導致的態(tài)勢評估偏差問題,無人船在雷達視野受限時仍能規(guī)劃安全路徑。
10、進一步地,所述門控循環(huán)單元gru的隱藏狀態(tài)維度為128,mlp層維度為256,且決策網(wǎng)絡(luò)輸出推進力與轉(zhuǎn)矩的高斯分布參數(shù)。該輕量化網(wǎng)絡(luò)結(jié)構(gòu)在保證決策精度的同時,減少30%的計算資源占用,適用于嵌入式設(shè)備部署。
11、進一步地,所述復合獎勵函數(shù)包括:
12、目標接近獎勵:基于無人船與目標點的歐氏距離動態(tài)調(diào)整;
13、避碰安全獎勵:根據(jù)障礙物相對距離與安全閾值的比值分段計算,當距離低于最小安全閾值時施加懲罰;
14、colregs合規(guī)性獎勵:通過統(tǒng)計歷史動作序列的違規(guī)次數(shù)動態(tài)調(diào)整懲罰權(quán)重。
15、其中,目標接近獎勵基于無人船與目標點的歐氏距離動態(tài)調(diào)整(步驟6.1),引導高效航行;避碰安全獎勵根據(jù)障礙物相對距離(d_ot)與安全閾值(d_safe)的比值分段計算(步驟6.2),當距離低于最小安全閾值(d_min)時施加-6000的懲罰,強制保持安全距離;colregs合規(guī)性獎勵通過統(tǒng)計歷史動作序列中違規(guī)次數(shù)動態(tài)調(diào)整懲罰權(quán)重(步驟6.5),該方法在追越、對遇等場景下均符合規(guī)則要求。
16、進一步地,所述網(wǎng)絡(luò)參數(shù)更新采用連續(xù)n步歷史數(shù)據(jù)采樣,并通過kl散度約束策略更新以避免記憶空間數(shù)據(jù)分布偏移導致的策略震蕩。
17、該方法通過構(gòu)建固定長度的記憶空間,動態(tài)存儲無人船最近n步的歷史航行狀態(tài)序列,包括目標點相對位置、障礙物相對位置及歷史動作數(shù)據(jù),在傳感器檢測范圍受限(如毫米波雷達僅覆蓋-60°至60°)時,利用門控循環(huán)單元(gru)提取時序特征,推測障礙物運動趨勢(如速度、航向變化),并結(jié)合多層感知機(mlp)生成推進力和轉(zhuǎn)矩的避碰動作指令,實現(xiàn)動態(tài)障礙物場景下的自主避碰。通過軟演員-評論家(sac)算法優(yōu)化網(wǎng)絡(luò)參數(shù),該方法在仿真與實船實驗中驗證了其有效性,避碰成功率提升22%,且決策響應時間縮短至85ms。
18、以及,與方法相對應的,一種無人船避碰決策系統(tǒng),包括:
19、記憶模塊,用于存儲最近n步的歷史航行狀態(tài)序列;所述狀態(tài)序列包括目標點相對位置、障礙物相對位置及歷史動作數(shù)據(jù);
20、決策模塊,集成門控循環(huán)單元與多層感知機的強化學習網(wǎng)絡(luò),基于所述歷史狀態(tài)序列輸出避碰動作指令,并通過復合獎勵函數(shù)優(yōu)化網(wǎng)絡(luò)參數(shù);
21、控制模塊,基于所述動作指令控制無人船推進與轉(zhuǎn)向;
22、訓練模塊,通過復合獎勵函數(shù)優(yōu)化網(wǎng)絡(luò)參數(shù),實現(xiàn)感知受限下的自主避碰。
23、系統(tǒng)在動態(tài)障礙物場景下成功完成避碰任務。
24、進一步地,所述記憶模塊通過先進先出隊列實現(xiàn)狀態(tài)序列的滾動存儲,每次更新時移除最舊狀態(tài)數(shù)據(jù)并新增當前狀態(tài)數(shù)據(jù)。
25、進一步地,所述強化學習網(wǎng)絡(luò)采用軟演員-評論家算法,通過最小化價值網(wǎng)絡(luò)損失函數(shù)與最大化策略熵優(yōu)化網(wǎng)絡(luò)參數(shù);所述決策模塊的gru隱藏層維度為128,mlp層維度為256,且輸出推進力與轉(zhuǎn)矩的高斯分布參數(shù);所述訓練模塊的復合獎勵函數(shù)包括目標接近獎勵、避碰安全獎勵及colregs合規(guī)性獎勵,其中避碰安全獎勵根據(jù)障礙物相對距離與安全閾值的比值分段計算;所述訓練模塊采用連續(xù)n步歷史數(shù)據(jù)采樣,并通過kl散度約束策略更新;還包括毫米波雷達與gnss模塊,所述毫米波雷達的檢測范圍為-60°至60°,用于獲取障礙物相對位置;所述gnss模塊用于實時定位無人船坐標。
26、以及,一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上所述方法的步驟。
27、一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上所述方法的步驟。
28、相比于現(xiàn)有技術(shù),本發(fā)明及其優(yōu)選方案通過以下核心發(fā)明點的協(xié)同優(yōu)化,顯著提升了無人船在感知受限條件下的避碰性能:
29、1.?記憶機制與gru時序協(xié)同的態(tài)勢補全
30、通過構(gòu)建固定長度的記憶空間(fifo隊列),存儲最近n步歷史狀態(tài)(目標點位置、障礙物位置、歷史動作),結(jié)合gru模塊提取時序特征。在毫米波雷達視野受限(-60°至60°)時,通過歷史數(shù)據(jù)推測障礙物運動趨勢(速度變化率≥0.3m/s2,航向角偏差≤5°),態(tài)勢補全準確率提升35%。避碰成功率從傳統(tǒng)drl的73%提升至95%,路徑規(guī)劃效率(航行時間)優(yōu)化15%。
31、2.?復合獎勵函數(shù)的多目標協(xié)同優(yōu)化
32、融合目標接近獎勵、避碰安全獎勵及colregs合規(guī)性獎勵,動態(tài)調(diào)整權(quán)重。避碰安全獎勵通過分段計算強制保持安全距離,近距離懲罰值-6000,碰撞風險降低90%;colregs合規(guī)性獎勵通過滑動窗口(m=5)統(tǒng)計歷史違規(guī)次數(shù),動態(tài)調(diào)整懲罰權(quán)重,違規(guī)動作減少90%。目標接近獎勵引導路徑效率,航程縮短15%,獎勵稀疏場景下學習效率提升50%。
33、3.?輕量化網(wǎng)絡(luò)與穩(wěn)定訓練機制
34、采用gru(128維)+mlp(256維)網(wǎng)絡(luò)結(jié)構(gòu),kl散度約束策略更新。網(wǎng)絡(luò)參數(shù)量減少30%。連續(xù)n步(n=8)歷史數(shù)據(jù)采樣結(jié)合kl散度約束,訓練穩(wěn)定性提升40%,收斂速度加快1.8倍。
35、4.?colregs規(guī)則嵌入的強化學習決策
36、將colregs規(guī)則轉(zhuǎn)化為獎勵函數(shù)約束項,結(jié)合sac算法的策略熵最大化特性。對遇、追越等復雜場景下避碰行為關(guān)鍵場景合規(guī)率100%;動態(tài)障礙物交互場景下的路徑跟蹤誤差降低42%。
37、本發(fā)明通過記憶機制與強化學習的深度協(xié)同,攻克了感知受限下無人船避碰決策的實時性、安全性與規(guī)則兼容性難題,為復雜海洋環(huán)境作業(yè)提供了高效可靠的技術(shù)方案。