最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于深度確定性梯度策略的月球車路徑規(guī)劃方法

文檔序號:41952048發(fā)布日期:2025-05-16 14:13閱讀:3來源:國知局
一種基于深度確定性梯度策略的月球車路徑規(guī)劃方法

本發(fā)明涉及無人車控制和深度強(qiáng)化學(xué)習(xí),尤其涉及一種基于深度確定性梯度策略的月球車路徑規(guī)劃方法。


背景技術(shù):

1、隨著科技的進(jìn)步,尤其是太空探索技術(shù)的不斷發(fā)展,天體探測車(如月球車、火星車等)在未知環(huán)境中的應(yīng)用日益廣泛。這些探測車被用于執(zhí)行各種任務(wù),如地質(zhì)勘探、采樣、數(shù)據(jù)采集等,因此在路徑規(guī)劃上的研究尤為重要。傳統(tǒng)的地面機(jī)器人路徑規(guī)劃方法,通常依賴于預(yù)先構(gòu)建的環(huán)境地圖。然而,在天體探測任務(wù)中,由于地形的復(fù)雜性、未知性和動態(tài)性,傳統(tǒng)的路徑規(guī)劃方法面臨諸多挑戰(zhàn)?;谝?guī)則算法(如迪杰斯特拉法dijkstra)需依賴高精度預(yù)建地圖,而月球復(fù)雜地形導(dǎo)致地圖實(shí)時更新計算量大,且局部避障算法(如動態(tài)窗口法dwa)因僅優(yōu)化單步路徑,在連續(xù)障礙區(qū)域易陷入局部最優(yōu)。現(xiàn)有深度強(qiáng)化學(xué)習(xí)方法的狀態(tài)空間設(shè)計未充分融合多源傳感器數(shù)據(jù)(如坡度角、粗糙度和地形復(fù)雜度),導(dǎo)致策略網(wǎng)絡(luò)無法準(zhǔn)確感知地形力學(xué)特性,路徑安全性評估誤差。傳統(tǒng)深度確定性梯度策略ddpg算法的單一化的獎勵函數(shù)僅以距離或時間為優(yōu)化目標(biāo),忽略了地形特征、車身穩(wěn)定性及運(yùn)動平滑性的考慮,從而導(dǎo)致訓(xùn)練過程中策略收斂困難,難以生成最優(yōu)路徑。


技術(shù)實(shí)現(xiàn)思路

1、發(fā)明目的:針對現(xiàn)有月球車路徑規(guī)劃方法在月球復(fù)雜地形及通信延遲條件下存在的??局部避障能力不足從而無法實(shí)現(xiàn)地外高效探測任務(wù)問題,本發(fā)明旨在提供一種基于深度確定性梯度策略的月球車路徑規(guī)劃方法。

2、技術(shù)方案:本發(fā)明所述的基于深度確定性梯度策略的月球車路徑規(guī)劃方法,包括以下步驟:

3、(1)引入地形坡度角,基于阿克曼轉(zhuǎn)向原理,確定航向角和轉(zhuǎn)向角的微分方程,得到月球車運(yùn)動學(xué)模型;

4、(2)基于貝克壓力沉陷理論,計算車輪沉陷量z;根據(jù)地形坡度角與車輪沉陷量z,計算車輛最大轉(zhuǎn)向角;根據(jù)車輛最大允許轉(zhuǎn)向角與車輪沉陷量z,計算最小車輪轉(zhuǎn)彎半徑;基于轉(zhuǎn)向角、最小轉(zhuǎn)彎半徑、最大速度和坡度角,構(gòu)建基于深度確定性梯度策略的月球車運(yùn)動學(xué)模型的約束條件;

5、(3)根據(jù)月球車運(yùn)動學(xué)狀態(tài)向量和月球地形特征向量,定義狀態(tài)空間s;根據(jù)速度增量和航向角增量,定義動作空間;基于距離獎勵、動態(tài)瞬時進(jìn)展獎勵、動態(tài)瞬時方向獎勵和平滑度獎勵,定義路徑規(guī)劃的多維度獎勵函數(shù)r;

6、(4)根據(jù)地形粗糙度、坡度梯度和地形復(fù)雜度構(gòu)建自適應(yīng)步長;將狀態(tài)空間擴(kuò)展為,向動作空間引入自適應(yīng)步長,得到基礎(chǔ)動作空間,將輸入評論家critic網(wǎng)絡(luò),輸出步長評估價值,用于更新行動者actor網(wǎng)絡(luò)參數(shù);向引入奧恩斯坦-烏倫貝克ou噪聲,得到最終動作,執(zhí)行最終動作,若滿足且,則進(jìn)入步驟(5);反之則重新進(jìn)行最終動作計算;

7、(5)計算路徑規(guī)劃的多維度獎勵函數(shù);

8、(6)根據(jù)地形風(fēng)險函數(shù)、多維度獎勵函數(shù)和步長損失,計算優(yōu)先級權(quán)重,篩選經(jīng)驗(yàn)樣本進(jìn)入經(jīng)驗(yàn)池;進(jìn)行模型訓(xùn)練,根據(jù)路徑可達(dá)率挑選最佳路徑。

9、進(jìn)一步的,月球車運(yùn)動學(xué)模型為

10、;

11、其中,為月球車位置信息,為車體線速度,為車輛軸距。

12、進(jìn)一步的,車輪沉陷量z為

13、;

14、其中,為土壤垂直壓力,為土壤黏聚模量,為車輛車輪寬度,為土壤摩擦模量,為沉陷指數(shù);

15、車輛最大轉(zhuǎn)向角為

16、;

17、其中,表示考慮沉陷量與坡度時的平地最大轉(zhuǎn)向角,為車輛半徑;

18、最小車輪轉(zhuǎn)彎半徑為

19、;

20、最大速度為

21、;

22、其中,為摩擦系數(shù),為月球重力系數(shù)。

23、進(jìn)一步的,狀態(tài)空間s為

24、;

25、其中,其中月球車運(yùn)動學(xué)狀態(tài)向量包括月球車位置信息、車體線速度和航向角,月球地形特征向量包括高程標(biāo)準(zhǔn)差、地形坡度角和粗糙度r;

26、粗糙度r為

27、;

28、其中,n表示采樣點(diǎn)總數(shù),表示柵格單元內(nèi)第i個采樣點(diǎn)的高程值,表示柵格單元內(nèi)所有采樣點(diǎn)的高程平均值,若時表示月球車遇到崎嶇地形,則限制月球車行駛速度;

29、動作空間為

30、;

31、其中,且。

32、進(jìn)一步的,路徑規(guī)劃的多維度獎勵函數(shù)為

33、;

34、其中,、、和為權(quán)重,距離獎勵,為動態(tài)瞬時進(jìn)展獎勵,為動態(tài)瞬時方向獎勵,為平滑度獎勵。

35、進(jìn)一步的,距離獎勵為

36、;

37、動態(tài)瞬時進(jìn)展獎勵為

38、;

39、動態(tài)瞬時方向獎勵為

40、;

41、平滑度獎勵為

42、;

43、權(quán)重、、和如下式所示:

44、;

45、;

46、其中,表示當(dāng)前位置到目標(biāo)的歐氏距離,為初始距離,為當(dāng)前速度,為目標(biāo)速度,為當(dāng)前位置距離目標(biāo)點(diǎn)的剩余距離,為任務(wù)總距離,為?上一狀態(tài)的位置到目標(biāo)點(diǎn)的距離,為基礎(chǔ)方向獎勵權(quán)重,、為調(diào)節(jié)系數(shù),表示當(dāng)前航向與目標(biāo)方向的夾角,為最大容忍閾值夾角,為目標(biāo)方向航向角,為當(dāng)前時刻航向角,為基礎(chǔ)平滑度獎勵權(quán)重,為相鄰時間步的加速度變化率,為最大允許變化率,為當(dāng)前時刻的航向角,為允許最大航向角。

47、進(jìn)一步的,自適應(yīng)步長為

48、;

49、;

50、;

51、其中,為基準(zhǔn)步長,為地形粗糙度,由高程標(biāo)準(zhǔn)差歸一化得到;為坡度梯度,通過計算相鄰柵格坡度變化率得到;為地形復(fù)雜度,是根據(jù)地形粗糙度和地形坡度融合的復(fù)合指標(biāo);、、為動態(tài)權(quán)重系數(shù);

52、當(dāng)不小于0.7即遇到高密度地形時,則縮短步長至基準(zhǔn)值的30%~50%;

53、當(dāng)小于0.3即遇到低密度地形時,則擴(kuò)大步長至基準(zhǔn)值的120%~150%。

54、進(jìn)一步的,基礎(chǔ)動作空間為

55、;

56、步長評估價值為

57、;

58、其中,為權(quán)重系數(shù),為地形特征嵌入向量,為動力學(xué)狀態(tài)向量,為偏置項;

59、最終動作為

60、;

61、其中,表示均值回歸速率,;表示噪聲均值,為最大坡度閾值,表示ou過程生成的噪聲值,為t時刻的噪聲值?,為噪聲擾動項?,為地形復(fù)雜度閾值。

62、進(jìn)一步的,優(yōu)先級權(quán)重為

63、;

64、其中,為時間差分誤差,為步長損失,表示地形風(fēng)險函數(shù),為狀態(tài)向量,表示第 i條經(jīng)驗(yàn)的多維度獎勵絕對值,為步長決策誤差項系數(shù),為地形風(fēng)險權(quán)重系數(shù),為獎勵系數(shù)。

65、進(jìn)一步的,時間差分誤差為

66、;

67、其中,為折扣因子?,為目標(biāo)網(wǎng)絡(luò)對下一狀態(tài)和動作的目標(biāo)q值,為評論家critic網(wǎng)絡(luò)對當(dāng)前狀態(tài)和動作的預(yù)測q值;

68、步長損失為

69、;

70、其中,為步長建議值,為實(shí)際執(zhí)行步長值;

71、地形風(fēng)險函數(shù)為

72、;

73、其中,1表示高風(fēng)險經(jīng)驗(yàn),0.2表示低風(fēng)險經(jīng)驗(yàn)。

74、有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)是:1、本發(fā)明通過將距離獎勵、瞬時進(jìn)展獎勵、瞬時航向獎勵及運(yùn)動平滑性獎勵四類目標(biāo)融合,形成可自適應(yīng)地形復(fù)雜度的梯度信號,引導(dǎo)策略網(wǎng)絡(luò)在探索與安全之間實(shí)現(xiàn)動態(tài)平衡,構(gòu)建動態(tài)多維度獎勵函數(shù)機(jī)制,通過地形特征動態(tài)調(diào)節(jié)權(quán)重系數(shù),實(shí)現(xiàn)多目標(biāo)自適應(yīng)協(xié)同;2、本發(fā)明提出基于多尺度地形特征的自適應(yīng)步長機(jī)制,融合地形特征,通過在不同風(fēng)險地形中動態(tài)調(diào)整步長,提升月球車在不同地形下的避障精度和自主探索能力;3、本發(fā)明通過動態(tài)多維度獎勵函數(shù)、輕量化網(wǎng)絡(luò)結(jié)構(gòu)及自適應(yīng)調(diào)整步長策略的多層次自適應(yīng)機(jī)制,避免局部最優(yōu),提升路徑連續(xù)性,進(jìn)而完成月球車自主決策探測任務(wù),實(shí)現(xiàn)了路徑規(guī)劃效率與運(yùn)動安全性的雙重提升,解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)在復(fù)雜月面環(huán)境中存在的收斂速度慢、路徑震蕩頻繁、地形適應(yīng)性差及模型部署效率低等核心問題,?降低了模型復(fù)雜度;4、本發(fā)明融合地形特征感知與改進(jìn)獎勵函數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)的協(xié)同多層次優(yōu)化框架,同時提出一種根據(jù)地形特征動態(tài)自適應(yīng)步長控制策略?,通過地形特征融合量動態(tài)調(diào)整策略。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1