1.一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,s1中,所述線性的cw方程為:
3.根據(jù)權(quán)利要求1所述的一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,s2中,通過(guò)劃分基數(shù)將推力加速度劃分為多個(gè)子空間。
4.根據(jù)權(quán)利要求1所述的一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,s2中,每個(gè)子空間的兩個(gè)邊界值計(jì)算公式為:
5.根據(jù)權(quán)利要求1所述的一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,s2中,每一個(gè)全連接神經(jīng)網(wǎng)絡(luò)的輸出動(dòng)作通過(guò)tanh函數(shù)映射到[-1,1],將映射值縮放到每個(gè)子空間的兩個(gè)邊界值之間。
6.根據(jù)權(quán)利要求1所述的一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,s3中,選擇actor的critic網(wǎng)絡(luò)目標(biāo)函數(shù)為:
7.根據(jù)權(quán)利要求1所述的一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,s4中,更新選擇actor的critic網(wǎng)絡(luò)時(shí),更新公式為:
8.根據(jù)權(quán)利要求1所述的一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,s4中,critic網(wǎng)絡(luò)更新的公式為:
9.根據(jù)權(quán)利要求1所述的一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,其特征在于,所述獎(jiǎng)勵(lì)函數(shù)由不遠(yuǎn)離原軌道回報(bào)、躲避障礙回報(bào)和燃料消耗性獎(jiǎng)勵(lì)組成。
10.一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策系統(tǒng),其特征在于,包括: