本發(fā)明屬于航天科學(xué)領(lǐng)域,涉及一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法與系統(tǒng)。
背景技術(shù):
1、衛(wèi)星的航天動(dòng)力學(xué)是一門關(guān)注在復(fù)雜空間環(huán)境中的航天器軌道控制問題的學(xué)科,對(duì)于維護(hù)衛(wèi)星的穩(wěn)定運(yùn)行以及完成預(yù)定任務(wù)有著重要的作用。實(shí)際中的航天器軌道控制任務(wù)常常面臨多種復(fù)雜挑戰(zhàn),其中,軌道受限任務(wù),如避障、準(zhǔn)確定點(diǎn)、軌道修正等,對(duì)航天器航天動(dòng)力學(xué)提出了高度的要求。傳統(tǒng)的航天器軌道控制方法通常依賴于精確的數(shù)學(xué)模型和預(yù)設(shè)的控制策略。然而,由于在實(shí)際運(yùn)行中,航天器常常會(huì)遭遇到各種不確定性和干擾,傳統(tǒng)的控制方法往往難以應(yīng)對(duì)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點(diǎn),提供一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法與系統(tǒng),以解決現(xiàn)有技術(shù)中衛(wèi)星在實(shí)際運(yùn)行過程中會(huì)收到不確定性和干擾,傳統(tǒng)的控制方法難以有效控制航天器的問題。
2、為達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案予以實(shí)現(xiàn):
3、一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,包括以下步驟:
4、s1,構(gòu)建追蹤航天器和逃逸航天器的相對(duì)運(yùn)動(dòng)方程,將所述相對(duì)運(yùn)動(dòng)方程轉(zhuǎn)化為線性的cw方程,所述線性的cw方程用于顯示兩個(gè)航天器的推力加速度;
5、s2,將逃逸航天器的推力加速度分為多個(gè)子空間,確定每個(gè)子空間的兩個(gè)邊界值;為每一個(gè)子空間設(shè)置全連接神經(jīng)網(wǎng)絡(luò),通過全連接神經(jīng)網(wǎng)絡(luò),獲得每一個(gè)子空間的輸出動(dòng)作;
6、s3,構(gòu)建高層的選擇actor和底層的執(zhí)行actor,通過選擇actor從多個(gè)子空間中選擇出推力加速度的子空間,通過執(zhí)行actor獲得所述推力加速的子空間輸出動(dòng)作;所述選擇actor和執(zhí)行actor均為critic網(wǎng)絡(luò);
7、s4,逃逸航天器運(yùn)行過程中,通過分層強(qiáng)化學(xué)習(xí)交替更新選擇actor的critic網(wǎng)絡(luò)和執(zhí)行actor的critic網(wǎng)絡(luò);交替更新過程中,選擇actor的critic網(wǎng)絡(luò)目標(biāo)為最大化critic網(wǎng)絡(luò)對(duì)子空間的評(píng)估值一,獲得所述評(píng)估值一對(duì)應(yīng)的子空間;執(zhí)行actor的critic網(wǎng)絡(luò)目標(biāo)為在選擇的子空間中,最大化執(zhí)行actor的critic網(wǎng)絡(luò)的評(píng)估值二,獲得所述評(píng)估值二對(duì)應(yīng)的輸出動(dòng)作;
8、交替更新過程中,每一個(gè)critic網(wǎng)絡(luò)通過最小化差值更新自身網(wǎng)絡(luò),所述差值為預(yù)測(cè)的q值和實(shí)際回報(bào)之間的差值;
9、s5,重復(fù)執(zhí)行s4,逃逸航天器執(zhí)行s4的輸出動(dòng)作,直至計(jì)算終止。
10、本發(fā)明的進(jìn)一步改進(jìn)在于:
11、優(yōu)選的,s1中,所述線性的cw方程為:
12、(4)
13、其中,代表航天器在局部坐標(biāo)系中的位置坐標(biāo),與其參考軌道密切相關(guān);指向徑向,從地球中心指向航天器,表示沿軌道的切向方向,則垂直于軌道平面,速度分量和表示航天器沿這些方向的一階速度導(dǎo)數(shù),加速度分量,,和為位置的二階導(dǎo)數(shù),反映了航天器在三個(gè)方向上的加速度,參數(shù)是參考軌道的角速度,表征軌道物體圍繞地球的旋轉(zhuǎn)速度,控制輸入是航天器的加速度,用來調(diào)整其在對(duì)應(yīng)的方向上的位置。
14、優(yōu)選的,s2中,通過劃分基數(shù)將推力加速度劃分為多個(gè)子空間。
15、優(yōu)選的,s2中,每個(gè)子空間的兩個(gè)邊界值計(jì)算公式為:
16、(7)
17、其中,a為初始動(dòng)作空間的邊界,b為初始動(dòng)作空間縮減比例。
18、優(yōu)選的,s2中,每一個(gè)全連接神經(jīng)網(wǎng)絡(luò)的輸出動(dòng)作通過tanh函數(shù)映射到[-1,1],將映射值縮放到每個(gè)子空間的兩個(gè)邊界值之間。
19、優(yōu)選的,s3中,選擇actor的critic網(wǎng)絡(luò)目標(biāo)函數(shù)為:
20、(12)
21、其中,是選擇actor選擇的子空間,是critic的輸出,表示在狀態(tài)下選擇子空間的預(yù)期回報(bào),是狀態(tài)值函數(shù);
22、執(zhí)行actor的critic網(wǎng)絡(luò)目標(biāo)函數(shù)為:
23、(13)
24、其中,是執(zhí)行actor在給定子空間中選擇的具體動(dòng)作。
25、優(yōu)選的,s4中,更新選擇actor的critic網(wǎng)絡(luò)時(shí),更新公式為:
26、(15)
27、其中,是選擇actor的學(xué)習(xí)率,是critic網(wǎng)絡(luò)對(duì)選擇actor選擇的子空間在狀態(tài)下的評(píng)估值一;
28、執(zhí)行選擇actor的critic網(wǎng)絡(luò)時(shí),更新公式為:
29、(16)
30、其中,是執(zhí)行actor的學(xué)習(xí)率,是critic網(wǎng)絡(luò)對(duì)執(zhí)行actor選擇的動(dòng)作在狀態(tài)和子空間下的評(píng)估值二。
31、優(yōu)選的,s4中,critic網(wǎng)絡(luò)更新的公式為:
32、(18)
33、其中,是critic網(wǎng)絡(luò)的學(xué)習(xí)率。
34、優(yōu)選的,所述獎(jiǎng)勵(lì)函數(shù)由不遠(yuǎn)離原軌道回報(bào)、躲避障礙回報(bào)和燃料消耗性獎(jiǎng)勵(lì)組成。
35、一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策系統(tǒng),包括:
36、推力加速度模塊,用于構(gòu)建追蹤航天器和逃逸航天器的相對(duì)運(yùn)動(dòng)方程,將所述相對(duì)運(yùn)動(dòng)方程轉(zhuǎn)化為線性的cw方程,所述線性的cw方程用于顯示兩個(gè)航天器的推力加速度;
37、子空間模塊,用于將逃逸航天器的推力加速度分為多個(gè)子空間,確定每個(gè)子空間的兩個(gè)邊界值;為每一個(gè)子空間設(shè)置全連接神經(jīng)網(wǎng)絡(luò),通過全連接神經(jīng)網(wǎng)絡(luò),獲得每一個(gè)子空間的輸出動(dòng)作;
38、actor模塊,用于構(gòu)建高層的選擇actor和底層的執(zhí)行actor,通過選擇actor從多個(gè)子空間中選擇出推力加速度的子空間,通過執(zhí)行actor獲得所述推力加速的子空間輸出動(dòng)作;所述選擇actor和執(zhí)行actor均為critic網(wǎng)絡(luò);
39、更新模塊,用于逃逸航天器運(yùn)行過程中,通過分層強(qiáng)化學(xué)習(xí)交替更新選擇actor的critic網(wǎng)絡(luò)和執(zhí)行actor的critic網(wǎng)絡(luò);交替更新過程中,選擇actor的critic網(wǎng)絡(luò)目標(biāo)為最大化critic網(wǎng)絡(luò)對(duì)子空間的評(píng)估值一,獲得所述評(píng)估值一對(duì)應(yīng)的子空間;執(zhí)行actor的critic網(wǎng)絡(luò)目標(biāo)為在選擇的子空間中,最大化執(zhí)行actor的critic網(wǎng)絡(luò)的評(píng)估值二,獲得所述評(píng)估值二對(duì)應(yīng)的輸出動(dòng)作;
40、交替更新過程中,每一個(gè)critic網(wǎng)絡(luò)通過最小化差值更新自身網(wǎng)絡(luò),所述差值為預(yù)測(cè)的q值和實(shí)際回報(bào)之間的差值;
41、輸出模塊,重復(fù)執(zhí)行更新模塊,逃逸航天器執(zhí)行更新模塊的輸出動(dòng)作,直至計(jì)算終止。
42、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
43、本發(fā)明公開了一種基于分層參數(shù)化強(qiáng)化學(xué)習(xí)的軌道行為智能決策方法,該方法將衛(wèi)星視為了逃逸航天器,首先采取了將逃逸航天器的控制動(dòng)作空間進(jìn)行分層參數(shù)化的策略。具體地,將逃逸航天器的控制動(dòng)作進(jìn)行分解,將推力大小分為多個(gè)子空間,把復(fù)雜的控制任務(wù)分解為更小、更具體的子任務(wù),這樣能使整個(gè)控制系統(tǒng)更為靈活和高效。具體而言,基于深度確定性策略梯度算法的分層參數(shù)化航天器軌道行為智能決策模式。在這種模式中采用actor-critic架構(gòu),其中critic網(wǎng)絡(luò)評(píng)估和提供反饋給每級(jí)actor的決策效果,actor網(wǎng)絡(luò)中設(shè)計(jì)了兩個(gè)層級(jí)的actor:一個(gè)是主actor,另一個(gè)是子actor。主actor在高層次上負(fù)責(zé)選擇合適的子空間,這個(gè)過程涉及到對(duì)整體任務(wù)需求和當(dāng)前環(huán)境的評(píng)估,以確定最優(yōu)的子空間選擇。通過兩個(gè)層級(jí)actor的選擇,能夠?qū)崿F(xiàn)對(duì)復(fù)雜任務(wù)環(huán)境的高效管理,提高控制系統(tǒng)的決策質(zhì)量和靈活性。另一方面,子actor在主actor選擇的子空間中負(fù)責(zé)選擇具體的動(dòng)作。子actor的設(shè)計(jì)和運(yùn)用能夠?qū)γ總€(gè)子空間進(jìn)行深度優(yōu)化,實(shí)現(xiàn)對(duì)具體動(dòng)作的精細(xì)控制,提高控制精度和系統(tǒng)的穩(wěn)定性。本發(fā)明通過這種分層參數(shù)化動(dòng)作空間的設(shè)計(jì),有效地解決了單層強(qiáng)化學(xué)習(xí)在處理復(fù)雜動(dòng)作空間時(shí)的困難,提高了航天器軌道行為決策的效率和質(zhì)量。提出了一種新的航天器軌道行為智能決策模式。這種模式利用主actor進(jìn)行高層次的子空間選擇,子actor在所選擇的子空間中進(jìn)行具體動(dòng)作的選擇,使得航天器軌道行為決策更加高效、精確和靈活。
44、執(zhí)行方法過程中,采用基于智能算法的自適應(yīng)控制技術(shù),可以根據(jù)逃逸航天器實(shí)際運(yùn)行狀態(tài)和環(huán)境條件的變化,動(dòng)態(tài)調(diào)整控制策略,提高對(duì)逃逸航天器軌道控制的精度和效率。對(duì)于復(fù)雜的空間環(huán)境,以及逃逸航天器本身存在的不確定性,基于智能算法的自適應(yīng)控制技術(shù)具有很強(qiáng)的魯棒性,能夠有效地應(yīng)對(duì)各種復(fù)雜情況。因此,采用這種新型的控制方法對(duì)于提高逃逸航天器的軌道行為決策具有重要的理論和實(shí)踐意義。