最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于強(qiáng)化學(xué)習(xí)的短垂推進(jìn)系統(tǒng)垂直降落階段性能恢復(fù)控制方法

文檔序號(hào):41952860發(fā)布日期:2025-05-16 14:15閱讀:4來(lái)源:國(guó)知局
一種基于強(qiáng)化學(xué)習(xí)的短垂推進(jìn)系統(tǒng)垂直降落階段性能恢復(fù)控制方法

本發(fā)明涉及航空發(fā)動(dòng)機(jī),具體的是一種基于強(qiáng)化學(xué)習(xí)的短垂推進(jìn)系統(tǒng)垂直降落階段性能恢復(fù)控制方法。


背景技術(shù):

1、對(duì)于短距起飛和垂直降落飛行器及其推進(jìn)系統(tǒng),在懸停狀態(tài)時(shí)氣動(dòng)舵面無(wú)法發(fā)揮作用,的高度和姿態(tài)控制只能完全依賴于推進(jìn)系統(tǒng)前后兩個(gè)升力源噴管產(chǎn)生的多源推力。然而,在這一過(guò)程中如果推進(jìn)系統(tǒng)的旋轉(zhuǎn)部件產(chǎn)生了性能退化,如高壓渦輪超溫、升力風(fēng)扇進(jìn)氣畸變等,會(huì)造成推力損失以及推力分配的改變,推力的損失會(huì)造成高度通道飛行器速度的改變,推力分配的改變會(huì)造成俯仰姿態(tài)的不平衡使得飛機(jī)偏離設(shè)計(jì)降落點(diǎn)甚至可能導(dǎo)致飛機(jī)失速。目前的性能恢復(fù)控制方式,都是針對(duì)推力的損失進(jìn)行補(bǔ)償從而保持飛行器的推力不變保證高度通道不受影響,但鮮有針對(duì)短垂推進(jìn)系統(tǒng)的姿態(tài)恢復(fù)控制方法。此外,目前的性能恢復(fù)控制方法包括基于模型的方法和無(wú)模型方法,基于模型的方法嚴(yán)重依賴模型置信度并且如果考慮模型退化會(huì)使得基于模型的方法設(shè)計(jì)出的控制器階次特別高,運(yùn)算量太大很難實(shí)際應(yīng)用;而無(wú)模型的性能恢復(fù)控制方法如pid則難以在控制過(guò)程中考慮模型退化,只能通過(guò)燃油補(bǔ)償推力這種一一對(duì)應(yīng)的方式對(duì)需要補(bǔ)償?shù)膮?shù)進(jìn)行控制,在短垂推進(jìn)系統(tǒng)中容易造成推力耦合、超調(diào)并且單純的燃油增加會(huì)影響姿態(tài)平衡。因此,本文提出一種基于強(qiáng)化學(xué)習(xí)的短垂推進(jìn)系統(tǒng)無(wú)模型性能恢復(fù)控制方法,將退化因子作為狀態(tài)增廣到強(qiáng)化學(xué)習(xí)的智能體訓(xùn)練中,并將補(bǔ)償推力的控制量作為智能體的動(dòng)作,然后將強(qiáng)化學(xué)習(xí)離線訓(xùn)練后得到的智能體作為控制器,從而實(shí)現(xiàn)考慮退化的無(wú)模型性能恢復(fù)控制。

2、本專利給出了一種基于強(qiáng)化學(xué)習(xí)的短垂推進(jìn)系統(tǒng)垂直降落階段性能恢復(fù)控制方法,該優(yōu)化方法通過(guò)強(qiáng)化學(xué)習(xí)算法將短垂推進(jìn)系統(tǒng)的退化情況考慮到控制器的設(shè)計(jì)中,通過(guò)強(qiáng)化學(xué)習(xí)離線訓(xùn)練的智能體保證在部件退化的擾動(dòng)情況下,短垂推進(jìn)系統(tǒng)的多個(gè)推力輸出依然能夠保持平穩(wěn),幫助短垂飛行器在垂直降落階段在發(fā)生退化的情況下依然能夠在線保持俯仰姿態(tài)的平衡。


技術(shù)實(shí)現(xiàn)思路

1、為了解決傳統(tǒng)短垂推進(jìn)系統(tǒng)垂直降落階段性能恢復(fù)控制器階次高、耦合性強(qiáng)且超調(diào)嚴(yán)重的問(wèn)題,提出一種基于強(qiáng)化學(xué)習(xí)的短垂推進(jìn)系統(tǒng)性能恢復(fù)控制方法。

2、本發(fā)明的目的是通過(guò)下述技術(shù)方案實(shí)現(xiàn)的。

3、本發(fā)明公開一種基于強(qiáng)化學(xué)習(xí)的短垂推進(jìn)系統(tǒng)性能恢復(fù)控制方法,包括如下步驟:

4、步驟1:初始化智能體中的評(píng)論深度神經(jīng)網(wǎng)絡(luò)參數(shù)q(s,a|θq),其中s是從短垂推進(jìn)系統(tǒng)中輸出的狀態(tài),狀態(tài)包括推力和、推力比、升力風(fēng)扇效率因子、風(fēng)扇效率因子、高壓壓氣機(jī)效率因子、高壓渦輪效率因子以及低壓渦輪效率因子,即s=[tt,ts,ηlf,ηfan,ηhpc,ηhpt,ηlpt]′,a是從強(qiáng)化學(xué)習(xí)中輸出的動(dòng)作,動(dòng)作包括燃油流量和升力風(fēng)扇進(jìn)口導(dǎo)葉角度,a=[wf,igv]′,θq是神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置參數(shù)的合集,評(píng)論深度神經(jīng)網(wǎng)絡(luò)的目的是學(xué)習(xí)一個(gè)最優(yōu)的θq函數(shù),從而可以根據(jù)狀態(tài)s和動(dòng)作a評(píng)價(jià)出一個(gè)q值來(lái)表示這個(gè)狀態(tài)-動(dòng)作對(duì)價(jià)值,進(jìn)入步驟2;

5、步驟2:初始化智能體中的動(dòng)作深度神經(jīng)網(wǎng)絡(luò)參數(shù)μ(s|θμ),其中s是從短垂推進(jìn)系統(tǒng)中輸出的狀態(tài),θμ是神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置的參數(shù)合集,動(dòng)作深度神經(jīng)網(wǎng)絡(luò)的目的是學(xué)習(xí)一個(gè)最優(yōu)的θμ函數(shù)從而可以根據(jù)狀態(tài)s映射出輸出的動(dòng)作a,進(jìn)入步驟3;

6、步驟3:將短垂推進(jìn)系統(tǒng)的輸入設(shè)置為動(dòng)作深度神經(jīng)網(wǎng)絡(luò)的輸出a,即短垂推進(jìn)系統(tǒng)作為智能體探索的環(huán)境,將短垂推進(jìn)系統(tǒng)根據(jù)動(dòng)作深度神經(jīng)網(wǎng)絡(luò)的輸出從而導(dǎo)致的參數(shù)改變進(jìn)行獎(jiǎng)勵(lì)函數(shù)的計(jì)算,公式如下:

7、

8、式中,t代表仿真時(shí)間,r代表獎(jiǎng)勵(lì),代表推力和的誤差,即高度通道的性能恢復(fù)誤差,代表推力比的誤差,即姿態(tài)通道的性能恢復(fù)誤差,f(t4)是超溫懲罰項(xiàng),即如果不超溫f(t4)=0,如果超溫f(t4)=-100,設(shè)置完獎(jiǎng)勵(lì)后進(jìn)入一次探索以生成初始經(jīng)驗(yàn),進(jìn)入步驟4;

9、步驟4:根據(jù)初始化參數(shù)進(jìn)行隨機(jī)探索,獲得初始的狀態(tài)s1=[tt,ts,ηlf,ηfan,ηhpc,ηhpt,ηlpt]′,進(jìn)入步驟5;

10、步驟5:根據(jù)當(dāng)前的策略和探索噪聲選擇當(dāng)前時(shí)刻t的動(dòng)作,公式如下:

11、

12、式中,at是t時(shí)刻的動(dòng)作,μ(st|θμ)是當(dāng)前時(shí)刻狀態(tài)st在動(dòng)作深度神經(jīng)網(wǎng)絡(luò)θμ的參數(shù)設(shè)置下映射出的輸出,是探索噪聲,將at輸入到短垂推進(jìn)系統(tǒng)中根據(jù)步驟3中設(shè)置的獎(jiǎng)勵(lì)函數(shù)計(jì)算當(dāng)前的獎(jiǎng)勵(lì)rt,同時(shí)獲得一個(gè)新的狀態(tài)st+1,將狀態(tài)-動(dòng)作對(duì)(st,at,rt,st+1)存儲(chǔ)在經(jīng)驗(yàn)回放緩沖區(qū)中,然后進(jìn)入步驟6;

13、步驟6:從經(jīng)驗(yàn)回放區(qū)中采樣一個(gè)小批次的狀態(tài)-動(dòng)作對(duì)n×(st,at,rt,st+1),其中n代表批次的大小,將這一個(gè)采樣批次的輸入投放入評(píng)論深度神經(jīng)網(wǎng)絡(luò)中計(jì)算損失函數(shù),計(jì)算公式如下:

14、

15、式中,i是內(nèi)部批次的循環(huán)次數(shù),l是損失函數(shù),表示要最小化的目標(biāo)θq即評(píng)論深度神經(jīng)網(wǎng)絡(luò)的參數(shù),q(si,ai|θq)是當(dāng)前狀態(tài)-動(dòng)作對(duì)(si,ai)在當(dāng)前神經(jīng)網(wǎng)絡(luò)參數(shù)下的價(jià)值,yi是神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo),其公式如下:

16、

17、式中,i是內(nèi)部批次的循環(huán)次數(shù),r(si,ai)是當(dāng)前采樣批次下的獎(jiǎng)勵(lì),γ是衰減系數(shù),θq′表示評(píng)論目標(biāo)神經(jīng)網(wǎng)絡(luò)的參數(shù),即想要通過(guò)降低損失函數(shù)從而使得深度神經(jīng)網(wǎng)絡(luò)θq盡可能逼近目標(biāo)神經(jīng)網(wǎng)絡(luò)θq′,相比于頻繁更新的主網(wǎng)絡(luò),目標(biāo)網(wǎng)絡(luò)θq′具有更低的更新頻率,且使用加權(quán)的方式從主網(wǎng)絡(luò)更新參數(shù),如下所示:

18、θq′=ρθq′+(1-ρ)θq

19、式中,ρ是一個(gè)介于0和1之間的超參數(shù),它決定了軟更新的程度,然后進(jìn)行動(dòng)作深度神經(jīng)網(wǎng)絡(luò)的參數(shù)更新,進(jìn)入步驟7;

20、步驟7:通過(guò)當(dāng)前批次采樣得到的數(shù)據(jù)進(jìn)行策略更新,公式如下:

21、

22、式中,i是內(nèi)部批次的循環(huán)次數(shù),l是損失函數(shù),θq是評(píng)論深度神經(jīng)網(wǎng)絡(luò)的參數(shù),θμ是動(dòng)作深度神經(jīng)網(wǎng)絡(luò)的參數(shù),si表示當(dāng)前狀態(tài),表示在當(dāng)前狀態(tài)si采取的動(dòng)作,α表示學(xué)習(xí)率,表示q相對(duì)于動(dòng)作a的損失梯度,表示μ相對(duì)于θμ的損失梯度,通過(guò)選擇當(dāng)前q值函數(shù)中的q(s,μ(st|θμ))作為q值函數(shù)的估計(jì)值,可以看出策略改進(jìn)所依賴的策略梯度是由q值函數(shù)多次求導(dǎo)得出的,更新策略目標(biāo)網(wǎng)絡(luò)參數(shù)的方法是沿著價(jià)值函數(shù)q的映射梯度向上,使行動(dòng)策略μ朝著q值函數(shù)增加的方向變化,然后進(jìn)行動(dòng)作深度神經(jīng)網(wǎng)絡(luò)參數(shù)更新:

23、θμ′=ρθμ′+(1-ρ)θμ

24、式中,ρ是一個(gè)介于0和1之間的超參數(shù),它決定了軟更新的程度,然后進(jìn)行批次內(nèi)迭代,如果i<n,繼續(xù)回到步驟6進(jìn)行神經(jīng)網(wǎng)絡(luò)更新,如果i=n,進(jìn)入步驟8;

25、步驟8:判斷當(dāng)前時(shí)刻t與總回合數(shù)m大小關(guān)系,如果t<m,返回步驟3,如果t=m則離線訓(xùn)練結(jié)束,將離線訓(xùn)練完成后的智能體配置到環(huán)境中,智能體的輸入為短垂推進(jìn)系統(tǒng)的狀態(tài)s1=[tt,ts,ηlf,ηfan,ηhpc,ηhpt,ηlpt],輸出為短垂推進(jìn)系統(tǒng)的控制輸入a=[wf,igv]′,從而實(shí)現(xiàn)考慮性能退化的無(wú)模型性能恢復(fù)控制設(shè)計(jì)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1