本發(fā)明涉及航空發(fā)動(dòng)機(jī)控制領(lǐng)域,尤其涉及一種基于深度強(qiáng)化學(xué)習(xí)的執(zhí)行機(jī)構(gòu)容錯(cuò)控制方法。
背景技術(shù):
1、在航空領(lǐng)域,特別是航空發(fā)動(dòng)機(jī)領(lǐng)域,執(zhí)行機(jī)構(gòu)的可靠性至關(guān)重要。容錯(cuò)控制的目標(biāo)是確保這些執(zhí)行機(jī)構(gòu)在面對系統(tǒng)故障、不確定性或異常情況時(shí)能夠維持飛機(jī)的性能和安全。因?yàn)榘l(fā)動(dòng)機(jī)飛行過程中的任何失效都可能導(dǎo)致嚴(yán)重后果,所以航空發(fā)動(dòng)機(jī)執(zhí)行機(jī)構(gòu)的容錯(cuò)控制具有極高的要求。
2、容錯(cuò)控制在執(zhí)行機(jī)構(gòu)上的應(yīng)用可以增強(qiáng)系統(tǒng)的安全性、穩(wěn)定性和魯棒性。但在飛行過程中,發(fā)動(dòng)機(jī)自身的一些參數(shù)也會(huì)發(fā)生變化,由于飛機(jī)的地面干預(yù)能力有限,這些內(nèi)部和外界的變化都會(huì)為執(zhí)行機(jī)構(gòu)故障診斷與容錯(cuò)控制帶來很大的挑戰(zhàn)。這就要求控制器具有較強(qiáng)魯棒性和自適應(yīng)性,從而保證整個(gè)控制回路的容錯(cuò)能力。
3、隨著人工智能技術(shù)的發(fā)展,研究人員逐步拓展主動(dòng)容錯(cuò)控制的方法,利用智能學(xué)習(xí)方法解決容錯(cuò)控制問題?;谌斯ぶ悄芗夹g(shù)的容錯(cuò)控制屬于主動(dòng)容錯(cuò)控制范疇,因其具有良好的適應(yīng)性以及魯棒性獲得了廣泛關(guān)注,深度強(qiáng)化學(xué)習(xí)作為一種自主學(xué)習(xí)和決策的機(jī)器學(xué)習(xí)技術(shù),為改進(jìn)航空發(fā)動(dòng)機(jī)執(zhí)行機(jī)構(gòu)的容錯(cuò)控制提供了新的可能性。它可以讓系統(tǒng)自動(dòng)學(xué)習(xí)如何在面對系統(tǒng)故障或異常情況時(shí)調(diào)整執(zhí)行機(jī)構(gòu),以最小化對飛行性能的不利影響。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本發(fā)明提出了一種基于深度強(qiáng)化學(xué)習(xí)的執(zhí)行機(jī)構(gòu)容錯(cuò)控制方法,以實(shí)現(xiàn)在執(zhí)行機(jī)構(gòu)出現(xiàn)故障的情況下,控制器自動(dòng)識(shí)別故障并進(jìn)行容錯(cuò)控制,保障飛行安全。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于深度強(qiáng)化學(xué)習(xí)的執(zhí)行機(jī)構(gòu)容錯(cuò)控制方法,包括以下步驟:
4、(1)建立含執(zhí)行機(jī)構(gòu)的發(fā)動(dòng)機(jī)數(shù)學(xué)模型;
5、(2)建立面向發(fā)動(dòng)機(jī)執(zhí)行機(jī)構(gòu)容錯(cuò)控制任務(wù)的深度強(qiáng)化學(xué)習(xí)智能體仿真訓(xùn)練環(huán)境;
6、(3)使用深度確定性策略梯度(ddpg)算法訓(xùn)練智能體;
7、(4)將訓(xùn)練好的智能體布置在單片機(jī)上對故障執(zhí)行機(jī)構(gòu)進(jìn)行容錯(cuò)控制。
8、步驟(1)所述的建立含執(zhí)行機(jī)構(gòu)的發(fā)動(dòng)機(jī)數(shù)學(xué)模型,基于執(zhí)行機(jī)構(gòu)的控制結(jié)構(gòu),建立包含多種故障的模型;利用部件級建模的方法建立變循環(huán)發(fā)動(dòng)機(jī)數(shù)學(xué)模型。
9、進(jìn)一步地,所述基于執(zhí)行機(jī)構(gòu)的控制結(jié)構(gòu),建立包含多種故障的模型以燃油計(jì)量裝置為例,執(zhí)行機(jī)構(gòu)故障包括偏置故障、卡死故障、性能退化,具體表示如下:
10、執(zhí)行機(jī)構(gòu)偏置故障:
11、wf0=wf+δwf
12、其中,δwf為常數(shù),當(dāng)δwf=0時(shí),執(zhí)行機(jī)構(gòu)為正常工作狀態(tài)。
13、執(zhí)行機(jī)構(gòu)卡死故障:
14、
15、其中,a為常數(shù),由執(zhí)行機(jī)構(gòu)的工作范圍包線得a的取值范圍。
16、執(zhí)行機(jī)構(gòu)性能退化:
17、wf0=wf+t*k
18、其中,t為時(shí)間,k為退化系數(shù)。
19、進(jìn)一步地,所述利用部件級建模的方法建立變循環(huán)發(fā)動(dòng)機(jī)數(shù)學(xué)模型為按照模塊化的思想建立發(fā)動(dòng)機(jī)各部件熱力學(xué)模型,隨后進(jìn)行發(fā)動(dòng)機(jī)各部分整機(jī)計(jì)算。
20、步驟(2)所述建立面向發(fā)動(dòng)機(jī)執(zhí)行機(jī)構(gòu)容錯(cuò)控制任務(wù)的深度強(qiáng)化學(xué)習(xí)智能體仿真訓(xùn)練環(huán)境包括:
21、步驟(2.1),給定發(fā)動(dòng)機(jī)控制器的被控制量為高壓轉(zhuǎn)子轉(zhuǎn)速nh和渦輪落壓比πt,選擇控制量為燃油流量wf、尾噴管喉道面積a8、cdfs外涵面積a125;
22、步驟(2.2),選擇狀態(tài)變量st為轉(zhuǎn)速nh、轉(zhuǎn)速誤差δnh、落壓比πt、落壓比誤差δπt,動(dòng)作變量at為燃油流量wf、尾噴管喉道面積a8和cdfs外涵面積a125,t時(shí)刻狀態(tài)變量st和動(dòng)作變量at表示如下:
23、st=[nh,δnh,πt,δπt]
24、at=[wf,a8,a125]
25、步驟(2.3),設(shè)計(jì)智能體的動(dòng)作網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò):
26、所述智能體的動(dòng)作網(wǎng)絡(luò)πθ依次由輸入層,全連接層1,relu激活函數(shù)層,全連接層2,relu激活函數(shù)層,輸出層,tanh激活函數(shù)層組成,動(dòng)作網(wǎng)絡(luò)輸入?yún)?shù)為狀態(tài)變量st,輸出參數(shù)為動(dòng)作變量at;
27、述智能體的評價(jià)網(wǎng)絡(luò)qω依次由輸入層,全連接層1,relu激活函數(shù)層,全連接層2,relu激活函數(shù)層,輸出層,tanh激活函數(shù)層組成,評價(jià)網(wǎng)絡(luò)輸入?yún)?shù)為狀態(tài)變量st和動(dòng)作變量at,輸出參數(shù)為當(dāng)前狀態(tài)變量st和動(dòng)作變量at能獲得獎(jiǎng)勵(lì)的期望;
28、步驟(2.4),根據(jù)狀態(tài)變量和動(dòng)作變量設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)r,包含密集獎(jiǎng)勵(lì)r1,稀疏獎(jiǎng)勵(lì)r2以及控制量變化幅度獎(jiǎng)勵(lì)r3,具體如下:
29、r=r1+r2+r3
30、其中:
31、
32、
33、
34、步驟(3)所述在步驟(2)搭建的深度強(qiáng)化學(xué)習(xí)智能體仿真訓(xùn)練環(huán)境的基礎(chǔ)上,使用深度確定性策略梯度(ddpg)算法訓(xùn)練智能體,具體包括如下步驟:
35、步驟(3.1),加載執(zhí)行機(jī)構(gòu)模型與發(fā)動(dòng)機(jī)部件級模型;
36、步驟(3.2),建立目標(biāo)動(dòng)作網(wǎng)絡(luò)πθ-和目標(biāo)評價(jià)網(wǎng)絡(luò)qω-,其結(jié)構(gòu)與動(dòng)作網(wǎng)絡(luò)πθ和評價(jià)網(wǎng)絡(luò)qω相同;
37、步驟(3.3),用隨機(jī)參數(shù)初始化動(dòng)作網(wǎng)絡(luò)πθ和評價(jià)網(wǎng)絡(luò)qω的權(quán)重參數(shù)θ和ω,再復(fù)制權(quán)重參數(shù)θ和ω至目標(biāo)網(wǎng)絡(luò)參數(shù)θ-和ω-;
38、步驟(3.4),初始化經(jīng)驗(yàn)回放池r,設(shè)定訓(xùn)練回合數(shù)e、仿真時(shí)間t、仿真采樣步長δt、折扣因子γ、soft-update更新系數(shù)σ;
39、步驟(3.5),回合循環(huán)開始;
40、步驟(3.6),隨機(jī)初始化發(fā)動(dòng)機(jī)模型、控制目標(biāo),觀測初始狀態(tài)變量s0;
41、步驟(3.7),仿真循環(huán)開始;
42、步驟(3.8),在隨機(jī)時(shí)間步注入執(zhí)行機(jī)構(gòu)故障;
43、步驟(3.9),動(dòng)作網(wǎng)絡(luò)根據(jù)狀態(tài)變量st輸出動(dòng)作變量at;
44、步驟(3.10),觀測動(dòng)作變量at改變控制量輸入值,發(fā)動(dòng)機(jī)模型運(yùn)行一個(gè)步長,計(jì)算獎(jiǎng)勵(lì)rt,此時(shí)環(huán)境狀態(tài)變量為st+1;
45、步驟(3.11),存儲(chǔ)當(dāng)前信息幀et(st,at,rt,st+1)放入經(jīng)驗(yàn)回放池r中;
46、步驟(3.12),從回放池r中隨機(jī)小批采樣,根據(jù)以下公式更新各網(wǎng)絡(luò)參數(shù);
47、
48、
49、ω-=τω+(1-τ)τω-
50、θ-=τθ+(1-τ)τθ-
51、步驟(3.13),執(zhí)行步驟(3.7)-步驟(3.12)直至仿真循環(huán)結(jié)束;
52、步驟(3.14),執(zhí)行步驟(3.5)-步驟(3.13)直至回合循環(huán)結(jié)束;
53、步驟(4),將訓(xùn)練好的智能體布置在單片機(jī)上對故障執(zhí)行機(jī)構(gòu)進(jìn)行容錯(cuò)控制,訓(xùn)練完成后,保存智能體動(dòng)作網(wǎng)絡(luò)的權(quán)重參數(shù),并將動(dòng)作網(wǎng)絡(luò)前向通道部署至單片機(jī),單片機(jī)接收從上位機(jī)傳來的發(fā)動(dòng)機(jī)狀態(tài)變量st作為動(dòng)作網(wǎng)絡(luò)的輸入,輸出動(dòng)作變量at發(fā)送至上位機(jī)執(zhí)行機(jī)構(gòu),實(shí)現(xiàn)執(zhí)行機(jī)構(gòu)容錯(cuò)控制。
54、相比現(xiàn)有技術(shù),本發(fā)明技術(shù)方案具有以下有益效果:
55、(1)本發(fā)明提出的基于深度強(qiáng)化學(xué)習(xí)的執(zhí)行機(jī)構(gòu)容錯(cuò)控制方法,是一種通用的基于數(shù)據(jù)的主動(dòng)容錯(cuò)控制方法,其主動(dòng)容錯(cuò)控制框架不僅可以自動(dòng)實(shí)現(xiàn)故障診斷,同時(shí)還可以實(shí)現(xiàn)主動(dòng)容錯(cuò)控制,在執(zhí)行機(jī)構(gòu)發(fā)生不同種類故障時(shí),通過調(diào)節(jié)執(zhí)行機(jī)構(gòu)輸入,最大程度上保障航空發(fā)動(dòng)機(jī)高效可靠的工作,實(shí)現(xiàn)快速、平滑的主動(dòng)容錯(cuò)控制;
56、(2)本發(fā)明方法能夠克服傳統(tǒng)容錯(cuò)控制的難以處理卡死故障缺點(diǎn),通過多變量控制,將故障執(zhí)行機(jī)構(gòu)的控制作用分配到無故障執(zhí)行機(jī)構(gòu)中,繼續(xù)完成對目標(biāo)量的閉環(huán)控制,解決各控制回路之間的耦合問題;
57、(3)本發(fā)明方法針對不同執(zhí)行機(jī)構(gòu)的不同故障均有良好的容錯(cuò)控制效果,移植性強(qiáng),泛用性廣。