本發(fā)明涉及軍事電子對抗和人工智能,更具體地說,它涉及一種基于多無人機的協(xié)同偵察及電子對抗控制系統(tǒng)及方法。
背景技術(shù):
1、隨著無人機技術(shù)的快速進步,尤其是在通信、導(dǎo)航、智能控制等方面的突破,無人機集群已經(jīng)成為現(xiàn)代戰(zhàn)爭中不可或缺的重要力量。無人機集群通過協(xié)調(diào)合作,能夠高效執(zhí)行偵察、電子干擾等任務(wù),特別是在復(fù)雜的戰(zhàn)場環(huán)境中,發(fā)揮著越來越重要的作用。例如,多個無人機協(xié)同作戰(zhàn)可以通過交替?zhèn)刹?、動態(tài)覆蓋、快速部署等方式,迅速對敵方目標進行精確打擊,或通過電子對抗手段壓制敵方的信息化系統(tǒng)。
2、然而,盡管無人機集群的應(yīng)用前景廣闊,現(xiàn)有的無人機電子對抗系統(tǒng)在實際應(yīng)用中仍面臨諸多挑戰(zhàn)。首先,戰(zhàn)場環(huán)境的復(fù)雜性和動態(tài)變化使得無人機集群在執(zhí)行任務(wù)時容易遭遇決策能力不足的問題。電磁環(huán)境的不斷變化、敵方干擾手段的多樣化以及任務(wù)目標的時刻變化,要求系統(tǒng)能夠?qū)崟r調(diào)整作戰(zhàn)策略。然而,現(xiàn)有的控制系統(tǒng)往往無法迅速應(yīng)對這些變化,導(dǎo)致無人機集群無法充分發(fā)揮協(xié)同作戰(zhàn)的優(yōu)勢。
3、其次,任務(wù)目標的多樣性和任務(wù)間的相互沖突是另一個制約無人機集群高效執(zhí)行任務(wù)的重要因素。例如,在執(zhí)行偵察子任務(wù)時,無人機可能需要長時間停留在敵方雷達盲區(qū),而執(zhí)行電子干擾子任務(wù)時,又要求無人機對敵方信息系統(tǒng)進行密集壓制。這種任務(wù)間的沖突使得無人機集群的資源調(diào)度和任務(wù)分配變得更加復(fù)雜,現(xiàn)有的控制方法往往無法有效平衡各無人機的任務(wù)負載,導(dǎo)致資源浪費或任務(wù)執(zhí)行效率低下。
4、再者,傳統(tǒng)的無人機集群控制方法往往依賴于靜態(tài)預(yù)設(shè)的任務(wù)分配和路徑規(guī)劃算法,無法靈活應(yīng)對高維動作空間的復(fù)雜決策問題。在面對快速變化的戰(zhàn)場環(huán)境和多維度任務(wù)需求時,這些方法的優(yōu)化能力顯得捉襟見肘,難以實現(xiàn)高效協(xié)同作戰(zhàn)。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種基于多無人機的協(xié)同偵察及電子對抗控制系統(tǒng)及方法。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:一種基于多無人機的協(xié)同偵察及電子對抗控制系統(tǒng),其特征在于,所述系統(tǒng)包括通信模塊、任務(wù)分解模塊、強化學(xué)習(xí)決策模塊、協(xié)作優(yōu)化模塊和任務(wù)評估模塊;
3、所述通信模塊包括自組織網(wǎng)絡(luò)單元、數(shù)據(jù)同步單元和加密與抗干擾單元;
4、所述任務(wù)分解模塊包括任務(wù)解析單元、任務(wù)優(yōu)先級分配器和資源分配單元;
5、所述強化學(xué)習(xí)決策模塊包括偵察策略單元、干擾策略單元和策略融合與調(diào)控單元;
6、所述協(xié)作優(yōu)化模塊包括任務(wù)協(xié)作管理單元、多機行動協(xié)調(diào)單元和沖突檢測與解決單元;
7、所述任務(wù)評估模塊包括任務(wù)狀態(tài)監(jiān)控單元、環(huán)境狀態(tài)評估單元和反饋生成單元。
8、優(yōu)選的,所述任務(wù)分解模塊通過通信模塊傳遞任務(wù)指令并與強化學(xué)習(xí)決策模塊合作,獲取任務(wù)決策結(jié)果;
9、所述強化學(xué)習(xí)決策模塊根據(jù)任務(wù)需求和無人機狀態(tài)做出決策,并與協(xié)作優(yōu)化模塊協(xié)作調(diào)整無人機任務(wù)分配和飛行路徑,通信模塊將任務(wù)信息、狀態(tài)信息和決策指令傳遞給各個模塊,將各無人機的狀態(tài)反饋給任務(wù)評估模塊;
10、所述任務(wù)評估模塊提供任務(wù)執(zhí)行結(jié)果的反饋,優(yōu)化后續(xù)的任務(wù)分配和策略決策。
11、一種基于多無人機協(xié)同偵察及電子對抗的控制方法,所述方法包括如下步驟:
12、步驟s1:自組織網(wǎng)絡(luò)單元通過自組網(wǎng)協(xié)議點對點通信,根據(jù)無人機的物理位置動態(tài)調(diào)整網(wǎng)絡(luò)拓撲;數(shù)據(jù)同步單元通過時間同步協(xié)議保證無人機間共享的戰(zhàn)場數(shù)據(jù)一致性;加密與抗干擾單元通過跳頻通信增強鏈路抗干擾能力;
13、步驟s2:所述任務(wù)解析單元接收外部指揮系統(tǒng)的電子對抗任務(wù),發(fā)送至無人機集群,并根據(jù)任務(wù)類型,將其細化為偵察子任務(wù)和干擾子任務(wù);
14、步驟s3:所述任務(wù)優(yōu)先級分配器根據(jù)戰(zhàn)場環(huán)境調(diào)整子任務(wù)優(yōu)先級;
15、步驟s4:所述資源分配單元為無人機分配資源,適配不同任務(wù)目標;
16、步驟s5:所述偵察策略單元,結(jié)合dqn和ppo深度強化學(xué)習(xí)訓(xùn)練偵察策略,訓(xùn)練時輸入狀態(tài)空間和動作空間信息,輸出最佳路徑或信號檢測頻率;
17、步驟s6:所述干擾策略單元根據(jù)敵方通信或雷達信號特征,基于深度強化學(xué)習(xí)輸入敵方頻段使用情況,優(yōu)化干擾頻段選擇和干擾功率進行干擾操作;
18、步驟s7:所述任務(wù)協(xié)作管理單元基于多智能體強化學(xué)習(xí),每個無人機獨立評估自身任務(wù)適應(yīng)性,并與其他無人機協(xié)商完成任務(wù)分配;所述多機行動協(xié)調(diào)單元基于蜂群算法優(yōu)化無人機行動,動態(tài)調(diào)整飛行路徑,覆蓋目標區(qū)域;
19、步驟s7:所述沖突檢測與解決單元檢測系統(tǒng)中可能出現(xiàn)的任務(wù)沖突,基于博弈論模型分析沖突的代價與收益,實時調(diào)整任務(wù)分配或干擾參數(shù);
20、步驟s8:所述任務(wù)狀態(tài)監(jiān)控單元動態(tài)監(jiān)控?zé)o人機的偵察覆蓋率、干擾效果指標,評估任務(wù)是否達到目標要求;所述環(huán)境狀態(tài)評估單元通過傳感器采集敵方設(shè)備發(fā)射信號的強度、頻率特征,分析敵方設(shè)備是否已被有效干擾;
21、步驟s9:根據(jù)評估情況,返回步驟s3任務(wù)優(yōu)先級分配器根據(jù)戰(zhàn)場環(huán)境調(diào)整子任務(wù)優(yōu)先級后重復(fù)執(zhí)行后續(xù)步驟。
22、優(yōu)選的,所述偵察子任務(wù)的偵察策略訓(xùn)練時,輸入狀態(tài)空間包括敵方信號的位置和無人機的當前位置信息,輸出動作空間包括飛行路徑調(diào)整和偵察信號頻率分配。
23、優(yōu)選的,所述干擾子任務(wù)中的決策策略中,輸入狀態(tài)包括敵方雷達的信號頻段和強度,輸出動作空間包括干擾頻率、功率選擇以及目標干擾強度的選擇。
24、優(yōu)選的,所述通信模塊在每架無人機啟動時,進行通信初始化,通過廣播發(fā)現(xiàn)其周圍的其他無人機節(jié)點,并建立鄰居節(jié)點列表;
25、根據(jù)鄰居節(jié)點信息,由自組織網(wǎng)絡(luò)組件動態(tài)生成集群通信網(wǎng)絡(luò)的拓撲結(jié)構(gòu),通過加密與安全組件的身份認證模塊,確保只有合法節(jié)點能夠加入網(wǎng)絡(luò)。
26、優(yōu)選的,所述偵察子任務(wù)決策過程由無人機的狀態(tài)空間、動作空間數(shù)據(jù)和設(shè)定的獎勵函數(shù)控制。
27、優(yōu)選的,所述狀態(tài)空間中無人機的位置使用相對坐標表示,其中原點定義為無人機首次偵察到雷達信息的位置,偵察的方向以絕對角度表示,起點為正北方向的0°,并順時針計算;
28、所述動作空間包括接近目標、懸停和啟動偵察載荷;
29、所述獎勵該函數(shù)包括接近獎勵和偵察獎勵,多無人機團隊協(xié)作下每捕獲、定位到一個雷達,即可獲取團隊偵察獎勵,每個雷達累加1分。
30、優(yōu)選的,所述偵察子任務(wù)和所述干擾子任務(wù)分別決策出飛行動作與偵察動作組合、飛行動作與干擾動作組合,根據(jù)任務(wù)進展情況決策出重復(fù)飛行動作的權(quán)重,并與獨立的偵察動作和干擾動作得出完整的綜合決策。
31、優(yōu)選的,所述偵察策略單元深度學(xué)習(xí)訓(xùn)練中每個事件的樣本數(shù)據(jù)被存儲于經(jīng)驗池中,在事件結(jié)束后,通過蒙特卡洛方法對樣本進行處理,并基于critic網(wǎng)絡(luò)對全局狀態(tài)信息處理,捕捉無人機之間的協(xié)作關(guān)系:
32、m1:初始化經(jīng)驗池buffer,容量為單個事件episode的長度;
33、m2:隨機初始化actor網(wǎng)絡(luò)參數(shù)θπ和critic網(wǎng)絡(luò)參數(shù)θπ、是在范圍[-0.003,0.003]內(nèi)的隨機數(shù);
34、m3:初始化偵察子策略πscout和干擾子策略πjam;
35、m4:當episode小于總episode數(shù),執(zhí)行步驟m4至m14;
36、m5:初始化狀態(tài)s1;
37、m6:當episode長度(時間步t=1,2,…,k)小于k時,執(zhí)行步驟m6至m13;
38、m7:對于無人機i=1,…,m,執(zhí)行步驟m7至m12;
39、m8:根據(jù)無人機i的局部觀測選擇綜合動作
40、m9:調(diào)用偵察子策略πscout,根據(jù)觀測選擇偵察動作ai-scout;
41、m10:調(diào)用干擾子策略πjam,根據(jù)觀測選擇干擾動作ai-jam;
42、m11:將ai-scout和ai-jam根據(jù)合成為完整的
43、m12:執(zhí)行完整聯(lián)合動作獲得獎勵rt和下一時間步狀態(tài)st+1;
44、m13:將經(jīng)驗樣本(st,at,rt,st+1)存入到buffer中,時間步t=t+1;
45、m14:計算每一個時間步的折扣回報gt,同時episode數(shù)累加1;
46、m15:從buffer中隨機采樣n組樣本經(jīng)驗;
47、m16:計算actor損失函數(shù)l(θ)并更新actor網(wǎng)絡(luò);
48、m17:計算critic損失函數(shù)并更新critic網(wǎng)絡(luò);
49、其中,actor損失函數(shù)
50、獎勵函數(shù)為
51、
52、優(yōu)勢函數(shù)為
53、
54、critic損失函數(shù)為
55、理想狀態(tài)折扣回報為
56、gt=rt+1+γrt+2+…+γt-trt+1
57、誤差δt=rt+γv(st+1)-v(st),e是期望,γ是折扣因子,v(st)是狀態(tài)st的值函數(shù),πθ(at|st)表示t時刻s狀態(tài)向s動作轉(zhuǎn)移的策略,λ是權(quán)重,是預(yù)測的折扣回報。
58、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:
59、1、本發(fā)明中,通過多機協(xié)作博弈論模型,能夠有效解決任務(wù)之間的沖突和資源分配問題,避免了傳統(tǒng)方法中因任務(wù)沖突或資源不足導(dǎo)致的作戰(zhàn)效率低下。
60、2、本發(fā)明中,通過優(yōu)化飛行路徑、干擾頻段選擇、干擾強度等多個動作維度的決策,能夠?qū)崟r調(diào)整策略應(yīng)對戰(zhàn)場環(huán)境的變化,緩解了無人機電子對抗任務(wù)中高維動作空間的決策難題。