本發(fā)明涉及電子對(duì)抗領(lǐng)域,具體涉及一種基于多智能體強(qiáng)化學(xué)習(xí)的多域聯(lián)合干擾資源分配方法及系統(tǒng)。
背景技術(shù):
1、在現(xiàn)代電子戰(zhàn)的發(fā)展過程中,對(duì)抗場(chǎng)景日益復(fù)雜,從早期的“一對(duì)一”對(duì)抗逐漸演變?yōu)椤岸鄬?duì)多”的復(fù)雜局面。隨著戰(zhàn)場(chǎng)環(huán)境中電子設(shè)備數(shù)量的激增和多樣化,敵我雙方的電子戰(zhàn)系統(tǒng)不僅要面對(duì)多個(gè)目標(biāo),還需在高度動(dòng)態(tài)和不確定的環(huán)境下作出快速反應(yīng)。這種多目標(biāo)、多干擾源的復(fù)雜對(duì)抗場(chǎng)景,對(duì)干擾資源的管理和分配提出了前所未有的挑戰(zhàn)。
2、干擾資源分配問題聚焦于如何最佳利用諸如干擾機(jī)數(shù)量、干擾功率及干擾頻率范圍等有限資源,以實(shí)現(xiàn)對(duì)敵方電子系統(tǒng)的最大干擾效果。傳統(tǒng)上,這一過程往往依賴固定的預(yù)設(shè)規(guī)則、過往經(jīng)驗(yàn)或者優(yōu)化算法來進(jìn)行決策,但隨著電子戰(zhàn)環(huán)境變得更加復(fù)雜且快速變化,這些方法逐漸顯示出它們?cè)陟`活性和自適應(yīng)能力上的不足。
3、強(qiáng)化學(xué)習(xí)(reinforcement?learning,rl)是一種機(jī)器學(xué)習(xí)方法,它通過智能體與環(huán)境的交互來學(xué)習(xí)最優(yōu)策略。強(qiáng)化學(xué)習(xí)的特點(diǎn)在于其能夠在沒有明確指導(dǎo)的情況下,通過試錯(cuò)和獎(jiǎng)勵(lì)機(jī)制自主學(xué)習(xí)到最優(yōu)行為策略。近年來,強(qiáng)化學(xué)習(xí)在許多領(lǐng)域取得了顯著的成功,特別是在處理復(fù)雜、動(dòng)態(tài)、不確定的環(huán)境方面表現(xiàn)出色。然而,傳統(tǒng)的單智能體強(qiáng)化學(xué)習(xí)算法在處理“多對(duì)多”對(duì)抗場(chǎng)景時(shí)存在明顯不足。首先,單智能體系統(tǒng)需要集中處理大量信息,導(dǎo)致決策延遲和響應(yīng)速度慢;其次,單智能體難以適應(yīng)復(fù)雜多變的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),無法有效應(yīng)對(duì)多目標(biāo)優(yōu)化和對(duì)抗性干擾的需求。此外,單智能體系統(tǒng)在資源限制和能耗管理方面也顯得力不從心,難以在高強(qiáng)度對(duì)抗環(huán)境中長(zhǎng)時(shí)間保持高效運(yùn)行。
4、多智能體強(qiáng)化學(xué)習(xí)(multi-agent?reinforcement?learning,marl)進(jìn)一步擴(kuò)展了強(qiáng)化學(xué)習(xí)的應(yīng)用范圍,使其能夠處理多個(gè)智能體之間的協(xié)作問題。多智能體系統(tǒng)通過分布式?jīng)Q策和并行處理,能夠快速適應(yīng)復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境,實(shí)現(xiàn)高效、靈活的資源分配。每個(gè)智能體可以根據(jù)自身及周圍環(huán)境的狀態(tài)獨(dú)立做出決策,同時(shí)通過協(xié)作與競(jìng)爭(zhēng)機(jī)制,優(yōu)化整體干擾效果。此外,多智能體系統(tǒng)還具備較高的魯棒性和容錯(cuò)性,能夠在部分智能體失效的情況下繼續(xù)保持系統(tǒng)的穩(wěn)定運(yùn)行。
5、目前,已經(jīng)有眾多學(xué)者對(duì)于多干擾機(jī)干擾資源分配問題進(jìn)行了研究。沈陽等人將雷達(dá)干擾資源優(yōu)化分配問題轉(zhuǎn)化為0-1規(guī)劃問題,并運(yùn)用匈牙利解法對(duì)問題求解得到干擾資源分配策略。zhang等人提出了一種基于粒子群優(yōu)化的兩步求解方法解決干擾波束和功率聯(lián)合分配問題。you等人建立了一種基于組合優(yōu)化的威脅評(píng)估和干擾分配問題模型,提出了一種基于擴(kuò)展排列的差分進(jìn)化算法對(duì)干擾編碼矩陣進(jìn)行優(yōu)化,有效降低了多約束條件下組網(wǎng)雷達(dá)對(duì)目標(biāo)的威脅。jiang等人提出了一種混合量子行為粒子群優(yōu)化和自調(diào)整遺傳算法,在多約束條件下優(yōu)化干擾資源分配。yao等人提出一種改進(jìn)螢火蟲算法優(yōu)化干擾資源分配模型,并利用隨機(jī)密鑰改進(jìn)螢火蟲算法的編碼方式。qi等人考慮了空域、頻域和能量域的信息構(gòu)建干擾資源分配模型,并利用dbo算法和q-learning算法分別對(duì)干擾波束分配問題和干擾功率分配問題進(jìn)行優(yōu)化求解,取得了良好的收斂效果和時(shí)效性。潘澤斯等人將干信比作為評(píng)價(jià)干擾效果的指標(biāo),采用由表演家網(wǎng)絡(luò)和批評(píng)家網(wǎng)絡(luò)構(gòu)成的多智能體強(qiáng)化學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)算法,實(shí)現(xiàn)多干擾機(jī)協(xié)同干擾資源分配?,F(xiàn)有針對(duì)干擾資源分配的研究大多集中在空域、頻域以及能量域中的單一域或者這些域的組合上,但未將多域信息在統(tǒng)一的框架下進(jìn)行聯(lián)合處理,這意味著現(xiàn)有的解決方案可能在處理復(fù)雜的多域環(huán)境時(shí)存在局限性,因?yàn)樗鼈兺窃诠铝⒌乜创總€(gè)域的作用,而不是從整體上優(yōu)化資源分配。并且隨著干擾資源分配規(guī)模的擴(kuò)大,傳統(tǒng)算法和單智能體強(qiáng)化學(xué)習(xí)算法容易出現(xiàn)求解維度爆炸、收斂速度變慢、尋優(yōu)概率降低、算法響應(yīng)時(shí)間變長(zhǎng)等問題,從而很難獲得最優(yōu)解,難以滿足實(shí)際應(yīng)用需要。
6、綜上所述,現(xiàn)有的干擾資源分配技術(shù)在面對(duì)現(xiàn)代電子戰(zhàn)的復(fù)雜性和動(dòng)態(tài)性時(shí)存在諸多局限性。因此,亟需一種新的方法來解決這些問題。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述背景中的技術(shù)問題,本發(fā)明旨在通過動(dòng)態(tài)調(diào)整我方干擾機(jī)的干擾波束分配和功率大小,提高對(duì)敵方雷達(dá)系統(tǒng)的干擾效率和靈活性;同時(shí)通過智能化的方式實(shí)現(xiàn)高效的干擾資源配置,提升電子戰(zhàn)的整體效能。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于多智能體強(qiáng)化學(xué)習(xí)的多域聯(lián)合干擾資源分配方法,步驟包括:
3、基于多干擾機(jī)協(xié)同干擾任務(wù),構(gòu)建多對(duì)多對(duì)抗環(huán)境模型;
4、基于所述多對(duì)多對(duì)抗環(huán)境模型,定義多干擾機(jī)聯(lián)合狀態(tài)空間;
5、基于所述多對(duì)多對(duì)抗環(huán)境模型,設(shè)計(jì)多干擾機(jī)聯(lián)合動(dòng)作空間;
6、基于所述多干擾機(jī)聯(lián)合狀態(tài)空間和所述多干擾機(jī)聯(lián)合動(dòng)作空間,構(gòu)造多域信息聯(lián)合表征的全局獎(jiǎng)勵(lì)函數(shù);
7、基于所述全局獎(jiǎng)勵(lì)函數(shù),進(jìn)行最優(yōu)策略學(xué)習(xí);
8、多智能體系統(tǒng)根據(jù)學(xué)習(xí)到的最優(yōu)策略做出決策。
9、優(yōu)選的,構(gòu)建所述多對(duì)多對(duì)抗環(huán)境模型的方法包括:定義每個(gè)我方干擾機(jī)為一個(gè)獨(dú)立智能體,具體感知環(huán)境狀態(tài)、執(zhí)行動(dòng)作以及接收獎(jiǎng)勵(lì)的能力;干擾機(jī)之間具備溝通協(xié)作機(jī)制用于共享信息或協(xié)調(diào)行動(dòng)策略;對(duì)抗環(huán)境中包含每部干擾機(jī)的位置信息xj、每部干擾機(jī)的最大輸出功率pj_max、最大可分配波束數(shù)量nbeam、干擾頻率范圍wj、空域條件限制k、每部雷達(dá)的位置信息xr、每部雷達(dá)的工作頻率范圍wr;構(gòu)建干擾參數(shù)矩陣mj=[xj,wj,pj_max]和雷達(dá)參數(shù)矩陣mr=[xr,wr]對(duì)環(huán)境信息進(jìn)行表征。
10、優(yōu)選的,定義所述多干擾機(jī)聯(lián)合狀態(tài)空間的方法包括:通過矩陣形式對(duì)狀態(tài)要素進(jìn)行編碼,用于多干擾機(jī)更好地理解和處理復(fù)雜的狀態(tài)信息;所述狀態(tài)要素包括:當(dāng)前對(duì)抗回合n下所有干擾機(jī)與雷達(dá)的干擾波束分配關(guān)系以及干擾功率分配關(guān)系。
11、優(yōu)選的,多干擾機(jī)聯(lián)合動(dòng)作an由當(dāng)前對(duì)抗回合n下所有干擾機(jī)采取的動(dòng)作組合形成;設(shè)計(jì)所述多干擾機(jī)聯(lián)合動(dòng)作空間的方法包括:將每個(gè)干擾機(jī)的連續(xù)動(dòng)作空間離散化為l個(gè)動(dòng)作選項(xiàng),用于在降低每個(gè)干擾機(jī)的動(dòng)作空間復(fù)雜度的同時(shí),保持足夠的靈活性;通過這種方式,幫助多干擾機(jī)在有限的動(dòng)作選項(xiàng)中選擇最優(yōu)的動(dòng)作組合。
12、優(yōu)選的,基于所述多干擾機(jī)聯(lián)合狀態(tài)空間和所述多干擾機(jī)聯(lián)合動(dòng)作空間的方法包括:結(jié)合空域、頻域以及能量域信息,設(shè)計(jì)統(tǒng)一的全局獎(jiǎng)勵(lì)函數(shù),用于引導(dǎo)干擾機(jī)學(xué)習(xí)最優(yōu)策略;所述全局獎(jiǎng)勵(lì)函數(shù)綜合多個(gè)評(píng)價(jià)因素,包括干擾機(jī)與雷達(dá)的頻域重合度、干擾機(jī)與雷達(dá)的距離、對(duì)雷達(dá)接收端信干比的影響程度以及其他約束條件。
13、優(yōu)選的,采用vdn算法進(jìn)行所述最優(yōu)策略學(xué)習(xí),過程包括:
14、采用值分解網(wǎng)絡(luò)算法來訓(xùn)練多智能體系統(tǒng),每個(gè)干擾機(jī)的網(wǎng)絡(luò)結(jié)構(gòu)包含兩個(gè)神經(jīng)網(wǎng)絡(luò):用于估計(jì)當(dāng)前策略的估計(jì)q網(wǎng)絡(luò),以及用于穩(wěn)定訓(xùn)練的目標(biāo)q網(wǎng)絡(luò);干擾機(jī)根據(jù)當(dāng)前策略執(zhí)行動(dòng)作,收集四元組(sn,an,rn,sn+1),存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū);當(dāng)緩沖區(qū)放滿后,從中采樣若干數(shù)據(jù),計(jì)算td誤差,并通過反向傳播算法更新估計(jì)q網(wǎng)絡(luò)的參數(shù);定期將估計(jì)q網(wǎng)絡(luò)的參數(shù)復(fù)制到目標(biāo)q網(wǎng)絡(luò),以保持學(xué)習(xí)過程的穩(wěn)定性;采用ε-greedy策略,逐漸減少隨機(jī)行為的比例。
15、本發(fā)明還提供了一種基于多智能體強(qiáng)化學(xué)習(xí)的多域聯(lián)合干擾資源分配系統(tǒng),所述系統(tǒng)用于實(shí)現(xiàn)上述方法,包括:構(gòu)建模塊、定義模塊、設(shè)計(jì)模塊、構(gòu)造模塊、學(xué)習(xí)模塊、決策模塊;
16、所述構(gòu)建模塊用于基于多干擾機(jī)協(xié)同干擾任務(wù),構(gòu)建多對(duì)多對(duì)抗環(huán)境模型;
17、所述定義模塊用于基于所述多對(duì)多對(duì)抗環(huán)境模型,定義多干擾機(jī)聯(lián)合狀態(tài)空間;
18、所述設(shè)計(jì)模塊用于基于所述多對(duì)多對(duì)抗環(huán)境模型,設(shè)計(jì)多干擾機(jī)聯(lián)合動(dòng)作空間;
19、所述構(gòu)造模塊用于基于所述多干擾機(jī)聯(lián)合狀態(tài)空間和所述多干擾機(jī)聯(lián)合動(dòng)作空間,構(gòu)造多域信息聯(lián)合表征的全局獎(jiǎng)勵(lì)函數(shù);
20、所述學(xué)習(xí)模塊用于基于所述全局獎(jiǎng)勵(lì)函數(shù),進(jìn)行最優(yōu)策略學(xué)習(xí);
21、所述決策模塊用于多智能體系統(tǒng)根據(jù)學(xué)習(xí)到的最優(yōu)策略做出決策。
22、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:
23、(1)通過采用值分解網(wǎng)絡(luò)(vdn)算法,并設(shè)計(jì)多干擾機(jī)聯(lián)合狀態(tài)空間、多干擾機(jī)聯(lián)合動(dòng)作空間和全局獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)了對(duì)我方多干擾機(jī)的干擾波束分配和干擾功率大小的動(dòng)態(tài)調(diào)整,從而能夠提高對(duì)敵方雷達(dá)系統(tǒng)的干擾效率和靈活性,確保在復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境中實(shí)現(xiàn)高效干擾。此外,該方法具備高度的實(shí)時(shí)響應(yīng)能力,能夠在短時(shí)間內(nèi)快速做出決策,適應(yīng)戰(zhàn)場(chǎng)環(huán)境的快速變化。通過自適應(yīng)學(xué)習(xí),模型能夠不斷增強(qiáng)魯棒性和自適應(yīng)性,減少對(duì)外部條件的依賴,簡(jiǎn)化了模型實(shí)現(xiàn)和維護(hù)過程。
24、(2)通過構(gòu)造多域信息聯(lián)合表征的全局獎(jiǎng)勵(lì)函數(shù),綜合考慮干擾機(jī)與雷達(dá)的頻域重合度、干擾機(jī)與雷達(dá)的距離、對(duì)雷達(dá)接收端信干比的影響程度以及其他約束條件等多個(gè)因素,實(shí)現(xiàn)了對(duì)我方有限干擾資源從多維度上的整體優(yōu)化分配,增強(qiáng)了模型的可靠性和可操作性,為現(xiàn)代電子戰(zhàn)提供了強(qiáng)有力的技術(shù)支持。