最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)

文檔序號:41944390發(fā)布日期:2025-05-16 14:01閱讀:4來源:國知局
基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)

本發(fā)明屬于無人機集群通信,涉及無人機集群的通信接入技術(shù),具體涉及一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)。


背景技術(shù):

1、目前,在無人機集群通信接入技術(shù)領(lǐng)域,正交多址接入技術(shù)占據(jù)主要地位,其原理在于將無線資源在時間、頻率或碼域上實施正交劃分,確保多用戶能夠互不干擾地共享通信資源。然而,現(xiàn)有以正交多址接入技術(shù)為主導(dǎo)的無人機集群通信接入技術(shù)存在顯著不足。一方面,資源利用效率低下,尤其在無人機任務(wù)頻繁變動、數(shù)據(jù)流量急劇波動的情境下,固定分配的時隙、頻段或碼道容易出現(xiàn)閑置或過載現(xiàn)象。例如,應(yīng)對突發(fā)事件時,負責(zé)重點監(jiān)測區(qū)域的無人機數(shù)據(jù)量激增,常規(guī)分配的資源難以滿足其傳輸需求,導(dǎo)致信息滯后,而同時其他區(qū)域相對空閑的無人機資源卻無法靈活調(diào)配以支持這些繁忙的無人機。另一方面,系統(tǒng)缺乏靈活性,正交多址接入技術(shù)高度依賴于精確的同步機制,隨著無人機集群規(guī)模的擴大或面臨復(fù)雜電磁環(huán)境的干擾,維持精確同步變得極為困難,容易導(dǎo)致時隙錯位、頻率偏差等同步問題,進而引發(fā)通信中斷或誤碼率急劇上升,對無人機集群的整體協(xié)作效能構(gòu)成嚴(yán)重威脅。

2、因此,本領(lǐng)域迫切需要研發(fā)一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入技術(shù)方案,旨在突破傳統(tǒng)正交技術(shù)的限制,以實現(xiàn)無人機集群通信接入的高效與靈活性,為無人機集群應(yīng)用的進一步拓展奠定堅實基礎(chǔ)。


技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)存在的上述問題,本發(fā)明提供了一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)。本發(fā)明首先采用非正交多址接入(noma)技術(shù),打破了傳統(tǒng)正交多址接入(oma)帶來的頻譜利用限制,允許多架無人機在同一頻譜上并行傳輸信號,摒棄了嚴(yán)格的頻譜正交劃分。與此同時,在步驟4-8中引入多智能體深度確定性策略梯度(multi-agent?deep?deterministic?policy?gradient,maddpg)強化學(xué)習(xí)算法,模擬無人機集群的通信過程,使得每架無人機能夠根據(jù)環(huán)境自主學(xué)習(xí)并優(yōu)化接入決策。本發(fā)明技術(shù)方案優(yōu)化了無人機集群上行鏈路通信系統(tǒng)的資源分配與傳輸性能,提升了頻譜利用率,并實現(xiàn)了無人機發(fā)射功率和接入順序的靈活按需分配。通過這些優(yōu)化,能夠有效降低干擾、減少接入時延與碰撞概率,從而顯著提高通信效率與可靠性,確保數(shù)據(jù)傳輸?shù)姆€(wěn)定性。

2、本發(fā)明采取如下技術(shù)方案:

3、基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法,按以下步驟:

4、步驟1:確定無人機集群上行鏈路非正交多址接入的通信架構(gòu);

5、步驟2:基于通信架構(gòu),將無人機參數(shù)量化,完成無人機集群上行鏈路非正交多址接入的數(shù)學(xué)建模;

6、步驟3:結(jié)合無人機集群上行鏈路非正交多址接入的數(shù)學(xué)模型,搭建無人機集群上行鏈路的非正交多址接入模擬通信場景;

7、步驟4:定義每個無人機智能體的狀態(tài)空間和動作空間,設(shè)計每個智能體的策略actor網(wǎng)絡(luò)和價值critic網(wǎng)絡(luò);

8、步驟5:初始化每個智能體的當(dāng)前狀態(tài)、動作及actor網(wǎng)絡(luò)、critic網(wǎng)絡(luò)的參數(shù);

9、步驟6:在當(dāng)前時隙,計算每個智能體的信干噪比,若信干噪比大于最小信干噪比閾值,則認定為接入成功,否則,則認定為接入失??;

10、步驟7:進行經(jīng)驗回放與策略、價值網(wǎng)絡(luò)的更新;

11、步驟8:返回執(zhí)行步驟5,直至達到最大迭代次數(shù)。

12、優(yōu)選的,步驟1中,無人機集群上行鏈路的非正交多址接入的通信架構(gòu)由一個接收無人機和n個發(fā)送無人機組成,其中,每個發(fā)送無人機都有不同的信道狀態(tài)以及分配的發(fā)射功率。

13、優(yōu)選的,步驟2中,基于整體的通信架構(gòu),將無人機信道狀態(tài)、發(fā)射功率等關(guān)鍵參數(shù)量化,完成無人機集群上行鏈路非正交多址接入的數(shù)學(xué)建模。

14、信道建模為:

15、

16、設(shè)為發(fā)送無人機i與接收無人機之間的信道系數(shù),其中,hi是參數(shù)為λi的小尺度瑞利衰落信道系數(shù),且|hi|2是相應(yīng)的信道功率增益,它服從指數(shù)分布hi|2~exp(λi)。li是大尺度衰落路徑損耗因子,它通常取決于發(fā)射端無人機與接收端無人機之間的通信距離以及周圍環(huán)境。

17、設(shè)為在時隙t期間成功接入接收端無人機的無人機索引集合,表示在過去t個時隙內(nèi)成功接入的無人機集合。因此,在當(dāng)前時隙k時接收無人機所收到的信號為:

18、

19、其中,pi是無人機i的發(fā)射功率,n為信道的噪聲。

20、計算無人機i的信干噪比,如下表達式所示:

21、

22、其中,代表無人機i的信道增益。

23、判斷無人機i在當(dāng)前時隙是否成功接入,還需要滿足以下條件:

24、εi>δ?(4)

25、其中,δ是最小信干噪比閾值。

26、優(yōu)選的,步驟3中,結(jié)合無人機集群上行鏈路非正交多址接入的數(shù)學(xué)模型,搭建無人機集群上行鏈路的非正交多址接入模擬通信場景,明確以下仿真參數(shù):無人機數(shù)量n、無人機信道狀態(tài)分配的無人機發(fā)射功率p={p1,p2,...,pn}、仿真場景中的最大迭代次數(shù)tmax、每輪迭代的最大接入時隙數(shù)t。

27、max

28、優(yōu)選的,步驟4中,首先定義每個無人機智能體的狀態(tài)空間和動作空間。每個智能體的狀態(tài)si表示該智能體與環(huán)境的交互情況,對于無人機集群中的智能體i,其狀態(tài)空間si為:

29、

30、其中,oi表示智能體i的當(dāng)前觀測信息。

31、動作空間ai是智能體在每個時刻可以采取的行為,對于每個智能體i,可采取的動作為:

32、

33、因此,每個智能體的動作空間ai={0,1}為二值決策。

34、然后設(shè)計每個智能體i的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)。actor網(wǎng)絡(luò)用于選擇智能體在給定狀態(tài)下的動作,每個智能體i的策略是基于其當(dāng)前狀態(tài)si生成動作ai的函數(shù)。

35、策略函數(shù)πi與動作ai的關(guān)系可以表示為:

36、

37、其中,πi為智能體i的策略,為其網(wǎng)絡(luò)參數(shù)。

38、設(shè)置actor網(wǎng)絡(luò)對于第i個智能體的期望累積獎勵的目標(biāo)函數(shù)j(πi),通過最大化j(πi)來調(diào)整策略πi:

39、

40、其中,為累計獎勵的期望,rit為智能體i在時隙t獲得的即時獎勵,γ為折扣因子。

41、設(shè)置critic網(wǎng)絡(luò)用于評估智能體i在給定狀態(tài)s和所有智能體動作序列(a1,...,an)下的期望累積獎勵,即策略估計值函數(shù)

42、

43、其中,為critic網(wǎng)絡(luò)參數(shù),s0和a0為待給定的狀態(tài)和所有智能體的動作序列,s和a為當(dāng)前智能體i給定的狀態(tài)和所有智能體的動作序列。

44、優(yōu)選的,步驟5中,在每一輪迭代開始時,初始化每個智能體i的當(dāng)前狀態(tài)、動作、actor網(wǎng)絡(luò)、critic網(wǎng)絡(luò)及其目標(biāo)網(wǎng)絡(luò)的參數(shù)目標(biāo)網(wǎng)絡(luò)為actor和critic網(wǎng)絡(luò)的副本,用來提高訓(xùn)練的穩(wěn)定性,通過軟更新來減少梯度更新的方差,避免不穩(wěn)定的行為。將所有無人機按信道狀態(tài)從好到差排序,按該順序依次給無人機分配從大到小的發(fā)射功率。同時初始化當(dāng)前時隙數(shù)t、已接入無人機的索引集合和經(jīng)驗回放緩沖區(qū),其中經(jīng)驗回放緩沖區(qū)用于存儲智能體與環(huán)境交互的經(jīng)驗,包括當(dāng)前狀態(tài)、當(dāng)前狀態(tài)下的動作、獲得的獎勵、下一個狀態(tài)(si,ai,ri,si')。ri,si'分別是無人機智能體i獲得的獎勵和下一個狀態(tài)。

45、優(yōu)選的,步驟6中,在當(dāng)前時隙t,根據(jù)每個智能體的actor網(wǎng)絡(luò)策略的動作統(tǒng)計選擇接入的無人機智能體數(shù)量,按接入順序計算每個智能體i的信干噪比εi,若滿足最小信干噪比閾值εi>δ,則認定為接入成功,給予即時獎勵rit,并計入在時隙t期間成功接入的無人機索引集合在本輪迭代中無需再接入;否則,則認定為接入失敗,給予即時懲罰-rit,并停止當(dāng)前時隙所有無人機的接入。然后更新所有無人機的狀態(tài)si',包括信道狀態(tài)、當(dāng)前發(fā)射功率和當(dāng)前觀測信息。

46、優(yōu)選的,步驟7中,進行經(jīng)驗回放與策略網(wǎng)絡(luò)的更新,將當(dāng)前每個智能體i的狀態(tài)、動作、獎勵、下一狀態(tài)(si,ai,ri,si')存儲到經(jīng)驗回放緩沖區(qū)并從中隨機抽取一批經(jīng)驗樣本,通過這些樣本對智能體的actor和critic網(wǎng)絡(luò)進行更新。

47、首先通過最小化損失函數(shù)來更新critic網(wǎng)絡(luò),損失函數(shù)基于時序差分(td)方法計算,即:

48、

49、其中,目標(biāo)值y由以下公式計算:

50、

51、其中,qi'表示目標(biāo)critic網(wǎng)絡(luò),πi'表示目標(biāo)actor網(wǎng)絡(luò),為目標(biāo)critic網(wǎng)絡(luò)參數(shù),為目標(biāo)actor網(wǎng)絡(luò)參數(shù)。

52、然后通過策略梯度方法更新actor策略網(wǎng)絡(luò),策略梯度更新公式為:

53、

54、其中,為計算目標(biāo)函數(shù)j(πi)對的梯度,為計算策略πi對的梯度,為計算策略估計值函數(shù)qi對動作ai的梯度。

55、最后通過軟更新對目標(biāo)網(wǎng)絡(luò)的參數(shù)進行調(diào)整,更新規(guī)則為:

56、

57、其中,τ為軟更新的步長。

58、優(yōu)選的,步驟8,重復(fù)步驟5-7,在每個時隙中,重復(fù)無人機的接入、經(jīng)驗存儲與網(wǎng)絡(luò)更新的過程。當(dāng)滿足每輪迭代的最大接入時隙數(shù)tmax或無人機索引集合等于無人機數(shù)量n時,初始化并在下一輪迭代中重新進行訓(xùn)練,直到達到最大迭代次數(shù)tmax即訓(xùn)練結(jié)束。

59、本發(fā)明還公開了一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入系統(tǒng),用于執(zhí)行上述的方法,包括如下模塊:

60、通信架構(gòu)確定模塊:確定無人機集群上行鏈路非正交多址接入的通信架構(gòu);

61、數(shù)學(xué)建模模塊:基于通信架構(gòu),將無人機參數(shù)量化,完成無人機集群上行鏈路非正交多址接入的數(shù)學(xué)建模;

62、模擬通信場景搭建模塊:結(jié)合無人機集群上行鏈路非正交多址接入的數(shù)學(xué)模型,搭建無人機集群上行鏈路的非正交多址接入模擬通信場景;

63、定義空間及網(wǎng)絡(luò)設(shè)計模塊:定義每個無人機智能體的狀態(tài)空間和動作空間,設(shè)計每個智能體的策略actor網(wǎng)絡(luò)和價值critic網(wǎng)絡(luò);

64、初始化模塊:初始化每個智能體的當(dāng)前狀態(tài)、動作及actor網(wǎng)絡(luò)、critic網(wǎng)絡(luò)的參數(shù);

65、判斷模塊:在當(dāng)前時隙,計算每個智能體的信干噪比,若信干噪比大于最小信干噪比閾值,則認定為接入成功,否則,則認定為接入失??;

66、更新模塊:進行經(jīng)驗回放與策略、價值網(wǎng)絡(luò)的更新;

67、迭代模塊:在每個時隙中,重復(fù)無人機的接入、經(jīng)驗存儲與網(wǎng)絡(luò)更新的過程,直至達到最大迭代次數(shù)。

68、本發(fā)明一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)的顯著技術(shù)效果如下:

69、(1)本發(fā)明采用非正交多址接入技術(shù)替代了傳統(tǒng)通信模式下對頻譜資源的正交化分配,允許多個無人機在同一頻譜資源上并發(fā)傳輸信號。這種方式有效利用了頻譜資源,避免了固定分配方式帶來的資源閑置和浪費,大幅提升了頻譜效率,為無人機集群的海量數(shù)據(jù)傳輸提供了堅實的支持。

70、(2)深度強化學(xué)習(xí)賦予無人機集群高度智能化的自主學(xué)習(xí)與精準(zhǔn)環(huán)境適應(yīng)能力。通過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,建立了一個既包含競爭又具合作機制的多智能體深度強化學(xué)習(xí)框架和策略優(yōu)化機制,模擬無人機集群的接入過程,實現(xiàn)了無人機的自主訓(xùn)練與智能決策。本發(fā)明能夠根據(jù)集群的實時動態(tài)環(huán)境智能調(diào)整接入策略,降低了因相互干擾導(dǎo)致碰撞的概率,提升了無人機集群通信的穩(wěn)定性與可靠性,確保通信鏈路暢通,從而優(yōu)化了集群的整體通信性能。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1