基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)

文檔序號：41944390發(fā)布日期：2025-05-16 14:01閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于無人機集群通信，涉及無人機集群的通信接入技術(shù)，具體涉及一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)。

背景技術(shù)：

1、目前，在無人機集群通信接入技術(shù)領(lǐng)域，正交多址接入技術(shù)占據(jù)主要地位，其原理在于將無線資源在時間、頻率或碼域上實施正交劃分，確保多用戶能夠互不干擾地共享通信資源。然而，現(xiàn)有以正交多址接入技術(shù)為主導(dǎo)的無人機集群通信接入技術(shù)存在顯著不足。一方面，資源利用效率低下，尤其在無人機任務(wù)頻繁變動、數(shù)據(jù)流量急劇波動的情境下，固定分配的時隙、頻段或碼道容易出現(xiàn)閑置或過載現(xiàn)象。例如，應(yīng)對突發(fā)事件時，負責(zé)重點監(jiān)測區(qū)域的無人機數(shù)據(jù)量激增，常規(guī)分配的資源難以滿足其傳輸需求，導(dǎo)致信息滯后，而同時其他區(qū)域相對空閑的無人機資源卻無法靈活調(diào)配以支持這些繁忙的無人機。另一方面，系統(tǒng)缺乏靈活性，正交多址接入技術(shù)高度依賴于精確的同步機制，隨著無人機集群規(guī)模的擴大或面臨復(fù)雜電磁環(huán)境的干擾，維持精確同步變得極為困難，容易導(dǎo)致時隙錯位、頻率偏差等同步問題，進而引發(fā)通信中斷或誤碼率急劇上升，對無人機集群的整體協(xié)作效能構(gòu)成嚴(yán)重威脅。

2、因此，本領(lǐng)域迫切需要研發(fā)一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入技術(shù)方案，旨在突破傳統(tǒng)正交技術(shù)的限制，以實現(xiàn)無人機集群通信接入的高效與靈活性，為無人機集群應(yīng)用的進一步拓展奠定堅實基礎(chǔ)。

技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)存在的上述問題，本發(fā)明提供了一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)。本發(fā)明首先采用非正交多址接入(noma)技術(shù)，打破了傳統(tǒng)正交多址接入(oma)帶來的頻譜利用限制，允許多架無人機在同一頻譜上并行傳輸信號，摒棄了嚴(yán)格的頻譜正交劃分。與此同時，在步驟4-8中引入多智能體深度確定性策略梯度(multi-agent?deep?deterministic?policy?gradient,maddpg)強化學(xué)習(xí)算法，模擬無人機集群的通信過程，使得每架無人機能夠根據(jù)環(huán)境自主學(xué)習(xí)并優(yōu)化接入決策。本發(fā)明技術(shù)方案優(yōu)化了無人機集群上行鏈路通信系統(tǒng)的資源分配與傳輸性能，提升了頻譜利用率，并實現(xiàn)了無人機發(fā)射功率和接入順序的靈活按需分配。通過這些優(yōu)化，能夠有效降低干擾、減少接入時延與碰撞概率，從而顯著提高通信效率與可靠性，確保數(shù)據(jù)傳輸?shù)姆€(wěn)定性。

2、本發(fā)明采取如下技術(shù)方案：

3、基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法，按以下步驟：

4、步驟1：確定無人機集群上行鏈路非正交多址接入的通信架構(gòu)；

5、步驟2：基于通信架構(gòu)，將無人機參數(shù)量化，完成無人機集群上行鏈路非正交多址接入的數(shù)學(xué)建模；

6、步驟3：結(jié)合無人機集群上行鏈路非正交多址接入的數(shù)學(xué)模型，搭建無人機集群上行鏈路的非正交多址接入模擬通信場景；

7、步驟4：定義每個無人機智能體的狀態(tài)空間和動作空間，設(shè)計每個智能體的策略actor網(wǎng)絡(luò)和價值critic網(wǎng)絡(luò)；

8、步驟5：初始化每個智能體的當(dāng)前狀態(tài)、動作及actor網(wǎng)絡(luò)、critic網(wǎng)絡(luò)的參數(shù)；

9、步驟6：在當(dāng)前時隙，計算每個智能體的信干噪比，若信干噪比大于最小信干噪比閾值，則認定為接入成功，否則，則認定為接入失??；

10、步驟7：進行經(jīng)驗回放與策略、價值網(wǎng)絡(luò)的更新；

11、步驟8：返回執(zhí)行步驟5，直至達到最大迭代次數(shù)。

12、優(yōu)選的，步驟1中，無人機集群上行鏈路的非正交多址接入的通信架構(gòu)由一個接收無人機和n個發(fā)送無人機組成，其中，每個發(fā)送無人機都有不同的信道狀態(tài)以及分配的發(fā)射功率。

13、優(yōu)選的，步驟2中，基于整體的通信架構(gòu)，將無人機信道狀態(tài)、發(fā)射功率等關(guān)鍵參數(shù)量化，完成無人機集群上行鏈路非正交多址接入的數(shù)學(xué)建模。

14、信道建模為:

15、

16、設(shè)為發(fā)送無人機i與接收無人機之間的信道系數(shù)，其中，hi是參數(shù)為λi的小尺度瑞利衰落信道系數(shù)，且|hi|2是相應(yīng)的信道功率增益，它服從指數(shù)分布hi|2～exp(λi)。li是大尺度衰落路徑損耗因子，它通常取決于發(fā)射端無人機與接收端無人機之間的通信距離以及周圍環(huán)境。

17、設(shè)為在時隙t期間成功接入接收端無人機的無人機索引集合，表示在過去t個時隙內(nèi)成功接入的無人機集合。因此，在當(dāng)前時隙k時接收無人機所收到的信號為：

18、

19、其中，pi是無人機i的發(fā)射功率，n為信道的噪聲。

20、計算無人機i的信干噪比，如下表達式所示：

21、

22、其中，代表無人機i的信道增益。

23、判斷無人機i在當(dāng)前時隙是否成功接入，還需要滿足以下條件：

24、εi＞δ?(4)

25、其中，δ是最小信干噪比閾值。

26、優(yōu)選的，步驟3中，結(jié)合無人機集群上行鏈路非正交多址接入的數(shù)學(xué)模型，搭建無人機集群上行鏈路的非正交多址接入模擬通信場景，明確以下仿真參數(shù)：無人機數(shù)量n、無人機信道狀態(tài)分配的無人機發(fā)射功率p＝{p1,p2,...,pn}、仿真場景中的最大迭代次數(shù)tmax、每輪迭代的最大接入時隙數(shù)t。

27、max

28、優(yōu)選的，步驟4中，首先定義每個無人機智能體的狀態(tài)空間和動作空間。每個智能體的狀態(tài)si表示該智能體與環(huán)境的交互情況，對于無人機集群中的智能體i，其狀態(tài)空間si為：

29、

30、其中，oi表示智能體i的當(dāng)前觀測信息。

31、動作空間ai是智能體在每個時刻可以采取的行為，對于每個智能體i，可采取的動作為：

32、

33、因此，每個智能體的動作空間ai＝{0,1}為二值決策。

34、然后設(shè)計每個智能體i的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)。actor網(wǎng)絡(luò)用于選擇智能體在給定狀態(tài)下的動作，每個智能體i的策略是基于其當(dāng)前狀態(tài)si生成動作ai的函數(shù)。

35、策略函數(shù)πi與動作ai的關(guān)系可以表示為：

36、

37、其中，πi為智能體i的策略，為其網(wǎng)絡(luò)參數(shù)。

38、設(shè)置actor網(wǎng)絡(luò)對于第i個智能體的期望累積獎勵的目標(biāo)函數(shù)j(πi)，通過最大化j(πi)來調(diào)整策略πi：

39、

40、其中，為累計獎勵的期望，rit為智能體i在時隙t獲得的即時獎勵，γ為折扣因子。

41、設(shè)置critic網(wǎng)絡(luò)用于評估智能體i在給定狀態(tài)s和所有智能體動作序列(a1,...,an)下的期望累積獎勵，即策略估計值函數(shù)

42、

43、其中，為critic網(wǎng)絡(luò)參數(shù)，s0和a0為待給定的狀態(tài)和所有智能體的動作序列，s和a為當(dāng)前智能體i給定的狀態(tài)和所有智能體的動作序列。

44、優(yōu)選的，步驟5中，在每一輪迭代開始時，初始化每個智能體i的當(dāng)前狀態(tài)、動作、actor網(wǎng)絡(luò)、critic網(wǎng)絡(luò)及其目標(biāo)網(wǎng)絡(luò)的參數(shù)目標(biāo)網(wǎng)絡(luò)為actor和critic網(wǎng)絡(luò)的副本，用來提高訓(xùn)練的穩(wěn)定性，通過軟更新來減少梯度更新的方差，避免不穩(wěn)定的行為。將所有無人機按信道狀態(tài)從好到差排序，按該順序依次給無人機分配從大到小的發(fā)射功率。同時初始化當(dāng)前時隙數(shù)t、已接入無人機的索引集合和經(jīng)驗回放緩沖區(qū)，其中經(jīng)驗回放緩沖區(qū)用于存儲智能體與環(huán)境交互的經(jīng)驗，包括當(dāng)前狀態(tài)、當(dāng)前狀態(tài)下的動作、獲得的獎勵、下一個狀態(tài)(si,ai,ri,si')。ri,si'分別是無人機智能體i獲得的獎勵和下一個狀態(tài)。

45、優(yōu)選的，步驟6中，在當(dāng)前時隙t，根據(jù)每個智能體的actor網(wǎng)絡(luò)策略的動作統(tǒng)計選擇接入的無人機智能體數(shù)量，按接入順序計算每個智能體i的信干噪比εi，若滿足最小信干噪比閾值εi＞δ，則認定為接入成功，給予即時獎勵rit，并計入在時隙t期間成功接入的無人機索引集合在本輪迭代中無需再接入；否則，則認定為接入失敗，給予即時懲罰-rit，并停止當(dāng)前時隙所有無人機的接入。然后更新所有無人機的狀態(tài)si'，包括信道狀態(tài)、當(dāng)前發(fā)射功率和當(dāng)前觀測信息。

46、優(yōu)選的，步驟7中，進行經(jīng)驗回放與策略網(wǎng)絡(luò)的更新，將當(dāng)前每個智能體i的狀態(tài)、動作、獎勵、下一狀態(tài)(si,ai,ri,si')存儲到經(jīng)驗回放緩沖區(qū)并從中隨機抽取一批經(jīng)驗樣本，通過這些樣本對智能體的actor和critic網(wǎng)絡(luò)進行更新。

47、首先通過最小化損失函數(shù)來更新critic網(wǎng)絡(luò)，損失函數(shù)基于時序差分(td)方法計算，即：

48、

49、其中，目標(biāo)值y由以下公式計算：

50、

51、其中，qi'表示目標(biāo)critic網(wǎng)絡(luò)，πi'表示目標(biāo)actor網(wǎng)絡(luò)，為目標(biāo)critic網(wǎng)絡(luò)參數(shù)，為目標(biāo)actor網(wǎng)絡(luò)參數(shù)。

52、然后通過策略梯度方法更新actor策略網(wǎng)絡(luò)，策略梯度更新公式為：

53、

54、其中，為計算目標(biāo)函數(shù)j(πi)對的梯度，為計算策略πi對的梯度，為計算策略估計值函數(shù)qi對動作ai的梯度。

55、最后通過軟更新對目標(biāo)網(wǎng)絡(luò)的參數(shù)進行調(diào)整，更新規(guī)則為：

56、

57、其中，τ為軟更新的步長。

58、優(yōu)選的，步驟8，重復(fù)步驟5-7，在每個時隙中，重復(fù)無人機的接入、經(jīng)驗存儲與網(wǎng)絡(luò)更新的過程。當(dāng)滿足每輪迭代的最大接入時隙數(shù)tmax或無人機索引集合等于無人機數(shù)量n時，初始化并在下一輪迭代中重新進行訓(xùn)練，直到達到最大迭代次數(shù)tmax即訓(xùn)練結(jié)束。

59、本發(fā)明還公開了一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入系統(tǒng)，用于執(zhí)行上述的方法，包括如下模塊：

60、通信架構(gòu)確定模塊：確定無人機集群上行鏈路非正交多址接入的通信架構(gòu)；

61、數(shù)學(xué)建模模塊：基于通信架構(gòu)，將無人機參數(shù)量化，完成無人機集群上行鏈路非正交多址接入的數(shù)學(xué)建模；

62、模擬通信場景搭建模塊：結(jié)合無人機集群上行鏈路非正交多址接入的數(shù)學(xué)模型，搭建無人機集群上行鏈路的非正交多址接入模擬通信場景；

63、定義空間及網(wǎng)絡(luò)設(shè)計模塊：定義每個無人機智能體的狀態(tài)空間和動作空間，設(shè)計每個智能體的策略actor網(wǎng)絡(luò)和價值critic網(wǎng)絡(luò)；

64、初始化模塊：初始化每個智能體的當(dāng)前狀態(tài)、動作及actor網(wǎng)絡(luò)、critic網(wǎng)絡(luò)的參數(shù)；

65、判斷模塊：在當(dāng)前時隙，計算每個智能體的信干噪比，若信干噪比大于最小信干噪比閾值，則認定為接入成功，否則，則認定為接入失??；

66、更新模塊：進行經(jīng)驗回放與策略、價值網(wǎng)絡(luò)的更新；

67、迭代模塊：在每個時隙中，重復(fù)無人機的接入、經(jīng)驗存儲與網(wǎng)絡(luò)更新的過程，直至達到最大迭代次數(shù)。

68、本發(fā)明一種基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)的顯著技術(shù)效果如下：

69、(1)本發(fā)明采用非正交多址接入技術(shù)替代了傳統(tǒng)通信模式下對頻譜資源的正交化分配，允許多個無人機在同一頻譜資源上并發(fā)傳輸信號。這種方式有效利用了頻譜資源，避免了固定分配方式帶來的資源閑置和浪費，大幅提升了頻譜效率，為無人機集群的海量數(shù)據(jù)傳輸提供了堅實的支持。

70、(2)深度強化學(xué)習(xí)賦予無人機集群高度智能化的自主學(xué)習(xí)與精準(zhǔn)環(huán)境適應(yīng)能力。通過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，建立了一個既包含競爭又具合作機制的多智能體深度強化學(xué)習(xí)框架和策略優(yōu)化機制，模擬無人機集群的接入過程，實現(xiàn)了無人機的自主訓(xùn)練與智能決策。本發(fā)明能夠根據(jù)集群的實時動態(tài)環(huán)境智能調(diào)整接入策略，降低了因相互干擾導(dǎo)致碰撞的概率，提升了無人機集群通信的穩(wěn)定性與可靠性，確保通信鏈路暢通，從而優(yōu)化了集群的整體通信性能。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：祝麗娜,蔣聽
技術(shù)所有人：杭州電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種中草藥加工用的低溫干燥裝置的制作方法
上一篇：一種工業(yè)供水的處理系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于強化學(xué)習(xí)的無人機集群上行鏈路的非正交多址接入方法及系統(tǒng)