最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

博弈策略規(guī)劃方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)

文檔序號:41950032發(fā)布日期:2025-05-16 14:08閱讀:4來源:國知局
博弈策略規(guī)劃方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)

本技術(shù)涉及人工智能,尤其涉及一種博弈策略規(guī)劃方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、多智能體博弈策略規(guī)劃技術(shù),憑借其動態(tài)環(huán)境適應(yīng)性、高效的信息共享機制、多目標優(yōu)化能力、卓越的魯棒性和容錯性,已成為復(fù)雜互動環(huán)境中決策者制定最優(yōu)策略的重要工具。此技術(shù)在機器人協(xié)作任務(wù)協(xié)調(diào)、游戲娛樂策略布局、智能交通系統(tǒng)優(yōu)化等多個領(lǐng)域展現(xiàn)出了廣泛的應(yīng)用潛力,顯著提升了系統(tǒng)的工作效率與響應(yīng)速度。

2、然而,當(dāng)前多智能體博弈策略規(guī)劃方法大多依賴于基于規(guī)則的方法,這些規(guī)則往往由人工預(yù)先設(shè)定,缺乏靈活性和實時性。由于無法充分利用實時動態(tài)數(shù)據(jù),這些方法在博弈策略生成過程中存在準確性不足的問題。具體而言,靜態(tài)的規(guī)則配置難以捕捉環(huán)境中復(fù)雜多變的交互關(guān)系,導(dǎo)致策略規(guī)劃結(jié)果與實際需求存在偏差,影響了系統(tǒng)的整體性能和決策效果。因此,如何在多智能體博弈策略規(guī)劃過程中充分利用實時有效數(shù)據(jù),以提高策略生成的準確性和效率,成為當(dāng)前亟待解決的關(guān)鍵問題。


技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供了一種博弈策略規(guī)劃方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。

2、根據(jù)本技術(shù)的第一方面,提供了一種博弈策略規(guī)劃方法,應(yīng)用于多智能體,多智能體包括至少一個無人機和至少一個無人艇,所述方法包括:

3、獲取目標博弈區(qū)域的區(qū)域數(shù)據(jù),所述區(qū)域數(shù)據(jù)包括環(huán)境數(shù)據(jù)、姿態(tài)數(shù)據(jù)、位置數(shù)據(jù)和博弈方數(shù)據(jù);

4、根據(jù)區(qū)域數(shù)據(jù)進行環(huán)境建模,構(gòu)建狀態(tài)空間、動作空間及約束條件;

5、根據(jù)狀態(tài)空間、動作空間及約束條件確定目標函數(shù),并利用蒙特卡洛算法與確定性策略梯度算法求解生成博弈反制策略集;

6、根據(jù)當(dāng)前任務(wù)的任務(wù)數(shù)據(jù)、所述區(qū)域數(shù)據(jù)和所述博弈反制策略集,確定當(dāng)前任務(wù)的任務(wù)規(guī)劃數(shù)據(jù),所述任務(wù)規(guī)劃數(shù)據(jù)包括每個智能體的運動規(guī)劃數(shù)據(jù);

7、控制每個智能體根據(jù)其對應(yīng)的運動規(guī)劃數(shù)據(jù)執(zhí)行當(dāng)前任務(wù)。

8、根據(jù)本技術(shù)一實施方式,所述環(huán)境數(shù)據(jù)包括水下數(shù)據(jù)以及氣象數(shù)據(jù);相應(yīng)的,

9、獲取目標博弈區(qū)域的區(qū)域數(shù)據(jù),包括:

10、基于視覺與激光雷達傳感器和聲吶傳感器獲取博弈方數(shù)據(jù)及水下數(shù)據(jù);

11、基于慣性測量單元測量多智能體的姿態(tài)數(shù)據(jù),所述姿態(tài)數(shù)據(jù)包括姿態(tài)、加速度、角速度、橫搖與艏搖;

12、基于環(huán)境監(jiān)測傳感器監(jiān)測目標博弈區(qū)域的氣象數(shù)據(jù),所述氣象數(shù)據(jù)包括風(fēng)速、風(fēng)向及溫濕度;

13、基于全球?qū)Ш脚c定位單元獲取位置數(shù)據(jù)。

14、根據(jù)本技術(shù)一實施方式,所述根據(jù)狀態(tài)空間、動作空間及約束條件確定目標函數(shù),并利用蒙特卡洛算法與確定性策略梯度算法求解生成博弈反制策略集,包括:

15、根據(jù)狀態(tài)空間、動作空間和約束條件確定目標函數(shù):

16、

17、其中,為策略的參數(shù),e為期望,s為狀態(tài)空間內(nèi)的狀態(tài),a為動作空間內(nèi)與狀態(tài)對應(yīng)的動作,μ為策略,為狀態(tài)s按照策略μ的分布采樣,表示獎懲函數(shù),獎懲函數(shù)用于根據(jù)獎勵機制確定狀態(tài)s在執(zhí)行動作a后的獎勵;

18、確定目標函數(shù)的梯度為:

19、

20、其中,為從經(jīng)驗回放緩沖區(qū)d中采樣得到的狀態(tài)s的期望,為策略函數(shù)關(guān)于的梯度,為狀態(tài)s下,智能體根據(jù)參數(shù)選擇動作a的概率分布,為動作價值函數(shù)關(guān)于動作a的梯度,并將動作a固定為策略所選擇的動作,為狀態(tài)s下采取動作a,并遵循策略μ繼續(xù)交互下去所獲得的期望累積獎勵;

21、基于蒙特卡洛算法、確定性策略梯度算法以及目標函數(shù)的梯度,確定使目標函數(shù)最大化的多個策略參數(shù);

22、根據(jù)使目標函數(shù)最大化的多個策略參數(shù)和,確定多個初始博弈反制策略;

23、對所述多個初始博弈反制策略進行多輪迭代博弈仿真,并基于多輪迭代博弈仿真結(jié)果確定博弈反制策略集。

24、根據(jù)本技術(shù)一實施方式,所述根據(jù)當(dāng)前任務(wù)的任務(wù)數(shù)據(jù)、所述區(qū)域數(shù)據(jù)和所述博弈反制策略集,確定當(dāng)前任務(wù)的任務(wù)規(guī)劃數(shù)據(jù),包括:

25、根據(jù)區(qū)域數(shù)據(jù)和任務(wù)數(shù)據(jù),建立效能表征模型:

26、

27、其中,,n為指標的總數(shù);

28、根據(jù)效能表征模型、區(qū)域數(shù)據(jù)、任務(wù)數(shù)據(jù),結(jié)合時空混合約束,建立博弈多約束模型;

29、根據(jù)最短作業(yè)優(yōu)先算法構(gòu)建資源調(diào)度體系;

30、根據(jù)當(dāng)前任務(wù)的任務(wù)數(shù)據(jù)、博弈反制策略集、效能表征模型、博弈多約束模型以及資源調(diào)度體系將當(dāng)前任務(wù)分解為任務(wù)分配、任務(wù)調(diào)度、路徑規(guī)劃及軌跡跟蹤,生成多層次任務(wù)求解框架,并逐層次進行任務(wù)求解,得到任務(wù)規(guī)劃數(shù)據(jù)。

31、根據(jù)本技術(shù)一實施方式,所述方法還包括:

32、對任務(wù)規(guī)劃數(shù)據(jù)進行測試與評估,在測試與評估通過的情況下,確定采用當(dāng)前的任務(wù)規(guī)劃數(shù)據(jù);

33、根據(jù)測試與評估結(jié)果迭代博弈反制策略集、效能表征模型、博弈多約束模型。

34、根據(jù)本技術(shù)一實施方式,所述控制每個智能體根據(jù)其對應(yīng)的運動規(guī)劃數(shù)據(jù)執(zhí)行當(dāng)前任務(wù),包括:

35、根據(jù)各智能體的運動規(guī)劃數(shù)據(jù)對各智能體的避障、巡航、協(xié)同作業(yè)進行控制;

36、根據(jù)各智能體的運動規(guī)劃數(shù)據(jù),對各智能體的運動參數(shù)進行控制。

37、根據(jù)本技術(shù)的第二方面,提供了一種博弈策略規(guī)劃系統(tǒng),應(yīng)用于多智能體,多智能體包括至少一個無人機和至少一個無人艇,所述系統(tǒng)包括:

38、多智能體環(huán)境感知模塊,用于獲取目標博弈區(qū)域的區(qū)域數(shù)據(jù),所述區(qū)域數(shù)據(jù)包括環(huán)境數(shù)據(jù)、姿態(tài)數(shù)據(jù)、位置數(shù)據(jù)和博弈方數(shù)據(jù);

39、第一博弈反制數(shù)據(jù)集生成模塊,用于根據(jù)區(qū)域數(shù)據(jù)進行環(huán)境建模,構(gòu)建狀態(tài)空間、動作空間及約束條件;

40、第二博弈反制數(shù)據(jù)集生成模塊,用于根據(jù)狀態(tài)空間、動作空間及約束條件確定目標函數(shù),并利用蒙特卡洛算法與確定性策略梯度算法求解生成博弈反制策略集;

41、多層次規(guī)劃任務(wù)分配模塊,用于根據(jù)當(dāng)前任務(wù)的任務(wù)數(shù)據(jù)、所述區(qū)域數(shù)據(jù)和所述博弈反制策略集,確定當(dāng)前任務(wù)的任務(wù)規(guī)劃數(shù)據(jù),所述任務(wù)規(guī)劃數(shù)據(jù)包括每個智能體的運動規(guī)劃數(shù)據(jù);

42、多智能體運動控制模塊,用于控制每個智能體根據(jù)其對應(yīng)的運動規(guī)劃數(shù)據(jù)執(zhí)行當(dāng)前任務(wù)。

43、根據(jù)本技術(shù)一實施方式,所述環(huán)境數(shù)據(jù)包括水下數(shù)據(jù)以及氣象數(shù)據(jù);相應(yīng)的,

44、所述多智能體環(huán)境感知模塊包括:

45、第一獲取子模塊,基于視覺與激光雷達傳感器和聲吶傳感器獲取博弈方數(shù)據(jù)及水下數(shù)據(jù);

46、第二獲取子模塊,用于基于慣性測量單元測量多智能體的姿態(tài)數(shù)據(jù),所述姿態(tài)數(shù)據(jù)包括姿態(tài)、加速度、角速度、橫搖與艏搖;

47、第三獲取子模塊,用于基于環(huán)境監(jiān)測傳感器監(jiān)測目標博弈區(qū)域的氣象數(shù)據(jù),所述氣象數(shù)據(jù)包括風(fēng)速、風(fēng)向及溫濕度;

48、第四獲取子模塊,用于基于全球?qū)Ш脚c定位單元獲取位置數(shù)據(jù)。

49、根據(jù)本技術(shù)的第三方面,提供了一種電子設(shè)備,包括:

50、至少一個處理器;以及

51、與所述至少一個處理器通信連接的存儲器;其中,

52、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本技術(shù)所述的方法。

53、根據(jù)本技術(shù)的第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),所述計算機指令用于使所述計算機執(zhí)行本技術(shù)所述的方法。

54、本技術(shù)實施例的博弈策略規(guī)劃方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì),通過實時獲取目標博弈區(qū)域的環(huán)境數(shù)據(jù)、姿態(tài)數(shù)據(jù)、位置數(shù)據(jù)和博弈方數(shù)據(jù),構(gòu)建精確的環(huán)境模型及狀態(tài)、動作空間,并運用蒙特卡洛算法與確定性策略梯度算法高效求解當(dāng)前任務(wù)的目標函數(shù),生成博弈反制策略集,并基于博弈反制策略集確定每個智能體執(zhí)行當(dāng)前任務(wù)的運動規(guī)劃數(shù)據(jù),控制每個智能體按規(guī)劃執(zhí)行任務(wù),顯著提升了多智能體的博弈反制策略生成準確性、任務(wù)分配準確性與任務(wù)執(zhí)行效率。

55、需要理解的是,本技術(shù)的教導(dǎo)并不需要實現(xiàn)上面所述的全部有益效果,而是特定的技術(shù)方案可以實現(xiàn)特定的技術(shù)效果,并且本技術(shù)的其他實施方式還能夠?qū)崿F(xiàn)上面未提到的有益效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1