最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法

文檔序號:41953971發(fā)布日期:2025-05-16 14:18閱讀:3來源:國知局
一種多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法

本發(fā)明涉及多無人車協(xié)同控制,具體是一種多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法。


背景技術(shù):

1、在智能物流系統(tǒng)中,無人車在物資碼垛、分揀和搬運等場景中發(fā)揮著重要作用,其中物流無人車,也稱為自動引導(dǎo)車(automatic?guided?vehicles,?agv),主要負責(zé)物資運輸工作。在智能交通系統(tǒng)中,大多數(shù)研究關(guān)注單個自主無人車安全通行,而交叉路口多無人車系統(tǒng)安全高效的決策控制問題中仍需進一步研究。目前現(xiàn)有技術(shù)中,有提出通過數(shù)字地圖預(yù)測自主無人車的未來路徑,識別出潛在的威脅和碰撞區(qū)域,采用貝葉斯推理和時間窗濾波的方法進行動作決策。還有提出基于廣義關(guān)鍵轉(zhuǎn)折點的分層決策和規(guī)劃方法,上層規(guī)劃器提取參數(shù)化的模型生成面向行為的路徑,下層規(guī)劃器進行實時的二維規(guī)劃。目前智能物流系統(tǒng)控制大多只關(guān)注一輛自主無人車時通行的安全性和有效性,但是在交叉路口多個無人車通行的協(xié)調(diào)機制還有待研究。基于以上分析,針對物流系統(tǒng)中無信號燈的交叉路口,多個無人車協(xié)調(diào)通行的決策問題還研究較少,本發(fā)明聯(lián)合協(xié)同圖,研究基于強化學(xué)習(xí)的多無人車系統(tǒng)協(xié)同決策與控制機制,實現(xiàn)多個無人車安全且高效的通行。


技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)中智慧物流系統(tǒng)無交通信號燈指示的交叉路口多無人車通行效率較低的問題,本發(fā)明提供一種多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,能夠增強多無人車強化學(xué)習(xí)值函數(shù)的表示能力,提升協(xié)同決策的效率,進而實現(xiàn)無信號燈的交叉路口多個無人車安全且高效的通行。

2、為實現(xiàn)上述目的,本發(fā)明提供一種多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,包括樣本數(shù)據(jù)采集、離線策略訓(xùn)練與在線部署控制三個階段;

3、在所述樣本數(shù)據(jù)采集中:

4、根據(jù)馬爾科夫決策過程,基于隨機采樣生成每個無人車的樣本集,其中,每個無人車的樣本集大小為,每個時間步的樣本元組包含,表示在時刻的當(dāng)前狀態(tài)下,在動作空間中隨機決策出一個動作,該動作會驅(qū)動無人車更新狀態(tài)得到,獎勵函數(shù)為;

5、在所述離線策略訓(xùn)練中:

6、在每個無人車的樣本集的基礎(chǔ)上,采用核稀疏化方法提取采集的高維樣本的特征,得到近似線性無關(guān)的子樣本,并利用子樣本構(gòu)造每一個原始樣本點所對應(yīng)的基函數(shù),得到動作-狀態(tài)值函數(shù)的逼近結(jié)構(gòu),再以極小化強化學(xué)習(xí)的時域差分誤差為目標更新動作-狀態(tài)值函數(shù)的逼近結(jié)構(gòu)中的網(wǎng)絡(luò)權(quán)值向量;

7、在所述在線部署控制中:

8、根據(jù)觀測到的無人車實時狀態(tài)量,部署決策策略得到各個動作對應(yīng)的動作-狀態(tài)值函數(shù),即得到無人車采用動作后的效用函數(shù),并根據(jù)無人車之間的協(xié)同關(guān)系得到局部聯(lián)合動作回報函數(shù),基于效用函數(shù)與局部聯(lián)合動作回報函數(shù)得到無人車的全局值函數(shù),并根據(jù)全局值函數(shù)得到無人車的決策動作,最后根據(jù)無人車的決策動作學(xué)得無人車的控制策略,更新無人車狀態(tài)。

9、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益技術(shù)效果:

10、本發(fā)明包含樣本數(shù)據(jù)采集、離線策略訓(xùn)練與在線部署控制三個階段,離線策略訓(xùn)練采用基于稀疏核的最小二乘策略迭代強化學(xué)習(xí)方法,構(gòu)造高維樣本特征和學(xué)習(xí)近似最優(yōu)策略;在線部署控制,無人車根據(jù)學(xué)得的策略得到不同決策下的局部動作-行為值函數(shù),同時與鄰居無人車建立協(xié)同的邊,引入表征聯(lián)合動作性能的回報函數(shù),多個無人車通過協(xié)同邊上的消息迭代傳播求解出優(yōu)化的聯(lián)合決策,并以決策結(jié)果作為期望值,每個無人車采用滾動時域強化學(xué)習(xí)方法進行軌跡跟蹤控制,在多無人車協(xié)同通行效率和安全性上具有明顯優(yōu)勢。



技術(shù)特征:

1.一種多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,其特征在于,包括樣本數(shù)據(jù)采集、離線策略訓(xùn)練與在線部署控制三個階段;

2.根據(jù)權(quán)利要求1所述的多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,其特征在于,在所述離線策略訓(xùn)練中,所述動作-狀態(tài)值函數(shù)的逼近結(jié)構(gòu)為:

3.根據(jù)權(quán)利要求2所述的多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,其特征在于,在所述離線策略訓(xùn)練中,所述以極小化強化學(xué)習(xí)的時域差分誤差為目標更新動作-狀態(tài)值函數(shù)的逼近結(jié)構(gòu)中的網(wǎng)絡(luò)權(quán)值向量包括:

4.根據(jù)權(quán)利要求1或2或3所述的多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,其特征在于,在所述在線部署控制中,所述局部聯(lián)合動作回報函數(shù)的獲取為:

5.根據(jù)權(quán)利要求4所述的多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,其特征在于,在所述在線部署控制中,所述基于效用函數(shù)與局部聯(lián)合動作回報函數(shù)得到無人車的全局值函數(shù)具體為:

6.根據(jù)權(quán)利要求5所述的多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,其特征在于,在所述在線部署控制中,所述無人車的決策動作為:

7.根據(jù)權(quán)利要求1或2或3所述的多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,其特征在于,在所述在線部署控制中,所述根據(jù)無人車的決策動作學(xué)得無人車的控制策略,更新無人車狀態(tài),具體為:

8.根據(jù)權(quán)利要求7所述的多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,其特征在于,在所述在線部署控制中,采用多組執(zhí)行器-評價器的強化學(xué)習(xí)框架,基于值迭代的方法,通過神經(jīng)網(wǎng)絡(luò)逼近時變的值函數(shù)和最優(yōu)的控制策略,具體地:


技術(shù)總結(jié)
本發(fā)明公開了一種多車路口協(xié)調(diào)決策與控制的高效強化學(xué)習(xí)方法,包括:離線策略訓(xùn)練,提取采集的高維樣本的特征得到近似線性無關(guān)的子樣本,并利用子樣本構(gòu)造基函數(shù),得到動作?狀態(tài)值函數(shù)的逼近結(jié)構(gòu);在所述在線部署控制中:根據(jù)觀測到的無人車實時狀態(tài)量,部署決策策略得到無人車采用動作后的效用函數(shù),并根據(jù)無人車之間的協(xié)同關(guān)系得到局部聯(lián)合動作回報函數(shù),從而得到相應(yīng)的全局值函數(shù)和決策動作,同步更新無人車的控制策略和當(dāng)前狀態(tài)。本發(fā)明應(yīng)用于多無人車路口協(xié)同決策和控制領(lǐng)域,具有值函數(shù)表征能力強、在線計算效率高的優(yōu)勢,能夠提升多無人車路口通行的時效性和安全性。

技術(shù)研發(fā)人員:徐昕,陸陽,張榮華,張興龍,謝海斌,方強
受保護的技術(shù)使用者:中國人民解放軍國防科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1