本發(fā)明涉及智能交通與路徑優(yōu)化,尤其涉及一種基于深度強(qiáng)化學(xué)習(xí)的完全自動(dòng)駕駛交叉口遠(yuǎn)引掉頭路徑優(yōu)化方法。
背景技術(shù):
1、隨著智能網(wǎng)聯(lián)技術(shù)和自動(dòng)駕駛技術(shù)的快速發(fā)展,網(wǎng)聯(lián)自動(dòng)駕駛車輛(connectedautonomous?vehicles,cav)在交通系統(tǒng)中的應(yīng)用前景日益廣闊。自動(dòng)駕駛技術(shù)憑借其精確的控制能力和實(shí)時(shí)決策能力,能夠顯著提升交通流的效率、減少能源消耗,并增強(qiáng)交通安全性。
2、自動(dòng)駕駛車輛具備實(shí)時(shí)感知周圍環(huán)境并做出精確決策的能力,因而在交叉口的通行表現(xiàn)遠(yuǎn)優(yōu)于人工駕駛車輛。然而,現(xiàn)有交叉口設(shè)計(jì)大多仍基于人工駕駛車輛的行為假設(shè),未充分考慮自動(dòng)駕駛車輛的特性。這使得,在完全自動(dòng)駕駛環(huán)境下,傳統(tǒng)的交叉口設(shè)計(jì)和交通流控制方法無法充分發(fā)揮自動(dòng)駕駛技術(shù)的優(yōu)勢(shì),制約了其潛力的實(shí)現(xiàn)。
3、傳統(tǒng)的交叉口設(shè)計(jì)方法多依賴靜態(tài)交通流模型,難以應(yīng)對(duì)交通流的動(dòng)態(tài)變化及發(fā)揮自動(dòng)駕駛車輛的特性。尤其在交叉口遠(yuǎn)引掉頭設(shè)置方面,如何通過優(yōu)化掉頭口的位置以減少交叉口擁堵并提高通行效率,成為一個(gè)亟待研究的重要問題。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的是提供一種基于深度強(qiáng)化學(xué)習(xí)的完全自動(dòng)駕駛交叉口遠(yuǎn)引掉頭路徑優(yōu)化方法,實(shí)現(xiàn)動(dòng)態(tài)調(diào)整交叉口的遠(yuǎn)引掉頭點(diǎn)設(shè)置,有效減少交叉口排隊(duì)現(xiàn)象、提高通行效率,從而優(yōu)化完全自動(dòng)駕駛環(huán)境下的交通流,提升交叉口的整體運(yùn)行效率。
2、技術(shù)方案:一種基于深度強(qiáng)化學(xué)習(xí)的完全自動(dòng)駕駛交叉口遠(yuǎn)引掉頭路徑優(yōu)化方法,通過遠(yuǎn)引掉頭設(shè)置,結(jié)合交叉口的實(shí)時(shí)交通流數(shù)據(jù),利用深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練自動(dòng)駕駛車輛選擇合適的掉頭路徑;所述遠(yuǎn)引掉頭設(shè)置是指在主路中央分隔帶開口,禁止次路車輛直行和左轉(zhuǎn):次路的直行車流通過右轉(zhuǎn)進(jìn)入掉頭口,再匯入主路;次路的左轉(zhuǎn)車流也通過右轉(zhuǎn)進(jìn)入掉頭口,再匯入主路并隨主路車流直行通過交叉口;包括步驟如下:
3、s1,以每輛車作為一個(gè)智能體,以選擇最優(yōu)的遠(yuǎn)引掉頭路徑為目標(biāo),構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的智能體模型;在每個(gè)時(shí)間步中,以每輛車目前所在掉頭口的排隊(duì)車輛數(shù)和上一個(gè)動(dòng)作作為時(shí)間步t的狀態(tài)s(t),以車輛選擇保持當(dāng)前掉頭路徑或選擇下一個(gè)掉頭路徑為時(shí)間步t的動(dòng)作a(t),以所選擇掉頭路徑上的排隊(duì)車輛數(shù)的負(fù)數(shù)為時(shí)間步t的獎(jiǎng)勵(lì)r(t);
4、s2,對(duì)學(xué)習(xí)率、樣本抽取數(shù)、經(jīng)驗(yàn)回放池容量、探索率、折扣因子和訓(xùn)練回合進(jìn)行初始化;
5、s3,以觀察到的狀態(tài)作為網(wǎng)絡(luò)輸入,智能體根據(jù)當(dāng)前狀態(tài)選擇動(dòng)作,執(zhí)行動(dòng)作后,智能體從環(huán)境中獲得即時(shí)獎(jiǎng)勵(lì)r(t);每次交互產(chǎn)生的(s(t),a(t),r(t),s(t+1))存儲(chǔ)到經(jīng)驗(yàn)回放池中,用于后續(xù)訓(xùn)練;當(dāng)訓(xùn)練次數(shù)達(dá)到預(yù)設(shè)值時(shí),訓(xùn)練完成保存智能體模型;
6、s4,在新的場(chǎng)景中,每輛車通過加載訓(xùn)練后的智能體模型進(jìn)行實(shí)時(shí)決策。
7、進(jìn)一步,智能體基于當(dāng)前狀態(tài)選擇時(shí)間步t的動(dòng)作a(t),并根據(jù)目標(biāo)車輛選擇路徑上的排隊(duì)車輛數(shù)計(jì)算時(shí)間步t的獎(jiǎng)勵(lì)r(t),智能體通過減少排隊(duì)車輛數(shù)來最大化獎(jiǎng)勵(lì);車輛在選擇掉頭路徑后,交通流狀態(tài)變?yōu)樾聽顟B(tài)s(t+1),根據(jù)獎(jiǎng)勵(lì)函數(shù)值,重新選擇掉頭路徑a(t+1),如此循環(huán)反復(fù),最終選擇最優(yōu)的掉頭路徑;其中,每個(gè)掉頭路徑對(duì)應(yīng)不同的掉頭點(diǎn)距離。
8、進(jìn)一步,狀態(tài)空間s(t)為一個(gè)狀態(tài)向量:
9、s(t)={current_queuelength(t),a(t-1)}
10、其中,current_queuelength(t)是時(shí)間步t當(dāng)前路徑上的排隊(duì)車輛數(shù);a(t-1)為上一個(gè)動(dòng)作。
11、進(jìn)一步,智能體的動(dòng)作空間有兩種選擇:
12、a(t)=0為保持當(dāng)前掉頭路徑;
13、a(t)=1為選擇下一個(gè)掉頭路徑;
14、每個(gè)路徑選擇對(duì)應(yīng)一個(gè)具體的掉頭點(diǎn)距離,具體映射公式如下:
15、
16、其中,d(·)為目標(biāo)車輛在狀態(tài)t所選掉頭口的距離,a(t)為目標(biāo)車輛在時(shí)間步t所選擇的動(dòng)作,current_edge為目標(biāo)車輛當(dāng)前的路段;e0為次路進(jìn)口道,ei為第i個(gè)掉頭口所在路段,1≤i≤7。
17、進(jìn)一步,獎(jiǎng)勵(lì)r(t)的表達(dá)式如下:
18、r(t)=-next_queuelength(next_edge(a(t),current_edge))
19、其中,next_queuelength(·)表示所選擇路徑上的排隊(duì)車輛數(shù),next_edge(a(t),current_edge)是通過動(dòng)作選擇的下一個(gè)掉頭路徑。
20、本發(fā)明與現(xiàn)有技術(shù)相比,其顯著效果如下:
21、本發(fā)明在交叉口的主路中央分隔帶設(shè)置多個(gè)遠(yuǎn)引掉頭路徑供自動(dòng)駕駛車輛選擇,通過基于深度強(qiáng)化學(xué)習(xí)中的dqn算法構(gòu)建了交叉口遠(yuǎn)引掉頭路徑優(yōu)化模型,并設(shè)計(jì)了獨(dú)特的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)設(shè)置方案。其中,每輛車的狀態(tài)包括所在車道上的排隊(duì)車輛數(shù)和選擇的上一個(gè)動(dòng)作;每輛車的動(dòng)作設(shè)計(jì)為選擇保持當(dāng)前的掉頭路徑和選擇下一個(gè)掉頭路徑;獎(jiǎng)勵(lì)的設(shè)計(jì)為達(dá)到減少車均延誤的目的,以車輛所選擇的掉頭路徑正在排隊(duì)的車輛數(shù)的負(fù)數(shù)為獎(jiǎng)勵(lì),進(jìn)而能夠使車輛選擇排隊(duì)車輛數(shù)較少的掉頭路徑以減少車均延誤,同時(shí)解決了自動(dòng)駕駛車輛在交叉口選擇最優(yōu)的遠(yuǎn)引掉頭路徑的問題。
1.一種基于深度強(qiáng)化學(xué)習(xí)的完全自動(dòng)駕駛交叉口遠(yuǎn)引掉頭路徑優(yōu)化方法,其特征在于,通過遠(yuǎn)引掉頭設(shè)置,結(jié)合交叉口的實(shí)時(shí)交通流數(shù)據(jù),利用深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練自動(dòng)駕駛車輛選擇合適的掉頭路徑;所述遠(yuǎn)引掉頭設(shè)置是指在主路中央分隔帶開口,禁止次路車輛直行和左轉(zhuǎn):次路的直行車流通過右轉(zhuǎn)進(jìn)入掉頭口,再匯入主路;次路的左轉(zhuǎn)車流也通過右轉(zhuǎn)進(jìn)入掉頭口,再匯入主路并隨主路車流直行通過交叉口;包括步驟如下:
2.根據(jù)權(quán)利要求1所述基于深度強(qiáng)化學(xué)習(xí)的完全自動(dòng)駕駛交叉口遠(yuǎn)引掉頭路徑優(yōu)化方法,其特征在于,智能體基于當(dāng)前狀態(tài)選擇時(shí)間步t的動(dòng)作a(t),并根據(jù)目標(biāo)車輛選擇路徑上的排隊(duì)車輛數(shù)計(jì)算時(shí)間步t的獎(jiǎng)勵(lì)r(t),智能體通過減少排隊(duì)車輛數(shù)來最大化獎(jiǎng)勵(lì);車輛在選擇掉頭路徑后,交通流狀態(tài)變?yōu)樾聽顟B(tài)s(t+1),根據(jù)獎(jiǎng)勵(lì)函數(shù)值,重新選擇掉頭路徑a(t+1),如此循環(huán)反復(fù),最終選擇最優(yōu)的掉頭路徑;其中,每個(gè)掉頭路徑對(duì)應(yīng)不同的掉頭點(diǎn)距離。
3.根據(jù)權(quán)利要求2所述基于深度強(qiáng)化學(xué)習(xí)的完全自動(dòng)駕駛交叉口遠(yuǎn)引掉頭路徑優(yōu)化方法,其特征在于,狀態(tài)空間s(t)為一個(gè)狀態(tài)向量:
4.根據(jù)權(quán)利要求2所述基于深度強(qiáng)化學(xué)習(xí)的完全自動(dòng)駕駛交叉口遠(yuǎn)引掉頭路徑優(yōu)化方法,其特征在于,智能體的動(dòng)作空間有兩種選擇:
5.根據(jù)權(quán)利要求2所述基于深度強(qiáng)化學(xué)習(xí)的完全自動(dòng)駕駛交叉口遠(yuǎn)引掉頭路徑優(yōu)化方法,其特征在于,獎(jiǎng)勵(lì)r(t)的表達(dá)式如下: