最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于強化學(xué)習(xí)的多維自然性駕駛場景生成與仿真測試方法

文檔序號:41936298發(fā)布日期:2025-05-16 13:52閱讀:3來源:國知局
基于強化學(xué)習(xí)的多維自然性駕駛場景生成與仿真測試方法

本發(fā)明屬于自動駕駛,具體涉及一種基于強化學(xué)習(xí)的多維自然性駕駛場景生成與仿真測試方法。


背景技術(shù):

1、近年來,隨著智能駕駛技術(shù)的迅猛發(fā)展,實車測試在驗證自動駕駛系統(tǒng)性能和安全性方面發(fā)揮著關(guān)鍵作用。然而實車測試面臨著高成本、高風(fēng)險以及復(fù)雜場景難以全面覆蓋等重大挑戰(zhàn)。為應(yīng)對這些問題,仿真測試作為一種高效且靈活的替代方案,正受到研究界和工業(yè)界的廣泛關(guān)注。

2、仿真測試能夠通過虛擬環(huán)境重現(xiàn)真實駕駛場景,具備成本低、可控性強、重復(fù)性高等顯著優(yōu)勢。例如,在復(fù)雜交通場景下測試自動駕駛車輛的感知系統(tǒng)和決策算法,通過仿真工具如carla和lgsvl?simulator,可以模擬雨雪天氣、低能見度、高密度交通等極端工況,這些在實際測試中難以實現(xiàn)。此外waymo的研究也表明,通過仿真測試每天可以生成數(shù)十億英里的自動駕駛數(shù)據(jù),而這些數(shù)據(jù)的收集成本遠(yuǎn)低于實車測試,且更容易發(fā)現(xiàn)長尾場景中的邊界問題。

3、然而仿真測試并非完美無缺,其局限性主要表現(xiàn)在仿真模型與現(xiàn)實世界的偏差上。由于仿真工具的算法基于理想化假設(shè),可能無法完全反映真實駕駛中的動態(tài)復(fù)雜性,例如交通參與者的隨機行為或環(huán)境的不確定性。此外仿真系統(tǒng)本身的置信度依賴于底層模型的準(zhǔn)確性與數(shù)據(jù)覆蓋范圍?,F(xiàn)有的仿真測試方法和場景生成技術(shù)在實際應(yīng)用中面臨挑戰(zhàn):一是真實世界復(fù)雜駕駛場景覆蓋不足,影響模擬真實性與普適性;二是駕駛行為特征建模受限,導(dǎo)致生成行為缺乏多樣性與自然性。這些問題制約了仿真測試效能,阻礙了自動駕駛系統(tǒng)開發(fā)。


技術(shù)實現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供了一種基于強化學(xué)習(xí)的多維自然性駕駛場景生成與仿真測試方法。本發(fā)明要解決的技術(shù)問題通過以下技術(shù)方案實現(xiàn):

2、本發(fā)明實施例提供了一種基于強化學(xué)習(xí)的多維自然性駕駛場景生成與仿真測試方法,包括步驟:

3、s1、以動力學(xué)特征、規(guī)則遵循性、心理特性以及協(xié)作方式為基礎(chǔ),結(jié)合模糊邏輯分類模型對駕駛行為特性進行量化,構(gòu)建得到駕駛風(fēng)格模糊規(guī)則;

4、s2、構(gòu)建駕駛環(huán)境并依據(jù)所述駕駛風(fēng)格模糊規(guī)則配置不同駕駛風(fēng)格的量化特征;

5、s3、利用強化學(xué)習(xí)算法,基于所述駕駛環(huán)境和不同駕駛風(fēng)格的量化特征,以所述駕駛風(fēng)格模糊規(guī)則為目標(biāo),根據(jù)獎勵函數(shù)計算不同駕駛場景的獎勵以訓(xùn)練更新智能體策略網(wǎng)絡(luò),得到訓(xùn)練好的智能體策略網(wǎng)絡(luò);所述訓(xùn)練好的智能體策略網(wǎng)絡(luò)用于生成多維自然性駕駛場景并進行仿真測試。

6、在本發(fā)明的一個實施例中,步驟s1包括:

7、s11、獲取車輛運動學(xué)狀態(tài)指標(biāo),并采用模糊子集定義不同車輛運動學(xué)狀態(tài)指標(biāo)的模糊值,得到車輛動力學(xué)狀態(tài)模糊指標(biāo);

8、s12、獲取交通遵循狀態(tài)指標(biāo),并采用模糊子集定義不同交通遵循狀態(tài)指標(biāo)的模糊值,得到交通遵循狀態(tài)模糊指標(biāo);

9、s13、計算風(fēng)險規(guī)避系數(shù)、風(fēng)險決策閾值和風(fēng)險轉(zhuǎn)變系數(shù)并加權(quán)構(gòu)建風(fēng)險偏好綜合指標(biāo);

10、s14、計算協(xié)作主動度系數(shù)和信息共享程度并加權(quán)構(gòu)建協(xié)作方式綜合指標(biāo);

11、s15、根據(jù)所述車輛動力學(xué)狀態(tài)模糊指標(biāo)、所述交通遵循狀態(tài)模糊指標(biāo)、所述風(fēng)險偏好綜合指標(biāo)和所述協(xié)作方式綜合指標(biāo)構(gòu)建駕駛風(fēng)格模糊規(guī)則。

12、在本發(fā)明的一個實施例中,所述車輛運動學(xué)狀態(tài)指標(biāo)包括速度、加速度、轉(zhuǎn)向角和偏航率;其中,所述速度的模糊值包括低速、中速和高速,所述加速度的模糊值包括低加速度、中加速度和高加速度,所述轉(zhuǎn)向角的模糊值包括低轉(zhuǎn)向角和高轉(zhuǎn)向角,所述偏航率的模糊值包括低偏航率和高偏航率;

13、所述交通遵循狀態(tài)指標(biāo)包括速度超速狀態(tài)、跟車距離安全狀態(tài)和車道保持規(guī)范狀態(tài),所述速度超速狀態(tài)的模糊值包括速度超速和速度不超速,所述跟車距離安全狀態(tài)的模糊值包括跟車距離安全和跟車舉例不安全,所述車道保持規(guī)范狀態(tài)包括車道保持較好、車道保持一般和車道保持不良。

14、在本發(fā)明的一個實施例中,所述風(fēng)險規(guī)避系數(shù)的計算公式為:

15、

16、其中,ax為縱向加速度,ay為橫向加速度,δ為轉(zhuǎn)向角,v為速度;α1、α2為權(quán)重系數(shù);

17、所述風(fēng)險決策閾值的計算公式為:

18、

19、其中,dhw,thw,ttc分別為跟車距離、車頭距時間、碰撞時間,β1,β2,β3均為權(quán)重系數(shù);

20、所述風(fēng)險轉(zhuǎn)變系數(shù)的計算公式為:

21、

22、其中,δax,δay,δv,δσ,分別為縱向加速度變化量、橫向加速度變化量、速度變化量、轉(zhuǎn)向角變化量和偏航率變化量;

23、所述風(fēng)險偏好綜合指標(biāo)為:

24、r=w1×ra+w2×rd+w3×rrtc

25、其中,w1,w2,w3為權(quán)重。

26、在本發(fā)明的一個實施例中,所述協(xié)作主動度系數(shù)的計算公式為:

27、

28、其中,y,dc分別為橫向位置、與相鄰車輛的橫向距離,γ1,γ2為權(quán)重系數(shù);

29、所述信息共享程度的計算公式為:

30、is=ω1log(v)+ω2ρ

31、其中,v為速度,ρ為交通流密度,ω1,ω2為權(quán)重系數(shù);

32、所述協(xié)作方式綜合指標(biāo)為:

33、ci=μ1×ci+μ2×is

34、其中,μ1,μ2為權(quán)重系數(shù)。

35、在本發(fā)明的一個實施例中,所述駕駛風(fēng)格模糊規(guī)則包括:非常防御、優(yōu)先級高的防御、優(yōu)先級低的防御、優(yōu)先級高的正常運動、優(yōu)先級低的正常運動、非常運動、優(yōu)先級高的激進和優(yōu)先級低的激進。

36、在本發(fā)明的一個實施例中,步驟s2包括:

37、在仿真平臺中構(gòu)建駕駛環(huán)境并依據(jù)所述駕駛風(fēng)格模糊規(guī)則配置不同駕駛風(fēng)格的量化特征,其中,所述駕駛環(huán)境包括復(fù)雜路況、動態(tài)交通流量和多類型車輛模型。

38、在本發(fā)明的一個實施例中,步驟s3包括:

39、獲取車輛的實時狀態(tài)信息、歷史狀態(tài)軌跡和環(huán)境信息,并利用transformer編碼器對所述實時狀態(tài)信息、所述歷史狀態(tài)軌跡和所述環(huán)境信息進行編碼,得到當(dāng)前時刻的車輛狀態(tài);

40、基于所述當(dāng)前時刻的車輛狀態(tài),利用actor網(wǎng)絡(luò)生成駕駛行為動作,執(zhí)行所述駕駛行為動作,得到下一時刻的車輛狀態(tài),并使用多目標(biāo)獎勵函數(shù)計算當(dāng)前駕駛場景的獎勵;

41、基于時間差分法,利用critic網(wǎng)絡(luò)對所述當(dāng)前時刻的車輛狀態(tài)和所述駕駛行為動作進行評估;其中,所述actor網(wǎng)絡(luò)和所述critic網(wǎng)絡(luò)形成所述智能體策略網(wǎng)絡(luò);

42、利用mappo強化學(xué)習(xí)算法對所述actor網(wǎng)絡(luò)和所述critic網(wǎng)絡(luò)進行更新;

43、調(diào)整所述多目標(biāo)獎勵函數(shù)中的權(quán)重對所述智能體策略網(wǎng)絡(luò)進行優(yōu)化。

44、在本發(fā)明的一個實施例中,所述實時狀態(tài)信息包括:車輛速度、加速度、偏航率、轉(zhuǎn)向角、超速狀態(tài)、跟車距離狀態(tài)和車道保持狀態(tài);所述歷史狀態(tài)軌跡包括之前時間步的狀態(tài);所述環(huán)境信息包括道路類型和交通流量;

45、所述駕駛行為動作包括連續(xù)輸出和離散輸出,所述連續(xù)輸出包括加速度和轉(zhuǎn)向角,所述離散速出包括是否換道、減速或加速。

46、在本發(fā)明的一個實施例中,所述多目標(biāo)獎勵函數(shù)為:

47、r=p1·r1+p2·r2+p3·r3+p4·r4+p5·r5

48、其中,r1為綜合動力學(xué)獎勵,r2為綜合交通遵循獎勵,r3為風(fēng)險偏好獎勵,r4為協(xié)作方式獎勵,r5為駕駛風(fēng)格匹配獎勵,p1、p2、p3、p4、p5為權(quán)重系數(shù);

49、r1=wspeed·rspeed+wacc·racc+wyaw·rryaw+wsteering·rsteering

50、

51、其中,rspeed為速度獎勵,racc為加速度獎勵,rryaw為偏航率獎勵,rsteering為轉(zhuǎn)向角獎勵,wspeed、wacc、wyaw、wsteering為權(quán)重系數(shù);

52、r2=woverspeed·roverspeed+wdistance·rdistance+wlane·rlane

53、

54、其中,roverspeed為速度超速獎勵,rdistance為跟車距離獎勵,rlane為·車道保持獎勵;woverspeed、wdistance、wlane為權(quán)重系數(shù);

55、

56、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:

57、本發(fā)明的方法通過引入風(fēng)險偏好和協(xié)作方式自然性指標(biāo),以動力學(xué)特征、規(guī)則遵循性、心理特性以及協(xié)作方式為基礎(chǔ),構(gòu)建得到駕駛風(fēng)格模糊規(guī)則,然后利用強化學(xué)習(xí)框架中的獎勵函數(shù)對智能體策略網(wǎng)絡(luò)進行訓(xùn)練更新,實現(xiàn)對駕駛行為模型的動態(tài)生成,該方法能夠生成覆蓋從謹(jǐn)慎型到激進型駕駛的多樣化行為模式,獲得更加完整和精確的行為特征表示,從而生成多樣化的駕駛行為,為自動駕駛系統(tǒng)的研發(fā)、驗證及未來技術(shù)標(biāo)準(zhǔn)化、安全性評估和大規(guī)模應(yīng)用提供了科學(xué)且高效的技術(shù)支持。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1