最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于多目標(biāo)強(qiáng)化學(xué)習(xí)的時空自適應(yīng)匹配系統(tǒng)及方法

文檔序號:41951206發(fā)布日期:2025-05-16 14:11閱讀:6來源:國知局
基于多目標(biāo)強(qiáng)化學(xué)習(xí)的時空自適應(yīng)匹配系統(tǒng)及方法

本發(fā)明涉及的是一種飛行器路徑規(guī)劃領(lǐng)域的技術(shù),具體是一種基于多目標(biāo)強(qiáng)化學(xué)習(xí)的時空自適應(yīng)匹配系統(tǒng)。


背景技術(shù):

1、現(xiàn)有的飛行調(diào)度系統(tǒng)基于靜態(tài)任務(wù)規(guī)劃,缺乏動態(tài)適應(yīng)能力,難以利用實時數(shù)據(jù)進(jìn)行高效調(diào)度?,F(xiàn)有路徑規(guī)劃算法多基于單一優(yōu)化目標(biāo),忽視多維度資源效率和任務(wù)優(yōu)先級,且a*算法在動態(tài)低空環(huán)境中無法自適應(yīng)調(diào)整,無法應(yīng)對復(fù)雜安全需求和環(huán)境變化。


技術(shù)實現(xiàn)思路

1、本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提出一種基于多目標(biāo)強(qiáng)化學(xué)習(xí)的時空自適應(yīng)匹配系統(tǒng),通過強(qiáng)化學(xué)習(xí)和多目標(biāo)優(yōu)化策略,實現(xiàn)無人機(jī)在三維空間中的自適應(yīng)調(diào)度和路徑規(guī)劃,提供智能化的飛行器任務(wù)管理,保障復(fù)雜空域下的運(yùn)行安全,符合低空產(chǎn)業(yè)對安全與效率的多重要求的同時,降低了對靜態(tài)規(guī)則和專家經(jīng)驗的依賴,能夠根據(jù)實時反饋和環(huán)境變化動態(tài)調(diào)整策略,具有高度適應(yīng)性,符合未來低空裝備在運(yùn)行服務(wù)、監(jiān)管和全產(chǎn)業(yè)鏈安全標(biāo)準(zhǔn)化體系中的核心技術(shù)要求。

2、本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:

3、本發(fā)明涉及一種基于多目標(biāo)強(qiáng)化學(xué)習(xí)的時空自適應(yīng)匹配系統(tǒng),包括:數(shù)據(jù)融合清洗模塊、智能路徑規(guī)劃模塊、多目標(biāo)調(diào)度優(yōu)化模塊、自適應(yīng)任務(wù)優(yōu)化模塊和強(qiáng)化學(xué)習(xí)驅(qū)動模塊,其中:數(shù)據(jù)融合清洗模塊在數(shù)據(jù)接收階段從多源傳感器、用戶設(shè)備和實時監(jiān)控系統(tǒng)中接收飛行器的三維坐標(biāo)、設(shè)備狀態(tài)、任務(wù)優(yōu)先級數(shù)據(jù)后,使用時空卷積網(wǎng)絡(luò)(stgcn)對數(shù)據(jù)進(jìn)行清洗和融合,將不同來源的數(shù)據(jù)標(biāo)準(zhǔn)化處理并剔除異常數(shù)據(jù)得到一致的時空數(shù)據(jù)后提取出時空特征并分別輸出至三維空間智能路徑規(guī)劃模塊、強(qiáng)化學(xué)習(xí)驅(qū)動模塊;智能路徑規(guī)劃模塊通過柵格劃分技術(shù)對飛行區(qū)域進(jìn)行三維空間建模,通過改進(jìn)的a*算法生成初始路徑后,通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化路徑,使飛行器在復(fù)雜動態(tài)環(huán)境中能夠?qū)崟r避障和自適應(yīng)路徑調(diào)整;多目標(biāo)調(diào)度優(yōu)化模塊采用nsga-ii多目標(biāo)優(yōu)化算法,綜合考慮飛行時間、任務(wù)優(yōu)先級、資源消耗形成調(diào)度優(yōu)化方案,通過pareto前沿分析生成全局最優(yōu)解集,并結(jié)合深度強(qiáng)化學(xué)習(xí)不斷優(yōu)化調(diào)度效率;自適應(yīng)任務(wù)優(yōu)化模塊在任務(wù)執(zhí)行階段實時監(jiān)測飛行器狀態(tài)和任務(wù)進(jìn)度,根據(jù)反饋信息通過強(qiáng)化學(xué)習(xí)技術(shù)對路徑規(guī)劃和資源分配策略進(jìn)行動態(tài)調(diào)整任務(wù)優(yōu)先級和調(diào)度策略;強(qiáng)化學(xué)習(xí)驅(qū)動模塊接收數(shù)據(jù)融合清洗模塊和自適應(yīng)任務(wù)優(yōu)化模塊反饋的數(shù)據(jù)和參數(shù),并為三維空間智能路徑規(guī)劃模塊和多目標(biāo)調(diào)度優(yōu)化模塊中的強(qiáng)化學(xué)習(xí)部分提供算法支持。

4、所述的一致的時空數(shù)據(jù),通過解析數(shù)據(jù)包內(nèi)容,對不同來源的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換和標(biāo)準(zhǔn)化處理,利用stgcn對異常值自動檢測和剔除,同時將任務(wù)模型和資源模型作為標(biāo)簽標(biāo)識唯一的數(shù)據(jù)源,從而保證每個時序數(shù)據(jù)點都能對應(yīng)到準(zhǔn)確的來源;對基于流程實例的來源信息,對數(shù)據(jù)進(jìn)行分組,并按照時間戳順序排序,以獲得單一流程實例的時序數(shù)據(jù)序列。

5、所述的時空卷積網(wǎng)絡(luò),采用但不限于《spatio-temporal?graph?convolutionalnetworks:a?deep?learning?framework?for?traffic?forecasting》,ijcai?2018)中記載的技術(shù)實現(xiàn),通過以下步驟進(jìn)行時空特征提?。?/p>

6、步驟1、將多源傳感器數(shù)據(jù)(如飛行器坐標(biāo)、設(shè)備狀態(tài))建模為圖結(jié)構(gòu),節(jié)點表示數(shù)據(jù)源,邊表示時空關(guān)聯(lián)性,采用時空卷積網(wǎng)絡(luò)中的空間圖卷積層進(jìn)行圖卷積操作(gcn)聚合相鄰節(jié)點的特征,捕捉空間維度上的依賴關(guān)系。

7、步驟2、使用時空卷積網(wǎng)絡(luò)中的時間卷積層進(jìn)行空洞卷積(dilated?convolution)沿時間軸滑動,提取時序動態(tài)特征,例如飛行器軌跡的連續(xù)變化或任務(wù)優(yōu)先級的時序波動。

8、步驟3、通過時空卷積網(wǎng)絡(luò)中的跳躍連接(skip?connection)將空間與時間特征融合,增強(qiáng)模型對復(fù)雜時空模式的學(xué)習(xí)能力。

9、所述的改進(jìn)的a*算法,具體包括:

10、步驟1、基于三維空間劃分柵格模型,將空域劃分為等間距的三維柵格,定義柵格單元為grid(x,y,z),其中:x,y,z分別為柵格中心點的三維坐標(biāo)。通過柵格表示空域中飛行器可行駛的空間和障礙物分布,將路徑規(guī)劃問題轉(zhuǎn)化為三維空間的離散化路徑搜索問題;

11、所述的三維空間劃分柵格模型包括:空域密度感知單元、柵格分辨率調(diào)整單元和動態(tài)映射單元,其中:空域密度感知單元基于實時傳感器數(shù)據(jù)(如障礙物分布、飛行器密度、氣象條件)計算局部空域的復(fù)雜度;柵格分辨率調(diào)整單元根據(jù)局部空域的復(fù)雜度動態(tài)調(diào)整柵格分辨率;動態(tài)映射單元通過時空卷積網(wǎng)絡(luò)(stgcn)實時更新障礙物狀態(tài),動態(tài)障礙物的預(yù)測軌跡通過卡爾曼濾波建模,并反饋至柵格模型中。

12、所述的局部空域的復(fù)雜度其中:nobs為障礙物數(shù)量,nuav為飛行器數(shù)量,vcell為當(dāng)前柵格單元體積。

13、所述的動態(tài)調(diào)整是指:高密度區(qū)域(如城市空域)采用更小柵格(1m×1m×1m),以提高避障精度;低密度區(qū)域(如開闊空域)采用更大柵格(10m×10m×10m),減少計算量。

14、步驟2、構(gòu)造路徑搜索目標(biāo)是找到路徑p={p1,p2,...,pn},使得總代價函數(shù)f(pi)最小,具體為:f(pi)=g(pi)+h(pi),其中:g(pi)是起點到當(dāng)前節(jié)點pi的實際代價,h(pi)是當(dāng)前節(jié)點到目標(biāo)節(jié)點的啟發(fā)式估計代價;

15、步驟3、結(jié)合強(qiáng)化學(xué)習(xí)對h(pi)進(jìn)行動態(tài)優(yōu)化,具體為:h′(pi)=α·h(pi)+β·q(pi,a),其中:α和β為調(diào)節(jié)系數(shù),滿足α+β=1,可根據(jù)任務(wù)優(yōu)先級自適應(yīng)調(diào)整,以平衡路徑節(jié)點的任務(wù)優(yōu)先級與路徑代價的影響。q(pi,a)是強(qiáng)化學(xué)習(xí)中的q值,表示在節(jié)點pi采取動作a后的路徑預(yù)期代價;

16、步驟4、在路徑更新過程中,q-learning根據(jù)實時反饋調(diào)整路徑。在時間t時刻的環(huán)境反饋下,更新每個節(jié)點n的q值,具體為:其中:η為學(xué)習(xí)率,γ為折扣因子,r為在節(jié)點pi處的即時獎勵,a為當(dāng)前動作,a′為下一步的動作,pi+1為執(zhí)行動作a′后到達(dá)的下一節(jié)點;

17、步驟5、通過動態(tài)計算任務(wù)優(yōu)先級,并將其融入路徑規(guī)劃的權(quán)重調(diào)整中,確保飛行器能夠優(yōu)先執(zhí)行關(guān)鍵任務(wù),同時兼顧資源分配的合理性和路徑規(guī)劃的效率。任務(wù)優(yōu)先級的動態(tài)調(diào)整基于層次分析法(ahp)和貝葉斯優(yōu)化,通過綜合評估任務(wù)的重要性、飛行器當(dāng)前狀態(tài)(如電池電量、負(fù)載能力)以及環(huán)境變化(如空域擁堵情況)確定優(yōu)先級評分。

18、所述的任務(wù)優(yōu)先級其中:ui是第i個任務(wù)的優(yōu)先級評分,由以下因素加權(quán)求和得出:ti任務(wù)緊急程度(如任務(wù)時間限制),權(quán)重為αt;si飛行器狀態(tài)(如剩余電量、載荷能力),權(quán)重為αs;ei環(huán)境復(fù)雜度(如高密度流量區(qū)),權(quán)重為αe,優(yōu)先級評分的表達(dá)式為:ui=αtti+αssi+αeei。其中:ti+si+ei=1,各權(quán)重可通過貝葉斯優(yōu)化動態(tài)調(diào)整,以適應(yīng)任務(wù)場景的變化。計算得到的任務(wù)優(yōu)先級wi將被映射到路徑規(guī)劃過程中每個節(jié)點的權(quán)重中,用于指導(dǎo)a*算法的啟發(fā)式搜索和強(qiáng)化學(xué)習(xí)的獎勵分配。權(quán)重調(diào)整使系統(tǒng)能夠?qū)崟r平衡多任務(wù)需求,提高路徑規(guī)劃的靈活性和任務(wù)完成的整體效率。

19、所述的nsga-ii多目標(biāo)優(yōu)化算法,具體包括:

20、步驟a、在多目標(biāo)優(yōu)化過程中,采用以下目標(biāo)函數(shù)進(jìn)行優(yōu)化:

21、a.任務(wù)完成時間最小化:目標(biāo)是盡可能降低每個任務(wù)的執(zhí)行時間,具體為:其中:ti表示第i個任務(wù)的執(zhí)行時間,n為任務(wù)的總數(shù)量;

22、b.資源利用率最大化:旨在提高系統(tǒng)中資源的使用效率,具體為:其中:rj為第j個資源的可用數(shù)量,uj為第j個資源的利用率,m為資源的總數(shù)量。

23、c.路徑最優(yōu)與能耗最小化:考慮到無人機(jī)路徑規(guī)劃中的能耗優(yōu)化,目標(biāo)是選擇能量消耗最小的路徑,具體為:其中:ek表示第k條路徑的能量消耗,p為所有可能路徑的數(shù)量。

24、步驟b、nsga-ii結(jié)合pareto前沿求解,并實現(xiàn)多目標(biāo)優(yōu)化,所述的pareto前沿分析包括:

25、a.初始種群生成:系統(tǒng)首先生成一個包含n個個體的初始種群,隨機(jī)初始化每個個體的解。

26、b.非支配排序:對種群中的個體進(jìn)行非支配排序,計算每個個體的支配度。一個個體a支配另一個個體b,如果且僅如果:且通過該方法計算pareto前沿解集,使得每個個體盡可能接近最優(yōu)解。

27、c.擁擠距離計算:為每個個體計算擁擠距離di,以評估其與其他個體的相對分布情況,具體為:其中:和分別表示目標(biāo)函數(shù)f中的相鄰個體的函數(shù)值。

28、d.選擇與交叉變異:使用錦標(biāo)賽選擇,從父代中選擇具有更高適應(yīng)度和較低擁擠度的個體進(jìn)行交叉和變異,生成下一代種群。

29、步驟c、通過引入深度強(qiáng)化學(xué)習(xí)drl,在調(diào)度策略上能夠自適應(yīng)調(diào)整,以應(yīng)對復(fù)雜和動態(tài)的任務(wù)需求,包括:

30、a.狀態(tài)表示:使用任務(wù)的完成時間、資源的使用情況、路徑能耗等指標(biāo)作為狀態(tài)空間s的表示。

31、b.獎勵函數(shù):定義獎勵函數(shù)其中:wi表示第i個目標(biāo)的權(quán)重,系統(tǒng)通過強(qiáng)化學(xué)習(xí)不斷更新權(quán)重,以實現(xiàn)對不同目標(biāo)的動態(tài)平衡。

32、步驟d、最終的調(diào)度優(yōu)化方案是通過pareto前沿求解技術(shù)生成的多樣化方案集p,每個方案包含對任務(wù)調(diào)度、資源分配和路徑選擇的優(yōu)化結(jié)果。對于系統(tǒng)調(diào)度的實際應(yīng)用,系統(tǒng)能夠根據(jù)特定的應(yīng)用需求(如任務(wù)的緊急程度或資源的當(dāng)前使用情況)從pareto解集中選擇最優(yōu)解,以滿足當(dāng)前的調(diào)度目標(biāo)。

33、所述的強(qiáng)化學(xué)習(xí)技術(shù),具體包括:

34、步驟i、定義系統(tǒng)狀態(tài)空間s和動作空間a,并在每次任務(wù)進(jìn)展中采集當(dāng)前狀態(tài)p和系統(tǒng)的反饋數(shù)據(jù)。根據(jù)狀態(tài)與反饋數(shù)據(jù),選擇動作at,從而更新調(diào)度策略;

35、步驟ii、依據(jù)智能路徑規(guī)劃模塊定義的q-learning算法更新q值,把r為在節(jié)點pi處的即時獎勵具體設(shè)置為獎勵函數(shù)r在t時刻的值r(st,at),在每次反饋中根據(jù)當(dāng)前狀態(tài)和動作的q值對策略進(jìn)行調(diào)整;

36、步驟iii、對歷史狀態(tài)和反饋數(shù)據(jù)進(jìn)行加權(quán)求和,以更新任務(wù)優(yōu)先級和路徑選擇的策略權(quán)重。設(shè)歷史狀態(tài)集合為{st-n,…,st},對應(yīng)的反饋權(quán)重為{wt-n,…,wt},則某任務(wù)在當(dāng)前時刻t的優(yōu)先級調(diào)整值其中:wi通過對距離當(dāng)前時刻的距離進(jìn)行歸一化得到,越接近當(dāng)前時刻的反饋數(shù)據(jù)權(quán)重越大;

37、步驟iv、通過q值更新,系統(tǒng)不斷優(yōu)化調(diào)度參數(shù),使其在面對環(huán)境變化和任務(wù)需求的調(diào)整中實現(xiàn)自適應(yīng)優(yōu)化。

38、技術(shù)效果

39、本發(fā)明基于動態(tài)自適應(yīng)三維柵格模型的路徑規(guī)劃與強(qiáng)化學(xué)習(xí)協(xié)同優(yōu)化機(jī)制:提出一種動態(tài)調(diào)整三維空間柵格分辨率的自適應(yīng)建模方法,結(jié)合空域密度(障礙物分布、飛行器數(shù)量、氣象條件)實時調(diào)整柵格尺寸(高密度區(qū)1m3,低密度區(qū)10m3),并基于此模型改進(jìn)a*算法的啟發(fā)式函數(shù)。通過強(qiáng)化學(xué)習(xí)動態(tài)優(yōu)化路徑節(jié)點的q值權(quán)重(h′(pi)=α·h(pi)+β·q(pi,a)),將任務(wù)優(yōu)先級(層次分析法ahp評分)與路徑代價深度融合,實現(xiàn)三維動態(tài)環(huán)境中的實時避障與路徑最優(yōu)的同時,通過將nsga-ii多目標(biāo)優(yōu)化算法與深度強(qiáng)化學(xué)習(xí)(drl)結(jié)合,通過動態(tài)權(quán)重調(diào)整實時更新pareto前沿解集。利用強(qiáng)化學(xué)習(xí)的反饋機(jī)制(狀態(tài)空間包含飛行器位置、任務(wù)優(yōu)先級、障礙物分布)驅(qū)動目標(biāo)函數(shù)權(quán)重(wi)自適應(yīng)優(yōu)化,生成適應(yīng)環(huán)境變化的全局最優(yōu)調(diào)度方案。本發(fā)明將stgcn應(yīng)用于無人機(jī)多源數(shù)據(jù)清洗與任務(wù)優(yōu)先級動態(tài)映射,通過時空圖卷積(空間維度聚合相鄰節(jié)點特征)與時間空洞卷積(捕捉時序波動)提取多源數(shù)據(jù)(坐標(biāo)、狀態(tài)、任務(wù))的時空依賴關(guān)系,并基于貝葉斯優(yōu)化動態(tài)調(diào)整任務(wù)優(yōu)先級權(quán)重(ui=αtti+αssi+αeei),實現(xiàn)任務(wù)優(yōu)先級與路徑規(guī)劃的實時聯(lián)動并構(gòu)建以強(qiáng)化學(xué)習(xí)為核心的自適應(yīng)閉環(huán)優(yōu)化系統(tǒng),通過實時監(jiān)測飛行器狀態(tài)(電量、位置、負(fù)載)、環(huán)境變化(空域擁堵、障礙物移動)及任務(wù)進(jìn)度,動態(tài)調(diào)整路徑規(guī)劃與資源分配策略。引入歷史反饋數(shù)據(jù)的加權(quán)融合機(jī)制結(jié)合q-learning在線更新策略,實現(xiàn)任務(wù)調(diào)度的自學(xué)習(xí)與自優(yōu)化。

40、與現(xiàn)有技術(shù)相比,本發(fā)明不依賴于固定規(guī)則或靜態(tài)模型,而是通過自適應(yīng)調(diào)整機(jī)制,根據(jù)實時反饋和任務(wù)進(jìn)展優(yōu)化調(diào)度方案,顯著提高了系統(tǒng)的適應(yīng)性和實時響應(yīng)能力。通過多目標(biāo)優(yōu)化算法,系統(tǒng)能夠同時處理多個調(diào)度目標(biāo),生成多個優(yōu)化方案,確保任務(wù)執(zhí)行的高效性與資源利用的最大化。通過智能數(shù)據(jù)處理和異常檢測技術(shù),進(jìn)一步提高了調(diào)度決策的準(zhǔn)確性和可靠性。整體而言,本發(fā)明的方法不僅提高了任務(wù)調(diào)度的效率和精度,還具備很強(qiáng)的適用性和靈活性,能夠廣泛應(yīng)用于各種復(fù)雜低空經(jīng)濟(jì)任務(wù)場景,滿足不斷變化的需求。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1