本發(fā)明屬于邊緣計(jì)算領(lǐng)域,具體涉及一種基于safe?marl的多無(wú)人機(jī)輔助mec系統(tǒng)的任務(wù)卸載方法。
背景技術(shù):
1、隨著第六代6g無(wú)線(xiàn)網(wǎng)絡(luò)的迅猛發(fā)展,諸如自動(dòng)駕駛和遠(yuǎn)程醫(yī)療等計(jì)算密集型及低延遲需求的應(yīng)用場(chǎng)景日益增多。然而,這些任務(wù)可能對(duì)計(jì)算能力和電池壽命有限的用戶(hù)設(shè)備(ue)帶來(lái)巨大挑戰(zhàn)。為了解決這一挑戰(zhàn),移動(dòng)邊緣計(jì)算(mec)被認(rèn)為是一種有前途的技術(shù),允許用戶(hù)設(shè)備將其計(jì)算密集型應(yīng)用卸載到邊緣服務(wù)器上。
2、移動(dòng)邊緣計(jì)算在促進(jìn)計(jì)算密集型應(yīng)用方面展示了巨大潛力,但其性能并非始終令人滿(mǎn)意。這主要是由于地面mec服務(wù)器的位置固定,無(wú)法根據(jù)用戶(hù)需求進(jìn)行動(dòng)態(tài)調(diào)整。此外,由于mec服務(wù)器的固定部署位置和高昂的建設(shè)成本,其在應(yīng)對(duì)突發(fā)性事件和動(dòng)態(tài)需求變化時(shí)表現(xiàn)出一定的局限性。例如,當(dāng)自然災(zāi)害發(fā)生導(dǎo)致網(wǎng)絡(luò)基礎(chǔ)設(shè)施損毀時(shí),mec服務(wù)器無(wú)法及時(shí)恢復(fù)和提供計(jì)算服務(wù),從而導(dǎo)致計(jì)算資源的短缺和任務(wù)卸載性能的下降。
3、近年來(lái),無(wú)人機(jī)(uav)作為傳統(tǒng)mec系統(tǒng)的替代方案得到了廣泛關(guān)注和研究。uav輔助的mec系統(tǒng)憑借其高度靈活的機(jī)動(dòng)性、便捷的部署方式、低廉的成本以及視距(los)連接的優(yōu)勢(shì),為服務(wù)設(shè)備提供了有效的計(jì)算服務(wù)。相比傳統(tǒng)的mec系統(tǒng),無(wú)人機(jī)輔助的mec系統(tǒng)不僅能夠在傳統(tǒng)mec服務(wù)器損毀的情況下,提供臨時(shí)的計(jì)算和通信服務(wù),還可以在平時(shí)通過(guò)靈活的部署和調(diào)度,優(yōu)化計(jì)算資源的利用率,提升系統(tǒng)的整體性能和可靠性。這種創(chuàng)新的計(jì)算范式在應(yīng)對(duì)未來(lái)復(fù)雜和多變的網(wǎng)絡(luò)環(huán)境中,展現(xiàn)出廣闊的發(fā)展前景。
4、然而,單無(wú)人機(jī)輔助的mec系統(tǒng)受限于其資源,難以應(yīng)對(duì)日益增長(zhǎng)的海量任務(wù)處理需求。并且隨著無(wú)人機(jī)服務(wù)范圍的擴(kuò)大和用戶(hù)設(shè)備數(shù)量的增加,服務(wù)效率將急劇下降。而盡管基于多無(wú)人機(jī)的mec方案具有更高的性能,但也帶來(lái)了諸多挑戰(zhàn)。首先,用戶(hù)在計(jì)算過(guò)程中不斷移動(dòng),使得獲得最優(yōu)策略變得困難。其次,無(wú)人機(jī)需要從不同的起飛點(diǎn)飛往特定區(qū)域提供卸載服務(wù),不同的飛行軌跡可能導(dǎo)致信道質(zhì)量差異,進(jìn)而引起不同的通信延遲和能耗。此外,在機(jī)載資源有限的情況下,無(wú)人機(jī)的計(jì)算任務(wù)分配量也會(huì)影響計(jì)算延遲和能耗。最后,無(wú)人機(jī)在執(zhí)行任務(wù)時(shí)需在復(fù)雜的城市或鄉(xiāng)村環(huán)境中飛行。這些區(qū)域包含法律或政策規(guī)定的禁飛區(qū),如機(jī)場(chǎng)周邊、政府設(shè)施上空及其他敏感區(qū)域。為了確保任務(wù)的高效執(zhí)行并遵守相關(guān)飛行規(guī)定,無(wú)人機(jī)必須嚴(yán)格避免進(jìn)入這些禁飛區(qū),從而保障飛行安全和任務(wù)的合規(guī)性。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問(wèn)題,本發(fā)明公開(kāi)了一種基于safe?marl的多無(wú)人機(jī)輔助mec系統(tǒng)的任務(wù)卸載方法,在matd3算法的基礎(chǔ)上引入自適應(yīng)拉格朗日乘子,將約束優(yōu)化問(wèn)題轉(zhuǎn)換為無(wú)約束優(yōu)化問(wèn)題,進(jìn)而聯(lián)合無(wú)人機(jī)飛行軌跡、計(jì)算任務(wù)分配和用戶(hù)調(diào)度的策略,以實(shí)現(xiàn)系統(tǒng)執(zhí)行延遲與能耗的最小化,同時(shí)確保無(wú)人機(jī)飛行的安全性與合規(guī)性。
2、為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
3、基于safe?marl的多無(wú)人機(jī)輔助mec系統(tǒng)的任務(wù)卸載方法,包括以下步驟:
4、先設(shè)計(jì)多無(wú)人機(jī)輔助mec系統(tǒng)。
5、該系統(tǒng)包括m個(gè)移動(dòng)設(shè)備(mds)、n個(gè)無(wú)人機(jī)(uavs)、一個(gè)部署在靜止低空平臺(tái)(lap)上的邊緣云(ec)。用戶(hù)設(shè)備集合與無(wú)人機(jī)集合分別表示為與每個(gè)無(wú)人機(jī)配備小型服務(wù)器,邊緣云配備高性能服務(wù)器。假設(shè)整個(gè)系統(tǒng)的工作時(shí)間長(zhǎng)為t,總時(shí)長(zhǎng)均分為k個(gè)等長(zhǎng)時(shí)隙,時(shí)隙的集合記為每個(gè)時(shí)隙的持續(xù)長(zhǎng)度為每個(gè)用戶(hù)設(shè)備在每個(gè)時(shí)隙t開(kāi)始時(shí)會(huì)產(chǎn)生一個(gè)計(jì)算密集型任務(wù),任務(wù)記為wm(t)=(dm(t),cm(t)),其中dm(t)是任務(wù)數(shù)據(jù)的大小,cm(t)表示處理數(shù)據(jù)所需的cpu周期數(shù)。由于計(jì)算能力有限,用戶(hù)設(shè)備無(wú)法在本地完成計(jì)算,需要將計(jì)算任務(wù)卸載到無(wú)人機(jī)上。此外,無(wú)人機(jī)不僅可以作為計(jì)算節(jié)點(diǎn)為用戶(hù)設(shè)備提供計(jì)算服務(wù),還可以作為中繼節(jié)點(diǎn),將用戶(hù)設(shè)備的部分任務(wù)進(jìn)一步傳輸?shù)竭吘壴粕咸幚?。為減少系統(tǒng)消耗并保證飛行安全,無(wú)人機(jī)的飛行軌跡必須經(jīng)過(guò)嚴(yán)格規(guī)劃。假設(shè)每個(gè)無(wú)人機(jī)僅為其覆蓋范圍內(nèi)的地面用戶(hù)設(shè)備提供服務(wù),并且各無(wú)人機(jī)覆蓋范圍之間沒(méi)有重疊。無(wú)人機(jī)的飛行區(qū)域內(nèi)存在o個(gè)禁飛區(qū),如機(jī)場(chǎng)周邊、政府設(shè)施上空等,將禁飛區(qū)的集合記為無(wú)人機(jī)必須避開(kāi)這些禁飛區(qū),以確保任務(wù)執(zhí)行的安全和合規(guī)。整個(gè)系統(tǒng)模型可以分為無(wú)人機(jī)移動(dòng)模型、通訊模型、計(jì)算模型三部分。
6、無(wú)人機(jī)移動(dòng)模型定義以下參數(shù):
7、ωn(t)=[xn(t),yn(t),h]t為無(wú)人機(jī)n在時(shí)隙t的三維坐標(biāo);其中xn(t)與yn(t)分別表示無(wú)人機(jī)n在時(shí)間步t的水平橫縱坐標(biāo);h表示無(wú)人機(jī)的飛行高度;ln(t)∈[0,lmax]標(biāo)識(shí)飛行距離;為飛行角度;lmax表示無(wú)人機(jī)的最大飛行距離;表示無(wú)人機(jī)的最大覆蓋半徑;φn表示無(wú)人機(jī)n的最大仰角;vn(t)表示無(wú)人機(jī)的飛行速度;表示無(wú)人機(jī)的飛行能耗;muav代表無(wú)人機(jī)的質(zhì)量;位于某個(gè)無(wú)人機(jī)的覆蓋范圍內(nèi)的多個(gè)用戶(hù)設(shè)備由同一無(wú)人機(jī)服務(wù),mn(t)表示無(wú)人機(jī)在時(shí)隙t服務(wù)的用戶(hù)數(shù)量;記為一個(gè)服務(wù)關(guān)聯(lián)變量,當(dāng)ue?m由uav?n服務(wù)時(shí),否則,為避免數(shù)據(jù)傳輸過(guò)程中的干擾,每個(gè)用戶(hù)設(shè)備在任何時(shí)刻只能由一架無(wú)人機(jī)服務(wù),即安全系數(shù)illegaln(t)={0,1}表示無(wú)人機(jī)n在時(shí)隙t中是否非法經(jīng)過(guò)禁飛區(qū),如果經(jīng)過(guò)禁飛區(qū),則illegaln(t)=1,如果成功避開(kāi)禁飛區(qū),則illegaln(t)=0。
8、各變量由以下公式計(jì)算:
9、
10、通訊模型定義以下參數(shù):
11、ω,m(t)=[xm(t),ym(t),0]t為用戶(hù)設(shè)備位置;dmn(t)表示無(wú)人機(jī)n與移動(dòng)設(shè)備m之間的距離;表示無(wú)人機(jī)n與用戶(hù)設(shè)備m之間在時(shí)隙t建立los鏈接的概率;表示無(wú)人機(jī)n與用戶(hù)設(shè)備m之間建立非視距鏈接的概率;與分別表示無(wú)人機(jī)n與用戶(hù)設(shè)備m之間的los和nlos路徑損耗;c表示光速,fc表示載波頻率,ηlos和ηnlos分別表示視距鏈路和非視距鏈路的路徑損失系數(shù);hmn(t)表示移動(dòng)設(shè)備m與無(wú)人機(jī)n之間內(nèi)的信道增益;g0表示無(wú)人機(jī)與ec距離為1m時(shí)的信道增益量;bu是上行鏈路帶寬;rmn(t)表示移動(dòng)設(shè)備m與無(wú)人機(jī)n在時(shí)隙t內(nèi)的數(shù)據(jù)傳輸速率;pm是用戶(hù)設(shè)備m的發(fā)射功率;為高斯白噪聲功率;為ue?m與無(wú)人機(jī)n之間的傳輸延遲;為無(wú)人機(jī)的接收功率;為用戶(hù)設(shè)備m與無(wú)人機(jī)n之間的任務(wù)傳遞所消耗的能量;ωe=[xe,ye,he]t表示ec的位置;den(t)為無(wú)人機(jī)n與ec之間的距離;hne(t)為無(wú)人機(jī)n與ec之間在時(shí)隙t內(nèi)的信道增益;be表示每個(gè)無(wú)人機(jī)分得的帶寬;rne(t)為無(wú)人機(jī)n與ec之間的數(shù)據(jù)傳輸速率;表示無(wú)人機(jī)n在時(shí)隙t內(nèi)的發(fā)射功率;pmax是無(wú)人機(jī)的最大傳輸功率;為無(wú)人機(jī)n從用戶(hù)設(shè)備m到ec的傳輸延遲;與分別為用戶(hù)設(shè)備m的任務(wù)在時(shí)隙t由ec和uav?n執(zhí)行的任務(wù)比例;為用戶(hù)設(shè)備m通過(guò)無(wú)人機(jī)n向ec進(jìn)行數(shù)據(jù)傳遞的能量消耗。
12、各變量由以下公式計(jì)算:
13、dmn(t)=||ωn(t)-ωm(t)||
14、
15、den(t)=||ωn(t)-ωe||
16、
17、計(jì)算模型定義以下參數(shù):
18、為uavn在本地處理用戶(hù)設(shè)備m任務(wù)的計(jì)算延遲;fmn(t)為從無(wú)人機(jī)n分配給移動(dòng)設(shè)備m的計(jì)算資源;為無(wú)人機(jī)n的計(jì)算資源;κ為與無(wú)人機(jī)cpu相關(guān)的能耗系數(shù);為uavn處理移動(dòng)設(shè)備m的能量消耗;fe為ec的總計(jì)算資源;fme(t)為ec分配給每個(gè)用戶(hù)設(shè)備的計(jì)算資源;移動(dòng)設(shè)備m的部分任務(wù)通過(guò)uav?n傳輸?shù)絜c后在ec上的計(jì)算延遲;en(t)表示無(wú)人機(jī)n在時(shí)間步t的總能量消耗;tn(t)為無(wú)人機(jī)n在時(shí)間步t的任務(wù)總執(zhí)行延遲。
19、各變量由以下公式計(jì)算:
20、
21、本發(fā)明在對(duì)上述系統(tǒng)模型進(jìn)行深入分析的基礎(chǔ)上,構(gòu)建了多無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算(mec)系統(tǒng)的約束優(yōu)化問(wèn)題。通過(guò)聯(lián)合優(yōu)化用戶(hù)調(diào)度、任務(wù)分配比例、無(wú)人機(jī)飛行軌跡及發(fā)射功率,旨在實(shí)現(xiàn)系統(tǒng)總處理延遲與總能耗的最小化的同時(shí),保障無(wú)人機(jī)的飛行安全,防止其在執(zhí)行任務(wù)過(guò)程中發(fā)生碰撞或進(jìn)入禁飛區(qū),從而提高系統(tǒng)的整體效率與安全性,約束優(yōu)化問(wèn)題形式化,其中dmin為無(wú)人機(jī)之間的最小安全距離,w1和w2分別表示對(duì)能耗和執(zhí)行延遲的重要性權(quán)重:
22、
23、在上述目標(biāo)函數(shù)中,c1、c2和c3代表mds任務(wù)卸載的約束條件;c4約束了uavs在飛行的過(guò)程中不得經(jīng)過(guò)禁飛區(qū),保證任務(wù)執(zhí)行的合規(guī)性;c5、c6和c7代表了無(wú)人機(jī)在飛行時(shí)的最大飛行距離約束與工作范圍約束;c8約束了無(wú)人機(jī)之間的距離,避免發(fā)生碰撞;c9約束了任意兩架無(wú)人機(jī)的覆蓋范圍不重疊,避免數(shù)據(jù)傳輸過(guò)程中的干擾;c10約束了無(wú)人機(jī)總能耗不能超過(guò)其能量上限。
24、該優(yōu)化問(wèn)題構(gòu)建為一個(gè)約束馬爾可夫決策過(guò)程(cmdp),并提出了一種基于多智能體安全強(qiáng)化學(xué)習(xí)的mactd3算法來(lái)解決此問(wèn)題,對(duì)于安全強(qiáng)化學(xué)習(xí)各個(gè)元素詳細(xì)定義如下:
25、(1)狀態(tài)空間:在所提出的多無(wú)人機(jī)輔助的mec系統(tǒng)中,狀態(tài)空間是由無(wú)人機(jī)、實(shí)時(shí)移動(dòng)的終端用戶(hù)以及所處的環(huán)境共同決定,因此無(wú)人機(jī)n的狀態(tài)空間可以定義為:
26、
27、其中ωn(t)表示無(wú)人機(jī)n的位置信息,表示無(wú)人機(jī)n的剩余能量,ωm(t)表示移動(dòng)設(shè)備m的位置信息,wm(t)表示移動(dòng)設(shè)備m的任務(wù)信息。m是用戶(hù)總量,代表觀(guān)測(cè)到1-m個(gè)用戶(hù)的任務(wù)信息,故使用大寫(xiě)。
28、(2)動(dòng)作空間:代理將基于系統(tǒng)的當(dāng)前狀態(tài)和觀(guān)察到的環(huán)境執(zhí)行動(dòng)作,每個(gè)智能體需要優(yōu)化位置調(diào)度、任務(wù)分配比例與上傳功率,從而從大化系統(tǒng)效應(yīng)的同時(shí)避免采取不安全的行為,因此無(wú)人機(jī)n的動(dòng)作空間可以定義為:
29、
30、其中l(wèi)n(t),分別表示無(wú)人機(jī)n的飛行距離與飛行角度,表示無(wú)人機(jī)n的上傳功率,表示為用戶(hù)設(shè)備m的任務(wù)在uav?n上執(zhí)行的比例。
31、(3)獎(jiǎng)勵(lì)函數(shù):獎(jiǎng)勵(lì)函數(shù)是環(huán)境對(duì)智能體動(dòng)作的反饋信號(hào),用于評(píng)估智能體的行為并幫助其改進(jìn)策略。為了實(shí)現(xiàn)系統(tǒng)消耗的最小化,同時(shí)確保無(wú)人機(jī)能夠?yàn)樗杏脩?hù)設(shè)備(ues)提供計(jì)算卸載服務(wù),定義的獎(jiǎng)勵(lì)函數(shù)如下::
32、
33、其中,w1和w2分別是用于表示能耗和延遲重要性的權(quán)重。w1≥w2表示能耗敏感場(chǎng)景,而w1<w2則適用于對(duì)延遲敏感的情況。此外,當(dāng)任何用戶(hù)設(shè)備未被無(wú)人機(jī)覆蓋時(shí),所有智能體將面臨懲罰項(xiàng)∈代表懲罰權(quán)重。
34、(4)代價(jià)函數(shù):代價(jià)函數(shù)提高了智能體執(zhí)行任務(wù)過(guò)程中的安全性與合規(guī)性,當(dāng)智能體采取不安全的動(dòng)作時(shí),將會(huì)產(chǎn)生相應(yīng)的代價(jià)值,因此要求智能體的代價(jià)值不能超過(guò)預(yù)設(shè)安全閾值d=0,智能體執(zhí)行任務(wù)時(shí)必須避免不安全行為。代價(jià)函數(shù)定義為:
35、cn(t)=η1∨η2∨η3
36、其中,η1、η2和η3為二進(jìn)制參數(shù),用于衡量智能體在時(shí)隙t是否違反了特定的安全約束。具體而言,η1=1表示無(wú)人機(jī)n在時(shí)間步t進(jìn)入了禁飛區(qū);η2=1表示無(wú)人機(jī)n在時(shí)間步t與其他無(wú)人機(jī)存在碰撞風(fēng)險(xiǎn);η2=1表示無(wú)人機(jī)n在時(shí)間步t的覆蓋范圍與其他無(wú)人機(jī)的覆蓋范圍重疊。邏輯或操作保證了只要有違反任一項(xiàng)安全約束,代價(jià)值cn(t)即為1。
37、對(duì)于本發(fā)明提出的多智能體安全強(qiáng)化學(xué)習(xí)算法mactd3,每個(gè)智能體n擁有以下網(wǎng)絡(luò):actor網(wǎng)絡(luò)πn、critic網(wǎng)絡(luò)與代價(jià)評(píng)估網(wǎng)絡(luò)(costcritic)qc,n,以及對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)和其中,actor網(wǎng)絡(luò)用于生成智能體的動(dòng)作策略,critic網(wǎng)絡(luò)用于評(píng)估給定狀態(tài)和動(dòng)作下的累積獎(jiǎng)勵(lì),cost?critic網(wǎng)絡(luò)用于評(píng)估給定狀態(tài)和動(dòng)作下的累積成本,目標(biāo)網(wǎng)絡(luò)用于緩解訓(xùn)練過(guò)程中的不穩(wěn)定性。由于多智能體的環(huán)境是非平穩(wěn)的,會(huì)導(dǎo)致經(jīng)驗(yàn)回放失效,因此mactd3算法采用了集中式訓(xùn)練、分布式執(zhí)行的方法來(lái)尋找最優(yōu)聯(lián)合策略。
38、對(duì)于每個(gè)智能體n,初始化其actor網(wǎng)絡(luò)參數(shù)critic網(wǎng)絡(luò)參數(shù)與costcritic網(wǎng)絡(luò)參數(shù)以及對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)參數(shù)和同時(shí),初始化每個(gè)智能體的拉格朗日乘子λn≥0,用于權(quán)衡獎(jiǎng)勵(lì)和成本之間的關(guān)系。
39、在每個(gè)時(shí)間步t,每個(gè)智能體n根據(jù)自身的觀(guān)測(cè)狀態(tài)sn(t),通過(guò)actor網(wǎng)絡(luò)πn生成決策動(dòng)作:
40、
41、其中,an(t)為智能體n在時(shí)間t選擇的動(dòng)作。所有智能體的聯(lián)合動(dòng)作記為a(t)=(a1(t),a2(t),...,an(t)),其中n為智能體的總數(shù)量。執(zhí)行聯(lián)合動(dòng)作a(t)后,環(huán)境反饋下一個(gè)狀態(tài)s(t+1)、每個(gè)智能體的獎(jiǎng)勵(lì)rn(t)和成本cn(t)。將經(jīng)驗(yàn)元組(s(t),a(t),r(t),c(t),s(t+1))存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū)中。
42、從經(jīng)驗(yàn)回放緩沖區(qū)中隨機(jī)采樣一個(gè)小批量的數(shù)據(jù)其中b為小批量大小。對(duì)于每個(gè)智能體n,利用目標(biāo)actor網(wǎng)絡(luò)計(jì)算下一步的目標(biāo)動(dòng)作,并加入隨機(jī)噪聲以平滑目標(biāo)值的估計(jì),減少過(guò)估計(jì)偏差:
43、
44、其中,表示服從均值為0、方差為σ2的正態(tài)分布并在區(qū)間[-ρ,ρ]內(nèi)裁剪的噪聲,ρ為噪聲裁剪閾值。聯(lián)合目標(biāo)動(dòng)作為a′(j+1)=(a′1(j+1),a′2(j+1),...,a′n(j+1))。并通目標(biāo)critic網(wǎng)絡(luò)和目標(biāo)cost?critic網(wǎng)絡(luò)計(jì)算每個(gè)智能體的目標(biāo)q值和目標(biāo)成本q值:
45、
46、根據(jù)目標(biāo)q值計(jì)算損失函數(shù)并通過(guò)最小化損失函數(shù)來(lái)更新每個(gè)智能體n的critic網(wǎng)絡(luò)參數(shù),損失函數(shù)如下:
47、
48、根據(jù)損失函數(shù)通過(guò)梯度下降法,更新critic網(wǎng)絡(luò)參數(shù)公式如下,其中β1為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率
49、
50、相似地,通過(guò)最小化損失函數(shù)l(qc,n)來(lái)更新每個(gè)智能體的costcritic網(wǎng)絡(luò)參數(shù),損失函數(shù)如下:
51、
52、更新cost?critic網(wǎng)絡(luò)參數(shù)公式如下:
53、
54、通過(guò)策略梯度方法更新每個(gè)智能體的actor網(wǎng)絡(luò)的參數(shù),并引入拉格朗日乘子λn,促使智能體在優(yōu)化獎(jiǎng)勵(lì)的同時(shí),避免違反預(yù)設(shè)的安全約束d,策略梯度可表示為:
55、
56、actor網(wǎng)絡(luò)參數(shù)更新如下:
57、
58、根據(jù)智能體違反安全約束d的情況,動(dòng)態(tài)調(diào)整每個(gè)智能體n的拉格朗日乘子,更新公式如下:
59、
60、其中,βlag>0為學(xué)習(xí)率,如果智能體n違反安全約束,則其拉格朗日乘子會(huì)增加,從而加大對(duì)違反約束的懲罰,若智能體n的行為符合約束條件,則其拉格朗日乘子會(huì)減小,從而在符合約束的情況下獲得最大化的累積獎(jiǎng)勵(lì)。
61、采用軟更新策略來(lái)更新目標(biāo)網(wǎng)絡(luò)的參數(shù),目標(biāo)網(wǎng)絡(luò)的存在旨在緩解網(wǎng)絡(luò)訓(xùn)練過(guò)程中的持續(xù)高估或低估現(xiàn)象,確保訓(xùn)練的穩(wěn)定性和收斂性。目標(biāo)網(wǎng)絡(luò)與其對(duì)應(yīng)的主網(wǎng)絡(luò)架構(gòu)完全相同,具體的軟更新公式如下,其中τ=0.005為軟更新系數(shù):
62、
63、本發(fā)明的有益效果為:
64、本發(fā)明通過(guò)最小化系統(tǒng)總消耗的同時(shí)保證無(wú)人機(jī)的飛行安全,防止無(wú)人機(jī)發(fā)生碰撞或進(jìn)入禁飛區(qū),將該問(wèn)題構(gòu)造為一個(gè)約束優(yōu)化問(wèn)題。引入了先進(jìn)的多智能體安全強(qiáng)化學(xué)習(xí)方法,并提出了mactd3求解算法,引入自適應(yīng)拉格朗日乘子將約束優(yōu)化問(wèn)題轉(zhuǎn)化為無(wú)約束優(yōu)化問(wèn)題,聯(lián)合聯(lián)合優(yōu)化無(wú)人機(jī)飛行軌跡及傳輸功率、用戶(hù)調(diào)度及任務(wù)分配策略。大量仿真結(jié)果表明,相較于現(xiàn)有方案,本發(fā)明在減少任務(wù)執(zhí)行延遲、降低系統(tǒng)能耗以及提高飛行安全性方面表現(xiàn)出顯著優(yōu)勢(shì),適用于復(fù)雜動(dòng)態(tài)的網(wǎng)絡(luò)環(huán)境。