本發(fā)明屬于多自主移動機器人軌跡規(guī)劃與跟蹤控制領域,涉及一種具備一定先驗環(huán)境信息的多自主移動機器人動態(tài)協(xié)同運輸作業(yè)方法。
背景技術:
1、自主移動機器人被廣泛應用在各類現(xiàn)實場景中,為相關領域的生產力提升、技術迭代、產能擴容提供了強力支撐,例如倉儲管理、工廠巡檢和園區(qū)運輸?shù)?。在多自主移動機器人的運輸作業(yè)執(zhí)行過程中,存在著大量由于避讓其他自主移動機器人而產生的安全約束和相關環(huán)境限制,這將嚴重影響多自主移動機器人系統(tǒng)的安全性和運輸作業(yè)任務執(zhí)行效率。因此,基于數(shù)據(jù)驅動開發(fā)出一種多自主移動機器人動態(tài)協(xié)同運輸作業(yè)的軌跡規(guī)劃與跟蹤控制方法,具有重要的現(xiàn)實意義。
2、發(fā)表在《robotics?and?autonomous?systems》2022年第150卷的論文“cl-mapf:multi-agent?path?finding?for?car-like?robots?with?kinematic?andspatiotemporal?constraints”提出了一種基于時空混合a星算法和沖突搜索算法結合的多智能機器人軌跡規(guī)劃方法,該方法將阿克曼轉向特征融到了軌跡規(guī)劃中,顯著提高了智能機器人對于軌跡的可執(zhí)行性;然而,傳統(tǒng)的軌跡規(guī)劃算法將智能體的運行速度單純的考慮為定值,將等待的速度考慮為零,這嚴重限制了多自主移動機器人的效率,因此提出基于躍遷原理的速度規(guī)劃,在軌跡跟蹤控制的同時對速度進行規(guī)劃。此外,發(fā)表在《axioms》2023年第13卷第1期的論文“path?planning?and?trajectory?tracking?for?autonomousobstacle?avoidance?in?automated?guided?vehicles?at?automated?terminals”提出了一種基于自動導引車的自主避障路徑和軌跡跟蹤控制方案,顯著了提高了自動導引車的任務執(zhí)行安全性。然而,傳統(tǒng)的基于人工勢場法的模型預測控制方法由于參數(shù)固定,在復雜環(huán)境下具有一定的局限性,因此提出一種基于強化學習的參數(shù)自適應方法。
技術實現(xiàn)思路
1、針對現(xiàn)有技術存在的上述問題,為了使多自主移動機器人系統(tǒng)可以應用在不同的場景,并在保證系統(tǒng)內外部安全性、任務執(zhí)行穩(wěn)定性的基礎上,本發(fā)明提出一種基于數(shù)據(jù)驅動的多自主移動機器人動態(tài)協(xié)同運輸作業(yè)方法。
2、為實現(xiàn)上述目的,本發(fā)明采取以下技術方案。
3、一種基于數(shù)據(jù)驅動的多自主移動機器人動態(tài)協(xié)同運輸作業(yè)方法,所述多自主移動機器人動態(tài)協(xié)同運輸作業(yè)方法能夠實現(xiàn)在結構化倉儲物流場景下的自主全局軌跡規(guī)劃、局部軌跡規(guī)劃以及軌跡跟蹤控制,是一種基于強化學習、類車-基于沖突搜索算法(cl-cbs)和人工勢場法-模型預測控制算法(apf-mpc)的多自主移動機器人動態(tài)協(xié)同運輸作業(yè)方法。所述的多自主移動機器人動態(tài)協(xié)同運輸作業(yè)方法首先,采用cl-cbs算法得到符合各個自主移動機器人運動學特性和安全性的可行全局軌跡。其次,對可行全局軌跡采用基于躍遷原理的速度規(guī)劃進行處理得到各個軌跡點的速度信息。然后,對具備速度信息的可行全局軌跡采用人工勢場法進行處理得到可具體執(zhí)行的局部參考軌跡,并對局部參考軌跡進行五次多項式擬合以得到局部期望軌跡。最后,利用模型預測控制算法對局部期望軌跡進行跟蹤;同時,采用強化學習自適應調整模型預測控制算法的控制參數(shù),以實現(xiàn)對于局部期望軌跡的精準跟蹤,并完成多自主移動機器人動態(tài)協(xié)同運輸作業(yè)。具體包括以下步驟:
4、步驟1:根據(jù)現(xiàn)實場景搭建仿真環(huán)境,并通過類車-基于沖突搜索算法(cl-cbs)為多自主移動機器人尋找可行全局軌跡。cl-cbs算法將可行全局軌跡尋找問題分解為上下兩層算法:下層算法負責規(guī)劃全局參考軌跡,并將該全局參考軌跡傳輸至上層算法;上層算法負責消解全局參考軌跡中的沖突,并將沖突消解方案傳輸回下層算法。此外,下層算法會根據(jù)沖突消解方案重新規(guī)劃全局參考軌跡,并將全局參考軌跡重新傳輸至上層算法,然后依次進行上層算法與下層算法之間的循環(huán),直至全局參考軌跡不存在沖突,即尋找到了各個自主移動機器人的可行全局軌跡。需要強調的是,上層算法采用二叉樹進行沖突搜索,下層算法基于低能耗原則采用懲罰式時空混合a星算法。此外,三種評價指標被引入以準確評價cl-cbs算法的性能。具體包括如下步驟:
5、步驟1.1:根據(jù)現(xiàn)實的倉儲物流場景構建結構化的虛擬地圖,在其中設置聚團狀和隨機散布的障礙物,以提高地圖復雜度和真實性,為動態(tài)協(xié)同運輸作業(yè)方法的實現(xiàn)提供可信的環(huán)境基礎;此外,該結構化的虛擬地圖被定義為連續(xù)工作空間
6、那么,通過步驟1.1可以得到連續(xù)空間
7、步驟1.2:定義cl-cbs算法的圖論基礎,令多自主移動機器人在連續(xù)工作空間中,障礙物占據(jù)的區(qū)域為故自主移動機器人的自由工作環(huán)境為設置自主移動機器人的實時狀態(tài)為其所占據(jù)的位置為第i個自主移動機器人robi負責從初始狀態(tài)到達目標狀態(tài)其中,x表示自主移動機器人在笛卡爾坐標系下的橫坐標,y表示自主移動機器人在笛卡爾坐標系下的縱坐標,表示自主移動機器人在笛卡爾坐標系下的橫擺角。
8、此外,第i個自主移動機器人robi從初始狀態(tài)si到達目標狀態(tài)gi的軌跡被定義為可行全局軌跡πi;πi由該自主移動機器人在連續(xù)時間上的實時狀態(tài)組成,故其可以被表達為此外,πi需要滿足如下條件:
9、(1)可行全局軌跡πi應該從初始狀態(tài)開始πi[0]=si,并在有限時間步長后到達目標狀態(tài)πi[t]=gi;此外,第i個自主移動機器人robi需要能夠保持在目標點處,tstep代表時間步;
10、(2)第i個自主移動機器人robi沿其軌跡移動時,不應與障礙物發(fā)生碰撞,t表示采樣時間。
11、具體而言,自主移動機器人在執(zhí)行任務過程中,需要系統(tǒng)內部的所有自主移動機器人的起始狀態(tài)不沖突、目標狀態(tài)不沖突和執(zhí)行狀態(tài)不沖突。
12、那么,通過步驟1.2可以得到cl-cbs算法的執(zhí)行框架。
13、步驟1.3:基于時空混合a星算法,設置基于自主移動機器人位姿變化的懲罰項,形成懲罰式時空混合a星算法,這被作為cl-cbs算法的下層算法。通過懲罰式時空混合a星算法將自主移動機器人的阿克曼轉向特性引入到全局軌跡規(guī)劃中,這可以使自主移動機器人對全局參考軌跡具有較好的可執(zhí)行性。具體而言,該算法在自由工作環(huán)境中進行軌跡節(jié)點搜索和擴展,并通過擴展的軌跡節(jié)點形成一個開放列表。該開放列表將軌跡節(jié)點的信息形成一個元組該元組意味著在當前軌跡節(jié)點,第i個自主移動機器人robi在采樣時間t下的狀態(tài)為zi;其中,n.f代表當前軌跡節(jié)點的總代價;n.g代表從初始狀態(tài)si到當前狀態(tài)zi的代價;n.h代表啟發(fā)代價。此外,n.f、n.g和n.h之間的關系可以被表示如下:
14、n.f=n.g+n.h?(1)
15、其中,n.h可以進一步表示為當前狀態(tài)zi到目標狀態(tài)gi的代價,其被計算如下:
16、
17、其中,hrs代表利用reed-shepp曲線連接當前狀態(tài)到目標狀態(tài)的最小代價,則代表兩者之間的歐式距離;其中,reed-shepp曲線為利用圓弧和直線連接兩點的最短曲線,其被提出在j.a.reeds發(fā)表的論文“optimal?paths?for?a?car?that?goes?both?forwardsand?backwards”中。此外,為了提高自主移動機器人的運行精度,對n.g施加懲罰,其被計算如下:
18、n.gpen=wturnwdirn.g?(3)
19、其中,wturn是基于位姿變化的第一種懲罰系數(shù),wdir是基于位姿變化的第二種懲罰系數(shù);wturn和wdir都需要進行手動設置,并且wturn≥1,wdir≥1;具體而言,wturn考察自主移動機器人是否發(fā)生前進和后退之間的轉換,wdir考察自主移動機器人是否發(fā)生左右方向之間的轉換。如果發(fā)生前進和后退之間的轉換,則采用wturn>1;如果發(fā)生左右方向之間的轉換,則采用wdir>1;如果未發(fā)生轉換,則wturn=wdir=1。那么,當前軌跡節(jié)點的總代價可被進一步計算如下:
20、n.f=n.gpen+n.h?(4)
21、因此,元組可以進一步表示為通過不斷的更新元組下層算法可以得到各個自主移動機器人的全局參考軌跡,該全局參考軌跡是否可行需要根據(jù)上層算法進行沖突檢測,若無沖突,則為可行全局軌跡。
22、那么,通過步驟1.3,cl-cbs算法的下層算法可以得到各個自主移動機器人的全局參考軌跡,并將該全局參考軌跡傳輸至上層算法進行沖突檢測與消解。
23、步驟1.4:上層算法采用二叉樹檢測原理對下層算法所輸入的全局參考軌跡進行沖突檢測。具體而言,上層算法會基于二叉樹遍歷初步全局參考軌跡,以檢測該全局參考軌跡是否為可行全局軌跡。如果無沖突,那么意味著cl-cbs算法為各個自主移動機器人都找到了可行全局軌跡。如果存在沖突,那么上層算法會對最先發(fā)生的沖突施加約束,即產生(ai,n.πj[t],t)和(aj,n.πi[t],t);前者要求第i個自主移動機器人robi在采樣時間t時禁止駛入位置后者要求第j個自主移動機器人robj在采樣時間t時禁止駛入位置該約束即為沖突消解方案。進一步,上層算法會將沖突消解方案傳輸回下層算法,下層算法會基于消解方案重新為各個自主移動機器人規(guī)劃出全局參考軌跡。此外,cl-cbs的上層算法與下層算法會重復進行循環(huán)求解,直到各個自主移動機器人的軌跡都不發(fā)生沖突,即尋找到了各個自主移動機器人的可行全局軌跡。
24、那么,通過步驟1.3~步驟1.4,即經(jīng)過cl-cbs算法的下層算法和上層算法的循環(huán)求解,可以找到各個自主移動機器人的可行全局軌跡。
25、步驟1.5:在得到各個自主移動機器人的可行軌跡后,為了具體、準確地評價cl-cbs算法的性能,引入三種評價指標,為數(shù)據(jù)可視化和分析便捷化作出貢獻,所述評價指標的表達式如下:
26、
27、其中,ncost代表總代價值,其為第一種評價指標;tmakespan代表cl-cbs最長運行時間步,其為第二種評價指標;taverageflow代表智能體到達目標點的平均時間步,其為第三種評價指標。此外,namr代表自主移動機器人的數(shù)量,n.f(i)代表第i個自主移動機器人robi從初始狀態(tài)si到目標狀態(tài)gi的總代價,tstep代表時間步。
28、通過步驟1,可以得到多自主移動機器人自主規(guī)劃的可行全局軌跡,步驟1是多自主移動機器人的全局軌跡規(guī)劃模塊。
29、步驟2:通過步驟1得到各個自主移動機器人的可行全局軌跡,在此基礎上對各個自主移動機器人采用一種基于躍遷原理的速度規(guī)劃。所述基于躍遷原理的速度規(guī)劃的主要目的是減少不同自主移動機器人因可行全局軌跡交叉而出現(xiàn)等待動作的情況,盡量使機器人保持前向運動狀態(tài),以提高自主移動機器人的運行精度。具體步驟如下:
30、步驟2.1:根據(jù)cl-cbs算法輸出的可行全局軌跡,提出一種基于躍遷原理的速度規(guī)劃方法。通過分析可行全局軌跡,可直接得到各個自主移動機器人等待動作出現(xiàn)和結束的時間節(jié)點,然后按照等待動作結束的時間節(jié)點對時間段進行精細劃分。具體而言,將某一自主移動機器人各個等待動作結束的時間節(jié)點都作為該自主移動機器人的關鍵時間節(jié)點,然后按照關鍵時間節(jié)點將該自主移動機器人的可行全局軌跡分為不同的時間段,令該自主移動機器人在不同的時間段采用相應的速度,以避免發(fā)生碰撞與等待動作。
31、那么,通過步驟2.1,可以得到各個自主移動機器人的關鍵時間節(jié)點。
32、步驟2.2:通過各個自主移動機器人的關鍵時間節(jié)點,可得到自主移動機器人第一個關鍵時間節(jié)點t1、發(fā)生第一個關鍵節(jié)點前的時間段t1、發(fā)生第一個關鍵節(jié)點后的時間段t2。此外,為了便于不同的自主移動機器人選擇合適的速度,需要對自主機器人的優(yōu)先級進行確定;具體而言,具有等待動作的自主移動機器人均為次優(yōu)先級,無等待動作的自主移動機器人均為最高優(yōu)先級。最高優(yōu)先級自主移動機器人的縱向速度vx采取預設的理想速度ve,次優(yōu)先級自主移動機器人的縱向速度vx采取速度vp,vp的選取范圍被計算如下:
33、
34、其中,δv表示速度加權系數(shù),并且0≤δv≤1;ls代表自主移動機器人在t1階段的軌跡長度,l代表自主移動機器人的長度。
35、在此基礎上,為了便于vp的選取,通過公式(6)在選取范圍內按照0.5m/s的速度間隔依次設置不同速度參考值,所述速度參考值可以使次優(yōu)先級自主移動機器人選擇到合適的縱向速度。需要說明的是,對于存在可行全局軌跡交叉的次優(yōu)先級自主移動機器人而言,其等待動作結束的時間節(jié)點是不同的,故次優(yōu)先級自主移動機器人之間是不存在碰撞風險的。
36、那么,通過步驟2.2,可以得到次優(yōu)先級自主移動機器人和最高優(yōu)先級自主移動機器人在t1階段的縱向速度vx。
37、步驟2.3:當被評定為次優(yōu)先級的自主移動機器人駛過第一個關鍵時間節(jié)點之后,需要對優(yōu)先級重新進行評定。具體而言,若繼續(xù)出現(xiàn)關鍵時間節(jié)點,則該自主移動機器人仍為次優(yōu)先級,并根據(jù)公式(6)進行重新采取速度;若前方不再出現(xiàn)關鍵節(jié)點,則該自主移動機器人的縱向速度恢復成預設的理想縱向速度ve。那么,自主移動機器人可以依次安全通過各個關鍵時間節(jié)點。
38、通過步驟2,可以得到各個自主移動機器人具備速度信息的可行全局軌跡。
39、步驟3:在得到具備速度信息的可行全局軌跡后,需要進行防碰撞處理,這是為了防止局部軌跡規(guī)劃輸出的局部參考軌跡與可行全局軌跡之間存在偏差而引起碰撞。首先,建立點質量動力學模型為最優(yōu)化求解提供模型基礎。其次,采用人工勢場法對障礙物和自主移動機器人進行膨脹處理,并將其融入到最優(yōu)化求解的目標函數(shù)中以尋到安全的局部參考軌跡。然后,建立實現(xiàn)避碰防撞功能的目標函數(shù)。最后,為進一步平順局部參考軌跡,采用五次多項式對局部參考軌跡進行擬合以得到局部期望軌跡。具體步驟如下:
40、步驟3.1:忽略各個自主移動機器人的尺寸信息以及由橫、縱向加速度引起的載荷轉移,建立自主移動機器人的點質量動力學模型,所述點質量動力學模型可被表示如下:
41、
42、在點質量動力學模型的基礎上,進一步考慮動力學約束,即加入約束條件|ay|<ug,其中u代表控制量,即前輪轉角w;則公式(7)可進一步表示如下:
43、
44、其中,代表狀態(tài)量,代表ξ(t)對采樣時間t的一階導數(shù),f(·)代表一個可以通過計算得到的函數(shù),f(·)由ξ(t)和ay構成。vy代表自主移動機器人在車體坐標系下的縱向速度、vx代表自主移動機器人在車體坐標系下的橫向速度,代表自主移動機器人在笛卡爾坐標系下的橫擺角,y代表自主移動機器人在笛卡爾坐標系的橫坐標,x代表自主移動機器人在笛卡爾坐標系下的縱坐,和ay都代表自主移動機器人在車體坐標系下的縱向加速度,代表自主移動機器人在車體坐標系下的橫向加速度;代表y對采樣時間t的一階導數(shù),代表x對采樣時間t的一階導數(shù),代表對采樣時間t的一階導數(shù)。
45、那么,通過步驟3.1,可以得到自主移動機器人的點質量動力學模型,這是進行最優(yōu)化求解的基礎。
46、步驟3.2:在建立點質量動力學模型的同時,需要建立基于障礙物和自主移動機器人位置的人工勢場函數(shù),所述人工勢場函數(shù)的目的是通過計算障礙物與本體自主移動機器人的距離來調節(jié)人工勢場函數(shù)斥力的大??;其中,所述障礙物除包含虛擬地圖中的障礙物外,也包括除本體自主移動機器人外的其余自主移動機器人。通過建立人工勢場函數(shù),可以使自主移動機器人在最優(yōu)化求解中避開斥力較大的區(qū)域,即避開障礙物,該人工勢場函數(shù)被計算如下:
47、
48、其中,woa代表全局調控權重,wdis代表距離權重,woa和wdis需要手動設置,并且woa>0,wdis>0;г代表人工勢場函數(shù)的斥力閾值,rg為人工勢場函數(shù)的輻射半徑,г和rg需要手動設置,并且г≥1,rg≥1;jobc代表人工勢場的斥力值,v代表自主移動機器人的速度;edis代表本體自主移動機器人與障礙物之間的歐幾里得距離,所述歐幾里得距離可以被表示為edis=((x-xobc)2+(y-yobc)2)1/2,其中,xobc代表障礙物在笛卡爾坐標系下的橫坐標,yobc代表障礙物在笛卡爾坐標系下的縱坐標。
49、不難發(fā)現(xiàn),根據(jù)公式(9),當v在零附近時,jobc的值也會趨近零,這將使自主移動機器人穿越障礙物,因此需要對人工勢場函數(shù)中的v進行約束,以滿足障礙物的合理膨脹,故v被規(guī)定如下:
50、
51、那么,通過步驟3.2,可以得到自主移動機器人在運行過程中所受到的實時斥力值,這同樣是進行最優(yōu)化求解的基礎。
52、步驟3.3:為便于人工勢場函數(shù)融入最優(yōu)化求解中,故直接采用點質量動力學模型求解,并采用前向歐拉法進行離散化處理。此外,由于局部軌跡規(guī)劃的控制目標是盡量減少與可行全局軌跡的偏差,并且實現(xiàn)對障礙物的避讓,故可將局部軌跡規(guī)劃層的目標函數(shù)jp表示如下:
53、
54、其中,qlocal代表該目標函數(shù)的第一種權重矩陣,rlocal代表該目標函數(shù)的第二種權重矩陣,qlocal和rlocal需要進行手動設置;jobs.t為采樣時間t時的人工勢場函數(shù)值,np代表預測時域,nc代表控制時域。η(t+m|t)代表以采樣時間t為起始,由最優(yōu)化求解所計算的t+m時間段內的局部參考軌跡;ηref(t+m|t)代表以采樣時間t為起始,t+m時間段內的可行全局軌跡;δu(t+m|t)代表以采樣時間t為起始,t+m時間段內的控制增量矩陣;ut代表采樣時間t時控制量矩陣,umin代表控制量矩陣的最小值,umax代表控制量矩陣的最大值,umin和umax需要進行手動設置。此外,代表行數(shù)為nc的列向量,u(t-1)代表采樣時間t-1時的控制量。
55、那么,通過步驟3.3,可以得到經(jīng)過最優(yōu)化的局部參考軌跡。
56、步驟3.4:在得到經(jīng)過最優(yōu)化的局部參考軌跡后,為了使局部參考軌跡更加平順,并考慮到自主移動機器人的位姿變化是連續(xù)的,故采用五次多項式對局部參考軌跡進行擬合以得到局部期望軌跡,所述局部期望軌跡可被表示如下:
57、
58、其中,an代表局部軌跡期望橫坐標的擬合參數(shù),n=0,1,2,3,4,5;bn代表局部軌跡期望橫擺角的擬合參數(shù);ylocal代表局部軌跡期望縱坐標,代表局部期望軌跡的橫擺角。
59、通過步驟2~步驟3,可以得到多自主移動機器人自主規(guī)劃的局部期望軌跡,步驟2~步驟3是多自主移動機器人的局部軌跡規(guī)劃模塊。
60、步驟4:在得到局部期望軌跡后,需要對局部期望軌跡進行跟蹤。根據(jù)自主移動機器人的動力學特性,建立基于三自由度動力學模型的模型預測控制算法,并忽略阿克曼轉向幾何引起的左右車輪轉向角差異。具體步驟如下:
61、步驟4.1:建立自主移動機器人的三自由度動力學模型,動力學方程如下:
62、
63、其中,代表前輪的側偏剛度,代表后輪的側偏剛度;cσf代表前輪的縱向剛度,cσr代表后輪的縱向剛度;lf代表前軸到質心的距離,lr代表后軸到質心的距離,m代表自主移動機器人的質量,γ代表橫擺角速度,w代表前輪轉角;iz代表繞z軸的轉動慣量,z軸代表車體坐標系下的垂直于∑xoy平面的軸。
64、那么,通過步驟4.1,可以得到自主移動機器人的三自由度動力學模型,所述三自由度動力學模型是模型預測控制算法的基礎。
65、步驟4.2:在得到三自由動力學模型后,為便于計算,對公式(13)所述的非線性時變模型進行線性化處理,線性轉化后的狀態(tài)空間如下:
66、
67、其中,代表三自由度動力學模型下的狀態(tài)量;代表χ對采樣時間t的一階導數(shù),u代表控制量,即前輪轉角w;代表輸出量;a、b、c為系數(shù)矩陣,可以通過線性化處理直接得到。
68、那么,通過步驟4.2,可以得到自主移動機器人的線性狀態(tài)空間,該線性狀態(tài)空間可以大幅度降低計算難度。
69、步驟4.3:采用向前歐拉方法將公式(14)所示的線性狀態(tài)空間進行離散化,離散化形式如下:
70、χ(t+1)=akχ(t)+bku(t)(15)
71、其中,ak=i6+tta,bk=ttb;tt代表采樣周期,需要進行手動設置;ak表示狀態(tài)量的權重矩陣,bk表示控制量的權重矩陣,i6表示6階的單位矩陣;χ(t+1)代表采樣時間t+1時的狀態(tài)量,χ(t)代表采樣時間t時的狀態(tài)量,u(t)代表采樣時間t時的控制量。
72、那么,通過步驟4.3,可以得到自主移動機器人的離散化線性狀態(tài)空間,該離散化線性狀態(tài)空間可以進一步降低運算量。
73、步驟4.4:在得到離散化線性狀態(tài)空間后,為避免控制量出現(xiàn)突變,需要將狀態(tài)量擴維為ξ(t)=[χ(t)u(t-1)]t;其中,u(t-1)代表采樣時間t-1時的控制量,ξ(t)代表采樣時間t時的擴維狀態(tài)量。那么,新的狀態(tài)空間如下:
74、
75、其中,代表擴維狀態(tài)量的增廣參數(shù)矩陣,其中,代表nu行nx列零矩陣,代表nu階單位矩陣;代表控制增量的增廣參數(shù)矩陣;代表輸出量的增廣參數(shù)矩陣,其中,代表ny行nu列零矩陣;nu代表控制量的個數(shù),nx代表狀態(tài)量的個數(shù),ny代表輸出量的個數(shù),nu、nx和ny需要進行手動設置;δu(t)代表采樣時間t時的控制增量,η(t)代表采樣時間t時的擴維輸出量。
76、那么,通過步驟4.4,可以得到自主移動機器人的擴維狀態(tài)空間,該擴維狀態(tài)空間在離散化線性狀態(tài)空間的基礎上可以防止控制量發(fā)生突變,以提高對局部期望軌跡跟蹤的穩(wěn)定性。
77、步驟4.5:在得到擴維狀態(tài)空間后,需要為模型預測控制算法設置目標函數(shù)。為了使自主移動機器人能夠跟蹤局部期望軌跡,并且提高自主移動機器人的穩(wěn)定性,需要以模型預測控制算法輸出軌跡與局部期望軌跡之間的誤差最小化為優(yōu)化目標;另外,為了避免控制增量過大導致自主移動機器人失控,需要以控制量盡可能小為優(yōu)化目標;最后為了避免控制量突變而影響控制量的連續(xù)性,需要增加軟約束。故采用目標函數(shù)如下:
78、
79、其中,qmpc是的擴維狀態(tài)量的權重矩陣,rmpc是控制增量矩陣的權重矩陣;ρ為權重系數(shù),ε為松弛因子;η(t+k|t)代表以采樣時間t為起始,模型預測控制算法所計算的t+k時間段內的執(zhí)行軌跡;ηref.p(t+k|t)代表以采樣時間t為起始,t+k時間段內的局部期望軌跡;δu(t+m|t)代表以采樣時間t為起始,t+k時間段內的控制增量矩陣;δumin代表控制增量的最小值,δumax分別代表控制增量的最大值;umin代表控制量的最小值,umax分別代表控制量的最大值;此外,代表nu階單位矩陣,d代表控制量約束的權重矩陣。
80、通過步驟4,可以控制自主移動機器人跟蹤局部期望軌跡,并輸出最優(yōu)的控制量,步驟4是多自主移動機器人的軌跡跟蹤控制模塊。
81、步驟5:為了進一步減少局部軌跡規(guī)劃與可行全局軌跡之間的偏差,提高軌跡跟蹤控制模塊的跟蹤精度,需要實時調整公式(17)的權重矩陣qmpc和rmpc,基于強化學習的實時調參方法是一種自主學習策略,具備一定的智能性和高效性。本發(fā)明采用一種actor-critic框架,可以較好的彌補傳統(tǒng)強化學習收斂速度較慢的缺點,該框架主要分為actor和critic兩部分。actor部分由目標策略網(wǎng)絡和在線策略網(wǎng)絡組成,該部分用于估計確定性策略函數(shù),根據(jù)當前信息(st,at,rt,st+1)以及局部期望軌跡等信息,其中,st代表當前時刻狀態(tài),at代表動作,rt代表獎勵,st+1代表下一時刻狀態(tài);需要強調的是,該自主學習策略的動作at為權重矩陣qmpc和rmpc。critic部分由在線q網(wǎng)絡和目標q網(wǎng)絡組成,該部分通過環(huán)境反饋的獎勵信號和對自主移動機器人下一狀態(tài)的估計,評估出當前動作的價值以更新調整actor部分的策略;需要說明的是,該自主學習策略的獎勵是基于對局部期望軌跡的跟蹤情況,即跟蹤局部期望軌跡越好,獎勵越高。
82、具體而言,actor部分會根據(jù)當前環(huán)境生成一個動作,環(huán)境會反饋給actor部分下一個狀態(tài)和獎勵,并將動作傳輸給critic部分以進行評價;critic在接收到狀態(tài)后,會根據(jù)在線策略網(wǎng)絡和目標策略網(wǎng)絡對該動作進行評估,并將評估結果(梯度)傳輸給actor部分,以使actor的動作不斷進行優(yōu)化,即獲得最大獎勵值;同時,經(jīng)驗回收池會存儲信息(st,at,rt,st+1),并進行采樣以使得強化學習可以打破數(shù)據(jù)相關性。那么,通過該自主學習策略,可以獲得最優(yōu)的動作,即權重矩陣qmpc和rmpc;此外,該自主學習策略會將最優(yōu)的權重矩陣qmpc和rmpc傳遞給公式(17)的目標函數(shù),以使自主移動機器人可以精準跟蹤局部期望軌跡。
83、那么,通過步驟5,可以得到最優(yōu)的權重矩陣qmpc和rmpc,有助于軌跡跟蹤控制模塊對于局部期望軌跡的精準跟蹤。
84、步驟6:通過基于強化學習的調參方法更新如公式(17)的所示目標函數(shù)中的權重矩陣qmpc和rmpc,并對公式(17)所示的最優(yōu)化問題進行求解,可以得到控制時域內的最優(yōu)控制增量序列;進一步將最優(yōu)控制增量序列中的第一個控制增量δu作為實際的控制增量,得到控制量如下:
85、u(t)=u(t-1)+δu(t-1)(18)
86、其中,u(t)=w(t),w(t)代表采樣時間t時的前輪轉角;u(t-1)=w(t-1),w(t-1)代表采樣時間t-1時的前輪轉向角度;δu(t-1)=δw(t-1),δw(t-1)代表采樣時間t-1時期望的前輪轉角增量。
87、通過步驟5~步驟6實時調整模型預測控制的權重矩陣,可以得到自主移動機器人最優(yōu)的控制量,步驟5~步驟6是多自主移動機器人的強化學習模塊。
88、步驟7:將步驟6輸出的最優(yōu)控制量分別傳遞給各個自主移動機器人,輸出多自主移動機器人各自的狀態(tài)信息。在此基礎上,將各個自主移動機器人的狀態(tài)信息傳遞給局部軌跡規(guī)劃模塊和跟蹤控制模塊,更新下一步的狀態(tài)信息并進行動態(tài)協(xié)同運輸作業(yè),直至完成多自主移動機器人動態(tài)協(xié)同運輸作業(yè)。
89、本發(fā)明的有益效果是:
90、(1)本發(fā)明提出了一種懲罰式時空混合a星算法,根據(jù)懲罰量減少自主移動機器人的冗余轉向、倒退動作,并根據(jù)任務信息和始末狀態(tài)規(guī)劃出最優(yōu)可行全局軌跡,顯著提高了多自主移動機器人的低能耗性和安全性。
91、(2)本發(fā)明提出了一種基于躍遷原理的速度規(guī)劃,可以根據(jù)可行全局軌跡信息中的關鍵時間節(jié)點自主的采用相應的速度。同時在局部軌跡規(guī)劃模塊,采用五次多項式對軌跡離散點進行平順,極大提升了多自主移動機器人的運輸任務執(zhí)行效率,有助于完成動態(tài)協(xié)同運輸作業(yè)。
92、(3)本發(fā)明提供了一種基于強化學習的自適應調參方法,通過強化學習驅動各個自主移動機器人根據(jù)當前環(huán)境和狀態(tài)實時更新模型預測控制算法的權重矩陣,明顯提升了自主移動機器人的軌跡跟蹤精度和穩(wěn)定性。