最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

全自動足式機器人實物在線強化學習訓練系統(tǒng)及方法與流程

文檔序號:41949683發(fā)布日期:2025-05-16 14:08閱讀:6來源:國知局
全自動足式機器人實物在線強化學習訓練系統(tǒng)及方法與流程

本發(fā)明涉及機器人控制,具體涉及一種全自動足式機器人實物在線強化學習訓練系統(tǒng)及方法。


背景技術(shù):

1、足式機器人是模仿人類或動物步態(tài)的移動機器人,具備多個關(guān)節(jié)和自由度,能夠在復(fù)雜環(huán)境中靈活行走、奔跑或攀爬。大多數(shù)基于輪子或者履帶結(jié)構(gòu)的傳統(tǒng)機器人通常無法像人類一樣在復(fù)雜的地形上自由行走。與之相反,足式機器人由于具有腿足結(jié)構(gòu),使其具有了仿生形態(tài)學的優(yōu)越性,這導(dǎo)致足式機器人在服務(wù)、軍事等領(lǐng)域有著不可比擬的優(yōu)勢。隨著雙足機器人相關(guān)領(lǐng)域的研究深入,未來足式機器人將在復(fù)雜、高危險的環(huán)境下替代人類勞動,發(fā)揮出越來越大的作用。

2、當前許多策略可用于足式機器人的運動控制,強化學習機器人控制算法是一種在仿真環(huán)境中,通過建模機器人后讓機器人模型與環(huán)境不斷的互動來訓練機器人運動控制的方法,比如公布號為cn110861084a的專利申請文獻中提出基于深度強化學習的四足機器人跌倒自復(fù)位控制方法,通過建立四足機器人模型,構(gòu)建并學習執(zhí)行器網(wǎng)絡(luò),來訓練機器人從摔倒恢復(fù)站立一個簡單動作。在強化學習控制這一過程中,機器人作為智能體,通過不斷嘗試不同的動作并根據(jù)獲得的獎勵來調(diào)整自己的行為,所以機器人在訓練的時候會不斷的重復(fù)進行“嘗試-失敗-重置-恢復(fù)-嘗試”的過程。算法利用狀態(tài)、動作和獎勵的反饋機制,逐步優(yōu)化策略,以實現(xiàn)特定動作,如行走或上樓梯等。通過反復(fù)學習,機器人能夠在復(fù)雜和動態(tài)的環(huán)境中做出更好的決策,從而提高其自主性和效率。

3、而實物在線強化學習機器人控制算法結(jié)合了實物在線學習和強化學習的優(yōu)勢,使機器人能夠在真實的環(huán)境中通過機器人與環(huán)境的交互進行持續(xù)學習和適應(yīng)。這樣就免去了機器人在仿真環(huán)境中的建模和仿真中控制算法遷移到真機中的調(diào)試過程,從大大提高了控制算法開發(fā)效率和適應(yīng)能力。但目前,在真實機器人中使用在線強化學習的方法訓練足式機器人運動控制算法面臨著一些挑戰(zhàn):(1)強化學習通常需要大量的試錯來訓練策略,但在物理環(huán)境中,不斷地恢復(fù)機器人會導(dǎo)致數(shù)據(jù)采集成本高(人工成本、時間、硬件損耗等),而且訓練過程需要大量的人力干預(yù),機器人不斷開始訓練和重置機器人的過程都需要人工輔助,并且機器人的訓練時間也依賴人員工作的時間,這樣導(dǎo)致機器人訓練效率低下,自動化程度不足,難以快速獲得有效的訓練數(shù)據(jù);(2)在訓練過程中,機器人在物理環(huán)境中試錯可能會損壞自身或周圍環(huán)境比如機器人可能因錯誤的動作導(dǎo)致跌倒或損壞,現(xiàn)有系統(tǒng)缺乏有效的保護措施,有可能讓機器人受損影響訓練效率,并增加了輔助機器人訓練的人員的安全風險。

4、比如在相關(guān)技術(shù)中,公布號為cn106625768a的專利申請文獻中提出了一種行走機器人學習平臺,通過使用兩條平行滑軌并使用皮帶進行驅(qū)動,帶動機器人在跑步機上移動,但該方案采用滑軌并使用皮帶進行驅(qū)動的方式無法吊裝重量較大的機器人,無法滿足大尺寸大重量機器人的訓練。


技術(shù)實現(xiàn)思路

1、本發(fā)明所要解決的技術(shù)問題在于如何在機器人實物在線學習過程中減少人工干預(yù),提升訓練效率。

2、本發(fā)明通過以下技術(shù)手段解決上述技術(shù)問題的:

3、提出了一種全自動足式機器人實物在線強化學習訓練裝置,所述系統(tǒng)包括重置機構(gòu)、在線強化學習網(wǎng)絡(luò)、數(shù)據(jù)采集系統(tǒng)和重置判斷系統(tǒng),機器人部署在重置機構(gòu)中,重置機構(gòu)和機器人均接入在線強化學習網(wǎng)絡(luò),數(shù)據(jù)采集系統(tǒng)的輸出與重置判斷系統(tǒng)連接,重置判斷系統(tǒng)的輸出與重置機構(gòu)連接,其中:

4、數(shù)據(jù)采集系統(tǒng),用于在機器人執(zhí)行動作進行運動訓練時,采集機器人的訓練數(shù)據(jù);

5、在線強化學習網(wǎng)絡(luò),用于根據(jù)上一時刻器人的訓練數(shù)據(jù)計算機器人當前時刻的待執(zhí)行動作,以使機器人根據(jù)待執(zhí)行動作進行運動訓練;

6、重置判斷系統(tǒng),用于根據(jù)機器人每次執(zhí)行動作進行運動的訓練數(shù)據(jù)判斷機器人位置是否需要重置;

7、重置機構(gòu),用于在重置判斷系統(tǒng)確定需要重置時,將機器人移動至初始位置重新開始下一輪訓練。

8、進一步地,所述數(shù)據(jù)采集系統(tǒng)用于對傳感器組的數(shù)據(jù)進行采集,所述傳感器組包括安裝在所述重置機構(gòu)上的動作捕捉相機以及安裝在機器人本體上的電機傳感器、姿態(tài)傳感器和壓力傳感器。

9、進一步地,所述重置機構(gòu)包括支撐架、滑軌和中控吊機,所述滑軌安裝在支撐架上,所述滑軌內(nèi)設(shè)置驅(qū)動機構(gòu)用于驅(qū)動中控吊機沿著所述滑軌移動以帶動機器人移動,所述支撐架上安裝動作捕捉相機。

10、進一步地,所述滑軌包括在支撐架上并相互平行布置的兩根縱向滑軌,兩根所述縱向滑軌之間設(shè)有與其垂直的橫向滑軌,所述橫向滑軌分別與兩根所述縱向滑軌滑動配合,以使驅(qū)動機構(gòu)驅(qū)動中控吊機沿著相互垂直的兩個方向運動。

11、進一步地,所述重置判斷系統(tǒng)判斷機器人位置需要重置的條件為滿足機器人高度低于原有高度的四分之一、機器人本體的俯仰角度或滾轉(zhuǎn)角度大于20度、機器人所有關(guān)節(jié)角度中存在超過預(yù)設(shè)值的關(guān)節(jié)角度且機器人運行時間超過預(yù)設(shè)值中的任一條件。

12、進一步地,所述數(shù)據(jù)采集系統(tǒng)包括數(shù)據(jù)監(jiān)測模塊和數(shù)據(jù)處理模塊,其中:

13、數(shù)據(jù)監(jiān)測模塊,用于監(jiān)測傳感器組的數(shù)據(jù)是否完整,并將異常的訓練數(shù)據(jù)輸出至重置判斷系統(tǒng),將完整的訓練數(shù)據(jù)輸出至數(shù)據(jù)處理模塊;

14、數(shù)據(jù)處理模塊,用于將訓練數(shù)據(jù)轉(zhuǎn)化為所述在線學習強化網(wǎng)絡(luò)訓練使用的數(shù)據(jù)格式后存儲至歷史數(shù)據(jù)緩存庫。

15、進一步地,所述裝置還包括與所述在線強化學習網(wǎng)絡(luò)的輸出連接的安全限制器;

16、所述安全限制器用于判斷所述在線強化學習網(wǎng)絡(luò)輸出的待執(zhí)行動作是否為可執(zhí)行的動作,若是不可執(zhí)行動作則直接將動作裁切到安全范圍內(nèi)再執(zhí)行。

17、進一步地,所述數(shù)據(jù)采集系統(tǒng)的輸出還連接有歷史數(shù)據(jù)緩存庫;

18、所述歷史數(shù)據(jù)緩存庫用于對所述數(shù)據(jù)采集系統(tǒng)輸出的訓練數(shù)據(jù)進行存儲,以定期根據(jù)歷史數(shù)據(jù)緩存庫中的訓練數(shù)據(jù)對所述在線學習強化網(wǎng)絡(luò)的參數(shù)進行優(yōu)化。

19、此外,本發(fā)明還提出了一種全自動足式機器人實物在線強化學習訓練方法,于利用如上所述的全自動足式機器人實物在線強化學習訓練裝置進行機器人在線訓練,所述方法包括:

20、s10、由在線強化學習網(wǎng)絡(luò)根據(jù)t-1時刻器人的訓練數(shù)據(jù)計算機器人t時刻的待執(zhí)行動作,以使機器人根據(jù)待執(zhí)行動作進行運動訓練;

21、s20、根據(jù)t時刻機器人的訓練數(shù)據(jù)判斷機器人在t+1時刻是否需要重置,若否則令t=t+1后執(zhí)行步驟s10,若是則執(zhí)行步驟s30;

22、s30、控制重置機構(gòu)將機器人移動至初始位置重新開始下一輪訓練。

23、進一步地,所述根據(jù)t時刻機器人的訓練數(shù)據(jù)判斷機器人在t+1時刻是否需要重置,包括:

24、s21、基于所述訓練數(shù)據(jù)判斷機器人高度是否低于原有高度的四分之一,若是則執(zhí)行步驟s26,若否則執(zhí)行步驟s22;

25、s22、判斷機器人本體的俯仰角度或滾轉(zhuǎn)角度是否大于20度,若是則執(zhí)行步驟s25,若否則執(zhí)行步驟s23;

26、s23、判斷機器人所有關(guān)節(jié)角度中是否存在超過預(yù)設(shè)值的關(guān)節(jié)角度,若是則執(zhí)行步驟s25,若否則執(zhí)行步驟s24;

27、s24、判斷機器人運行時間是否超過預(yù)設(shè)值,若是則執(zhí)行步驟s25,若否則執(zhí)行步驟s26;

28、s25、確定機器人在t+1時刻需要重置;

29、s26、確定機器人在t+1時刻無需重置。

30、本發(fā)明的優(yōu)點在于:

31、(1)本發(fā)明提出的全自動足式機器人實物在線強化學習訓練裝置中,通過設(shè)置數(shù)據(jù)采集系統(tǒng)采集機器人執(zhí)行動作進行運動訓練的訓練數(shù)據(jù),并通過設(shè)置重置判斷系統(tǒng)能夠基于訓練數(shù)據(jù)實時監(jiān)測機器人的姿態(tài)變化并獲取準確的空間位置信息,及時識別摔倒等異常狀態(tài),并在判斷需要重置時利用重置機構(gòu)將機器人移動至初始位置重新開始下一輪訓練;因此本發(fā)明通過使用自動化重置系統(tǒng)可以保護機器人在物理環(huán)境中進行測試防止摔倒,進而防止損壞自身或周圍環(huán)境,提高了機器人實體進行在線強化學習訓練時的安全性,而且通過使用重置機構(gòu)能夠自動將機器人移動至初始位置,減少了人工的干預(yù)從而提升了訓練效率。

32、(2)通過實時獲取機器人在不同環(huán)境和條件下的數(shù)據(jù),系統(tǒng)能夠快速反饋給學習算法,顯著提高在線強化學習的效率,機器人能夠根據(jù)實時數(shù)據(jù)調(diào)整控制策略,從而加速學習過程,減少傳統(tǒng)強化學習方法中對建立準確機器人模型的依賴,為復(fù)雜控制算法在雙足機器人上的在線強化學習訓練提供了可能。

33、本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1