1.一種全自動足式機器人實物在線強化學習訓練裝置,其特征在于,所述系統(tǒng)包括重置機構、在線強化學習網(wǎng)絡、數(shù)據(jù)采集系統(tǒng)和重置判斷系統(tǒng),機器人部署在重置機構中,重置機構和機器人均接入在線強化學習網(wǎng)絡,數(shù)據(jù)采集系統(tǒng)的輸出與重置判斷系統(tǒng)連接,重置判斷系統(tǒng)的輸出與重置機構連接,其中:
2.如權利要求1所述的全自動足式機器人實物在線強化學習訓練裝置,其特征在于,所述數(shù)據(jù)采集系統(tǒng)用于對傳感器組的數(shù)據(jù)進行采集,所述傳感器組包括安裝在所述重置機構上的動作捕捉相機以及安裝在機器人本體上的電機傳感器、姿態(tài)傳感器和壓力傳感器。
3.如權利要求1所述的全自動足式機器人實物在線強化學習訓練裝置,其特征在于,所述重置機構包括支撐架、滑軌和中控吊機,所述滑軌安裝在支撐架上,所述滑軌內(nèi)設置驅(qū)動機構用于驅(qū)動中控吊機沿著所述滑軌移動以帶動機器人移動,所述支撐架上安裝動作捕捉相機。
4.如權利要求3所述的全自動足式機器人實物在線強化學習訓練裝置,其特征在于,所述滑軌包括在支撐架上并相互平行布置的兩根縱向滑軌,兩根所述縱向滑軌之間設有與其垂直的橫向滑軌,所述橫向滑軌分別與兩根所述縱向滑軌滑動配合,以使驅(qū)動機構驅(qū)動中控吊機沿著相互垂直的兩個方向運動。
5.如權利要求1所述的全自動足式機器人實物在線強化學習訓練裝置,其特征在于,所述重置判斷系統(tǒng)判斷機器人位置需要重置的條件為滿足機器人高度低于原有高度的四分之一、機器人本體的俯仰角度或滾轉(zhuǎn)角度大于20度、機器人所有關節(jié)角度中存在超過預設值的關節(jié)角度且機器人運行時間超過預設值中的任一條件。
6.如權利要求2所述的全自動足式機器人實物在線強化學習訓練裝置,其特征在于,所述數(shù)據(jù)采集系統(tǒng)包括數(shù)據(jù)監(jiān)測模塊和數(shù)據(jù)處理模塊,其中:
7.如權利要求1所述的全自動足式機器人實物在線強化學習訓練裝置,其特征在于,所述裝置還包括與所述在線強化學習網(wǎng)絡的輸出連接的安全限制器;
8.如權利要求1所述的全自動足式機器人實物在線強化學習訓練裝置,其特征在于,所述數(shù)據(jù)采集系統(tǒng)的輸出還連接有歷史數(shù)據(jù)緩存庫;
9.一種全自動足式機器人實物在線強化學習訓練方法,其特征在于,用于利用如權利要求1-8任一項所述的全自動足式機器人實物在線強化學習訓練裝置進行機器人在線訓練,所述方法包括:
10.如權利要求9所述的全自動足式機器人實物在線強化學習訓練方法,其特征在于,所述根據(jù)t時刻機器人的訓練數(shù)據(jù)判斷機器人在t+1時刻是否需要重置,包括: