本發(fā)明涉及人工智能,具體涉及機(jī)器人控制,更具體地涉及一種智能體的動(dòng)作執(zhí)行優(yōu)化方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、人工智能(artificial?intelligence,簡稱ai)是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的關(guān)鍵性技術(shù)科學(xué)。作為智能科學(xué)重要的組成部分,人工智能企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以與人類智能相似的方式做出反應(yīng)的智能機(jī)器(即智能體)。
2、現(xiàn)有的智能機(jī)器可以根據(jù)不同的應(yīng)用場景呈現(xiàn)更為多樣且復(fù)雜的運(yùn)動(dòng)動(dòng)作,從簡單的行走動(dòng)作到更為復(fù)雜的表情呈現(xiàn)動(dòng)作等。但是不同的智能機(jī)器在運(yùn)行過程中都需要考慮自身的續(xù)航時(shí)間,同時(shí)還要防止動(dòng)作執(zhí)行的驅(qū)動(dòng)器過熱等?,F(xiàn)有技術(shù)中對于此類情況,大都是從提升電池方向(如提升電池容量)以及簡化動(dòng)作執(zhí)行方向來解決,這就會(huì)往往忽略能量消耗約束與動(dòng)作穩(wěn)定性間的優(yōu)化平衡等需求,導(dǎo)致智能體在追求動(dòng)作表現(xiàn)時(shí)難以兼顧能耗效率,影響續(xù)航能力。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有技術(shù)所存在的技術(shù)問題至少之一,本發(fā)明提供了一種能夠能綜合考慮動(dòng)作穩(wěn)定性和能耗約束的智能體的動(dòng)作執(zhí)行優(yōu)化方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,以期在智能體(如人形機(jī)器人)的動(dòng)作執(zhí)行過程中最大限度地減少能量消耗,同時(shí)保持穩(wěn)定和自然的肢體運(yùn)動(dòng)。
2、本發(fā)明的實(shí)施例的一個(gè)方面提供了一種智能體的動(dòng)作執(zhí)行優(yōu)化方法,其中,包括:獲取智能體的當(dāng)前動(dòng)作狀態(tài)對應(yīng)的獎(jiǎng)勵(lì)評估信息和約束評估信息;對獎(jiǎng)勵(lì)評估信息和約束評估信息執(zhí)行策略優(yōu)化處理,以生成當(dāng)前策略梯度信息,其中策略優(yōu)化處理的目標(biāo)是保證動(dòng)作執(zhí)行穩(wěn)定性并最小化能量消耗;通過當(dāng)前策略梯度信息對預(yù)設(shè)策略網(wǎng)絡(luò)執(zhí)行訓(xùn)練優(yōu)化,以生成優(yōu)化策略網(wǎng)絡(luò);基于優(yōu)化策略網(wǎng)絡(luò)生成目標(biāo)動(dòng)作執(zhí)行信息,目標(biāo)動(dòng)作執(zhí)行信息用于完成智能體的動(dòng)作執(zhí)行優(yōu)化;其中,約束評估信息包括能量約束評估信息和運(yùn)動(dòng)對稱性約束評估信息。
3、根據(jù)本發(fā)明的一實(shí)施例,在獲取智能體的當(dāng)前動(dòng)作狀態(tài)對應(yīng)的獎(jiǎng)勵(lì)評估信息和約束評估信息中,包括:獲取當(dāng)前動(dòng)作狀態(tài)對應(yīng)的當(dāng)前狀態(tài)空間參數(shù);根據(jù)預(yù)設(shè)獎(jiǎng)勵(lì)評估規(guī)則評估當(dāng)前狀態(tài)空間參數(shù)生成第一獎(jiǎng)勵(lì)評估數(shù)據(jù),其中,獎(jiǎng)勵(lì)評估信息包括第一獎(jiǎng)勵(lì)評估數(shù)據(jù)。
4、根據(jù)本發(fā)明的一實(shí)施例,在獲取智能體的當(dāng)前動(dòng)作狀態(tài)對應(yīng)的獎(jiǎng)勵(lì)評估信息和約束評估信息中,還包括:根據(jù)當(dāng)前狀態(tài)空間參數(shù)生成當(dāng)前動(dòng)作獎(jiǎng)勵(lì)數(shù)據(jù)和約束評估信息,其中,獎(jiǎng)勵(lì)評估信息包括第二獎(jiǎng)勵(lì)評估數(shù)據(jù),第二獎(jiǎng)勵(lì)評估數(shù)據(jù)包括當(dāng)前動(dòng)作獎(jiǎng)勵(lì)數(shù)據(jù)。
5、根據(jù)本發(fā)明的一實(shí)施例,在根據(jù)當(dāng)前狀態(tài)空間參數(shù)生成當(dāng)前動(dòng)作獎(jiǎng)勵(lì)數(shù)據(jù)和約束評估信息中,包括:根據(jù)當(dāng)前狀態(tài)空間參數(shù)對應(yīng)的電機(jī)絕對功率數(shù)據(jù)生成電機(jī)能量消耗信息;對電機(jī)能量消耗信息執(zhí)行折扣和處理生成約束評估信息的能量約束評估信息,其中能量約束評估信息用于限制智能體在動(dòng)作執(zhí)行過程中的能量消耗,確保能量消耗低于預(yù)設(shè)能量消耗閾值。
6、根據(jù)本發(fā)明的一實(shí)施例,在根據(jù)當(dāng)前狀態(tài)空間參數(shù)生成當(dāng)前動(dòng)作獎(jiǎng)勵(lì)數(shù)據(jù)和約束評估信息中,還包括:根據(jù)當(dāng)前狀態(tài)空間參數(shù)對應(yīng)的預(yù)設(shè)鏡像損失成本信息生成約束評估信息的運(yùn)動(dòng)對稱性約束評估信息。
7、根據(jù)本發(fā)明的一實(shí)施例,在對獎(jiǎng)勵(lì)評估信息和約束評估信息執(zhí)行策略優(yōu)化處理,以生成當(dāng)前策略梯度信息中,包括:根據(jù)獎(jiǎng)勵(lì)評估信息和約束評估信息構(gòu)建當(dāng)前策略優(yōu)化任務(wù);對當(dāng)前策略優(yōu)化任務(wù)執(zhí)行策略優(yōu)化處理,以生成當(dāng)前策略梯度信息。
8、根據(jù)本發(fā)明的一實(shí)施例,在通過當(dāng)前策略梯度信息對預(yù)設(shè)策略網(wǎng)絡(luò)執(zhí)行訓(xùn)練優(yōu)化,以生成優(yōu)化策略網(wǎng)絡(luò)中,包括:通過當(dāng)前策略梯度信息對預(yù)設(shè)策略網(wǎng)絡(luò)執(zhí)行策略網(wǎng)絡(luò)參數(shù)和拉格朗日乘子的迭代更新,以生成優(yōu)化策略網(wǎng)絡(luò)。
9、根據(jù)本發(fā)明的一實(shí)施例,在基于優(yōu)化策略網(wǎng)絡(luò)生成目標(biāo)動(dòng)作執(zhí)行信息中,包括:基于優(yōu)化策略網(wǎng)絡(luò),根據(jù)更新動(dòng)作指令和更新狀態(tài)空間參數(shù)生成目標(biāo)動(dòng)作姿態(tài)參數(shù);根據(jù)更新關(guān)節(jié)狀態(tài)參數(shù)轉(zhuǎn)換目標(biāo)動(dòng)作姿態(tài)參數(shù)為目標(biāo)動(dòng)作扭矩?cái)?shù)據(jù),其中目標(biāo)動(dòng)作執(zhí)行信息包括目標(biāo)動(dòng)作扭矩?cái)?shù)據(jù)。
10、根據(jù)本發(fā)明的一實(shí)施例,上述智能體的動(dòng)作執(zhí)行優(yōu)化方法還包括:在智能體的動(dòng)作執(zhí)行優(yōu)化過程中,實(shí)時(shí)獲取智能體的能量消耗數(shù)據(jù),當(dāng)能量消耗數(shù)據(jù)超過預(yù)設(shè)能量消耗閾值時(shí),根據(jù)預(yù)設(shè)能量消耗歷史數(shù)據(jù)更新預(yù)設(shè)能量消耗閾值。
11、本發(fā)明的實(shí)施例的另一個(gè)方面提供了一種智能體的動(dòng)作執(zhí)行優(yōu)化裝置,其中,包括信息獲取模塊、優(yōu)化處理模塊、訓(xùn)練優(yōu)化模塊和信息生成模塊。信息獲取模塊用于獲取智能體的當(dāng)前動(dòng)作狀態(tài)對應(yīng)的獎(jiǎng)勵(lì)評估信息和約束評估信息;優(yōu)化處理模塊用于對獎(jiǎng)勵(lì)評估信息和約束評估信息執(zhí)行策略優(yōu)化處理,以生成當(dāng)前策略梯度信息;訓(xùn)練優(yōu)化模塊用于通過當(dāng)前策略梯度信息對預(yù)設(shè)策略網(wǎng)絡(luò)執(zhí)行訓(xùn)練優(yōu)化,以生成優(yōu)化策略網(wǎng)絡(luò);信息生成模塊用于基于優(yōu)化策略網(wǎng)絡(luò)生成目標(biāo)動(dòng)作執(zhí)行信息,目標(biāo)動(dòng)作執(zhí)行信息用于完成智能體的動(dòng)作執(zhí)行優(yōu)化;其中,約束評估信息包括能量約束評估信息和運(yùn)動(dòng)對稱性約束評估信息。
12、本發(fā)明的實(shí)施例的另一個(gè)方面提供了一種電子設(shè)備,包括一個(gè)或多個(gè)處理器和存儲(chǔ)器,存儲(chǔ)器用于存儲(chǔ)一個(gè)或多個(gè)程序,其中,當(dāng)該一個(gè)或多個(gè)程序被該一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得該一個(gè)或多個(gè)處理器執(zhí)行上述智能體的動(dòng)作執(zhí)行優(yōu)化方法。
13、本發(fā)明的實(shí)施例的另一個(gè)方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有可執(zhí)行指令,該指令被處理器執(zhí)行時(shí)使處理器執(zhí)行上述智能體的動(dòng)作執(zhí)行優(yōu)化方法。
14、本發(fā)明的實(shí)施例的另一個(gè)方面提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述智能體的動(dòng)作執(zhí)行優(yōu)化方法。
15、本發(fā)明實(shí)施例提供的智能體的動(dòng)作執(zhí)行優(yōu)化方法可以至少部分地解決相關(guān)技術(shù)中智能體動(dòng)作執(zhí)行過程中所存在的智能化水平較低的問題,并因此可以至少實(shí)現(xiàn)如下技術(shù)效果之一:
16、本發(fā)明實(shí)施例的智能體的動(dòng)作執(zhí)行優(yōu)化方法,提出了一種專注于優(yōu)化人形機(jī)器人的行走能量效率提升的技術(shù)方案,通過把能量消耗處理成明確的約束條件,而不像傳統(tǒng)技術(shù)方案中獎(jiǎng)能量消耗作為獎(jiǎng)勵(lì)函數(shù),從而能夠讓智能體(人型機(jī)器人)能夠滿足表現(xiàn)性能的情況下進(jìn)一步減少能量消耗。此外,在增加能量消耗作為額外約束條件后,在基于受能量約束的強(qiáng)化學(xué)習(xí)框架的預(yù)設(shè)策略網(wǎng)絡(luò)的訓(xùn)練階段,通過使用ppo拉格朗日方法能夠以快速且穩(wěn)定的收斂速度實(shí)現(xiàn)最低的能量消耗。進(jìn)一步地,通過約束能量消耗,智能體能夠自主產(chǎn)生諸如直膝行走、輕盈落地和更小的身體晃動(dòng)等更優(yōu)的行為動(dòng)作,與傳統(tǒng)模型控制方法相比能量消耗減少約6倍,與傳統(tǒng)強(qiáng)化學(xué)習(xí)方法相比能量消耗較少約2.3倍,減少能量消耗可以有助于智能體續(xù)航時(shí)間,并防止驅(qū)動(dòng)過熱,從而可以提升整體性能。因此,本發(fā)明實(shí)施例的智能體的動(dòng)作執(zhí)行優(yōu)化方法能夠在保持智能體動(dòng)作執(zhí)行穩(wěn)定性和抗干擾能力的情況下,大幅減少了相同動(dòng)作執(zhí)行速度(如行走速度)下智能體的能量消耗。
17、應(yīng)了解的是,上述一般描述及以下具體實(shí)施方式僅為示例性及闡釋性的,其并不能限制本發(fā)明所欲主張的范圍。
1.一種智能體的動(dòng)作執(zhí)行優(yōu)化方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述獲取智能體的當(dāng)前動(dòng)作狀態(tài)對應(yīng)的獎(jiǎng)勵(lì)評估信息和約束評估信息中,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述獲取智能體的當(dāng)前動(dòng)作狀態(tài)對應(yīng)的獎(jiǎng)勵(lì)評估信息和約束評估信息中,還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述根據(jù)所述當(dāng)前狀態(tài)空間參數(shù)生成當(dāng)前動(dòng)作獎(jiǎng)勵(lì)數(shù)據(jù)和所述約束評估信息中,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述根據(jù)所述當(dāng)前狀態(tài)空間參數(shù)生成當(dāng)前動(dòng)作獎(jiǎng)勵(lì)數(shù)據(jù)和所述約束評估信息中,還包括:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述對所述獎(jiǎng)勵(lì)評估信息和約束評估信息執(zhí)行策略優(yōu)化處理,以生成當(dāng)前策略梯度信息中,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述通過所述當(dāng)前策略梯度信息對預(yù)設(shè)策略網(wǎng)絡(luò)執(zhí)行訓(xùn)練優(yōu)化,以生成優(yōu)化策略網(wǎng)絡(luò)中,包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述基于所述優(yōu)化策略網(wǎng)絡(luò)生成目標(biāo)動(dòng)作執(zhí)行信息中,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
10.一種智能體的動(dòng)作執(zhí)行優(yōu)化裝置,其特征在于,包括:
11.一種電子設(shè)備,包括:
12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有可執(zhí)行指令,該指令被處理器執(zhí)行時(shí)使處理器執(zhí)行權(quán)利要求1~9中任一項(xiàng)所述的方法。
13.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1~9中任一項(xiàng)所述的方法。