本技術(shù)涉及計(jì)算機(jī),具體而言,涉及一種機(jī)器人動作預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、模仿學(xué)習(xí)是機(jī)器人視覺-運(yùn)動框架下的一種有效學(xué)習(xí)途徑,通過觀察和模仿人類的示范,機(jī)器人可以學(xué)習(xí)并實(shí)現(xiàn)多種運(yùn)動控制。擴(kuò)散策略是模仿學(xué)習(xí)中的一種方法,可以實(shí)現(xiàn)有效管理多模態(tài)動作分布,在機(jī)器人應(yīng)用中已被廣泛采用。
2、然而,擴(kuò)散策略依賴于大型骨干架構(gòu),存在巨大的計(jì)算開銷,在資源受限的環(huán)境或設(shè)備中難以展開應(yīng)用。因此,如何在保持?jǐn)U散策略高性能的同時減少計(jì)算開銷,并提升模型的長期預(yù)測能力就成為了亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的在于,針對上述現(xiàn)有技術(shù)中的不足,提供一種機(jī)器人動作預(yù)測方法、裝置、設(shè)備及存儲介質(zhì),以解決現(xiàn)有技術(shù)中擴(kuò)散策略計(jì)算開銷大、模型性能有待提升的問題。
2、為實(shí)現(xiàn)上述目的,本技術(shù)采用的技術(shù)方案如下:
3、第一方面,本技術(shù)提供了一種機(jī)器人動作預(yù)測方法,應(yīng)用于部署有動作預(yù)測模型的目標(biāo)機(jī)器人,所述動作預(yù)測模型包括:編碼器和解碼器,所述編碼器和所述解碼器均為u-net結(jié)構(gòu),且所述編碼器和所述解碼器中均包括至少一個曼巴模塊;所述方法包括:
4、在目標(biāo)機(jī)器人運(yùn)動過程中,迭代循環(huán)執(zhí)行如下步驟:
5、a、生成初始動作噪聲,并獲取所述目標(biāo)機(jī)器人的歷史動作庫中的至少一個歷史動作序列,并根據(jù)歷史動作序列和點(diǎn)云數(shù)據(jù)集生成條件特征,所述條件特征包括:點(diǎn)云特征、狀態(tài)特征以及時間特征;
6、b、將所述初始動作噪聲和所述條件特征輸入所述動作預(yù)測模型,由所述編碼器中各層的曼巴模塊逐層進(jìn)行編碼處理,得到第一編碼特征、第二編碼特征以及編碼動作特征,并將所述第一編碼特征、第二編碼特征以及編碼動作特征輸入所述解碼器,由所述解碼器中的曼巴模塊進(jìn)行解碼處理,得到解碼動作特征;
7、c、將所述解碼動作特征輸入所述動作預(yù)測模型的輸出層,得到預(yù)測動作序列,根據(jù)所述預(yù)測動作序列控制所述目標(biāo)機(jī)器人運(yùn)動,并根據(jù)所述目標(biāo)機(jī)器人運(yùn)動時的實(shí)際動作序列確定狀態(tài)和獎勵,并將所述實(shí)際動作序列、狀態(tài)和獎勵作為一個歷史動作信息添加至所述歷史動作庫中。
8、可選地,所述根據(jù)歷史動作序列和點(diǎn)云數(shù)據(jù)集生成條件特征,包括:
9、對所述點(diǎn)云數(shù)據(jù)集基于點(diǎn)云編碼器進(jìn)行編碼處理,得到所述點(diǎn)云特征;
10、對所述歷史動作序列中的狀態(tài)數(shù)據(jù)基于狀態(tài)編碼器進(jìn)行特征提取,得到所述狀態(tài)特征;
11、對所述歷史動作序列中的時間數(shù)據(jù)基于時間編碼器進(jìn)行特征提取,得到所述時間特征。
12、可選地,所述編碼器中包括依次連接的第一編碼模塊、第二編碼模塊以及第三編碼模塊,所述第一編碼模塊和所述第二編碼模塊中均包括:曼巴模塊以及下采樣模塊,所述第三編碼模塊包括:曼巴模塊;
13、由所述編碼器中的曼巴模塊進(jìn)行編碼處理,得到第一編碼特征、第二編碼特征以及編碼動作特征的過程包括:
14、由所述第一編碼模塊中的曼巴模塊對所述初始動作噪聲和所述條件特征進(jìn)行特征提取,得到第一提取特征,并由所述下采樣模塊對所述第一提取特征進(jìn)行下采樣處理,得到第一動作特征;
15、由所述第二編碼模塊中的曼巴模塊對所述第一動作特征進(jìn)行特征提取,得到第二提取特征,并由所述下采樣模塊對所述第二提取特征進(jìn)行下采樣處理,得到第二動作特征;
16、由所述第三編碼模塊中的曼巴模塊對所述第二動作特征進(jìn)行特征提取,得到所述編碼動作特征。
17、可選地,所述解碼器包括:第一解碼模塊、第二解碼模塊以及第三解碼模塊,所述第一解碼模塊包括:曼巴模塊,所述第二解碼模塊包括:曼巴模塊和上采樣模塊,所述第三解碼模塊包括:曼巴模塊和上采樣模塊;
18、由所述解碼器中的曼巴模塊進(jìn)行解碼處理,得到解碼動作特征的過程包括:
19、由所述第一解碼模塊中的曼巴模塊對所述編碼動作特征進(jìn)行解碼處理,得到第一解碼特征,并將所述第一解碼特征和第二編碼特征輸入所述第二解碼模塊;
20、由所述第二解碼模塊中的曼巴模塊對所述第一解碼特征和所述第二編碼特征進(jìn)行解碼處理,得到初始解碼特征,并將所述初始解碼特征輸入所述上采樣模塊,由所述上采樣對所述初始解碼特征進(jìn)行解碼處理,得到第二解碼特征;
21、由所述第三解碼模塊中的曼巴模塊對所述第二解碼特征和第一編碼特征進(jìn)行解碼處理,得到中間解碼特征,并將所述中間解碼特征輸入所述上采樣模塊,由所述上采樣模塊對所述中間解碼特征進(jìn)行解碼處理,得到所述解碼動作特征。
22、可選地,所述曼巴模塊包括:線性融合子模塊以及混合子模塊;
23、由所述第一解碼模塊中的曼巴模塊對所述編碼動作特征進(jìn)行解碼處理,得到第一解碼特征的過程包括:
24、由所述線性融合子模塊對所述編碼動作特征進(jìn)行線性融合處理,得到處理后特征;
25、由所述混合子模塊對所述處理后特征進(jìn)行特征提取,得到所述第一解碼特征。
26、可選地,所述編碼動作特征包括:動作噪聲和條件特征,由所述線性融合子模塊對所述編碼動作特征進(jìn)行線性融合處理,得到處理后特征的過程包括:
27、對所述動作噪聲進(jìn)行信息提取,得到預(yù)處理特征;
28、根據(jù)所述條件特征生成調(diào)制參數(shù);
29、根據(jù)所述調(diào)制參數(shù)對所述預(yù)處理特征進(jìn)行線性變換,得到所述處理后特征。
30、可選地,所述混合子模塊包括:曼巴塊、第一多層感知器、注意力模塊以及第二多層感知器;
31、由所述混合子模塊對所述處理后特征進(jìn)行特征提取,得到所述第一解碼特征的過程包括:
32、由所述曼巴塊對所述處理后特征進(jìn)行特征提取,得到第一處理后特征;
33、由所述第一多層感知器對所述第一處理后特征進(jìn)行映射處理,得到第二處理后特征;
34、由所述注意力模塊對所述第二處理后特征進(jìn)行特征融合,得到第三處理后特征;
35、由所述第二多層感知器對所述第三處理后特征進(jìn)行映射處理,得到所述第一解碼特征。
36、第二方面,本技術(shù)提供了一種機(jī)器人動作預(yù)測裝置,所述裝置包括:
37、生成模塊,用于生成初始動作噪聲,并獲取所述目標(biāo)機(jī)器人的歷史動作庫中的至少一個歷史動作序列,并根據(jù)歷史動作序列和點(diǎn)云數(shù)據(jù)集生成條件特征,所述條件特征包括:點(diǎn)云特征、狀態(tài)特征以及時間特征;
38、編碼模塊,用于將所述初始動作噪聲和所述條件特征輸入所述動作預(yù)測模型,由所述編碼器中各層的曼巴模塊逐層進(jìn)行編碼處理,得到第一編碼特征、第二編碼特征以及編碼動作特征,并將所述第一編碼特征、第二編碼特征以及編碼動作特征輸入所述解碼器,由所述解碼器中的曼巴模塊進(jìn)行解碼處理,得到解碼動作特征;
39、預(yù)測模塊,用于將所述解碼動作特征輸入所述動作預(yù)測模型的輸出層,得到預(yù)測動作序列,根據(jù)所述預(yù)測動作序列控制所述目標(biāo)機(jī)器人運(yùn)動,并根據(jù)所述目標(biāo)機(jī)器人運(yùn)動時的實(shí)際動作序列確定狀態(tài)和獎勵,并將所述實(shí)際動作序列、狀態(tài)和獎勵作為一個歷史動作信息添加至所述歷史動作庫中。
40、可選地,所述生成模塊還用于:
41、對所述點(diǎn)云數(shù)據(jù)集基于點(diǎn)云編碼器進(jìn)行編碼處理,得到所述點(diǎn)云特征;
42、對所述歷史動作序列中的狀態(tài)數(shù)據(jù)基于狀態(tài)編碼器進(jìn)行特征提取,得到所述狀態(tài)特征;
43、對所述歷史動作序列中的時間數(shù)據(jù)基于時間編碼器進(jìn)行特征提取,得到所述時間特征。
44、可選地,所述編碼器中包括依次連接的第一編碼模塊、第二編碼模塊以及第三編碼模塊,所述第一編碼模塊和所述第二編碼模塊中均包括:曼巴模塊以及下采樣模塊,所述第三編碼模塊包括:曼巴模塊;
45、所述編碼模塊還用于:
46、由所述第一編碼模塊中的曼巴模塊對所述初始動作噪聲和所述條件特征進(jìn)行特征提取,得到第一提取特征,并由所述下采樣模塊對所述第一提取特征進(jìn)行下采樣處理,得到第一動作特征;
47、由所述第二編碼模塊中的曼巴模塊對所述第一動作特征進(jìn)行特征提取,得到第二提取特征,并由所述下采樣模塊對所述第二提取特征進(jìn)行下采樣處理,得到第二動作特征;
48、由所述第三編碼模塊中的曼巴模塊對所述第二動作特征進(jìn)行特征提取,得到所述編碼動作特征。
49、可選地,所述解碼器包括:第一解碼模塊、第二解碼模塊以及第三解碼模塊,所述第一解碼模塊包括:曼巴模塊,所述第二解碼模塊包括:曼巴模塊和上采樣模塊,所述第三解碼模塊包括:曼巴模塊和上采樣模塊;
50、所述預(yù)測模塊還用于:
51、由所述第一解碼模塊中的曼巴模塊對所述編碼動作特征進(jìn)行解碼處理,得到第一解碼特征,并將所述第一解碼特征和第二編碼特征輸入所述第二解碼模塊;
52、由所述第二解碼模塊中的曼巴模塊對所述第一解碼特征和所述第二編碼特征進(jìn)行解碼處理,得到初始解碼特征,并將所述初始解碼特征輸入所述上采樣模塊,由所述上采樣對所述初始解碼特征進(jìn)行解碼處理,得到第二解碼特征;
53、由所述第三解碼模塊中的曼巴模塊對所述第二解碼特征和第一編碼特征進(jìn)行解碼處理,得到中間解碼特征,并將所述中間解碼特征輸入所述上采樣模塊,由所述上采樣模塊對所述中間解碼特征進(jìn)行解碼處理,得到所述解碼動作特征。
54、可選地,所述曼巴模塊包括:線性融合子模塊以及混合子模塊;
55、所述預(yù)測模塊還用于:
56、由所述線性融合子模塊對所述編碼動作特征進(jìn)行線性融合處理,得到處理后特征;
57、由所述混合子模塊對所述處理后特征進(jìn)行特征提取,得到所述第一解碼特征。
58、可選地,所述編碼動作特征包括:動作噪聲和條件特征,所述預(yù)測模塊還用于:
59、對所述動作噪聲進(jìn)行信息提取,得到預(yù)處理特征;
60、根據(jù)所述條件特征生成調(diào)制參數(shù);
61、根據(jù)所述調(diào)制參數(shù)對所述預(yù)處理特征進(jìn)行線性變換,得到所述處理后特征。
62、可選地,所述混合子模塊包括:曼巴塊、第一多層感知器、注意力模塊以及第二多層感知器;
63、所述預(yù)測模塊還用于:
64、由所述曼巴塊對所述處理后特征進(jìn)行特征提取,得到第一處理后特征;
65、由所述第一多層感知器對所述第一處理后特征進(jìn)行映射處理,得到第二處理后特征;
66、由所述注意力模塊對所述第二處理后特征進(jìn)行特征融合,得到第三處理后特征;
67、由所述第二多層感知器對所述第三處理后特征進(jìn)行映射處理,得到所述第一解碼特征。
68、第三方面,本技術(shù)實(shí)施例還提供了一種電子設(shè)備,包括:處理器、存儲介質(zhì)和總線,所述存儲介質(zhì)存儲有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時,所述處理器與所述存儲介質(zhì)之間通過總線通信,所述處理器執(zhí)行所述機(jī)器可讀指令,以執(zhí)行如第一方面中任一項(xiàng)所述的一種機(jī)器人動作預(yù)測方法的步驟。
69、第四方面,本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器運(yùn)行時執(zhí)行如第一方面中任一項(xiàng)所述的一種機(jī)器人動作預(yù)測方法的步驟。
70、本技術(shù)的有益效果是:通過本技術(shù)的動作預(yù)測模型對初始動作噪聲進(jìn)行去噪處理,得到預(yù)測動作序列,可以生成復(fù)雜且逼真的軌跡,具有很好的靈活性和有效性。通過在動作預(yù)測模型中基于曼巴模塊實(shí)現(xiàn)編碼器和解碼器,可以有效的降低模型的參數(shù)量,從而大幅降低計(jì)算的復(fù)雜度,且曼巴模塊可以高效處理長序列數(shù)據(jù),保證了模型的長期預(yù)測能力。同時,本技術(shù)通過結(jié)合點(diǎn)云數(shù)據(jù)以及機(jī)器人的歷史動作序列進(jìn)行預(yù)測,在計(jì)算需求更低的前提下,本技術(shù)的動作預(yù)測模型也可以保證模型預(yù)測結(jié)果的準(zhǔn)確性。
71、為使本技術(shù)的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。