最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種在隱空間中學(xué)習(xí)中間表示的模仿學(xué)習(xí)訓(xùn)練方法及裝置

文檔序號:41955279發(fā)布日期:2025-05-16 14:21閱讀:4來源:國知局
一種在隱空間中學(xué)習(xí)中間表示的模仿學(xué)習(xí)訓(xùn)練方法及裝置

本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種在隱空間中學(xué)習(xí)中間表示的模仿學(xué)習(xí)訓(xùn)練方法及裝置。


背景技術(shù):

1、模仿學(xué)習(xí)是一種從演示數(shù)據(jù)中學(xué)習(xí)的方法,通過從圖片像素到機(jī)器人動作的端到端映射,直接對專家演示數(shù)據(jù)進(jìn)行擬合學(xué)習(xí)。當(dāng)模型需要處理多種任務(wù)時(shí),一種方法是通過語言指令區(qū)分不同的任務(wù),相對應(yīng)的,語言條件模仿學(xué)習(xí)通過輸入當(dāng)前圖像觀察與語言指令,直接輸出可以控制機(jī)器人的動作。

2、端到端的模仿學(xué)習(xí)方法直接且有效,但光照亮度、相機(jī)角度等一些任務(wù)無關(guān)的環(huán)境因素發(fā)生變化時(shí),卻會直接影響模型的效果,同時(shí),如何使模仿學(xué)習(xí)在訓(xùn)練數(shù)據(jù)中未出現(xiàn)的場景、對象、任務(wù)上具有泛化性仍是個(gè)具有挑戰(zhàn)性的問題,由此,現(xiàn)有技術(shù)在模仿學(xué)習(xí)中的應(yīng)用仍存在諸多局限,且學(xué)習(xí)精度、效果較差。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例的主要目的在于提出一種在隱空間中學(xué)習(xí)中間表示的模仿學(xué)習(xí)訓(xùn)練方法及裝置,以期解決現(xiàn)有技術(shù)至少一種問題,本發(fā)明能夠準(zhǔn)確實(shí)現(xiàn)在隱空間中學(xué)習(xí)中間表示的模仿學(xué)習(xí)訓(xùn)練。

2、為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的一方面提出了一種在隱空間中學(xué)習(xí)中間表示的模仿學(xué)習(xí)訓(xùn)練方法,方法包括:

3、獲取專家演示數(shù)據(jù)集;專家演示數(shù)據(jù)集包括機(jī)器人的動作控制的多段演示數(shù)據(jù);機(jī)器人上設(shè)置有末端執(zhí)行器和夾持器;演示數(shù)據(jù)包括動作控制對應(yīng)的語言指令、每個(gè)時(shí)刻的末端執(zhí)行器位姿、夾持器狀態(tài)和圖像觀察以及每個(gè)時(shí)間步間隔下的位姿變化量;

4、對每一段演示數(shù)據(jù)中夾持器狀態(tài)發(fā)生變化的時(shí)刻進(jìn)行捕捉,提取得到關(guān)鍵時(shí)間步;

5、根據(jù)關(guān)鍵時(shí)間步對應(yīng)的末端執(zhí)行器位姿進(jìn)行坐標(biāo)映射,得到圖像可供性表示;

6、基于關(guān)鍵時(shí)間步劃分得到關(guān)鍵時(shí)間區(qū)間,根據(jù)關(guān)鍵時(shí)間區(qū)間每個(gè)時(shí)間點(diǎn)對應(yīng)的末端執(zhí)行器位姿進(jìn)行坐標(biāo)映射,得到圖像軌跡表示;

7、將圖像可供性表示和圖像軌跡表示疊加到初始狀態(tài)的圖像觀察,得到中間表示圖像;將初始狀態(tài)的圖像觀察和語言指令作為圖像和條件輸入映射到隱空間,以中間表示圖像作為條件生成目標(biāo),對條件變分自編碼器進(jìn)行預(yù)訓(xùn)練,得到初始編碼器;

8、將圖像觀察和語言指令作為輸入,將位姿變化量作為輸出,對初始編碼器進(jìn)行模型學(xué)習(xí)訓(xùn)練,得到目標(biāo)編碼器。

9、在一些實(shí)施例中,獲取專家演示數(shù)據(jù)集,包括以下步驟:

10、響應(yīng)于遠(yuǎn)程控制指令,控制機(jī)器人執(zhí)行動作控制;

11、在機(jī)器人執(zhí)行動作控制的過程中,基于固定頻率進(jìn)行數(shù)據(jù)收集并整理得到演示數(shù)據(jù);其中,數(shù)據(jù)收集包括:

12、收集固定頻率對應(yīng)時(shí)刻機(jī)器人的圖像數(shù)據(jù)作為圖像觀察;

13、收集固定頻率對應(yīng)時(shí)刻機(jī)器人的末端執(zhí)行器在世界坐標(biāo)系下的位姿作為末端執(zhí)行器位姿;

14、根據(jù)相鄰時(shí)刻的末端執(zhí)行器位姿的變化量確定每個(gè)時(shí)間步間隔下的位姿變化量;

15、收集固定頻率對應(yīng)時(shí)刻機(jī)器人的夾持器的開關(guān)狀態(tài)作為夾持器狀態(tài);

16、根據(jù)遠(yuǎn)程控制指令對動作控制的任務(wù)描述記錄為語言指令。

17、在一些實(shí)施例中,末端執(zhí)行器上設(shè)有多個(gè)夾指;根據(jù)關(guān)鍵時(shí)間步對應(yīng)的末端執(zhí)行器位姿進(jìn)行坐標(biāo)映射,得到圖像可供性表示,包括以下步驟:

18、根據(jù)關(guān)鍵時(shí)間步對應(yīng)的末端執(zhí)行器位姿,通過正向運(yùn)動學(xué)建模得到末端執(zhí)行器上每個(gè)夾指的尖端在世界坐標(biāo)系下的第一坐標(biāo);

19、根據(jù)第一坐標(biāo),通過采集圖像觀察的相機(jī)的參數(shù)進(jìn)行內(nèi)外參轉(zhuǎn)化,得到圖像可供性表示。

20、在一些實(shí)施例中,末端執(zhí)行器上設(shè)有多個(gè)夾指;基于關(guān)鍵時(shí)間步劃分得到關(guān)鍵時(shí)間區(qū)間,根據(jù)關(guān)鍵時(shí)間區(qū)間每個(gè)時(shí)間點(diǎn)對應(yīng)的末端執(zhí)行器位姿進(jìn)行坐標(biāo)映射,得到圖像軌跡表示,包括以下步驟:

21、將關(guān)鍵時(shí)間步結(jié)合其前后第一數(shù)量的時(shí)間步劃分為包含第二數(shù)量的時(shí)間點(diǎn)的關(guān)鍵時(shí)間區(qū)間;

22、根據(jù)關(guān)鍵時(shí)間區(qū)間中每個(gè)時(shí)間點(diǎn)對應(yīng)的末端執(zhí)行器位姿,通過正向運(yùn)動學(xué)建模得到末端執(zhí)行器上每個(gè)夾指的尖端在世界坐標(biāo)系下的第二坐標(biāo);

23、根據(jù)第二坐標(biāo),通過采集圖像觀察的相機(jī)的參數(shù)進(jìn)行內(nèi)外參轉(zhuǎn)化,得到圖像軌跡表示。

24、在一些實(shí)施例中,條件變分自編碼器包括編碼器和解碼器;將初始狀態(tài)的圖像觀察和語言指令作為圖像和條件輸入映射到隱空間,以中間表示圖像作為條件生成目標(biāo),對條件變分自編碼器進(jìn)行預(yù)訓(xùn)練,得到初始編碼器,包括以下步驟:

25、通過編碼器將圖像和條件輸入映射到隱空間;

26、基于隱空間中的隱向量,以中間表示圖像作為條件生成目標(biāo)通過解碼器重構(gòu)得到中間表示圖像的重構(gòu)圖像;

27、基于重構(gòu)圖像和中間表示圖像,通過重構(gòu)損失和kl散度損失對條件變分自編碼器的參數(shù)進(jìn)行優(yōu)化調(diào)整,得到初始編碼器。

28、在一些實(shí)施例中,初始編碼器包括編碼器;將圖像觀察和語言指令作為輸入,將位姿變化量作為輸出,對初始編碼器進(jìn)行模型學(xué)習(xí)訓(xùn)練,得到目標(biāo)編碼器,包括以下步驟:

29、通過編碼器將圖像觀察和語言指令編碼到隱空間;

30、利用擴(kuò)散策略對隱空間中的隱向量進(jìn)行交叉注意力處理,得到預(yù)測噪聲;

31、將預(yù)測噪聲與位姿變化量對應(yīng)的真實(shí)噪聲的均方誤差作為損失函數(shù)對初始編碼器的參數(shù)進(jìn)行優(yōu)化調(diào)整,得到目標(biāo)編碼器。

32、在一些實(shí)施例中,方法還包括以下步驟:

33、獲取待控制機(jī)器人的原始圖像觀察和預(yù)控制動作的目標(biāo)語言指令;

34、將原始圖像觀察和目標(biāo)語言指令輸入目標(biāo)編碼器處理得到目標(biāo)位姿變化量;

35、通過目標(biāo)位姿變化量控制待控制機(jī)器人執(zhí)行預(yù)控制動作。

36、為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的另一方面提出了一種在隱空間中學(xué)習(xí)中間表示的模仿學(xué)習(xí)訓(xùn)練裝置,裝置包括:

37、第一模塊,用于獲取專家演示數(shù)據(jù)集;專家演示數(shù)據(jù)集包括機(jī)器人的動作控制的多段演示數(shù)據(jù);機(jī)器人上設(shè)置有末端執(zhí)行器和夾持器;演示數(shù)據(jù)包括動作控制對應(yīng)的語言指令、每個(gè)時(shí)刻的末端執(zhí)行器位姿、夾持器狀態(tài)和圖像觀察以及每個(gè)時(shí)間步間隔下的位姿變化量;

38、第二模塊,用于對每一段演示數(shù)據(jù)中夾持器狀態(tài)發(fā)生變化的時(shí)刻進(jìn)行捕捉,提取得到關(guān)鍵時(shí)間步;

39、第三模塊,用于根據(jù)關(guān)鍵時(shí)間步對應(yīng)的末端執(zhí)行器位姿進(jìn)行坐標(biāo)映射,得到圖像可供性表示;

40、第四模塊,用于基于關(guān)鍵時(shí)間步劃分得到關(guān)鍵時(shí)間區(qū)間,根據(jù)關(guān)鍵時(shí)間區(qū)間每個(gè)時(shí)間點(diǎn)對應(yīng)的末端執(zhí)行器位姿進(jìn)行坐標(biāo)映射,得到圖像軌跡表示;

41、第五模塊,用于將圖像可供性表示和圖像軌跡表示疊加到初始狀態(tài)的圖像觀察,得到中間表示圖像;將初始狀態(tài)的圖像觀察和語言指令作為圖像和條件輸入映射到隱空間,以中間表示圖像作為條件生成目標(biāo),對條件變分自編碼器進(jìn)行預(yù)訓(xùn)練,得到初始編碼器;

42、第六模塊,用于將圖像觀察和語言指令作為輸入,將位姿變化量作為輸出,對初始編碼器進(jìn)行模型學(xué)習(xí)訓(xùn)練,得到目標(biāo)編碼器。

43、在一些實(shí)施例中,裝置還包括:

44、第七模塊,用于獲取待控制機(jī)器人的原始圖像觀察和預(yù)控制動作的目標(biāo)語言指令;

45、第八模塊,用于將原始圖像觀察和目標(biāo)語言指令輸入目標(biāo)編碼器處理得到目標(biāo)位姿變化量;

46、第九模塊,用于通過目標(biāo)位姿變化量控制待控制機(jī)器人執(zhí)行預(yù)控制動作。

47、為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的另一方面提出了一種電子設(shè)備,電子設(shè)備包括存儲器和處理器,存儲器存儲有計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的方法。

48、為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的另一方面提出了一種計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。

49、本發(fā)明實(shí)施例至少包括以下有益效果:本發(fā)明提供一種在隱空間中學(xué)習(xí)中間表示的模仿學(xué)習(xí)訓(xùn)練方法及裝置,該方案通過獲取專家演示數(shù)據(jù)集;專家演示數(shù)據(jù)集包括機(jī)器人的動作控制的多段演示數(shù)據(jù);機(jī)器人上設(shè)置有末端執(zhí)行器和夾持器;演示數(shù)據(jù)包括動作控制對應(yīng)的語言指令、每個(gè)時(shí)刻的末端執(zhí)行器位姿、夾持器狀態(tài)和圖像觀察以及每個(gè)時(shí)間步間隔下的位姿變化量;對每一段演示數(shù)據(jù)中夾持器狀態(tài)發(fā)生變化的時(shí)刻進(jìn)行捕捉,提取得到關(guān)鍵時(shí)間步;根據(jù)關(guān)鍵時(shí)間步對應(yīng)的末端執(zhí)行器位姿進(jìn)行坐標(biāo)映射,得到圖像可供性表示;基于關(guān)鍵時(shí)間步劃分得到關(guān)鍵時(shí)間區(qū)間,根據(jù)關(guān)鍵時(shí)間區(qū)間每個(gè)時(shí)間點(diǎn)對應(yīng)的末端執(zhí)行器位姿進(jìn)行坐標(biāo)映射,得到圖像軌跡表示;將圖像可供性表示和圖像軌跡表示疊加到初始狀態(tài)的圖像觀察,得到中間表示圖像;將初始狀態(tài)的圖像觀察和語言指令作為圖像和條件輸入映射到隱空間,以中間表示圖像作為條件生成目標(biāo),對條件變分自編碼器進(jìn)行預(yù)訓(xùn)練,得到初始編碼器;將圖像觀察和語言指令作為輸入,將位姿變化量作為輸出,對初始編碼器進(jìn)行模型學(xué)習(xí)訓(xùn)練,得到目標(biāo)編碼器。本發(fā)明技術(shù)方案通過隱空間,以隱層向量的形式結(jié)合了可供點(diǎn)、軌跡等中間表示的先驗(yàn)知識,同時(shí)不需要在推理時(shí)通過模型生成或者人工標(biāo)注的方法產(chǎn)生中間表示,減少了復(fù)合誤差對模型推理的影響。本發(fā)明能夠準(zhǔn)確實(shí)現(xiàn)模仿學(xué)習(xí)訓(xùn)練。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1