最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于人類演示指導(dǎo)的機器人控制方法、裝置及介質(zhì)

文檔序號:41950689發(fā)布日期:2025-05-16 14:10閱讀:6來源:國知局
一種基于人類演示指導(dǎo)的機器人控制方法、裝置及介質(zhì)

本發(fā)明涉及機器人和計算機視覺領(lǐng)域,尤其是涉及一種基于擴散模型基于人類演示指導(dǎo)的機器人控制方法、裝置及介質(zhì)。


背景技術(shù):

1、機器人控制領(lǐng)域近年來取得了顯著進展,隨著機器人在工業(yè)自動化、醫(yī)療、服務(wù)和家庭等各個領(lǐng)域的應(yīng)用不斷擴展,對技術(shù)的實時性和可靠性提出了更高的要求。研究者們致力于開發(fā)更加自主和智能的機器人系統(tǒng),利用計算機視覺中的方法來提高機器人的環(huán)境感知和決策能力就是其中一項重要的議題。也有越來越多研究者考慮如何從人類演視頻中學(xué)習(xí)更可靠高效的機器人控制方法。

2、利用現(xiàn)有的大規(guī)模人類數(shù)據(jù)集是一項比較常見的方法。例如nair,s.,rajeswaran,a.等人就利用了人類第一視角下的視頻數(shù)據(jù)集ego4d進行預(yù)訓(xùn)練,通過時間對比學(xué)習(xí)、視頻語言對齊等方式學(xué)習(xí)特征表示。在預(yù)訓(xùn)練完成后,預(yù)訓(xùn)練的部分會被凍結(jié),不再更新參數(shù),再通過行為克隆的方法將特征表示映射到實際的機器人操作,它在仿真環(huán)境和現(xiàn)實世界中都取得了客觀的效果。而xiao,t.,radosavovic,i等以及majumdar,a.,yadav,k.等則在其基礎(chǔ)上,通過引入掩碼自編碼器的結(jié)構(gòu),對于人類視頻數(shù)據(jù)的特征進行更有效的學(xué)習(xí),從而實現(xiàn)更準確的控制。

3、wang,c.,fan,l.,sun,j.等人的思路則更加簡單,它通過設(shè)置一個人與特定環(huán)境以及其中的物體自由交互的場景,在不給出指定任務(wù)的情況下,利用人類玩家在自由執(zhí)行的動作數(shù)據(jù),訓(xùn)練機器人模仿這些動作,以實現(xiàn)更自然的環(huán)境交互和任務(wù)執(zhí)行。它首先學(xué)習(xí)人類執(zhí)行任務(wù)書多種模態(tài)信息(如視覺信息、手部運動信息)的潛在表示,再通過策略網(wǎng)絡(luò)生成機器人要執(zhí)行的動作。在此基礎(chǔ)上,它還結(jié)合了強化學(xué)習(xí),允許機器人在實際操作中通過與環(huán)境的互動來優(yōu)化其策略。這種方法使機器人能夠根據(jù)成功與失敗的反饋不斷調(diào)整其行為。通過設(shè)置獎勵機制,機器人能夠?qū)W習(xí)哪些行為能夠帶來成功,而哪些行為則需要改進或避免,

4、也有一部分方法關(guān)注到了將人類與機器人的操作視頻進行對齊來實現(xiàn)更精確的控制。jain,v.,attarian,m.等人通過觀察人類視頻示范來學(xué)習(xí)執(zhí)行任務(wù)。這種方法允許機器人理解人的意圖,并在不同的環(huán)境和不同的機器人形態(tài)中執(zhí)行推斷出的任務(wù)。模型通過大量對應(yīng)的人類演示和機器人軌跡來訓(xùn)練,學(xué)習(xí)從視頻中人類和機器人動作的統(tǒng)一表示。

5、此外,也有一些方法將生成模型應(yīng)用到機器人控制任務(wù)上,例如bharadhwaj,h.,dwibedi,d.等人將語言條件的操縱任務(wù)轉(zhuǎn)化為零樣本場景下的人類視頻生成,然后通過生成的視頻執(zhí)行統(tǒng)一的策略。這種方法不需要對視頻生成模型進行微調(diào),而是直接使用經(jīng)過預(yù)訓(xùn)練的模型來生成人類視角下執(zhí)行任務(wù)的視頻。同時,它還提出了從人類視頻和機器人視頻中提取點跡的方法,并在訓(xùn)練中優(yōu)化一個輔助損失函數(shù),以確保策略的潛在標記能夠提供場景中點的運動信息。該方法能夠在未見過的物體類型和新動作中執(zhí)行任務(wù),顯示出一定的在多樣化的真實世界場景中的泛化能力。

6、雖然上述方法已經(jīng)通過嘗試利用人類視頻數(shù)據(jù)集或者對齊視頻中的特征表示來提高機器人學(xué)習(xí)的效果,但它們往往忽視了人類與機器人在視頻內(nèi)容和表現(xiàn)形式上的根本差異。以人類為中心的視頻通常包含豐富的背景信息、動態(tài)的人物動作和多樣的環(huán)境互動,而機器人中心的視頻則更側(cè)重于如何執(zhí)行特定的任務(wù)和運動。因此,直接將人類的行為模式映射到機器人操作上可能會導(dǎo)致效果不佳。而通過生成方法輔助機器人控制的方法通常是從人類的視角出發(fā)。這種方法雖然在某些方面有效。但由于人類與機器人的動作和交互方式存在顯著差異,生成的內(nèi)容可能無法準確反映機器人在特定任務(wù)中的實際表現(xiàn)。這種分布上的差異可能會導(dǎo)致機器人在執(zhí)行任務(wù)時缺乏必要的上下文理解,進而影響其學(xué)習(xí)效率和執(zhí)行效果。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于人類演示指導(dǎo)的機器人控制方法、裝置及介質(zhì)。

2、本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):

3、作為本發(fā)明的第一方面,提供一種基于人類演示指導(dǎo)的機器人控制方法,步驟包括:

4、獲取機器人初始狀態(tài)圖像,機器人末端位置信息以及所執(zhí)行任務(wù)對應(yīng)的人類演示視頻;

5、利用編碼器從機器人初始狀態(tài)圖像中提取出潛在特征表示;利用兩個不同的行為提取器分別獲得人類演示視頻中第一幀和整個演示視頻的視覺信息;

6、構(gòu)建基于u型網(wǎng)絡(luò)且具有相同層數(shù)的空間信息處理模塊與時空信息處理模塊;

7、將所提取的機器人初始狀態(tài)圖像潛在特征表示輸入空間信息處理模塊,將空間信息處理模塊u型網(wǎng)絡(luò)各層所提取出的不同尺寸特征與隨機噪聲一起輸入時空信息處理模塊u型網(wǎng)絡(luò)對應(yīng)的層中;

8、將人類演示中第一幀和整個演示視頻的視覺信息輸入時空信息處理模塊,由時空信息處理模塊進行逐步去噪,在所述時空信息處理模塊u型網(wǎng)絡(luò)中的每一層中,對于輸入演示視頻的視覺信息以及空間信息處理模塊的輸出特征,利用交叉注意力機制獲得逐幀的特征信息;

9、利用時空信息處理模塊中間層的特征與當(dāng)前機器人末端位置信息一起通過策略網(wǎng)絡(luò)預(yù)測出機器人接下來的動作序列,并使用時空信息處理模塊的輸出特征,生成機器人操作視頻。

10、作為優(yōu)選技術(shù)方案,所述人類演示視頻的獲取過程如下:

11、為演示者和機器人搭建一致的任務(wù)場景,收集人類執(zhí)行特定任務(wù)的演示視頻,同時通過遙操作系統(tǒng)收集機器人執(zhí)行同樣任務(wù)的視頻,并且記錄下對應(yīng)的人手和機器人相關(guān)信息,作為用于學(xué)習(xí)的演示數(shù)據(jù)。

12、作為優(yōu)選技術(shù)方案,所述初始狀態(tài)圖像潛在特征表示的獲取過程如下:

13、對于機器人視角t時刻的圖像視覺信息采用經(jīng)預(yù)訓(xùn)練的編碼器將圖像信息編碼到潛在語義空間中,輸入空間信息提取模塊的潛在特征er表示如下:

14、

15、式中,encpre表示經(jīng)預(yù)訓(xùn)練的編碼器。

16、作為優(yōu)選技術(shù)方案,所述空間信息處理模塊中的u型網(wǎng)絡(luò)對圖片在低維空間的向量表示進行處理,通過下采樣和上采樣的過程獲得該向量表示在不同尺度上的特征表達;那么通過空間處理模塊獲得的不同尺寸的特征如下:

17、

18、其中,unets表示空間處理模塊;m表示空間處理模塊中u型網(wǎng)絡(luò)提取出的不同尺寸特征的尺寸數(shù)量。

19、作為優(yōu)選技術(shù)方案,所述將人類演示中第一幀和整個演示視頻的視覺信息輸入時空信息處理模塊,具體如下:

20、對于人類演示視頻的視覺特征信息其中n表示希望預(yù)測的時間長度,利用一個行為提取器提取人類演示視頻每一幀的特征;并利用另一個不同的行為提取器提取人類演示視頻第一幀的特征,將第一幀的特征與每一幀的特征相加,獲得運動信息,輸入時空信息處理模塊的行為特征如下:

21、

22、其中,encbeh1和encbeh2表示兩個不同的行為提取器,表示第i幀所對應(yīng)的行為特征信息(t≤i<t+n);

23、將獲取的行為特征組合起來,得到人類視頻的特征:

24、

25、將人類視頻的特征與一個隨機噪聲相加,得到時空信息處理模塊中u型網(wǎng)絡(luò)第一層的輸入

26、作為優(yōu)選技術(shù)方案,所述時空信息處理模塊的去噪過程具體如下:

27、將把時空信息處理模塊和空間信息處理模塊對應(yīng)位置的特征拼接起來:

28、

29、

30、其中,c表示特征的通道數(shù)量,w和h表示特征的寬高,n對應(yīng)視頻的長度,表示空間處理模塊獲得的在第i個u型網(wǎng)絡(luò)層下的特征,表示時空信息處理模塊在第i個尺寸下的特征輸入;

31、經(jīng)過空間自注意力機制attentionspatial,獲得綜合機器人初始狀態(tài)圖像和人類演示視頻其中任一幀的綜合空間特征:

32、

33、對于綜合空間特征利用時間上的自注意力機制attentiontemporal,獲得綜合時間和空間上信息的特征:

34、

35、在u型網(wǎng)絡(luò)的每一層都執(zhí)行以上步驟,完成一次去噪的過程,每一次去噪的結(jié)果都會作為下一次去噪過程的輸入。

36、作為優(yōu)選技術(shù)方案,所述機器人操作視頻的生成過程具體如下:

37、采用經(jīng)預(yù)訓(xùn)練的解碼器,由時空信息處理模塊最后一次去噪過程的最后一層的潛在特征生成執(zhí)行同一任務(wù)的視頻v:

38、

39、式中,decpre表示經(jīng)預(yù)訓(xùn)練的解碼器。

40、作為優(yōu)選技術(shù)方案,預(yù)測所述機器人接下來的動作序列過程具體如下:

41、使用時空信息處理模塊任意一次去噪過程中,u型網(wǎng)絡(luò)的第一個上升層的特征結(jié)合當(dāng)前時間輸入的機器人末端位置st經(jīng)過特征提取的結(jié)果,通過一個多層感知機mlp計算得到機器人的動作a:

42、epos=encpos(st)

43、

44、式中,encpos表示位置特征提取器。

45、作為本發(fā)明的第二方面,提供一種電子設(shè)備,包括:

46、一個或多個處理器;

47、存儲器,用于存儲一個或多個程序;

48、當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如上所述的基于人類演示指導(dǎo)的機器人控制方法。

49、作為本發(fā)明的第三方面,提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述基于人類演示指導(dǎo)的機器人控制方法的步驟。

50、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

51、本發(fā)明通過機器人視角下的視頻生成和特征提取,捕獲了更符合機器人操作場景的語義信息,從而實現(xiàn)了模型更強大的泛化能力,這種泛化能力可以體現(xiàn)在不同的操作位置、不同的操作對象物體以及不同的執(zhí)行軌跡等方面。通過收集嚴格對齊的人類和機器人操作視頻,訓(xùn)練得到的模型可以通過一次演示就執(zhí)行任務(wù)的能力,即零樣本學(xué)習(xí)能力?;趯@種對齊的人類和機器人操作視頻信息的充分利用,本發(fā)明的從人類演示學(xué)習(xí)機器人控制的方法實現(xiàn)了高效、可靠的機器人控制。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1