最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法、系統(tǒng)及終端

文檔序號(hào):41952889發(fā)布日期:2025-05-16 14:15閱讀:2來源:國知局
一種文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法、系統(tǒng)及終端

本發(fā)明涉及機(jī)器人,特別涉及一種文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法、系統(tǒng)、終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。


背景技術(shù):

1、當(dāng)機(jī)器人面臨長(zhǎng)序列任務(wù)時(shí),存在難以從自然語言中獲得有效的指導(dǎo)經(jīng)驗(yàn)的問題,對(duì)此,現(xiàn)有方案主要集中于將任務(wù)指令映射為動(dòng)作序列,但通常需要專門設(shè)計(jì)的符號(hào)語言,并且固定的行為模式無法完成復(fù)雜任務(wù)。

2、而要想提高語言指令的靈活性和任務(wù)的成功率,可結(jié)合大模型技術(shù)與強(qiáng)化學(xué)習(xí)方法,前者用于識(shí)別語言指令,后者用于執(zhí)行任務(wù),比如,現(xiàn)有技術(shù)中基于多模態(tài)大模型和強(qiáng)化學(xué)習(xí)的人機(jī)交互裝配方法及系統(tǒng),包括:采集視覺、文本及語音數(shù)據(jù),通過多模態(tài)大模型將裝配任務(wù)劃分為多個(gè)獨(dú)立子任務(wù);每個(gè)子任務(wù)事先通過強(qiáng)化學(xué)習(xí)方法訓(xùn)練,由多個(gè)智能體組成技能庫;由大模型決定當(dāng)前任務(wù)中,智能體的調(diào)用順序。然而,上述方案要求技能庫數(shù)量必須足夠龐大,以此適用復(fù)雜任務(wù),且每個(gè)技能的訓(xùn)練時(shí)間長(zhǎng),大模型的引入并沒有提高探索效率。

3、因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的主要目的在于提供一種文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法、系統(tǒng)、終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),旨在解決現(xiàn)有的基于大模型和強(qiáng)化學(xué)習(xí)的機(jī)器人長(zhǎng)序列任務(wù)規(guī)劃方法對(duì)數(shù)據(jù)量要求高且效率低的問題。

2、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供一種文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法,所述文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法包括:

3、預(yù)定義參數(shù)化技能,所述參數(shù)化技能包括技能和參數(shù);

4、利用視覺目標(biāo)檢測(cè)算法識(shí)別機(jī)器人工作空間內(nèi)的物體信息,以場(chǎng)景圖的形式輸出物體的語義標(biāo)簽及物體間的位置關(guān)系;

5、將所述場(chǎng)景圖和任務(wù)指令輸入至文本大模型中,所述文本大模型通過提示詞工程解析所述任務(wù)指令,輸出所述任務(wù)指令對(duì)應(yīng)的動(dòng)作規(guī)劃結(jié)果,其中,所述動(dòng)作規(guī)劃結(jié)果包括觀測(cè)對(duì)象和動(dòng)作序列,所述動(dòng)作序列包括動(dòng)作,所述動(dòng)作為所述參數(shù)化技能;

6、將所述文本大模型作為引導(dǎo)智能體,將強(qiáng)化學(xué)習(xí)智能體作為探索智能體,結(jié)合跳躍強(qiáng)化學(xué)習(xí)和保守q學(xué)習(xí),使用所述引導(dǎo)智能體和所述探索智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù)集訓(xùn)練所述強(qiáng)化學(xué)習(xí)智能體,得到訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體;

7、獲取待執(zhí)行任務(wù)指令,將所述場(chǎng)景圖和所述待執(zhí)行任務(wù)指令輸入至所述文本大模型中,所述文本大模型通過提示詞工程解析所述待執(zhí)行任務(wù)指令,輸出所述待執(zhí)行任務(wù)指令對(duì)應(yīng)的目標(biāo)觀測(cè)對(duì)象;

8、將所述目標(biāo)觀測(cè)對(duì)象和所述待執(zhí)行任務(wù)指令輸入至所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體中,所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體輸出目標(biāo)動(dòng)作序列。

9、可選地,所述預(yù)定義參數(shù)化技能,所述參數(shù)化技能包括技能和參數(shù),具體包括:

10、預(yù)定義參數(shù)化技能,所述參數(shù)化技能包括技能和參數(shù),所述技能由原子技能組成;

11、其中,所述技能包括到達(dá)、抓取、推動(dòng)和打開夾持器;所述原子技能包括水平移動(dòng)、垂直移動(dòng)、關(guān)閉末端執(zhí)行器和打開末端執(zhí)行器。

12、可選地,所述利用視覺目標(biāo)檢測(cè)算法識(shí)別機(jī)器人工作空間內(nèi)的物體信息,以場(chǎng)景圖的形式輸出物體的語義標(biāo)簽及物體間的位置關(guān)系,具體為:

13、利用視覺目標(biāo)檢測(cè)算法識(shí)別機(jī)器人工作空間內(nèi)的物體信息,以場(chǎng)景圖的形式輸出物體的語義標(biāo)簽及物體間的位置關(guān)系;

14、其中,所述場(chǎng)景圖包括節(jié)點(diǎn)特征和邊特征,所述節(jié)點(diǎn)特征用于描述工作空間內(nèi)存在的物體以及所述物體的物理屬性,所述邊特征用于描述物體間的空間位置關(guān)系。

15、可選地,所述將所述場(chǎng)景圖和任務(wù)指令輸入至文本大模型中,所述文本大模型通過提示詞工程解析所述任務(wù)指令,輸出所述任務(wù)指令對(duì)應(yīng)的動(dòng)作規(guī)劃結(jié)果,具體包括:

16、將所述場(chǎng)景圖和任務(wù)指令輸入至文本大模型中,其中,所述場(chǎng)景圖用于描述環(huán)境觀測(cè),所述任務(wù)指令用于描述任務(wù)目標(biāo);

17、所述文本大模型通過提示詞工程解析所述任務(wù)指令,從所述環(huán)境觀測(cè)中選擇所述任務(wù)目標(biāo)對(duì)應(yīng)的觀測(cè)對(duì)象并規(guī)劃完成所述任務(wù)目標(biāo)所需的技能序列;

18、將所述觀測(cè)對(duì)象的位置作為所述技能序列中技能對(duì)應(yīng)的參數(shù),得到動(dòng)作序列;

19、將所述觀測(cè)對(duì)象和所述動(dòng)作序列作為所述任務(wù)指令對(duì)應(yīng)的動(dòng)作規(guī)劃結(jié)果,并輸出所述動(dòng)作規(guī)劃結(jié)果;

20、其中,所述技能序列包括若干個(gè)技能,所述動(dòng)作序列包括若干個(gè)動(dòng)作,所述動(dòng)作為所述參數(shù)化技能。

21、可選地,所述將所述文本大模型作為引導(dǎo)智能體,將強(qiáng)化學(xué)習(xí)智能體作為探索智能體,結(jié)合跳躍強(qiáng)化學(xué)習(xí)和保守q學(xué)習(xí),使用所述引導(dǎo)智能體和所述探索智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù)集訓(xùn)練所述強(qiáng)化學(xué)習(xí)智能體,得到訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體,具體包括:

22、將所述文本大模型作為引導(dǎo)智能體,將所述強(qiáng)化學(xué)習(xí)智能體作為探索智能體;

23、在所述強(qiáng)化學(xué)習(xí)智能體訓(xùn)練前期,利用所述引導(dǎo)智能體與環(huán)境交互產(chǎn)生第一訓(xùn)練數(shù)據(jù),并將所述第一訓(xùn)練數(shù)據(jù)存儲(chǔ)于經(jīng)驗(yàn)回放池中;

24、從所述經(jīng)驗(yàn)回放池中采樣所述第一訓(xùn)練數(shù)據(jù),利用采樣的所述第一訓(xùn)練數(shù)據(jù)訓(xùn)練所述探索智能體;

25、在所述強(qiáng)化學(xué)習(xí)智能體訓(xùn)練中期,逐漸加入探索步驟,利用所述引導(dǎo)智能體與環(huán)境交互產(chǎn)生第一訓(xùn)練數(shù)據(jù),且利用所述探索智能體與環(huán)境交互產(chǎn)生第二訓(xùn)練數(shù)據(jù),并將所述第一訓(xùn)練數(shù)據(jù)和所述第二訓(xùn)練數(shù)據(jù)存儲(chǔ)于經(jīng)驗(yàn)回放池中;

26、從所述經(jīng)驗(yàn)回放池中采樣所述第一訓(xùn)練數(shù)據(jù)和所述第二訓(xùn)練數(shù)據(jù),利用采樣的所述第一訓(xùn)練數(shù)據(jù)和所述第二訓(xùn)練數(shù)據(jù)訓(xùn)練所述探索智能體;

27、在所述強(qiáng)化學(xué)習(xí)智能體訓(xùn)練后期,逐漸減少引導(dǎo)步驟,直至僅利用所述探索智能體與環(huán)境交互產(chǎn)生第二訓(xùn)練數(shù)據(jù),并將所述第二訓(xùn)練數(shù)據(jù)存儲(chǔ)于經(jīng)驗(yàn)回放池中;

28、從所述經(jīng)驗(yàn)回放池中采樣所述第二訓(xùn)練數(shù)據(jù),利用采樣的所述第二訓(xùn)練數(shù)據(jù)訓(xùn)練所述探索智能體,獲得訓(xùn)練好的探索智能體,其中,所述訓(xùn)練好的探索智能體為訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體;

29、其中,所述利用所述引導(dǎo)智能體與環(huán)境交互產(chǎn)生第一訓(xùn)練數(shù)據(jù)是指在仿真環(huán)境中執(zhí)行所述引導(dǎo)智能體輸出的動(dòng)作規(guī)劃結(jié)果,得到第一訓(xùn)練數(shù)據(jù);所述利用所述探索智能體與環(huán)境交互產(chǎn)生第二訓(xùn)練數(shù)據(jù)是指在仿真環(huán)境中利用所述探索智能體進(jìn)行隨機(jī)探索,得到第二訓(xùn)練數(shù)據(jù);利用采樣的所述第一訓(xùn)練數(shù)據(jù)訓(xùn)練所述探索智能體時(shí)采用保守q學(xué)習(xí)的損失函數(shù)。

30、可選地,所述獲取待執(zhí)行任務(wù)指令,將所述場(chǎng)景圖和所述待執(zhí)行任務(wù)指令輸入至所述文本大模型中,所述文本大模型通過提示詞工程解析所述待執(zhí)行任務(wù)指令,輸出所述待執(zhí)行任務(wù)指令對(duì)應(yīng)的目標(biāo)觀測(cè)對(duì)象,具體包括:

31、獲取待執(zhí)行任務(wù)指令,將所述場(chǎng)景圖和所述待執(zhí)行任務(wù)指令輸入至所述文本大模型中,其中,所述場(chǎng)景圖用于描述環(huán)境觀測(cè),所述待執(zhí)行任務(wù)指令用于描述待執(zhí)行任務(wù)目標(biāo);

32、所述文本大模型通過提示詞工程解析所述待執(zhí)行任務(wù)指令,從所述環(huán)境觀測(cè)中選擇所述待執(zhí)行任務(wù)目標(biāo)對(duì)應(yīng)的目標(biāo)觀測(cè)對(duì)象。

33、可選地,所述將所述目標(biāo)觀測(cè)和所述待執(zhí)行任務(wù)指令對(duì)象輸入至所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體中,所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體輸出目標(biāo)動(dòng)作序列,具體包括:

34、將所述目標(biāo)觀測(cè)對(duì)象和所述待執(zhí)行任務(wù)指令分別輸入至所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體的技能網(wǎng)絡(luò)和參數(shù)網(wǎng)絡(luò)中;

35、所述技能網(wǎng)絡(luò)輸出所述待執(zhí)行任務(wù)指令對(duì)應(yīng)的技能;

36、所述參數(shù)網(wǎng)絡(luò)輸出所述技能對(duì)應(yīng)的參數(shù);

37、所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體將所述技能和所述技能對(duì)應(yīng)的所述參數(shù)作為目標(biāo)動(dòng)作序列,并將所述目標(biāo)動(dòng)作序列輸出。

38、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明還提供一種文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)系統(tǒng),所述文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)系統(tǒng)包括:

39、預(yù)定義模塊:用于預(yù)定義參數(shù)化技能,所述參數(shù)化技能包括技能和參數(shù);

40、視覺檢測(cè)模塊:用于利用視覺目標(biāo)檢測(cè)算法識(shí)別機(jī)器人工作空間內(nèi)的物體信息,以場(chǎng)景圖的形式輸出物體的語義標(biāo)簽及物體間的位置關(guān)系;

41、文本大模型動(dòng)作規(guī)劃模塊:用于將所述場(chǎng)景圖和任務(wù)指令輸入至文本大模型中,所述文本大模型通過提示詞工程解析所述任務(wù)指令,輸出所述任務(wù)指令對(duì)應(yīng)的動(dòng)作規(guī)劃結(jié)果,其中,所述動(dòng)作規(guī)劃結(jié)果包括觀測(cè)對(duì)象和動(dòng)作序列,所述動(dòng)作序列包括動(dòng)作,所述動(dòng)作為所述參數(shù)化技能;

42、強(qiáng)化學(xué)習(xí)智能體訓(xùn)練模塊:用于將所述文本大模型作為引導(dǎo)智能體,將強(qiáng)化學(xué)習(xí)智能體作為探索智能體,結(jié)合跳躍強(qiáng)化學(xué)習(xí)和保守q學(xué)習(xí),使用所述引導(dǎo)智能體和所述探索智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù)集訓(xùn)練所述強(qiáng)化學(xué)習(xí)智能體,得到訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體;

43、目標(biāo)觀測(cè)對(duì)象輸出模塊:用于獲取待執(zhí)行任務(wù)指令,將所述場(chǎng)景圖和所述待執(zhí)行任務(wù)指令輸入至所述文本大模型中,所述文本大模型通過提示詞工程解析所述待執(zhí)行任務(wù)指令,輸出所述待執(zhí)行任務(wù)指令對(duì)應(yīng)的目標(biāo)觀測(cè)對(duì)象;

44、目標(biāo)動(dòng)作序列輸出模塊:用于將所述目標(biāo)觀測(cè)對(duì)象和所述待執(zhí)行任務(wù)指令輸入至所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體中,所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體輸出目標(biāo)動(dòng)作序列。

45、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明還提供一種終端,所述終端包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)程序,所述文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法的步驟。

46、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)程序,所述文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的文本大模型輔助強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法的步驟。

47、本發(fā)明中,預(yù)定義參數(shù)化技能,所述參數(shù)化技能包括技能和參數(shù);利用視覺目標(biāo)檢測(cè)算法識(shí)別機(jī)器人工作空間內(nèi)的物體信息,以場(chǎng)景圖的形式輸出物體的語義標(biāo)簽及物體間的位置關(guān)系;將所述場(chǎng)景圖和任務(wù)指令輸入至文本大模型中,所述文本大模型通過提示詞工程解析所述任務(wù)指令,輸出所述任務(wù)指令對(duì)應(yīng)的動(dòng)作規(guī)劃結(jié)果,其中,所述動(dòng)作規(guī)劃結(jié)果包括觀測(cè)對(duì)象和動(dòng)作序列,所述動(dòng)作序列包括動(dòng)作,所述動(dòng)作為所述參數(shù)化技能;將所述文本大模型作為引導(dǎo)智能體,將強(qiáng)化學(xué)習(xí)智能體作為探索智能體,結(jié)合跳躍強(qiáng)化學(xué)習(xí)和保守q學(xué)習(xí),使用所述引導(dǎo)智能體和所述探索智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù)集訓(xùn)練所述強(qiáng)化學(xué)習(xí)智能體,得到訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體;獲取待執(zhí)行任務(wù)指令,將所述場(chǎng)景圖和所述待執(zhí)行任務(wù)指令輸入至所述文本大模型中,所述文本大模型通過提示詞工程解析所述待執(zhí)行任務(wù)指令,輸出所述待執(zhí)行任務(wù)指令對(duì)應(yīng)的目標(biāo)觀測(cè)對(duì)象;將所述目標(biāo)觀測(cè)對(duì)象和所述待執(zhí)行任務(wù)指令輸入至所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體中,所述訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體輸出目標(biāo)動(dòng)作序列。本發(fā)明使用文本大模型進(jìn)行場(chǎng)景與指令解析,其中間過程不依賴于額外的符號(hào)語言;將視覺觀測(cè)轉(zhuǎn)換為場(chǎng)景圖輸入文本大模型,配合提示詞使得文本大模型也具備場(chǎng)景解析的能力,其過程不依賴于多模態(tài)大模型,降低了模型的復(fù)雜度;引入?yún)?shù)化技能作為基于文本大模型的任務(wù)規(guī)劃方法與強(qiáng)化學(xué)習(xí)方法的橋梁,使得文本大模型可加速強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練過程,減少了訓(xùn)練時(shí)間,提高了效率;在使用引導(dǎo)智能體收集的數(shù)據(jù)更新探索智能體的參數(shù)時(shí)結(jié)合保守q學(xué)習(xí)方法,可減少外推誤差的影響;在強(qiáng)化學(xué)習(xí)智能體訓(xùn)練后期,減少引導(dǎo)步驟,經(jīng)驗(yàn)回放池的數(shù)據(jù)主要來源于探索步驟,使得強(qiáng)化學(xué)習(xí)智能體的最終表現(xiàn)優(yōu)于基于文本大模型的引導(dǎo)策略;在強(qiáng)化學(xué)習(xí)智能體訓(xùn)練完成后,利用文本大模型為強(qiáng)化學(xué)習(xí)智能體選擇觀測(cè)對(duì)象,實(shí)現(xiàn)語言指導(dǎo)任務(wù)執(zhí)行。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1