本發(fā)明涉及人工智能,尤其涉及一種基于多模態(tài)的具身智能設備控制方法、系統(tǒng)、終端及計算機可讀存儲介質(zhì)。
背景技術:
1、具身智能是人工智能的一個發(fā)展領域,指的是一種智能系統(tǒng)或機器能夠通過感知和交互與環(huán)境進行實時互動的能力,而大模型多模態(tài)的泛化能力也為機器人的自主學習能力打下了基礎,幫助機器人能夠適應多變?nèi)蝿铡?/p>
2、當前,大模型多模態(tài)技術正在迅速發(fā)展,結合了計算機視覺、自然語言處理、語音識別等多個領域的技術。
3、然而,不同模態(tài)的數(shù)據(jù)往往在時間、空間和語義上存在不對齊的情況,具有不同的統(tǒng)計特性和分布,這要求模型能夠處理異構數(shù)據(jù)并從中提取有用信息,而在多模態(tài)模型訓練過程中,多模態(tài)數(shù)據(jù)通常需要復雜的標注,不僅成本高昂,而且標注的質(zhì)量直接影響模型的性能。
4、因此,現(xiàn)有技術還有待于改進和發(fā)展。
技術實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種基于多模態(tài)的具身智能設備控制方法、系統(tǒng)、終端及計算機可讀存儲介質(zhì),旨在解決現(xiàn)有技術中多模態(tài)模型在訓練過程中數(shù)據(jù)不對齊,導致多模態(tài)模型訓練過程存在效率低下以及結果不準確的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種基于多模態(tài)的具身智能設備控制方法,所述基于多模態(tài)的具身智能設備控制方法包括如下步驟:
3、獲取經(jīng)過燒錄的智能卡驅(qū)動,控制所述智能卡驅(qū)動部署多模態(tài)模型,并對所述多模態(tài)模型進行訓練,得到目標多模態(tài)模型;
4、獲取用戶輸入的語音信息,并將所述語音信息輸入所述目標多模態(tài)模型進行對齊處理,輸出對齊結果;
5、將所述對齊結果傳輸?shù)骄呱碇悄茉O備中,控制所述具身智能設備根據(jù)所述對齊結果運行,并獲取所述具身智能設備的運行結果。
6、可選地,所述的基于多模態(tài)的具身智能設備控制方法,其中,所述獲取經(jīng)過燒錄的智能卡驅(qū)動,控制所述智能卡驅(qū)動部署多模態(tài)模型,并對所述多模態(tài)模型進行訓練,得到目標多模態(tài)模型,具體包括:
7、獲取插入pc端電腦的初始智能卡,并選擇ai比特流數(shù)據(jù),其中,所述ai比特流數(shù)據(jù)用于部署多模態(tài)模型;
8、將所述ai比特流數(shù)據(jù)燒錄到所述初始智能卡中,得到所述智能卡驅(qū)動;
9、構建多模態(tài)模型,并控制所述智能卡驅(qū)動根據(jù)所述ai比特流數(shù)據(jù)將所述多模態(tài)模型部署到所述pc端電腦;
10、在知識庫中提取歷史識別數(shù)據(jù),根據(jù)所述歷史識別數(shù)據(jù)構建訓練集,并利用所述訓練集對所述多模態(tài)模型進行訓練,得到目標多模態(tài)模型。
11、可選地,所述的基于多模態(tài)的具身智能設備控制方法,其中,所述獲取用戶輸入的語音信息,并將所述語音信息輸入所述目標多模態(tài)模型進行對齊處理,輸出對齊結果,具體包括:
12、獲取用戶輸入的語音信息,通過提示詞書寫框架分析所述語音信息,得到目標語音信息;
13、將所述目標語音信息輸入所述目標多模態(tài)模型,所述目標多模態(tài)模型對所述目標語音信息進行對齊處理,輸出對齊結果。
14、可選地,所述的基于多模態(tài)的具身智能設備控制方法,其中,所述將所述目標語音信息輸入所述目標多模態(tài)模型,所述目標多模態(tài)模型對所述目標語音信息進行對齊處理,輸出對齊結果,具體包括:
15、將所述目標語音信息輸入所述目標多模態(tài)模型,所述目標多模態(tài)模型提取所述目標語音信息的視覺特征和語言特征,并生成正樣本對和負樣本對;
16、所述目標多模態(tài)模型根據(jù)所述目標語音信息中的圖文關聯(lián)關系,對所述視覺特征和所述語言特征進行對齊處理,得到初始對齊結果;
17、所述目標多模態(tài)模型將所述正樣本對之間的距離最小化,得到最小正樣本對距離,將所述負樣本對之間的距離最大化,得到最大負樣本對距離;
18、所述目標多模態(tài)模型根據(jù)所述最小正樣本對距離和所述最大負樣本對距離,優(yōu)化所述初始對齊結果,輸出所述目標語音信息的對齊結果。
19、可選地,所述的基于多模態(tài)的具身智能設備控制方法,其中,所述具身智能設備包括:人形機器人、機械臂、機器人和機械狗中的任意一個;
20、所述將所述對齊結果傳輸?shù)骄呱碇悄茉O備中,控制所述具身智能設備根據(jù)所述對齊結果運行,并獲取所述具身智能設備的運行結果,具體包括:
21、獲取所述人形機器人、所述機械臂、所述機器人或所述機械狗的地址,并根據(jù)所述地址將所述對齊結果傳輸?shù)剿鋈诵螜C器人、所述機械臂、所述機器人或所述機械狗中;
22、根據(jù)所述對齊結果控制所述人形機器人、所述機械臂、所述機器人或所述機械狗執(zhí)行任務,并接收任務結果。
23、可選地,所述的基于多模態(tài)的具身智能設備控制方法,其中,所述將所述對齊結果傳輸?shù)骄呱碇悄茉O備中,控制所述具身智能設備根據(jù)所述對齊結果運行,并獲取所述具身智能設備的運行結果,之前還包括:
24、在歷史識別數(shù)據(jù)中,提取所述人形機器人的第一歷史任務結果、所述機械臂的第二歷史任務結果、所述機器人的第三歷史任務結果;
25、將所述第一歷史任務結果輸入所述目標多模態(tài)模型進行訓練,得到環(huán)廣義線性模型,并控制所述智能卡驅(qū)動將文本-語音轉(zhuǎn)換工具部署到所述人形機器人中;
26、將所述第二歷史任務結果輸入所述目標多模態(tài)模型進行訓練,得到環(huán)境物品識別模型;
27、將所述第三歷史任務結果輸入所述目標多模態(tài)模型進行訓練,得到端側語言模型。
28、可選地,所述的基于多模態(tài)的具身智能設備控制方法,其中,所述根據(jù)所述對齊結果控制所述人形機器人、所述機械臂、所述機器人或所述機械狗執(zhí)行任務,并接收任務結果,具體包括:
29、若控制目標為所述人形機器人,則將所述對齊結果輸入所述環(huán)廣義線性模型,并生成第一控制指令,根據(jù)所述第一控制指令控制所述文本-語音轉(zhuǎn)換工具將所述語音信息轉(zhuǎn)換為文本信息,并輸出語義回復,直到與所述用戶完成對話,其中,所述語義回復由所述人形機器人根據(jù)所述文本信息生成;
30、若控制目標為所述機械臂,則將所述對齊結果輸入所述環(huán)境物品識別模型,并生成第二控制指令,根據(jù)所述第二控制指令控制所述機械臂執(zhí)行第二目標任務,并獲取所述第二目標任務的執(zhí)行結果;
31、若控制目標為所述機器人,則將所述對齊結果輸入所述端側語言模型,并生成第三控制指令,根據(jù)所述第三控制指令控制所述機器人執(zhí)行第三目標任務,并獲取所述第三目標任務的執(zhí)行結果;
32、若控制目標為所述機械狗,則將所述對齊結果輸入所述目標多模態(tài)模型,并生成第四控制指令,根據(jù)所述第四控制指令控制所述機械狗執(zhí)行第四目標任務,并獲取所述第四目標任務的執(zhí)行結果。
33、此外,為實現(xiàn)上述目的,本發(fā)明還提供一種基于多模態(tài)的具身智能設備控制系統(tǒng),其中,所述基于多模態(tài)的具身智能設備控制系統(tǒng)包括:
34、模型訓練模塊,用于獲取經(jīng)過燒錄的智能卡驅(qū)動,控制所述智能卡驅(qū)動部署多模態(tài)模型,并對所述多模態(tài)模型進行訓練,得到目標多模態(tài)模型;
35、信息處理模塊,用于獲取用戶輸入的語音信息,并將所述語音信息輸入所述目標多模態(tài)模型進行對齊處理,輸出對齊結果;
36、設備控制模塊,用于將所述對齊結果傳輸?shù)骄呱碇悄茉O備中,控制所述具身智能設備根據(jù)所述對齊結果運行,并獲取所述具身智能設備的運行結果。
37、此外,為實現(xiàn)上述目的,本發(fā)明還提供一種終端,其中,所述終端包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的基于多模態(tài)的具身智能設備控制程序,所述基于多模態(tài)的具身智能設備控制程序被所述處理器執(zhí)行時實現(xiàn)如上所述的基于多模態(tài)的具身智能設備控制方法的步驟。
38、此外,為實現(xiàn)上述目的,本發(fā)明還提供一種計算機可讀存儲介質(zhì),其中,所述計算機可讀存儲介質(zhì)存儲有基于多模態(tài)的具身智能設備控制程序,所述基于多模態(tài)的具身智能設備控制程序被處理器執(zhí)行時實現(xiàn)如上所述的基于多模態(tài)的具身智能設備控制方法的步驟。
39、本發(fā)明中,獲取經(jīng)過燒錄的智能卡驅(qū)動,控制所述智能卡驅(qū)動部署多模態(tài)模型,并對所述多模態(tài)模型進行訓練,得到目標多模態(tài)模型;獲取用戶輸入的語音信息,并將所述語音信息輸入所述目標多模態(tài)模型進行對齊處理,輸出對齊結果;將所述對齊結果傳輸?shù)骄呱碇悄茉O備中,控制所述具身智能設備根據(jù)所述對齊結果運行,并獲取所述具身智能設備的運行結果。本發(fā)明在訓練多模態(tài)模型時,對數(shù)據(jù)進行預處理后,將不同模態(tài)數(shù)據(jù)轉(zhuǎn)換成相同尺度或分布,通過圖結構對齊數(shù)據(jù),提高了模型訓練的效率和模型訓練后的性能。