本發(fā)明涉及智能機(jī)器人控制分析,具體是指基于深度學(xué)習(xí)的智能機(jī)器人控制方法及系統(tǒng)。
背景技術(shù):
1、隨著科技的不斷發(fā)展,智能機(jī)器人在眾多領(lǐng)域得到了廣泛應(yīng)用,如工業(yè)生產(chǎn)、物流配送、醫(yī)療服務(wù)等。在這些應(yīng)用場(chǎng)景中,機(jī)器人需要具備高精度的環(huán)境感知、準(zhǔn)確的目標(biāo)識(shí)別與追蹤以及精確的操作控制能力。然而,復(fù)雜多變的現(xiàn)實(shí)環(huán)境給智能機(jī)器人的控制帶來了巨大挑戰(zhàn)。傳統(tǒng)的機(jī)器人控制方法往往依賴于單一類型的傳感器數(shù)據(jù),難以滿足在復(fù)雜環(huán)境下對(duì)機(jī)器人自主性和適應(yīng)性的要求。例如,僅依靠內(nèi)部傳感器可能會(huì)因累積誤差導(dǎo)致定位和姿態(tài)估計(jì)不準(zhǔn)確,而僅依賴外部傳感器可能存在數(shù)據(jù)處理延遲和對(duì)環(huán)境變化適應(yīng)性不足的問題。因此,開發(fā)一種能夠綜合多源數(shù)據(jù)進(jìn)行有效控制的方法成為智能機(jī)器人發(fā)展的關(guān)鍵需求。
2、目前,在智能機(jī)器人的視覺感知方面,雖然已有基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法如yolo和fasterr-cnn被應(yīng)用,但這些算法大多僅關(guān)注于圖像層面的目標(biāo)識(shí)別,對(duì)于如何充分利用視頻數(shù)據(jù)中的動(dòng)態(tài)信息以及如何將圖像和視頻數(shù)據(jù)有效融合以提升機(jī)器人對(duì)環(huán)境的綜合感知能力,還存在一定的改進(jìn)空間。在機(jī)器人的定位和姿態(tài)估計(jì)方面,使用慣性測(cè)量單元能夠在短時(shí)間內(nèi)提供相對(duì)快速的位置和姿態(tài)信息,但由于其存在誤差積累問題,長期使用會(huì)導(dǎo)致較大的偏差。而基于激光雷達(dá)的外部定位方法雖然可以獲得高精度的定位結(jié)果,但數(shù)據(jù)處理相對(duì)復(fù)雜,且在某些場(chǎng)景下可能受到環(huán)境因素的干擾,如光線變化對(duì)激光反射的影響等。此外,現(xiàn)有的方法在將內(nèi)部傳感器數(shù)據(jù)與外部定位數(shù)據(jù)融合時(shí),往往不能很好地平衡實(shí)時(shí)性和準(zhǔn)確性,導(dǎo)致機(jī)器人在復(fù)雜環(huán)境中的控制效果不理想。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述情況,為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明提供了基于深度學(xué)習(xí)的智能機(jī)器人控制方法及系統(tǒng),為了解決上述提出的技術(shù)缺陷。
2、為實(shí)現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實(shí)現(xiàn):基于深度學(xué)習(xí)的智能機(jī)器人控制方法,包括以下步驟:
3、步驟一、圖像數(shù)據(jù)特征提?。和ㄟ^采用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法對(duì)圖像中目標(biāo)物體進(jìn)行圖像識(shí)別,接著將識(shí)別的圖像輸入到視覺特征分析模塊中,將輸入圖像劃分成若干個(gè)區(qū)域,同時(shí)計(jì)算每個(gè)區(qū)域內(nèi)像素的平均值、最大值和最小值,由每個(gè)區(qū)域內(nèi)像素的平均值、最大值和最小值組成每個(gè)區(qū)域的特征向量,最后將若干個(gè)區(qū)域的特征向量進(jìn)行拼接,得到一個(gè)圖像特征向量;
4、步驟二、視頻數(shù)據(jù)特征提?。和ㄟ^采用光流算法對(duì)視頻數(shù)據(jù)中的每一幀對(duì)進(jìn)行光流場(chǎng)的計(jì)算,再將光流場(chǎng)劃分成若干個(gè)區(qū)域,在每個(gè)區(qū)域內(nèi)計(jì)算光流向量的均值和標(biāo)準(zhǔn)差,得到一個(gè)區(qū)域光流特征向量,最后對(duì)視頻數(shù)據(jù)中的若干個(gè)幀的區(qū)域光流特征向量進(jìn)行時(shí)間池化,得到一個(gè)視頻特征向量;
5、步驟三、視覺特征向量融合:通過構(gòu)建一個(gè)注意力機(jī)制模塊,向注意力機(jī)制模塊中輸入圖像特征向量和視頻特征向量,通過一個(gè)共享的全連接層將圖像特征向量和視頻特征向量映射到一個(gè)中間表示空間,得到圖像特征映射向量和視頻特征映射向量,分別記為fi和fv,最后通過公式st=w1*fi+w2*fv計(jì)算出綜合視覺特征向量st,其中w1和w2分別表示圖像特征映射向量和視頻特征映射向量對(duì)應(yīng)的權(quán)重系數(shù);
6、步驟四、內(nèi)部傳感器數(shù)據(jù)分析:設(shè)智能機(jī)器人初始姿態(tài)對(duì)應(yīng)的四元數(shù)為q0=(q0w,q0x,q0y,q0z),慣性測(cè)量單元提供的角速度數(shù)據(jù)為ω=(ωx,ωy,ωz),采樣周期為δt,其中ωx、ωy、ωz分別表示為繞x、y、z軸的角速度;
7、通過公式計(jì)算出角速度的模,再通過公式
8、計(jì)算出四元數(shù)增量δq,最后根據(jù)四元數(shù)更新公式計(jì)算出智能機(jī)器人對(duì)應(yīng)各運(yùn)動(dòng)時(shí)刻的姿態(tài)四元數(shù)向量qt+1;
9、設(shè)慣性測(cè)量單元提供的加速度為a=(ax,ay,az),初始速度v0=(v0x,v0y,v0z),初始位置為x0=(x0x,x0y,x0z),因此,速度更新公式為vt+1=vt+atδt,位置更新公式為xt+1=xt+vtδt;
10、步驟五、外部定位數(shù)據(jù)分析:設(shè)智能機(jī)器人的激光雷達(dá)每次掃描得到的點(diǎn)云數(shù)據(jù)為p={p1,p2,…,pn},其中pi=(xi,yi,zi)表示為第i個(gè)點(diǎn)的三維坐標(biāo),采用體素濾波方法去除噪聲點(diǎn),接著確定體素網(wǎng)格的大小,將點(diǎn)云空間劃分為若干個(gè)邊長為l的立方體,即體素,同時(shí)對(duì)每個(gè)體素計(jì)算其中點(diǎn)的重心作為該體素的代表點(diǎn);
11、采用法向量估計(jì)和曲率計(jì)算對(duì)預(yù)處理后的點(diǎn)云數(shù)據(jù)進(jìn)行特征點(diǎn)提取,對(duì)于點(diǎn)pi,通過計(jì)算其半徑為r的球形鄰域內(nèi)點(diǎn)的協(xié)方差矩陣,對(duì)協(xié)方差矩陣進(jìn)行特征值分解,最小特征值對(duì)應(yīng)的特征向量就是點(diǎn)pi的法向量ni,同時(shí)根據(jù)鄰域點(diǎn)到點(diǎn)pi的距離和法向量的變化情況計(jì)算曲率ci,若曲率大于設(shè)定的閾值,則將點(diǎn)pi標(biāo)記為特征點(diǎn),設(shè)提取的特征點(diǎn)集為j={f1,f2,…,fm},在各運(yùn)動(dòng)時(shí)刻的點(diǎn)云數(shù)據(jù)中,通過最近鄰搜索算法尋找對(duì)應(yīng)的特征點(diǎn)對(duì);
12、根據(jù)匹配的特征點(diǎn)對(duì)構(gòu)建位姿圖,位姿圖中的節(jié)點(diǎn)表示智能機(jī)器人在各運(yùn)動(dòng)時(shí)刻的位姿,假設(shè)在二維平面下,xi=(xix,xiy,θi),其中xix和xiy均表示為位置坐標(biāo),θi表示為姿態(tài)角;
13、通過邊表示位姿之間的約束關(guān)系,約束通過匹配的特征點(diǎn)對(duì)進(jìn)行計(jì)算,設(shè)兩個(gè)匹配的特征點(diǎn)對(duì)(fi,fj)在兩個(gè)不同位姿xi和xj下的坐標(biāo)變換關(guān)系為tij,定義位姿圖的誤差函數(shù)其中c表示為所有約束邊的集合,表示為通過特征匹配得到的坐標(biāo)變換關(guān)系,tij(xi,xj)表示為根據(jù)當(dāng)前位姿計(jì)算得到的坐標(biāo)變換關(guān)系;
14、通過采用高斯-牛頓法進(jìn)行最小化誤差函數(shù)e(x),首先計(jì)算出誤差函數(shù)關(guān)于位姿變量x的雅可比矩陣j,然后通過迭代公式δx=(jtj)-1jte更新位姿估計(jì)值x,其中e表示為誤差向量;
15、步驟六、位姿狀態(tài)控制分析:設(shè)智能機(jī)器人融合后的狀態(tài)向量為其中表示為位置向量的轉(zhuǎn)置,表示為姿態(tài)向量的轉(zhuǎn)置,表示為速度向量的轉(zhuǎn)置;
16、根據(jù)內(nèi)部傳感器的數(shù)據(jù)進(jìn)行位姿狀態(tài)預(yù)測(cè),通過基于加速度的積分公式對(duì)于位置和速度進(jìn)行狀態(tài)預(yù)測(cè),通過基于角速度的四元數(shù)更新公式對(duì)姿態(tài)的狀態(tài)進(jìn)行預(yù)測(cè);
17、設(shè)狀態(tài)轉(zhuǎn)移函數(shù)為f(xk,uk),其中xk表示為k運(yùn)動(dòng)時(shí)刻的狀態(tài)向量,uk表示為通過慣性測(cè)量單元獲取的控制輸入,則預(yù)測(cè)的狀態(tài)向量為同時(shí)計(jì)算預(yù)測(cè)狀態(tài)的協(xié)方差矩陣依據(jù)卡爾曼濾波理論,其中fk表示為狀態(tài)轉(zhuǎn)移函數(shù)f關(guān)于狀態(tài)向量x的雅可比矩陣,pk表示為k運(yùn)動(dòng)時(shí)刻狀態(tài)向量的協(xié)方差矩陣,表示為k運(yùn)動(dòng)時(shí)刻狀態(tài)向量的協(xié)方差矩陣的轉(zhuǎn)置,qk表示為模型不確定性和傳感器噪聲的協(xié)方差矩陣;
18、當(dāng)獲得外部定位數(shù)據(jù)的位姿估計(jì)值x時(shí),進(jìn)行智能機(jī)器人的狀態(tài)更新,設(shè)外部定位系統(tǒng)的測(cè)量值為zk,測(cè)量函數(shù)為h(xk),計(jì)算測(cè)量殘差以及測(cè)量殘差的協(xié)方差矩陣其中hk表示為測(cè)量函數(shù)h關(guān)于狀態(tài)向量x的雅可比矩陣,表示為測(cè)量函數(shù)h關(guān)于狀態(tài)向量x的雅可比矩陣的轉(zhuǎn)置,rk表示為測(cè)量噪聲的協(xié)方差矩陣;
19、最后計(jì)算卡爾曼增益更新后的狀態(tài)向量為更新后的協(xié)方差矩陣為其中表示為卡爾曼濾波中的預(yù)測(cè)協(xié)方差矩陣,表示為卡爾曼濾波中的預(yù)測(cè)狀態(tài)向量,i表示為單位矩陣。
20、進(jìn)一步地,所述步驟一中,目標(biāo)檢測(cè)算法可以選用yolo或fasterr-cnn。
21、進(jìn)一步地,所述步驟二中,光流場(chǎng)是一個(gè)二維向量場(chǎng),表示圖像中每個(gè)像素點(diǎn)的運(yùn)動(dòng)速度和方向,對(duì)視頻數(shù)據(jù)中的若干個(gè)幀的區(qū)域光流特征向量進(jìn)行時(shí)間池化可以是最大池化或平均池化。
22、進(jìn)一步地,所述步驟三中,w1和w2均通過使用soft-max函數(shù)進(jìn)行計(jì)算,具體為其中s(·)表示為點(diǎn)積函數(shù)。
23、進(jìn)一步地,所述步驟四中,速度更新公式和位置更新公式中的vt表示為在t運(yùn)動(dòng)時(shí)刻的速率向量,xt表示為在t運(yùn)動(dòng)時(shí)刻的位置向量,at表示為在t運(yùn)動(dòng)時(shí)刻的加速度向量。
24、進(jìn)一步地,所述步驟五中,對(duì)于特征點(diǎn)fi,在另一個(gè)時(shí)刻的點(diǎn)云數(shù)據(jù)中找到距離它最近的點(diǎn)fj,若它們的距離小于設(shè)定的閾值,則認(rèn)為(fi,fj)是一對(duì)匹配的特征點(diǎn)。
25、進(jìn)一步地,所述步驟五中,在估計(jì)位姿時(shí),將點(diǎn)云數(shù)據(jù)融合到全局地圖中,對(duì)于每個(gè)新的點(diǎn)云掃描,根據(jù)當(dāng)前估計(jì)的位姿將其轉(zhuǎn)換到全局坐標(biāo)系下,然后添加到全局地圖中,不斷更新和完善地圖。
26、進(jìn)一步地,所述步驟六中,轉(zhuǎn)置是將矩陣的行與列進(jìn)行互換。
27、進(jìn)一步地,所述步驟六中,通過不斷重復(fù)預(yù)測(cè)和更新步驟,融合內(nèi)部和外部傳感器的數(shù)據(jù),得到更準(zhǔn)確的智能機(jī)器人位置和姿態(tài)估計(jì)。
28、進(jìn)一步地,一種應(yīng)用于基于深度學(xué)習(xí)的智能機(jī)器人控制方法的控制系統(tǒng),包括:圖像數(shù)據(jù)特征分析模塊、視頻數(shù)據(jù)特征分析模塊、視覺特征向量分析模塊、內(nèi)部傳感器數(shù)據(jù)分析模塊、外部定位數(shù)據(jù)分析模塊和位姿狀態(tài)控制分析模塊;
29、圖像數(shù)據(jù)特征分析模塊用于對(duì)圖像數(shù)據(jù)特征進(jìn)行提取分析,得到圖像特征向量;
30、視頻數(shù)據(jù)特征分析模塊用于對(duì)視頻數(shù)據(jù)進(jìn)行特征提取分析,得到視頻特征向量;
31、視覺特征向量分析模塊用于對(duì)圖像特征向量和視頻特征向量進(jìn)行綜合計(jì)算分析,得到綜合視覺特征向量;
32、內(nèi)部傳感器數(shù)據(jù)分析模塊用于對(duì)智能機(jī)器人的內(nèi)部傳感器數(shù)據(jù)進(jìn)行計(jì)算分析,得到速率更新公式和位置更新公式;
33、外部定位數(shù)據(jù)分析模塊用于對(duì)智能機(jī)器人的外部定位數(shù)據(jù)進(jìn)行計(jì)算分析,得到智能機(jī)器人對(duì)應(yīng)各運(yùn)動(dòng)時(shí)刻的位姿;
34、位姿狀態(tài)控制分析模塊通過不斷重復(fù)預(yù)測(cè)和更新步驟,融合內(nèi)部和外部傳感器的數(shù)據(jù),得到更準(zhǔn)確的智能機(jī)器人位置和姿態(tài)估計(jì)。
35、本發(fā)明的有益效果:
36、1、本發(fā)明中通過采用yolo或fasterr-cnn等基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,能夠準(zhǔn)確地識(shí)別圖像中的目標(biāo)物體,這些算法經(jīng)過大量數(shù)據(jù)的訓(xùn)練,對(duì)于不同類型、不同場(chǎng)景下的目標(biāo)具有很強(qiáng)的識(shí)別能力,有助于機(jī)器人在復(fù)雜環(huán)境中快速定位和識(shí)別相關(guān)目標(biāo);同時(shí)通過將圖像劃分成若干區(qū)域,并計(jì)算每個(gè)區(qū)域內(nèi)像素的平均值、最大值和最小值來組成特征向量,這種方式能夠捕捉到圖像不同局部區(qū)域的特性,通過拼接這些區(qū)域特征向量得到的圖像特征向量,全面地描述了圖像的內(nèi)容,為后續(xù)的控制決策提供了豐富的信息;
37、另外通過光流算法對(duì)視頻數(shù)據(jù)中每一幀進(jìn)行光流場(chǎng)計(jì)算,能夠很好地反映出視頻中物體的運(yùn)動(dòng)速度和方向。這對(duì)于機(jī)器人理解動(dòng)態(tài)場(chǎng)景、追蹤移動(dòng)目標(biāo)非常重要,例如,機(jī)器人在跟隨移動(dòng)目標(biāo)或者躲避動(dòng)態(tài)障礙物時(shí),光流特征提供了關(guān)鍵的運(yùn)動(dòng)線索,將光流場(chǎng)劃分區(qū)域并計(jì)算區(qū)域內(nèi)光流向量的均值和標(biāo)準(zhǔn)差,形成區(qū)域光流特征向量,然后通過時(shí)間池化(最大池化或平均池化)得到視頻特征向量,能夠在保留重要運(yùn)動(dòng)信息的同時(shí),有效地壓縮視頻數(shù)據(jù)中的特征,減少數(shù)據(jù)處理量,提高計(jì)算效率。
38、2、通過注意力機(jī)制模塊和共享全連接層融合圖像特征向量和視頻特征向量,得到綜合視覺特征向量,能夠綜合靜態(tài)圖像信息和動(dòng)態(tài)視頻信息,使機(jī)器人對(duì)環(huán)境有更全面、更準(zhǔn)確的視覺感知,例如,在抓取一個(gè)既有靜態(tài)外觀特征又在移動(dòng)過程中的物體時(shí),綜合視覺特征能夠更好地輔助機(jī)器人進(jìn)行操作;使用soft-max函數(shù)計(jì)算權(quán)重系數(shù)w1和w2,能夠根據(jù)圖像特征映射向量和視頻特征映射向量的實(shí)際情況自適應(yīng)地分配權(quán)重,這樣在不同的場(chǎng)景下,機(jī)器人能夠更加合理地利用圖像和視頻特征,比如在靜態(tài)場(chǎng)景中,可能圖像特征的權(quán)重更高;而在動(dòng)態(tài)場(chǎng)景中,視頻特征的權(quán)重會(huì)更突出,從而優(yōu)化機(jī)器人的控制策略,通過深度挖掘圖像和視頻數(shù)據(jù)中的特征,并進(jìn)行有效融合,能夠使基于深度學(xué)習(xí)的智能機(jī)器人在環(huán)境感知、目標(biāo)識(shí)別與追蹤、操作決策等方面表現(xiàn)得更加出色,提高機(jī)器人在復(fù)雜環(huán)境下的自主性和適應(yīng)性。
39、3、本發(fā)明在視覺方面,通過基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法對(duì)圖像進(jìn)行識(shí)別,并進(jìn)一步分析圖像區(qū)域像素特征得到圖像特征向量,能幫助機(jī)器人在復(fù)雜環(huán)境快速定位和識(shí)別目標(biāo);利用光流算法處理視頻數(shù)據(jù)得到視頻特征向量,可有效捕捉物體運(yùn)動(dòng)信息且壓縮特征減少數(shù)據(jù)處理量;通過注意力機(jī)制和共享全連接層融合圖像與視頻特征向量,并自適應(yīng)分配權(quán)重,能讓機(jī)器人對(duì)環(huán)境有更全面準(zhǔn)確的視覺感知,輔助操作決策,在傳感器數(shù)據(jù)處理方面,采用四元數(shù)結(jié)合慣性測(cè)量單元的角速度數(shù)據(jù)可精確獲取機(jī)器人姿態(tài),加速度數(shù)據(jù)結(jié)合初始條件能提供短時(shí)間內(nèi)相對(duì)準(zhǔn)確的位置和速度信息,有助于即時(shí)運(yùn)動(dòng)控制和初步定位;利用激光雷達(dá)點(diǎn)云數(shù)據(jù),經(jīng)體素濾波、特征點(diǎn)提取和匹配、位姿圖構(gòu)建與優(yōu)化等操作,可實(shí)現(xiàn)高精度定位和地圖構(gòu)建;基于卡爾曼濾波融合內(nèi)外部傳感器數(shù)據(jù),綜合考慮位置、姿態(tài)和速度信息,能充分發(fā)揮各傳感器優(yōu)勢(shì),有效處理噪聲和不確定性,不斷優(yōu)化機(jī)器人的位置和姿態(tài)估計(jì),實(shí)現(xiàn)高精度的定位、姿態(tài)控制和運(yùn)動(dòng)規(guī)劃,提高機(jī)器人在復(fù)雜環(huán)境下的自主性、適應(yīng)性和任務(wù)執(zhí)行能力。