本發(fā)明涉及計(jì)算機(jī)視覺、物體深度補(bǔ)全,具體涉及一種吊物三維空間精準(zhǔn)定位方法。
背景技術(shù):
1、在工業(yè)吊裝作業(yè)場(chǎng)景中,吊物的三維空間精準(zhǔn)定位是保障作業(yè)安全性與操作效率的核心技術(shù)需求。然而,傳統(tǒng)的目標(biāo)檢測(cè)方法通常側(cè)重于二維平面中的物體識(shí)別與定位,忽略了物體在三維空間中的位置和姿態(tài)信息。對(duì)于吊物這一特定場(chǎng)景,傳統(tǒng)的目標(biāo)檢測(cè)方法無法有效計(jì)算吊物的姿態(tài)即在二維平面中的旋轉(zhuǎn)角度和三維空間位置,導(dǎo)致定位信息維度不完整,難以滿足起重機(jī)吊運(yùn)作業(yè)自動(dòng)化作業(yè)需求。此外,現(xiàn)有基于深度相機(jī)的三維定位方法能夠獲取場(chǎng)景的深度信息,從而得到吊物在三維空間中的位置。但由于相機(jī)硬件的限制、光照條件的變化以及反射材質(zhì)對(duì)光的影響,深度圖常常存在不完整或失真的問題。例如,某些區(qū)域的深度信息可能為空,導(dǎo)致這些區(qū)域的三維定位無法準(zhǔn)確獲取,從而影響整體定位結(jié)果的準(zhǔn)確性。
2、因此需要提供一種吊物三維空間精準(zhǔn)定位方法,以突破工業(yè)吊裝智能化升級(jí)的關(guān)鍵技術(shù)壁壘。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供了一種吊物三維空間精準(zhǔn)定位方法,該方法使用旋轉(zhuǎn)目標(biāo)檢測(cè)獲得吊物的角度位置種類等信息,使用深度補(bǔ)全算法補(bǔ)全缺失或不完整的深度信息,從而對(duì)吊物的三維定位更加精準(zhǔn)。
2、本發(fā)明的技術(shù)方案是:一種吊物三維空間精準(zhǔn)定位方法,包括以下步驟:
3、步驟1、使用深度相機(jī)獲取正俯視視角下吊物的rgb圖像和深度圖,并進(jìn)行配準(zhǔn),即確保深度圖中的每個(gè)點(diǎn)都能準(zhǔn)確的映射到rgb圖像中對(duì)應(yīng)點(diǎn)上;
4、步驟2、將吊物的rgb圖像輸入訓(xùn)練好的旋轉(zhuǎn)目標(biāo)檢測(cè)模型檢測(cè)出吊物的旋轉(zhuǎn)邊界框,邊界框的幾何中心點(diǎn)為(x,y),其旋轉(zhuǎn)角度為θ;
5、步驟3、將由吊物rgb圖像得到的吊物旋轉(zhuǎn)邊界框映射到深度圖中,由此確定旋轉(zhuǎn)邊界框在深度圖中的位置;
6、步驟4、檢查深度圖中旋轉(zhuǎn)邊界框內(nèi)的深度值是否有缺失,即檢查深度圖旋轉(zhuǎn)邊框內(nèi)幾何中心點(diǎn)附近的n個(gè)點(diǎn)的深度值是否為零;若存在深度值為0的點(diǎn),則進(jìn)入步驟5進(jìn)行深度補(bǔ)全,若所有點(diǎn)的深度值均不為0則直接進(jìn)入步驟6;
7、步驟5、將缺失的深度圖送入訓(xùn)練好的深度補(bǔ)全模型進(jìn)行深度補(bǔ)全,得到完整的深度圖;
8、步驟6、在深度圖中,隨機(jī)選取吊物旋轉(zhuǎn)邊界框內(nèi)幾何中心點(diǎn)附近的n個(gè)點(diǎn),計(jì)算這些點(diǎn)深度值的平均值作為吊物真實(shí)的深度值,即吊物與深度攝像頭之間的距離z;
9、步驟7、根據(jù)步驟6得到吊物在三維空間中的位置(x,y,z)和相應(yīng)的旋轉(zhuǎn)角度θ,從而實(shí)現(xiàn)對(duì)吊物三維空間的精準(zhǔn)定位。
10、進(jìn)一步的,所述步驟2中,所述旋轉(zhuǎn)目標(biāo)檢測(cè)模型中的訓(xùn)練過程包括:
11、獲取正俯視視角下的吊物rgb圖像,隨后對(duì)吊物rgb圖像進(jìn)行標(biāo)注作為訓(xùn)練樣本;
12、對(duì)獲取的訓(xùn)練樣本進(jìn)行數(shù)據(jù)增強(qiáng);
13、構(gòu)建旋轉(zhuǎn)目標(biāo)檢測(cè)模型;
14、將經(jīng)過數(shù)據(jù)增強(qiáng)的訓(xùn)練樣本輸入構(gòu)建的旋轉(zhuǎn)目標(biāo)檢測(cè)模型,基于旋轉(zhuǎn)目標(biāo)檢測(cè)模型的損失進(jìn)行訓(xùn)練。
15、所述吊物的rgb圖像的旋轉(zhuǎn)目標(biāo)標(biāo)注框格式為[classid,x,y,longside,shortside,θ];
16、classid為吊物的類別;
17、x,y為矩形框的中心點(diǎn)坐標(biāo);
18、longside,shortside為矩形框的長(zhǎng)邊和短邊;
19、θ為矩形框的角度,θ角度定義為矩形框的長(zhǎng)邊與x軸正方向的夾角,逆時(shí)針為負(fù),順時(shí)針為正。
20、進(jìn)一步的,所述數(shù)據(jù)增強(qiáng)包括選擇四張不同的rgb圖像使用mosaic增強(qiáng),并通過縮放裁剪和隨機(jī)排列的方式拼接成一張新圖像,進(jìn)一步使用mixup增強(qiáng)在訓(xùn)練時(shí)對(duì)成對(duì)的圖像及其標(biāo)簽進(jìn)行線性插值,生成虛擬訓(xùn)練樣本,更進(jìn)一步使用copypaste增強(qiáng)隨機(jī)復(fù)制粘貼輸入的圖像,通過將不同大小的不同對(duì)象粘貼到新的背景圖像上來增加訓(xùn)練數(shù)據(jù)的豐富性。
21、進(jìn)一步的,所述構(gòu)建旋轉(zhuǎn)目標(biāo)檢測(cè)模型包括:
22、輸入端,用于接收吊物的rgb圖像;
23、主干網(wǎng)絡(luò),由focus模塊、cbh模塊、csp模塊、spp模塊組成,用于提取輸入圖像不同層次的特征;
24、頸部網(wǎng)絡(luò),由上采樣模塊、cbh模塊、csp模塊組成,用于融合不同層次的特征;
25、以及卷積層組成的輸出層,用于輸出預(yù)測(cè)目標(biāo)的類別、中心點(diǎn)坐標(biāo)、寬、高、置信度和旋轉(zhuǎn)角度。
26、進(jìn)一步的,還包括計(jì)算旋轉(zhuǎn)目標(biāo)檢測(cè)模型的損失,所述旋轉(zhuǎn)目標(biāo)檢測(cè)模型的損失包含分類損失、置信度損失、邊界框回歸損失和旋轉(zhuǎn)角度損失;
27、其中,分類損失為:
28、
29、式中為預(yù)測(cè)類別標(biāo)簽,為真實(shí)的類別標(biāo)簽,?n表示類別總個(gè)數(shù);
30、置信度損失為:
31、
32、表示預(yù)測(cè)框的預(yù)測(cè)置信度,表示預(yù)測(cè)框的真實(shí)置信度,當(dāng)預(yù)測(cè)框內(nèi)有目標(biāo)物體,則=1,當(dāng)預(yù)測(cè)框內(nèi)沒有目標(biāo)物體,則=0,?n表示預(yù)測(cè)框總個(gè)數(shù);
33、邊界框回歸損失為:
34、
35、式中,為和的交并比,為預(yù)測(cè)框,為真實(shí)框;
36、是預(yù)測(cè)框和真實(shí)框中心點(diǎn)的歐幾里得距離;
37、是包含預(yù)測(cè)框和真實(shí)框的最小外接矩形的對(duì)角線長(zhǎng)度;
38、是平衡參數(shù),用于平衡和長(zhǎng)寬比損失;
39、是預(yù)測(cè)框和真實(shí)框的長(zhǎng)寬比差異的度量,表示為:
40、
41、其中為真實(shí)框的寬度,為真實(shí)框的高度,為預(yù)測(cè)框的寬度,為預(yù)測(cè)框的高度;
42、旋轉(zhuǎn)角度損失為:
43、
44、式中,為真實(shí)角度,為預(yù)測(cè)角度,?n表示角度類別總個(gè)數(shù);
45、定義為使用高斯函數(shù)將吊物標(biāo)簽中真實(shí)角度轉(zhuǎn)化為長(zhǎng)度為180的一維數(shù)組t;其中在角度處數(shù)組t的值為1,隨著角度從向左右變化,數(shù)組t的值不斷變小,直至變成0;
46、將角度真值轉(zhuǎn)化為長(zhǎng)度180度的一維數(shù)組的轉(zhuǎn)換公式為:
47、
48、式中,是一個(gè)窗口函數(shù),窗口函數(shù)的半徑表示當(dāng)前斜框的真實(shí)角度,這里使用標(biāo)準(zhǔn)方差為2的高斯函數(shù)作為窗口函數(shù);為真實(shí)角度值,為角度范圍。
49、進(jìn)一步的,所述深度補(bǔ)全網(wǎng)絡(luò)的訓(xùn)練過程包括:
50、獲取高空下正俯拍的吊物的rgb圖和真實(shí)深度圖作為訓(xùn)練樣本;
51、構(gòu)建深度補(bǔ)全模型,包括自深度補(bǔ)全模塊和rgb引導(dǎo)補(bǔ)全模塊;
52、將訓(xùn)練樣本輸入構(gòu)建的自深度補(bǔ)全模塊,基于損失進(jìn)行訓(xùn)練;
53、將訓(xùn)練好的自深度補(bǔ)全模塊參數(shù)固定,基于損失,利用動(dòng)態(tài)梯度調(diào)節(jié)策略訓(xùn)練rgb引導(dǎo)補(bǔ)全模塊。
54、進(jìn)一步的,所述自深度補(bǔ)全模塊利用原始的深度圖生成初步深度補(bǔ)全圖;且所述自深度補(bǔ)全模塊由編碼器、解碼器以及跨尺度注意力塊組成;
55、所述rgb引導(dǎo)補(bǔ)全模塊在rgb圖的引導(dǎo)下對(duì)初步深度補(bǔ)全圖進(jìn)一步優(yōu)化,生成最終的深度補(bǔ)全圖;且所述rgb引導(dǎo)補(bǔ)全模塊由cnn、transformer和跨模態(tài)注意力模塊組成。
56、進(jìn)一步的,的計(jì)算公式為:
57、
58、式中,是吊物真實(shí)深度圖像,是自深度補(bǔ)全模塊輸出的初步深度補(bǔ)全圖像,和平衡參數(shù);
59、的計(jì)算公式為:
60、
61、式中,是rgb引導(dǎo)補(bǔ)全模塊輸出的最終深度圖像。
62、進(jìn)一步的,使用梯度動(dòng)態(tài)調(diào)節(jié)算法更新rgb引導(dǎo)補(bǔ)全模塊的參數(shù),具體包括:
63、計(jì)算?特征提取網(wǎng)絡(luò)參數(shù)的梯度和rgb特征提取網(wǎng)絡(luò)的參數(shù)的梯度:
64、
65、
66、采用模型參數(shù)梯度l2范數(shù)的比值計(jì)算各模態(tài)對(duì)應(yīng)的模型參數(shù)的梯度差異比率:
67、
68、
69、式中,為l2范數(shù);
70、計(jì)算特征提取網(wǎng)絡(luò)參數(shù)的調(diào)節(jié)因子,rgb特征提取網(wǎng)絡(luò)參數(shù)的調(diào)節(jié)因子:
71、
72、
73、式中,為調(diào)節(jié)系數(shù);
74、利用梯度動(dòng)態(tài)調(diào)節(jié)算法更新特征提取網(wǎng)絡(luò)的參數(shù)和rgb特征提取網(wǎng)絡(luò)的參數(shù):
75、
76、
77、式中,為第次迭代時(shí)特征提取網(wǎng)絡(luò)的模型參數(shù),為第次迭代時(shí)rgb特征提取網(wǎng)絡(luò)的模型參數(shù),為學(xué)習(xí)率,和分別為第一指數(shù)衰減率和第二指數(shù)衰減率,為第一指數(shù)衰減率的次方,為第二指數(shù)衰減率的次方,,為第次迭代參數(shù)調(diào)節(jié)因子。
78、本發(fā)明的有益技術(shù)效果是:
79、1、本發(fā)明的方法能夠計(jì)算得到吊物完整的三維空間位置(x,y,z)和旋轉(zhuǎn)角度θ,實(shí)現(xiàn)了全方位、高精度的定位,極大提升了定位的完整性。
80、2、本發(fā)明采用深度補(bǔ)全方法,能更高效地利用rgb圖像和深度圖像兩種模態(tài)的互補(bǔ)信息,使得測(cè)量出的深度值更加準(zhǔn)確,顯著提高深度補(bǔ)全的效果。
81、3、完整獲取吊物在三維空間中的精確位置和姿態(tài)信息,為起重機(jī)吊運(yùn)作業(yè)自動(dòng)化提供了關(guān)鍵的數(shù)據(jù)支持,彌補(bǔ)了傳統(tǒng)目標(biāo)檢測(cè)方法無法滿足自動(dòng)化作業(yè)對(duì)定位信息高維度需求的缺陷,能夠有效提升工業(yè)吊裝作業(yè)場(chǎng)景的安全性與操作效率,推動(dòng)吊裝作業(yè)向自動(dòng)化、智能化方向發(fā)展。
82、上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說明書的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。