本發(fā)明屬于圖像處理,尤其涉及一種輕量化航空多光譜目標(biāo)檢測方法。
背景技術(shù):
1、目標(biāo)檢測算法能夠快速從圖像或視頻中提取信息,準(zhǔn)確定位感興趣的目標(biāo)并判斷其類別。然而,單模態(tài)目標(biāo)檢測的應(yīng)用受限于環(huán)境影響,存在一定局限性。例如,在夜晚或惡劣天氣等光照不充分的條件下,基于可見光圖像的目標(biāo)檢測器難以提取有效特征,從而影響檢測性能;而僅依賴于紅外圖像,目標(biāo)檢測器缺少顏色信息和紋理信息,難以準(zhǔn)確判斷目標(biāo)類別。為了解決這一問題,多光譜目標(biāo)檢測通過融合不同模態(tài)圖像的特征,顯著提高目標(biāo)檢測器在全天候目標(biāo)檢測中的性能,并在不同場景下展現(xiàn)出優(yōu)異的魯棒性和穩(wěn)定性,具有重要的研究意義和應(yīng)用價(jià)值。
2、在多光譜目標(biāo)檢測中,如何有效融合不同的模態(tài)信息是一個關(guān)鍵問題?;谌诤衔恢茫喙庾V目標(biāo)檢測算法可以分為像素級融合、特征級融合和決策級融合。像素級融合在原始數(shù)據(jù)層對不同模態(tài)的圖像進(jìn)行融合,像素級融合需要額外的融合步驟,且無法實(shí)現(xiàn)端到端的檢測。決策級融合采用兩個模型分別對可見光圖像和紅外圖像進(jìn)行檢測,并通過非極大值抑制等方法對檢測結(jié)果進(jìn)行篩選,操作簡單,但缺乏不同模態(tài)之間的信息交互,同時(shí),大幅增加了計(jì)算復(fù)雜度。特征級融合通過設(shè)計(jì)各種融合模塊,對目標(biāo)檢測模型中不同階段的特征圖進(jìn)行融合,充分利用了不同模態(tài)的多尺度特征,具有較高的檢測精度和效率。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明創(chuàng)造旨在提供一種輕量化航空多光譜目標(biāo)檢測方法,以解決現(xiàn)有的多模態(tài)特征融合不充分、小尺度融合特征圖缺乏語義信息和全局感受野等的問題,本發(fā)明面向航空遙感全天候、多場景和高精度目標(biāo)檢測的實(shí)際應(yīng)用需求,實(shí)現(xiàn)了不同模態(tài)間的特征交互和對每個模態(tài)內(nèi)部進(jìn)行特征挖掘并進(jìn)行自動融合檢測的目的,本發(fā)明具有低計(jì)算復(fù)雜度和小顯存占用的優(yōu)勢,能夠滿足輕量化航空多光譜多目標(biāo)檢測的實(shí)際應(yīng)用需求。
2、為達(dá)到上述目的,本發(fā)明創(chuàng)造的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、一種輕量化航空多光譜目標(biāo)檢測方法,具體包括如下步驟:
4、s1:獲取同一拍攝場景下的可見光圖像和紅外圖像;
5、s2:構(gòu)建多光譜目標(biāo)檢測網(wǎng)絡(luò),多光譜目標(biāo)檢測網(wǎng)絡(luò)包括多尺度提取網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò);
6、多尺度提取網(wǎng)絡(luò)用于對可見光圖像和紅外圖像進(jìn)行信息提取、交互和融合,融合后的特征經(jīng)頸部網(wǎng)絡(luò)輸入至頭部網(wǎng)絡(luò);
7、s3:將可見光圖像和紅外圖像輸入至多光譜目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得多光譜目標(biāo)檢測模型;
8、s4:將同一拍攝場景下的待檢測可見光圖像和待檢測紅外圖像輸入至多光譜目標(biāo)檢測模型進(jìn)行檢測,獲得目標(biāo)位置和目標(biāo)類別。
9、進(jìn)一步的,多尺度提取網(wǎng)絡(luò)包括第一特征提取模塊、第二特征提取模塊、第三特征提取模塊、第四特征提取模塊、第五特征提取模塊、第六特征提取模塊、第七特征提取模塊、第八特征提取模塊、第九特征提取模塊、第十特征提取模塊、第一高效交叉注意力融合模塊、第二高效交叉注意力融合模塊、第三高效交叉注意力融合模塊、第四高效交叉注意力融合模塊和sppf模塊;其中,紅外圖像經(jīng)第一特征提取模塊和第二特征提取模塊進(jìn)行處理,獲得特征圖a1;可見光圖像經(jīng)第三特征提取模塊和第四特征提取模塊進(jìn)行處理,獲得特征圖a2;將特征圖a1和特征圖a2輸入至第一高效交叉注意力融合模塊進(jìn)行處理,對應(yīng)獲得特征圖a3和特征圖a4;將特征圖a3輸入至第五特征提取模塊進(jìn)行處理,獲得特征圖a5,將特征圖a4輸入至第六特征提取模塊進(jìn)行處理,獲得特征圖a6,將特征圖a5和特征圖a6輸入至第二高效交叉注意力融合模塊進(jìn)行處理,對應(yīng)獲得特征圖a7和特征圖a8;將特征圖a7輸入至第七特征提取模塊進(jìn)行處理,獲得特征圖a9,將特征圖a8輸入至第八特征提取模塊進(jìn)行處理,獲得特征圖a10,將特征圖a9和特征圖a10輸入至第三高效交叉注意力融合模塊進(jìn)行處理,對應(yīng)獲得特征圖a11和特征圖a12;將特征圖a11輸入至第九特征提取模塊進(jìn)行處理,獲得特征圖a13,將特征圖a12輸入至第十特征提取模塊進(jìn)行處理,獲得特征圖a14,將特征圖a13和特征圖a14輸入至第四高效交叉注意力融合模塊進(jìn)行處理,對應(yīng)獲得特征圖a15和特征圖a16;
10、將特征圖a3和特征圖a4相加,獲得第一融合特征;將特征圖a7和特征圖a8相加,獲得第二融合特征;將特征圖a11和特征圖a12相加,獲得第三融合特征;將特征圖a15和特征圖a16相加,獲得特征圖a17;將特征圖a17輸入至sppf模塊進(jìn)行處理,獲得第四融合特征。
11、進(jìn)一步的,第一特征提取模塊和第三特征提取模塊的網(wǎng)絡(luò)結(jié)構(gòu)相同,第一特征提取模塊包括網(wǎng)絡(luò)結(jié)構(gòu)相同的第一cbs模塊和第二cbs模塊;
12、第二特征提取模塊、第四特征提取模塊、第五特征提取模塊、第六特征提取模塊、第七特征提取模塊、第八特征提取模塊、第九特征提取模塊的第十特征提取模塊的網(wǎng)絡(luò)結(jié)構(gòu)相同,第二特征提取模塊包括依次連接的第三cbs模塊和第一c2f模塊。
13、進(jìn)一步的,第一高效交叉注意力融合模塊、第二高效交叉注意力融合模塊、第三高效交叉注意力融合模塊和第四高效交叉注意力融合模塊的網(wǎng)絡(luò)結(jié)構(gòu)相同,第一高效交叉注意力融合模塊包括第四cbs模塊、第五cbs模塊、第一降采樣層、第二降采樣層、第三降采樣層、第一conv模塊、第二conv模塊、第三conv模塊、第四conv模塊、第五conv模塊、第六conv模塊、可見光交叉注意力機(jī)制、紅外交叉注意力機(jī)制、第一上采樣層、第二上采樣層、第一mlp模塊;其中,特征圖a1經(jīng)第一降采樣層和第一conv模塊進(jìn)行處理,獲得特征圖b1;特征圖a2經(jīng)第二降采樣層和第二conv模塊進(jìn)行處理,獲得特征圖b2;將特征圖a1和特征圖a2進(jìn)行拼接操作,獲得特征圖b3,特征圖b3經(jīng)第四cbs模塊、第三降采樣層和第三conv模塊進(jìn)行處理,獲得特征圖b4;將特征圖b4進(jìn)行分裂操作,獲得特征圖b5和特征圖b6,將特征圖b1和特征圖b5經(jīng)可見光交叉注意力機(jī)制和第一上采樣層進(jìn)行處理,獲得可見光注意力矩陣,將特征圖b2和特征圖b6經(jīng)紅外交叉注意力機(jī)制和第二上采樣層進(jìn)行處理,獲得紅外注意力矩陣;將特征圖a1輸入至第四conv模塊進(jìn)行處理,獲得特征圖b7,將特征圖a2輸入至第五conv模塊進(jìn)行處理,獲得特征圖b8,將特征圖b7和可見光注意力矩陣進(jìn)行相加操作,獲得特征圖b9,將特征圖b8和紅外注意力矩陣進(jìn)行相加操作,獲得特征圖b10,將特征圖b9和特征圖b10進(jìn)行拼接操作,獲得特征圖b11,將特征圖b11輸入至第六conv模塊進(jìn)行處理,獲得特征圖b12,將特征圖a1和特征圖a2在通道維度進(jìn)行拼接和cbs處理后,獲得特征圖ff,將特征圖ff輸入至至第五cbs模塊進(jìn)行處理,獲得特征圖b13,將特征圖b12和特征圖b13進(jìn)行相加操作,獲得特征圖b14,將特征圖b14輸入至第一mlp模塊進(jìn)行處理,獲得特征圖b15,將特征圖b15分裂為特征圖b17和特征圖b18,并將特征圖b17和特征圖a1相加,獲得特征圖a3,將特征圖b18和特征圖a2相加,獲得特征圖a4,將特征圖a3和特征圖a4相加,獲得第一融合特征。
14、進(jìn)一步的,第一cbs模塊、第二cbs模塊、第三cbs模塊、第四cbs模塊和第五cbs模塊的網(wǎng)絡(luò)結(jié)構(gòu)相同,第一cbs模塊包括依次連接的2d卷積層、批歸一化層和silu激活函數(shù),且2d卷積層的卷積核為3×3,步長為2;
15、第一降采樣層、第二降采樣層和第三降采樣層的網(wǎng)絡(luò)結(jié)構(gòu)相同,其中,第一降采樣層包括最大池化層和平均池化層,特征圖a1分別經(jīng)最大池化層和平均池化層進(jìn)行處理后,將兩者的處理結(jié)果分別乘以各自分配的權(quán)重后相加,并將相加結(jié)果輸入至第一conv模塊進(jìn)行處理,最大池化層所在支路被分配的權(quán)重為0.5,平均池化層所在支路被分配的權(quán)重為0.5;
16、將第一高效交叉注意力融合模塊中的降采樣操作的特征縮放因子設(shè)置為8、將第二高效交叉注意力融合模塊中的降采樣操作的特征縮放因子設(shè)置為4、將第三高效交叉注意力融合模塊中的降采樣操作的特征縮放因子設(shè)置為2、將第四高效交叉注意力融合模塊中的降采樣操作的特征縮放因子設(shè)置為1。
17、進(jìn)一步的,頸部網(wǎng)絡(luò)包括第二c2f模塊、第三c2f模塊、第四c2f模塊、第五c2f模塊、第六c2f模塊和第七c2f模塊,將第四融合特征經(jīng)上采樣處理后與第三融合特征進(jìn)行拼接操作,獲得特征圖a18,將特征圖a18輸入至第二c2f模塊進(jìn)行處理,獲得特征圖a19;將特征圖a19經(jīng)上采樣處理后與第二融合特征進(jìn)行拼接操作,獲得特征圖a20,將特征圖a20輸入至第三c2f模塊進(jìn)行處理,獲得特征圖a21;將特征圖a21經(jīng)上采樣處理后與第一融合特征進(jìn)行拼接操作,獲得特征圖a22,將特征圖a22輸入至第四c2f模塊進(jìn)行處理,獲得特征圖a23;特征圖a23經(jīng)降采樣后與特征圖a21進(jìn)行拼接操作,獲得特征圖a24,將特征圖a24輸入至第五c2f模塊進(jìn)行處理,獲得尺度特征圖p3,將尺度特征圖p3經(jīng)降采樣處理后與特征圖a19進(jìn)行拼接操作,獲得特征圖a25,將特征圖a25輸入至第六c2f模塊進(jìn)行處理,獲得尺度特征圖p4,將尺度特征圖p4經(jīng)降采樣處理后與特征圖a17進(jìn)行拼接操作,獲得特征圖a26,將特征圖a26輸入至第七c2f模塊進(jìn)行處理,獲得尺度特征圖p5。
18、進(jìn)一步的,頭部網(wǎng)絡(luò)包括siem模塊、第一檢測頭、第二檢測頭和第三檢測頭,將尺度特征圖p3、尺度特征圖p4和尺度特征圖p5輸入至siem模塊進(jìn)行處理,獲得小尺度特征圖,將小尺度特征圖輸入至第一檢測頭進(jìn)行處理、將尺度特征圖p4輸入至第二檢測頭進(jìn)行處理、將尺度特征圖p5輸入至第三檢測頭進(jìn)行處理,根據(jù)第一檢測頭、第二檢測頭和第三檢測頭的處理結(jié)果獲得目標(biāo)位置和目標(biāo)類別。
19、進(jìn)一步的,第一檢測頭與p3檢測層對應(yīng),第二檢測頭與p4檢測層對應(yīng),第三檢測頭與p5檢測層對應(yīng)。
20、進(jìn)一步的,siem模塊包括第四降采樣層、第五降采樣層、第六cbs模塊、第七cbs模塊、第七conv模塊、注意力機(jī)制、第三上采樣層、第八conv模塊、第九conv模塊和第二mlp模塊,其中,將尺度特征圖p3輸入至第四降采樣層進(jìn)行處理,獲得特征圖c1,將尺度特征圖p4輸入至第五降采樣層進(jìn)行處理,獲得特征圖c2,將尺度特征圖p5輸入至第六cbs模塊進(jìn)行處理,獲得特征圖c3,將特征圖c1、特征圖c2和特征圖c3進(jìn)行拼接操作,獲得特征圖c4,特征圖c4經(jīng)第七cbs模塊、第七conv模塊和注意力機(jī)制進(jìn)行處理,獲得注意力矩陣,將注意力矩陣輸入至第三上采樣層進(jìn)行上采樣操作,獲得特征圖c5,將尺度特征圖p3輸入至第八conv模塊進(jìn)行處理,獲得特征圖c6,將特征圖c5與特征圖c6進(jìn)行相加操作,獲得特征圖c7,將特征圖c7輸入至第九conv模塊進(jìn)行處理,獲得特征圖c8,將特征圖c8和尺度特征圖p3進(jìn)行相加操作,獲得特征圖c9,將特征圖c9輸入至第二mlp模塊進(jìn)行處理,獲得小尺度特征圖。
21、進(jìn)一步的,第二mlp模塊和第一mlp模塊的網(wǎng)絡(luò)結(jié)構(gòu)相同,第一mlp模塊包括第八cbs模塊和第九cbs模塊,特征圖b14輸入至mlp模塊后,經(jīng)第八cbs模塊和第九cbs模塊進(jìn)行處理,獲得特征圖d1,將特征圖d1與特征圖b14相加后,獲得特征圖b15;將第八cbs模塊和第九cbs模塊之間的通道膨脹率設(shè)置為2。
22、與現(xiàn)有技術(shù)相比,本發(fā)明創(chuàng)造能夠取得如下有益效果:
23、(1)本發(fā)明創(chuàng)造所述的輕量化航空多光譜目標(biāo)檢測方法,考慮到特征融合的充分性和小尺度融合特征的語義信息和全局感受野,本發(fā)明基于yolov8架構(gòu)設(shè)計(jì)了輕量化的多光譜目標(biāo)檢測模型,其中,主干網(wǎng)絡(luò)以c2f模塊為基礎(chǔ)單元,構(gòu)建了兩個獨(dú)立的網(wǎng)絡(luò),并分別用于提取可見光的多尺度特征圖和紅外圖像的多尺度特征圖,并采用高效交叉注意力融合模塊來融合同一階段的多模態(tài)特征圖。本發(fā)明引入了局部信息增強(qiáng)的特征縮放方法(設(shè)置各高效交叉注意力融合模塊中的降采樣操作的特征縮放因子),有效降低計(jì)算復(fù)雜度和顯存占用的同時(shí),減少了特征縮放過程帶來的信息損失。在特征聚合網(wǎng)絡(luò)后,本發(fā)明還設(shè)計(jì)了siem模塊(小尺度信息增強(qiáng)模塊)以融合多尺度特征圖并建模遠(yuǎn)距離依賴關(guān)系,為小尺度分支提供語義信息和全局感受野。
24、(2)本發(fā)明創(chuàng)造所述的輕量化航空多光譜目標(biāo)檢測方法,提出全新的多模態(tài)特征融合模塊——高效交叉注意力融合模塊。該模塊由交叉注意力機(jī)制和局部信息增強(qiáng)的特征縮放方法組成。其中,交叉注意力機(jī)制能夠有效提取、交互和融合多模態(tài)特征,而局部信息增強(qiáng)的特征縮放方法不僅減少了降采樣-上采樣過程造成的負(fù)面影響,還顯著降低了融合模塊的計(jì)算復(fù)雜度。
25、(3)本發(fā)明創(chuàng)造所述的輕量化航空多光譜目標(biāo)檢測方法,siem模塊(小尺度信息增強(qiáng)模塊)被設(shè)計(jì)為用于融合多尺度特征圖和計(jì)算自注意力機(jī)制,旨在增強(qiáng)小尺度分支的語義信息和全局感知能力。