本發(fā)明涉及多模態(tài)人工智能,特別涉及視覺(jué)語(yǔ)言融合的無(wú)人機(jī)航拍圖像開(kāi)放詞匯語(yǔ)義分割方法。
背景技術(shù):
1、近年來(lái),無(wú)人機(jī)航拍圖像在災(zāi)害評(píng)估、精準(zhǔn)農(nóng)業(yè)、城市規(guī)劃等遙感應(yīng)用中發(fā)揮著越來(lái)越重要的作用。然而,傳統(tǒng)的語(yǔ)義分割技術(shù)主要依賴(lài)于全監(jiān)督深度學(xué)習(xí)方法,這類(lèi)方法通常需要大量人工標(biāo)注數(shù)據(jù),并且僅針對(duì)預(yù)定義的閉集類(lèi)別進(jìn)行訓(xùn)練。這種閉集識(shí)別方法在面對(duì)實(shí)際應(yīng)用中頻繁出現(xiàn)的未知類(lèi)別時(shí),往往表現(xiàn)出泛化能力不足和識(shí)別不準(zhǔn)確的問(wèn)題。此外,無(wú)人機(jī)航拍圖像通常呈現(xiàn)出獨(dú)特的地理和結(jié)構(gòu)特征,如目標(biāo)物體分布稀疏、尺度變化大、背景復(fù)雜等,使得基于自然圖像訓(xùn)練的傳統(tǒng)模型在處理此類(lèi)圖像時(shí)存在明顯局限,同時(shí),獲取覆蓋全面的標(biāo)注數(shù)據(jù)也面臨高昂的成本和操作上的困難,從而進(jìn)一步限制了傳統(tǒng)方法在實(shí)際應(yīng)用中的效能和實(shí)用性。
2、多模態(tài)融合技術(shù)在圖像理解領(lǐng)域展現(xiàn)出了巨大的潛力。通過(guò)引入文本描述信息,模型能夠獲得圖像中難以直接從視覺(jué)信號(hào)中提取的語(yǔ)義信息,進(jìn)而彌補(bǔ)傳統(tǒng)視覺(jué)模型在開(kāi)放詞匯識(shí)別中的不足。然而,當(dāng)前的多模態(tài)方法主要針對(duì)自然圖像,對(duì)于無(wú)人機(jī)航拍圖像中復(fù)雜地理和結(jié)構(gòu)特征的處理依然存在一定困難,尚未形成一套成熟而高效的解決方案。
3、綜上所述,鑒于現(xiàn)有技術(shù)在處理復(fù)雜背景、計(jì)算資源消耗、新類(lèi)別識(shí)別準(zhǔn)確性以及惡劣環(huán)境下穩(wěn)定性方面的不足,亟需一種新型的基于視覺(jué)與語(yǔ)言融合的無(wú)人機(jī)航拍圖像開(kāi)放詞匯語(yǔ)義分割方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供視覺(jué)語(yǔ)言融合的無(wú)人機(jī)航拍圖像開(kāi)放詞匯語(yǔ)義分割方法,以改善上述技術(shù)問(wèn)題。
2、為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明實(shí)施例提供了以下技術(shù)方案:
3、一種視覺(jué)語(yǔ)言融合的無(wú)人機(jī)航拍圖像開(kāi)放詞匯語(yǔ)義分割方法包括:
4、利用無(wú)人機(jī)采集不同環(huán)境條件下的無(wú)類(lèi)別航拍混合圖像,生成對(duì)應(yīng)的語(yǔ)言描述數(shù)據(jù);
5、構(gòu)建視覺(jué)語(yǔ)言融合分割模型;所述視覺(jué)語(yǔ)言融合分割模型包括視覺(jué)-語(yǔ)言特征提取模型、異構(gòu)跨模態(tài)圖融合模型和語(yǔ)義分割模型;
6、將無(wú)類(lèi)別航拍混合圖像、語(yǔ)言描述數(shù)據(jù)輸入至視覺(jué)-語(yǔ)言特征提取模型,輸出得到多尺度時(shí)空視覺(jué)特征、語(yǔ)言特征;
7、將語(yǔ)言特征和多尺度時(shí)空視覺(jué)特征輸入至異構(gòu)跨模態(tài)圖融合模型,輸出得到視覺(jué)-語(yǔ)言匹配特征;
8、將視覺(jué)-語(yǔ)言匹配特征輸入至語(yǔ)義分割模型,完成對(duì)航拍圖像的語(yǔ)義分割。
9、進(jìn)一步地,所述利用無(wú)人機(jī)采集不同環(huán)境條件下的無(wú)類(lèi)別航拍混合圖像,生成對(duì)應(yīng)的語(yǔ)言描述數(shù)據(jù),包括:
10、利用無(wú)人機(jī)平臺(tái)采集初始無(wú)類(lèi)別航拍圖像并進(jìn)行預(yù)處理,得到對(duì)應(yīng)的無(wú)類(lèi)別航拍圖像;
11、選擇滿(mǎn)足選擇條件的無(wú)類(lèi)別航拍圖像并進(jìn)行檢查和拼接,得到無(wú)類(lèi)別航拍混合圖像;所述選擇條件為拍攝角度或拍攝環(huán)境不同;
12、利用gpt模型生成各無(wú)類(lèi)別航拍混合圖像的描述文本,得到語(yǔ)言描述數(shù)據(jù)。
13、進(jìn)一步地,所述視覺(jué)-語(yǔ)言特征提取模型包括并行的視覺(jué)特征提取子模型和語(yǔ)言特征提取子模型;視覺(jué)特征提取子模型包括串聯(lián)的視覺(jué)特征提取模塊、多尺度時(shí)空視覺(jué)特征融合模塊;視覺(jué)特征提取模塊包括并行的vit全局特征提取模塊、局部細(xì)節(jié)特征提取模塊;vit全局特征提取模塊包括patch-embedding層和基于自注意力機(jī)制的transformer層;多尺度時(shí)空視覺(jué)特征融合模塊包括串聯(lián)的動(dòng)態(tài)特征融合層和可變形卷積層;局部細(xì)節(jié)特征提取模塊采用mamba模型;語(yǔ)言特征提取子模型為bert模型;
14、所述異構(gòu)跨模態(tài)圖融合模型采用基于多頭注意力機(jī)制的異構(gòu)跨模態(tài)圖網(wǎng)絡(luò);
15、所述語(yǔ)義分割模型采用輕量級(jí)u-net++模型;輕量級(jí)u-net++模型包括串聯(lián)的編碼器和基于通道-空間雙注意力的解碼器;編碼器包括n層解碼層;基于通道-空間雙注意力的解碼器包括n層解碼模塊,每?jī)蓪咏獯a模塊通過(guò)多層次融合模塊進(jìn)行連接;各解碼模塊均包括串聯(lián)的csda層和解碼層。
16、進(jìn)一步地,所述視覺(jué)-語(yǔ)言特征提取模型的訓(xùn)練過(guò)程包括:
17、獲取無(wú)類(lèi)別航拍混合訓(xùn)練圖像和對(duì)應(yīng)的語(yǔ)言描述訓(xùn)練數(shù)據(jù);
18、將無(wú)類(lèi)別航拍混合訓(xùn)練圖像輸入至patch-embedding層,得到無(wú)類(lèi)別航拍混合訓(xùn)練分割圖像;
19、將無(wú)類(lèi)別航拍混合訓(xùn)練分割圖像輸入至基于自注意力機(jī)制的transformer層,得到無(wú)類(lèi)別航拍混合訓(xùn)練全局特征圖;
20、將無(wú)類(lèi)別航拍混合訓(xùn)練圖像輸入至mamba模型,得到無(wú)類(lèi)別航拍混合訓(xùn)練局部特征圖;
21、將無(wú)類(lèi)別航拍混合訓(xùn)練局部特征圖、無(wú)類(lèi)別航拍混合訓(xùn)練全局特征圖輸入至多尺度時(shí)空視覺(jué)特征融合模塊,得到多尺度時(shí)空視覺(jué)訓(xùn)練特征;
22、將語(yǔ)言描述訓(xùn)練數(shù)據(jù)輸入至bert模型,得到語(yǔ)言訓(xùn)練特征;
23、基于多尺度時(shí)空視覺(jué)訓(xùn)練特征和語(yǔ)言訓(xùn)練特征,調(diào)整視覺(jué)特征提取子模型的權(quán)重參數(shù)。
24、進(jìn)一步地,所述將語(yǔ)言描述訓(xùn)練數(shù)據(jù)輸入至bert模型,得到語(yǔ)言訓(xùn)練特征,包括:
25、基于語(yǔ)言描述訓(xùn)練數(shù)據(jù)生成對(duì)應(yīng)的連續(xù)向量文本表示;
26、基于無(wú)類(lèi)別航拍混合訓(xùn)練局部特征圖和無(wú)類(lèi)別航拍混合訓(xùn)練全部特征圖,設(shè)置一組視覺(jué)原型;
27、基于連續(xù)向量文本表示的正/負(fù)相似度,計(jì)算csa損失函數(shù);
28、基于csa損失函數(shù),對(duì)視覺(jué)原型和連續(xù)向量文本表示進(jìn)行匹配對(duì)齊,得到匹配結(jié)果;
29、基于匹配結(jié)果和連續(xù)向量文本表示,生成對(duì)應(yīng)的語(yǔ)言訓(xùn)練特征。
30、進(jìn)一步地,所述異構(gòu)跨模態(tài)圖融合模型的訓(xùn)練過(guò)程包括:
31、構(gòu)建初始異構(gòu)跨模態(tài)圖;獲取語(yǔ)言訓(xùn)練特征、多尺度時(shí)空視覺(jué)訓(xùn)練特征并分別作為文本節(jié)點(diǎn)、視覺(jué)節(jié)點(diǎn),并映射至初始異構(gòu)跨模態(tài)圖中;
32、計(jì)算文本節(jié)點(diǎn)和視覺(jué)節(jié)點(diǎn)之間的節(jié)點(diǎn)相似度;基于各個(gè)節(jié)點(diǎn)相似度設(shè)置邊的權(quán)重以及知識(shí)圖譜,構(gòu)建對(duì)應(yīng)的邊,得到異構(gòu)跨模態(tài)圖;
33、根據(jù)多頭圖注意力機(jī)制,獲取每個(gè)節(jié)點(diǎn)及其相鄰節(jié)點(diǎn)的聚合信息;
34、基于各個(gè)聚合信息,通過(guò)多頭圖注意力機(jī)制的多跳聚合更新每個(gè)節(jié)點(diǎn)的表示;所述節(jié)點(diǎn)的表示為視覺(jué)-語(yǔ)言匹配訓(xùn)練特征,其包括語(yǔ)言特征、多尺度時(shí)空視覺(jué)特征;
35、基于更新后的節(jié)點(diǎn)的表示,優(yōu)化異構(gòu)跨模態(tài)圖,即優(yōu)化異構(gòu)跨模態(tài)圖融合模型。
36、進(jìn)一步地,所述語(yǔ)義分割模型的訓(xùn)練過(guò)程包括:
37、獲取視覺(jué)-語(yǔ)言匹配訓(xùn)練特征并輸入至編碼器,得到每個(gè)編碼層對(duì)應(yīng)的第i視覺(jué)-語(yǔ)言匹配訓(xùn)練編碼特征;除第一層編碼層的輸入為視覺(jué)-語(yǔ)言匹配訓(xùn)練特征,第i層編碼層的輸入為第i-1層編碼層的輸出;
38、將第n視覺(jué)-語(yǔ)言匹配訓(xùn)練特征輸入至第n層解碼模塊,輸出得到第n視覺(jué)-語(yǔ)言匹配解碼結(jié)果;
39、將第n視覺(jué)-語(yǔ)言匹配解碼結(jié)果和第n-1視覺(jué)-語(yǔ)言匹配訓(xùn)練特征輸入至多層次融合模塊,輸出得到第n-1視覺(jué)-語(yǔ)言匹配訓(xùn)練融合特征;
40、將第n-1視覺(jué)-語(yǔ)言匹配訓(xùn)練融合特征輸入至第n-1層解碼模塊,輸出得到第n-1視覺(jué)-語(yǔ)言匹配解碼結(jié)果;
41、重復(fù)多層次融合模塊和第n-1層解碼模塊的處理過(guò)程,直至得到第一層解碼模塊的輸出,即得到語(yǔ)義分割訓(xùn)練結(jié)果;
42、基于語(yǔ)義分割訓(xùn)練結(jié)果,計(jì)算動(dòng)態(tài)權(quán)重三元組損失函數(shù)和廣義交并比損失函數(shù);
43、基于動(dòng)態(tài)權(quán)重三元組損失函數(shù)和廣義交并比損失函數(shù),調(diào)整語(yǔ)義分割模型的權(quán)重參數(shù)。
44、進(jìn)一步地,所述動(dòng)態(tài)權(quán)重三元組損失函數(shù)對(duì)應(yīng)的公式為:
45、;
46、其中,、分別表示三元?jiǎng)討B(tài)權(quán)重參數(shù)、預(yù)定超參數(shù),表示期望操作,表示語(yǔ)義分割模型對(duì)視覺(jué)-語(yǔ)言匹配訓(xùn)練特征中各類(lèi)別預(yù)測(cè)的概率分布,表示最大值函數(shù)。
47、進(jìn)一步地,所述視覺(jué)語(yǔ)言融合分割模型還包括優(yōu)化過(guò)程,對(duì)應(yīng)的步驟為:
48、利用nas算法對(duì)初始優(yōu)化后的視覺(jué)語(yǔ)言融合分割模型進(jìn)行處理,得到一次優(yōu)化后的視覺(jué)語(yǔ)言融合分割模型;
49、對(duì)一次優(yōu)化后的視覺(jué)語(yǔ)言融合分割模型進(jìn)行參數(shù)剪枝和精簡(jiǎn),得到二次優(yōu)化后的視覺(jué)語(yǔ)言融合分割模型;
50、利用量化感知訓(xùn)練方法對(duì)二次優(yōu)化后的視覺(jué)語(yǔ)言融合分割模型進(jìn)行處理,得到優(yōu)化后的視覺(jué)語(yǔ)言融合分割模型。
51、本發(fā)明的有益效果為:
52、本方法基于多種注意力機(jī)制、多層次融合模塊、動(dòng)態(tài)調(diào)整機(jī)制,構(gòu)建了視覺(jué)語(yǔ)言融合分割模型,確保了復(fù)雜場(chǎng)景下對(duì)已知與未知類(lèi)別的航拍圖像實(shí)現(xiàn)高精度、魯棒性的分割效果;利用vit、mamba模型提取全局圖像信息、局部圖像細(xì)節(jié),并采用自適應(yīng)加權(quán)融合實(shí)現(xiàn)全局與局部特征的動(dòng)態(tài)平衡,使用可變形卷積對(duì)局部結(jié)構(gòu)進(jìn)行強(qiáng)化,保證整體場(chǎng)景語(yǔ)義的準(zhǔn)確表達(dá),增強(qiáng)對(duì)視覺(jué)-語(yǔ)言融合特征的效率與精度;利用異構(gòu)跨模態(tài)圖融合模型整合更遠(yuǎn)距離的跨模態(tài)語(yǔ)義關(guān)系,不斷融合來(lái)自視覺(jué)、文本以及領(lǐng)域知識(shí)的多維信息。