最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種面向復(fù)雜場(chǎng)景信息先驗(yàn)的遙感圖像自然語言描述生成方法

文檔序號(hào):41954928發(fā)布日期:2025-05-16 14:20閱讀:2來源:國知局
一種面向復(fù)雜場(chǎng)景信息先驗(yàn)的遙感圖像自然語言描述生成方法

本技術(shù)涉及深度學(xué)習(xí)和圖像處理處理領(lǐng)域,尤其涉及一種面向復(fù)雜場(chǎng)景信息先驗(yàn)的遙感圖像自然語言描述生成方法。


背景技術(shù):

1、隨著科技的飛速發(fā)展,遙感技術(shù)已成為地球觀測(cè)、環(huán)境監(jiān)測(cè)、城市規(guī)劃及災(zāi)害評(píng)估等領(lǐng)域不可或缺的重要工具。遙感圖像分析作為這一技術(shù)的核心環(huán)節(jié),經(jīng)歷了從傳統(tǒng)手工解譯到基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)自動(dòng)化處理的深刻變革。這一轉(zhuǎn)變不僅顯著提升了圖像處理的速度與精度,還極大地拓寬了遙感技術(shù)的應(yīng)用邊界。遙感圖像自然語言描述生成,作為遙感圖像分析領(lǐng)域的一個(gè)新興方向,旨在將復(fù)雜的圖像信息轉(zhuǎn)化為人類可理解的自然語言描述,從而極大地提高了信息獲取的便捷性和直觀性。這一技術(shù)的實(shí)現(xiàn),對(duì)于促進(jìn)遙感數(shù)據(jù)的普及應(yīng)用、增強(qiáng)決策支持能力、以及推動(dòng)跨學(xué)科融合具有重要意義,是連接技術(shù)世界與人類認(rèn)知的重要橋梁。

2、遙感圖像自然語言描述生成的發(fā)展歷程可以追溯到早期基于規(guī)則的方法,這些方法通過預(yù)設(shè)的模板和規(guī)則,嘗試將圖像中的特定特征映射到對(duì)應(yīng)的自然語言描述上。然而,隨著圖像內(nèi)容的復(fù)雜性和多樣性增加,這類方法的局限性日益凸顯。隨后,隨著自然語言處理和計(jì)算機(jī)視覺技術(shù)的交叉融合,基于深度學(xué)習(xí)的模型開始嶄露頭角,它們能夠?qū)W習(xí)圖像與文本之間的潛在關(guān)聯(lián),生成更為豐富和準(zhǔn)確的描述。這一階段的進(jìn)步標(biāo)志著遙感圖像自然語言描述生成技術(shù)進(jìn)入了智能化的新紀(jì)元,推動(dòng)了從簡單特征描述向復(fù)雜場(chǎng)景敘述的跨越。

3、盡管現(xiàn)有方法在遙感圖像自然語言描述生成方面取得了一定成就,但在面對(duì)復(fù)雜多變的遙感場(chǎng)景時(shí),仍面臨諸多挑戰(zhàn)。復(fù)雜場(chǎng)景往往包含多層次、多類別的地物信息,以及復(fù)雜的空間關(guān)系,這對(duì)模型的理解能力、泛化能力以及細(xì)節(jié)捕捉能力提出了更高要求。現(xiàn)有方法在處理這類場(chǎng)景時(shí),往往難以準(zhǔn)確捕捉并表達(dá)所有關(guān)鍵信息,導(dǎo)致生成的描述不夠全面、精確,甚至存在誤解。鑒于此,我們提出了一種創(chuàng)新的面向復(fù)雜場(chǎng)景信息先驗(yàn)的遙感圖像自然語言描述生成方法。該方法充分利用了深度學(xué)習(xí)模型在處理大規(guī)模數(shù)據(jù)方面的優(yōu)勢(shì),并結(jié)合了先驗(yàn)知識(shí),通過增強(qiáng)模型對(duì)復(fù)雜場(chǎng)景的理解與解析能力,旨在生成更加準(zhǔn)確、細(xì)致且富有洞察力的自然語言描述,從而有效克服現(xiàn)有技術(shù)的局限性,推動(dòng)遙感圖像自然語言描述生成技術(shù)的進(jìn)一步發(fā)展。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提供一種面向復(fù)雜場(chǎng)景信息先驗(yàn)的遙感圖像自然語言描述生成方法,以提升當(dāng)前遙感圖像自然語言描述生成方法的生生成質(zhì)量。

2、為解決上述技術(shù)問題,本技術(shù)采用的技術(shù)方案如下:

3、一種面向復(fù)雜場(chǎng)景信息先驗(yàn)的遙感圖像自然語言描述生成方法,該方法包括如下步驟:

4、步驟1:構(gòu)建中文和英文聯(lián)合的遙感圖像自然語言描述數(shù)據(jù)集;

5、步驟2:使用預(yù)訓(xùn)練的圖像識(shí)別神經(jīng)網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)提取輸入圖像的多個(gè)尺度的淺層編碼特征和多個(gè)尺度的深層編碼特征;

6、融合多個(gè)尺度的淺層編碼特征得到視覺全局特征,融合多個(gè)尺度的深層編碼特征得到視覺局部特征;

7、步驟3,基于先驗(yàn)信息構(gòu)建模塊從視覺全局特征中提取文本先驗(yàn)特征;

8、步驟4,對(duì)視覺全局特征和視覺局部特征分別進(jìn)行強(qiáng)化處理,得到強(qiáng)化后的視覺全局特征和視覺局部特征;

9、步驟5,通過多特征交叉融合器對(duì)文本先驗(yàn)特征和增強(qiáng)后的視覺全局特征進(jìn)行特征融合,得到全局融合特征,以及對(duì)文本先驗(yàn)特征和增強(qiáng)后的視覺局部特征進(jìn)行特征融合,得到局部融合特征;再對(duì)全局融合特征和局部融合特征進(jìn)行特征融合,得到最終的編碼特征;

10、步驟6,基于預(yù)訓(xùn)練的自然語言模型對(duì)最終的編碼特征進(jìn)行解碼,生成遙感圖像的自然語言描述。

11、進(jìn)一步的,步驟1包括:獲取公開的遙感圖像自然語言描述數(shù)據(jù)集作為初始數(shù)據(jù)集,基于初始數(shù)據(jù)集中的遙感圖像的英文描述得到英文數(shù)據(jù)集;基于英文數(shù)據(jù)集,采用匹配的中文進(jìn)行再次標(biāo)注,基于中文標(biāo)注構(gòu)建對(duì)應(yīng)的中文數(shù)據(jù)集。

12、進(jìn)一步的,步驟2中,淺層編碼特征和深層編碼特征分別包括兩個(gè)尺度,即對(duì)應(yīng)兩個(gè)階段。

13、進(jìn)一步的,步驟2中,預(yù)訓(xùn)練的骨干網(wǎng)絡(luò)為基于transformer的網(wǎng)絡(luò)結(jié)構(gòu)或基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)。

14、進(jìn)一步的,步驟2中,提取出的多個(gè)尺度的淺層編碼特征和多個(gè)尺度的深層編碼特征,按照前向傳播方向,其通道數(shù)逐漸增加,特征的高和寬逐漸減小。

15、進(jìn)一步的,步驟2還包括對(duì)骨干網(wǎng)絡(luò)中的部分網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)學(xué)習(xí),其中,微調(diào)學(xué)習(xí)的部分網(wǎng)絡(luò)參數(shù)為用于提取深層編碼特征的網(wǎng)絡(luò)層的網(wǎng)路參數(shù)。

16、進(jìn)一步的,步驟2中,對(duì)多個(gè)尺度的淺層編碼特征,采用逐層融合法進(jìn)行多尺度淺層編碼特征融合,按照骨干網(wǎng)絡(luò)的前向傳播方向,依次遍歷每一個(gè)尺度的淺/深層編碼特征,通過卷積和下采樣操作將當(dāng)前尺度的淺/深層編碼特征的特征維度調(diào)整為后一淺/深層編碼特征的維度,再進(jìn)行特征疊加,再將當(dāng)前疊加后的淺/深層編碼特征作為新的后一淺/深層編碼特征,繼續(xù)該新的下一淺/深層編碼特征與其后一淺/深層編碼特征的特征調(diào)整和疊加,直到最后一個(gè)尺度的淺/深層編碼特征。

17、例如對(duì)于包括兩個(gè)尺度的淺層編碼特征,則將第一個(gè)尺度的維度調(diào)整至第二個(gè)尺度后進(jìn)行特征疊加,得到視覺全局特征。

18、進(jìn)一步的,步驟3中,先驗(yàn)信息構(gòu)建模塊的處理包括:

19、步驟3-1:定義視覺全局特征為g∈rc×h×w;

20、將視覺全局特征g分別經(jīng)過全局最大池化和全局平均池化處理,得到全局向量g1和g2;

21、再將全局向量g1和g2分別經(jīng)過一個(gè)共享權(quán)重參數(shù)且預(yù)訓(xùn)練的多屬性預(yù)測(cè)器得到遙感圖像的場(chǎng)景屬性的屬性預(yù)測(cè)概率p1∈rd和p2∈rd,其中,d表示遙感圖像的場(chǎng)景屬性數(shù)量;

22、步驟3-2:綜合多屬性預(yù)測(cè)概率p1和p2中的元素進(jìn)行排序,再從中選取前k個(gè)最大圖像屬性預(yù)測(cè)概率,并將其轉(zhuǎn)換為獨(dú)熱向量表示,得到矩陣u∈rd×k;

23、步驟3-3:構(gòu)建一個(gè)可學(xué)習(xí)的矩陣m∈rt×d,使其和矩陣u∈rd×k進(jìn)行矩陣乘法,得到新的矩陣e∈rt×k,其中,t為設(shè)定的編碼長度;

24、步驟3-4:對(duì)矩陣e進(jìn)行展開,然后在空間上進(jìn)行復(fù)制,得到特征圖ef∈rb×h×w;其中,特征圖通道數(shù)b=t×k;

25、將特征圖ef通過一個(gè)卷積核為1×1卷積層進(jìn)行維度調(diào)整,得到文本先驗(yàn)特征p∈rc×h×w。

26、信息先驗(yàn)特征可以提供更多場(chǎng)景類別的信息,從而為理解復(fù)雜場(chǎng)景下地物目標(biāo)的語義與空間關(guān)系起到輔助作用。

27、進(jìn)一步的,步驟4中,通過設(shè)置的全局特征強(qiáng)化模塊對(duì)視覺全局特征進(jìn)行強(qiáng)化處理,包括:

28、步驟4-1-a:定義視覺全局特征為g∈rc×h×w,其中,c為通道數(shù),h×w為特征的高和寬;

29、分別通過并行的核大小為3x3、5x5和7x7的深度可分離卷積對(duì)全局特征為g進(jìn)行卷積操作;

30、將三路卷積操作結(jié)果按照通道維度疊加,再通過卷積核為1x1的卷積層將特征通道數(shù)調(diào)整為與視覺全局特征g一致,得到特征s∈rc×h×w;

31、將特征s按照通道分裂成兩個(gè)新的特征s1∈rc/2×h×w和s2∈rc/2×h×w;

32、將特征s1經(jīng)過橫向的全局平局池化得到特征s_h∈rc/2×h×1;將特征s2經(jīng)過縱向的全局平局池化得到特征s_w∈rc/2×1×w;

33、對(duì)特征s_h和s1進(jìn)行點(diǎn)乘得到特征t1∈rc/2×h×w,對(duì)s_w和s2進(jìn)行點(diǎn)乘得到特征t2∈rc/2×h×w;

34、將特征t1與t2進(jìn)行疊加得到強(qiáng)化后的視覺全局特征t∈rc×h×w。

35、進(jìn)一步的,步驟4中,通過設(shè)置的局部特征強(qiáng)化模塊對(duì)視覺局部特征進(jìn)行強(qiáng)化處理,包括:

36、步驟4-2-a:定義視覺局部特征為l∈rc×h×w,其中,c為通道數(shù),h×w為特征的高和寬;

37、將視覺局部特征為l依次通過卷積核為3x3的卷積層、relu激活函數(shù)得到特征l/∈rc×h×w;

38、步驟4-2-b:將特征l/∈rc×h×w按照通道順序均分成四個(gè)特征l1∈rc/4×h×w、l2∈rc/4×h×w、l3∈rc/4×h×w和l4∈rc/4×h×w;

39、特征l1和l3疊加得到l1-3∈rc/2×h×w,特征l2和l4疊加得到l2-4∈rc/2×h×w,特征l1和l4疊加得到l1-4∈rc/2×h×w,特征l2和l3疊加得到l2-3∈rc/2×h×w;該過程對(duì)局部特征中通道維度上的特征進(jìn)行交叉疊加,可以增強(qiáng)通道間特征的感知能力,進(jìn)而可以實(shí)現(xiàn)對(duì)局部特征的增強(qiáng);

40、步驟4-2-c:對(duì)特征l1-3、l2-4、l1-4和l2-3會(huì)分別進(jìn)行通道注意力,得到強(qiáng)化后的特征和和

41、步驟4-2-d:將強(qiáng)化后的特征和按照通道疊加得到特征u∈rc×h×w,強(qiáng)化后的特征和按照通道疊加得到特征v∈rc×h×w;

42、再將特征u和v逐像素相加得到強(qiáng)化后的視覺局部特征o∈rc×h×w。

43、進(jìn)一步的,步驟5中多特征交叉融合器的具體執(zhí)行過程包括:

44、設(shè)定文本先驗(yàn)特征為p∈rc×h×w,增強(qiáng)后的視覺全局特征為t∈rc×h×w,增強(qiáng)后的視覺局部特征為o∈rc×h×w;

45、對(duì)增強(qiáng)后的視覺全局特征t和文本先驗(yàn)特征p進(jìn)行聯(lián)合空間注意力操作,得到特征

46、對(duì)增強(qiáng)后的視覺局部特征為o和文本先驗(yàn)特征p進(jìn)行聯(lián)合空間注意力操作,得到特征

47、特征和特征按照通道維疊加,再依次通過卷積核為3x3的卷積層、激活函數(shù)得到第一融合編碼特征y∈rc×h×w;通過多特征交叉融合,可以有效地對(duì)復(fù)雜場(chǎng)景中地物目標(biāo)的語義關(guān)系實(shí)現(xiàn)深入理解;

48、將第一融合編碼特征y通過一個(gè)空洞空間卷積池化金字塔(aspp)模塊得到最終的編碼特征q∈rc×h×w。在融合特征的基礎(chǔ)上進(jìn)一步挖掘多尺度信息,可以實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景更加全面的理解

49、進(jìn)一步的,對(duì)增強(qiáng)后的視覺全局特征t和文本先驗(yàn)特征p進(jìn)行聯(lián)合空間注意力操作,得到特征包括:

50、視覺全局特征t分別通過兩個(gè)卷積核為1×1的卷積層得到特征t1和t2;

51、調(diào)整特征t2的維度為h×w×c,再與特征p進(jìn)行矩陣乘法,得到空間注意力關(guān)系圖map1=(h×w)×(h×w);并通過softmax函數(shù)對(duì)空間注意力關(guān)系圖map1進(jìn)行權(quán)重激活;

52、再將特征t1和權(quán)重激活后的空間注意力關(guān)系圖map2進(jìn)行逐像素相加得到特征

53、進(jìn)一步的,對(duì)增強(qiáng)后的視覺局部特征為o和文本先驗(yàn)特征p進(jìn)行聯(lián)合空間注意力操作,得到特征

54、視覺局部特征o分別通過兩個(gè)卷積核為1×1的卷積層得到特征o1和o2;

55、調(diào)整o2的維度為h×w×c,再與特征p進(jìn)行矩陣乘法,得到空間注意力關(guān)系圖map2=(h×w)×(h×w),并通過softmax函數(shù)對(duì)空間注意力關(guān)系圖map2進(jìn)行權(quán)重激活;

56、再將特征o1和權(quán)重激活后的空間注意力關(guān)系圖map2進(jìn)行逐像素相加得到特征

57、本技術(shù)提供的技術(shù)方案至少帶來如下有益效果:

58、本技術(shù)利用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)構(gòu)建全局特征和局部特征,并在全局特征的基礎(chǔ)上構(gòu)建信息先驗(yàn)特征,利用信息先驗(yàn)特征可以實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景中地物目標(biāo)間的空間與語義關(guān)系實(shí)現(xiàn)更好地理解。此外,全局特征以及局部特征與信息先驗(yàn)特征的交叉融合,可以有效地提升對(duì)遙感圖像的圖像描述準(zhǔn)確性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1