1.一種面向復(fù)雜場景信息先驗的遙感圖像自然語言描述生成方法,其特征在于,包括下列步驟:
2.如權(quán)利要求1所述的方法,其特征在于,步驟1包括:獲取公開的遙感圖像自然語言描述數(shù)據(jù)集作為初始數(shù)據(jù)集,基于初始數(shù)據(jù)集中的遙感圖像的英文描述得到英文數(shù)據(jù)集;基于英文數(shù)據(jù)集,采用匹配的中文進(jìn)行再次標(biāo)注,基于中文標(biāo)注構(gòu)建對應(yīng)的中文數(shù)據(jù)集。
3.如權(quán)利要求1所述的方法,其特征在于,步驟2中,預(yù)訓(xùn)練的骨干網(wǎng)絡(luò)為基于transformer的網(wǎng)絡(luò)結(jié)構(gòu)或基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)。
4.如權(quán)利要求1所述的方法,其特征在于,步驟2還包括對骨干網(wǎng)絡(luò)中的部分網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)學(xué)習(xí),其中,微調(diào)學(xué)習(xí)的部分網(wǎng)絡(luò)參數(shù)為用于提取深層編碼特征的網(wǎng)絡(luò)層的網(wǎng)路參數(shù)。
5.如權(quán)利要求1所述的方法,其特征在于,步驟2中,對多個尺度的淺層編碼特征,采用逐層融合法進(jìn)行多尺度淺層編碼特征融合,按照骨干網(wǎng)絡(luò)的前向傳播方向,依次遍歷每一個尺度的淺/深層編碼特征,通過卷積和下采樣操作將當(dāng)前尺度的淺/深層編碼特征的特征維度調(diào)整為后一淺/深層編碼特征的維度,再進(jìn)行特征疊加,再將當(dāng)前疊加后的淺/深層編碼特征作為新的后一淺/深層編碼特征,繼續(xù)該新的下一淺/深層編碼特征與其后一淺/深層編碼特征的特征調(diào)整和疊加,直到最后一個尺度的淺/深層編碼特征。
6.如權(quán)利要求1所述的方法,其特征在于,步驟3中,先驗信息構(gòu)建模塊的處理包括:
7.如權(quán)利要求1所述的方法,其特征在于,步驟4中,通過設(shè)置的全局特征強(qiáng)化模塊對視覺全局特征進(jìn)行強(qiáng)化處理,包括:
8.如權(quán)利要求1所述的方法,其特征在于,步驟4中,通過設(shè)置的局部特征強(qiáng)化模塊對視覺局部特征進(jìn)行強(qiáng)化處理,包括:
9.如權(quán)利要求1所述的方法,其特征在于,步驟5中多特征交叉融合器的具體執(zhí)行過程包括:
10.如權(quán)利要求9所述的方法,其特征在于,對增強(qiáng)后的視覺全局特征t和文本先驗特征p進(jìn)行聯(lián)合空間注意力操作,得到特征包括: