本發(fā)明屬于圖片檢索領(lǐng)域,具體涉及一種基于空間查詢學(xué)習(xí)的統(tǒng)一視覺地理定位方法和裝置。
背景技術(shù):
1、視覺地理定位,作為一項(xiàng)極具挑戰(zhàn)性與應(yīng)用價(jià)值的研究任務(wù),核心目標(biāo)是依據(jù)給定的圖像,精準(zhǔn)推測出其拍攝的具體位置,也就是對應(yīng)的?gps?坐標(biāo)。
2、在這一領(lǐng)域,當(dāng)前的研究工作主要可歸納為三類不同的方法。首先是基于分類的方法,該方法將地球表面劃分為多個(gè)離散的區(qū)域類別,通過訓(xùn)練模型對輸入圖像進(jìn)行分類,進(jìn)而確定其大致的拍攝位置。其次是基于檢索的方法,它依賴于一個(gè)龐大的圖像數(shù)據(jù)庫,通過計(jì)算待查詢圖像與數(shù)據(jù)庫中圖像的相似度,來找到與之匹配的拍攝位置信息。而檢索增強(qiáng)生成(rag)的方法,則是一種相對較新的思路,它結(jié)合了檢索和生成的優(yōu)勢,在檢索相關(guān)信息的基礎(chǔ)上,利用生成模型進(jìn)一步優(yōu)化和生成更準(zhǔn)確的位置預(yù)測,為視覺地理定位提供了新的研究方向和解決方案。
3、具體而言,基于分類方法將整個(gè)地理空間劃分為固定網(wǎng)格,并將每幅圖像歸類到特定網(wǎng)格中。在預(yù)測圖像坐標(biāo)時(shí),算法需要提供一個(gè)gps參考點(diǎn)集合,由分類判斷圖像屬于哪個(gè)候選點(diǎn)的概率更高。然而,這種方法顯而易見的缺陷在于,其高度依賴于gps參考集的構(gòu)建。
4、基于檢索的方法將圖像定位問題轉(zhuǎn)化為圖像到圖像的檢索任務(wù),依賴于一個(gè)包含gps信息和圖像特征的數(shù)據(jù)庫。首先,特征網(wǎng)絡(luò)從查詢圖像中提取特征;隨后,在數(shù)據(jù)庫中檢索出與之最相似的前k張圖像;將與當(dāng)前圖片最接近的圖片的坐標(biāo)作為當(dāng)前圖片的gps預(yù)測值,或者需要一個(gè)額外的幾何驗(yàn)證階段,利用這些參考圖像的gps信息及其與查詢圖像的重疊區(qū)域,進(jìn)一步推算查詢圖像的gps。
5、公開號為cn110347854a的發(fā)明專利申請公開了一種基于目標(biāo)定位的圖像檢索方法,首先選擇與圖像檢索數(shù)據(jù)庫類似的訓(xùn)練圖庫進(jìn)行手工標(biāo)注,記錄下數(shù)據(jù)庫需要的目標(biāo)區(qū)域的位置與尺寸信息,用標(biāo)注好的訓(xùn)練圖庫對ssd目標(biāo)檢測模型進(jìn)行訓(xùn)練,得到能夠檢測出目標(biāo)區(qū)域的ssd模型,然后,根據(jù)得到的ssd目標(biāo)檢測模型提取查詢圖和測試圖的特征向量,最后,計(jì)算得到的測試圖像的特征向量與查詢圖像的特征向量的余弦距離衡量查詢圖像與測試圖像的相似度,取最小的相似性得分作為該測試圖的最終得分,將測試圖庫中所有圖像得分進(jìn)行排名得到檢索結(jié)果。盡管上述專利申請?zhí)峁┑姆椒ㄔ诰壬媳憩F(xiàn)優(yōu)異,但大規(guī)模圖像向量的存儲與查詢測試圖庫對存儲空間和計(jì)算資源提出了較高要求。
6、近年來,基于生成式大模型的方法在這一任務(wù)中取得了最先進(jìn)的性能。此類方法采用檢索增強(qiáng)生成(rag)流程,充分發(fā)揮大規(guī)模多模態(tài)模型(lmms)的強(qiáng)大推理與泛化能力。具體而言,它們將檢索到的gps坐標(biāo)作為參考信息,嵌入lmm的輸入提示中,以生成更為精確的預(yù)測結(jié)果。然而,由于此類方法本質(zhì)上基于檢索技術(shù),其依然依賴于覆蓋全球的圖片向量數(shù)據(jù)庫。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于空間查詢學(xué)習(xí)的統(tǒng)一視覺地理定位方法,該方法不依賴于圖片向量庫和gps參考集,在取得較好的gps坐標(biāo)預(yù)測精度的同時(shí),降低存儲,提升推理速度。
2、本發(fā)明具體實(shí)施例提供了一種基于空間查詢學(xué)習(xí)的統(tǒng)一視覺地理定位方法,包括:
3、獲得多張圖片和對應(yīng)的真實(shí)gps坐標(biāo),將所述多張圖片作為訓(xùn)練樣本集;
4、構(gòu)建訓(xùn)練模型,所述訓(xùn)練模型包括圖像編碼器、自注意力層、交叉注意力層、凍結(jié)的坐標(biāo)編碼器和回歸器,將每個(gè)樣本切塊后轉(zhuǎn)化為序列,通過圖像編碼器對所述序列進(jìn)行特征提取得到圖像特征序列,通過自注意力層對空間查詢進(jìn)行特征增強(qiáng),將特征增強(qiáng)后的空間查詢與圖像特征序列通過交叉注意力層進(jìn)行交互融合得到融合特征,通過坐標(biāo)編碼器對真實(shí)gps坐標(biāo)進(jìn)行轉(zhuǎn)換后編碼得到坐標(biāo)編碼,將融合特征輸入回歸器得到預(yù)測gps坐標(biāo);
5、構(gòu)建損失函數(shù),所述損失函數(shù)為通過預(yù)測gps坐標(biāo)和轉(zhuǎn)換后的gps坐標(biāo)構(gòu)建的均方差損失函數(shù);
6、基于訓(xùn)練樣本集通過所述損失函數(shù)訓(xùn)練訓(xùn)練模型得到統(tǒng)一視覺地理定位模型,應(yīng)用時(shí),將查詢圖片輸入統(tǒng)一視覺地理定位模型得到第一預(yù)測gps坐標(biāo)和融合特征。
7、優(yōu)選地,所述損失函數(shù)還包括通過維度對齊的融合特征和坐標(biāo)編碼構(gòu)建的歸一化溫度-尺度交叉熵函數(shù),同時(shí)開啟坐標(biāo)編碼器。
8、優(yōu)選地,對融合特征進(jìn)行平均池化或最大池化,以便調(diào)整融合特征的維度,使得融合特征與坐標(biāo)編碼的維度對齊。
9、優(yōu)選地,基于融合特征利用圖片檢索的方法得到第二預(yù)測gps坐標(biāo),包括:
10、基于檢索方法在包含gps坐標(biāo)和圖像特征的數(shù)據(jù)庫中檢索出與所述融合特征最相似的前k張圖片,將最相似的圖片的gps坐標(biāo)作為查詢圖片的第二預(yù)測gps坐標(biāo),或者利用前k張圖片的gps坐標(biāo),以及前k張圖片和查詢圖片的重疊區(qū)域推算查詢圖片的第二預(yù)測gps坐標(biāo)。
11、優(yōu)選地,利用坐標(biāo)分類的方法得到第三預(yù)測gps坐標(biāo),包括:
12、將查詢圖片和gps參考點(diǎn)集輸入統(tǒng)一視覺地理定位模型分別得到維度對齊的融合特征和坐標(biāo)編碼集合,從坐標(biāo)編碼集合中篩選出與融合特征相似度最高的坐標(biāo)編碼,將篩選出的坐標(biāo)編碼對應(yīng)的gps參考點(diǎn)作為第三預(yù)測gps坐標(biāo)。
13、優(yōu)選地,將特征增強(qiáng)后的空間查詢與圖像特征序列通過交叉注意力層進(jìn)行交互融合得到融合特征,包括:
14、將特征增強(qiáng)后的空間查詢進(jìn)行線性變換得到交叉注意力層的查詢向量,將圖像特征序列進(jìn)行線性變換分別得到交叉注意力層的鍵向量和值向量;
15、通過縮放點(diǎn)積注意力機(jī)制基于交叉注意力層的查詢向量和鍵向量得到交叉注意力層的自注意力分?jǐn)?shù)矩陣;
16、將交叉注意力層的自注意力分?jǐn)?shù)矩陣與值向量相乘得到融合特征。
17、優(yōu)選地,通過自注意力層對空間查詢進(jìn)行特征增強(qiáng),包括:
18、所述空間查詢的初始值通過隨機(jī)初始化得到,對空間查詢進(jìn)行線性變換分別得到自注意力層的查詢向量、鍵向量和值向量;
19、通過縮放點(diǎn)積注意力機(jī)制基于自注意力層的查詢向量和鍵向量得到自注意力分?jǐn)?shù)矩陣;
20、將自注意力分?jǐn)?shù)矩陣與值向量相乘得到特征增強(qiáng)后的空間查詢。
21、優(yōu)選地,將每個(gè)樣本切塊后轉(zhuǎn)化為序列,包括:
22、將每個(gè)樣本切成固定大小的非重疊的圖像塊,將每個(gè)圖像塊轉(zhuǎn)化為一維向量,將每個(gè)一維向量通過線性層映射得到多維向量,將每個(gè)樣本包含的圖像塊對應(yīng)的多維向量組成為序列。
23、優(yōu)選地,通過坐標(biāo)編碼器對真實(shí)gps坐標(biāo)進(jìn)行轉(zhuǎn)換后編碼得到坐標(biāo)編碼,包括:
24、所述坐標(biāo)編碼器包括等地球投影、隨機(jī)傅里葉特征和前饋多層感知機(jī);
25、通過等地球投影轉(zhuǎn)換真實(shí)gps坐標(biāo),通過調(diào)節(jié)隨機(jī)傅里葉特征的頻率基于轉(zhuǎn)換后的gps坐標(biāo)得到不同粒度的gps編碼特征,將不同粒度的gps編碼特征分別通過前饋多層感知機(jī)進(jìn)行特征提取后加和得到坐標(biāo)編碼。
26、本發(fā)明還提供了了一種基于空間查詢學(xué)習(xí)的統(tǒng)一視覺地理定位裝置,包括:包括存儲器和一個(gè)或多個(gè)處理器,所述存儲器中存儲有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于所述的基于空間查詢學(xué)習(xí)的統(tǒng)一視覺地理定位方法。
27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
28、本發(fā)明將特征增強(qiáng)的空間查詢與圖像特征序列進(jìn)行交叉注意力,以便從圖像特征序列中提取出與空間強(qiáng)相關(guān)的融合特征,然后將該融合特征通過回歸器得到預(yù)測gps坐標(biāo),通過預(yù)測gps坐標(biāo)與轉(zhuǎn)換后的gps坐標(biāo)構(gòu)建的損失函數(shù)訓(xùn)練模型,使得訓(xùn)練后的模型具有較好的gps坐標(biāo)預(yù)測精度,且在預(yù)測過程中不依賴于圖片向量庫和gps參考集,適用于對存儲敏感,且低成本的場景。