本技術(shù)涉及深度學(xué)習(xí),特別是涉及一種信息檢索方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著多媒體數(shù)據(jù)的迅猛增長,海量的圖像、視頻和文本等多模態(tài)數(shù)據(jù)在各類應(yīng)用中迅速積累。傳統(tǒng)的信息檢索方法通常局限于單一模態(tài)的信息查詢,而實(shí)際應(yīng)用中常常需要從一個(gè)模態(tài)(如圖像)檢索到另一個(gè)模態(tài)(如文本)中的相關(guān)內(nèi)容。
2、然而,現(xiàn)有方法在模態(tài)間的語義對齊和特征鴻溝的彌合上仍存在不足,尤其在處理復(fù)雜多樣的跨模態(tài)數(shù)據(jù)時(shí),檢索精度往往不夠理想。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠提高檢索精度的信息檢索方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
2、第一方面,本技術(shù)提供了一種信息檢索方法,包括:
3、獲取文本數(shù)據(jù)和圖像數(shù)據(jù),基于所述文本數(shù)據(jù)和所述圖像數(shù)據(jù)建立多個(gè)樣本對;
4、對于每個(gè)樣本對,通過待訓(xùn)練的跨模態(tài)信息檢索模型中的文本信息提取模型、圖像信息提取模型以及跨注意力模塊,生成文本融合特征和圖像融合特征;通過所述文本信息提取模型將所述文本融合特征轉(zhuǎn)換為文本哈希碼;通過所述圖像信息提取模型將所述圖像融合特征轉(zhuǎn)換為圖像哈希碼;
5、基于自適應(yīng)三重?fù)p失函數(shù)和量化損失函數(shù),確定所述文本哈希碼和所述圖像哈希碼的總損失;基于所述總損失,優(yōu)化所述待訓(xùn)練的跨模態(tài)信息檢索模型,得到訓(xùn)練好的跨模態(tài)信息檢索模型;所述訓(xùn)練好的跨模態(tài)信息檢索模型用于根據(jù)輸入的文本來檢索圖像,或者根據(jù)輸入的圖像來檢索文本。
6、在其中一個(gè)實(shí)施例中,所述文本信息提取模型包括:分詞層和文本特征提塊;所述文本特征提塊包括預(yù)設(shè)數(shù)量的文本提取層;所述圖像信息提取模型包括:檢測層、全連接層和圖像特征提取塊;所述圖像特征提塊包括預(yù)設(shè)數(shù)量的圖像提取層;所述預(yù)設(shè)數(shù)量的文本提取層和所述預(yù)設(shè)數(shù)量的圖像提取層按照順序一一對應(yīng);所述通過待訓(xùn)練的跨模態(tài)信息檢索模型中的文本信息提取模型、圖像信息提取模型以及跨注意力模塊,生成文本融合特征和圖像融合特征,包括:
7、將樣本對中的文本輸入所述分詞層,得到分詞特征;將所述分詞特征作為所述文本特征提塊的輸入;對于任一文本提取層,將當(dāng)前文本提取層的前一文本提取層的文本特征轉(zhuǎn)換成文本查詢向量、文本鍵向量和文本值向量;基于所述文本查詢向量、文本鍵向量和文本值向量,生成第一文本特征;將樣本對中的圖像輸入所述檢測層,得到檢測框,將所述將側(cè)框輸入所述全連接層,得到圖像特征向量;將所述圖像特征向量作為所述圖像特征提塊的輸入;對于所述當(dāng)前文本提取層所對應(yīng)的圖像提取層,將前一圖像提取層的圖像特征轉(zhuǎn)換成圖像查詢向量、圖像鍵向量和圖像值向量;基于所述圖像查詢向量、圖像鍵向量和圖像值向量,生成第一圖像特征;通過跨注意力融合模塊,將所述文本查詢向量和所述圖像鍵向量和圖像值向量進(jìn)行融合,得到第二文本特征,將所述圖像查詢向量和所述文本鍵向量和文本值向量進(jìn)行融合,得到第二圖像特征;基于所述第一文本特征和所述第二文本特征,確定當(dāng)前文本提取層的文本特征;基于所述第一圖像特征和所述第二圖像特征,確定當(dāng)前圖像提取層的圖像特征;其中,最后一層文本提取層的文本特征為文本融合特征;最后一層圖像提取層的圖像特征為圖像融合特征。
8、在其中一個(gè)實(shí)施例中,所述文本信息提取模型還包括:文本哈希層;所述圖像信息提取模型還包括:圖像哈希層;所述通過所述文本信息提取模型將所述文本融合特征轉(zhuǎn)換為文本哈希碼,包括:
9、將所述文本融合特征輸入所述文本哈希層,得到文本哈希碼;將所述圖像融合特征輸入所述圖像哈希層,得到圖像哈希碼。
10、在其中一個(gè)實(shí)施例中,所述基于自適應(yīng)三重?fù)p失函數(shù)和量化損失函數(shù),確定所述文本哈希碼和所述圖像哈希碼的總損失,包括:
11、基于所述圖像哈希碼和所述文本哈希碼的相關(guān)性、邊界參數(shù)和權(quán)重因子,通過自適應(yīng)三重?fù)p失函數(shù),確定所述圖像哈希碼和所述文本哈希碼的自適應(yīng)三重?fù)p失;通過量化損失函數(shù)確定所述圖像哈希碼和所述文本哈希碼的量化損失;基于所述自適應(yīng)三重?fù)p失和所述量化損失,確定所述文本哈希碼和所述圖像哈希碼的總損失。
12、在其中一個(gè)實(shí)施例中,所述圖像數(shù)據(jù)包括n個(gè)圖像,所述文本數(shù)據(jù)包括描述每個(gè)圖像的n個(gè)文本;所述基于所述文本數(shù)據(jù)和所述圖像數(shù)據(jù)建立多個(gè)樣本對,包括:
13、針對每個(gè)圖像,將當(dāng)前圖像分別和n個(gè)文本組合,得到當(dāng)前圖像對應(yīng)的n個(gè)樣本對。
14、在其中一個(gè)實(shí)施例中,所述訓(xùn)練好的跨模態(tài)信息檢索模型用于根據(jù)輸入的文本來檢索圖像,包括:
15、將文本輸入訓(xùn)練好的跨模態(tài)信息檢索模型的文本信息提取模型,得到文本哈希碼;通過訓(xùn)練好的跨模態(tài)信息檢索模型的圖像信息提取模型,生成所有圖像的圖像哈希碼;將所述文本哈希碼和所述所有圖像的哈希碼分別計(jì)算相似度,將所述相似度最高的圖像哈希碼所對應(yīng)的圖像作為圖像檢索的結(jié)果。
16、第二方面,本技術(shù)還提供了一種信息檢索裝置,包括:
17、獲取模塊,用于獲取文本數(shù)據(jù)和圖像數(shù)據(jù),基于所述文本數(shù)據(jù)和所述圖像數(shù)據(jù)建立多個(gè)樣本對;
18、提取模塊,用于對于每個(gè)樣本對,通過待訓(xùn)練的跨模態(tài)信息檢索模型中的文本信息提取模型、圖像信息提取模型以及跨注意力模塊,生成文本融合特征和圖像融合特征;通過所述文本信息提取模型將所述文本融合特征轉(zhuǎn)換為文本哈希碼;通過所述圖像信息提取模型將所述圖像融合特征轉(zhuǎn)換為圖像哈希碼;
19、優(yōu)化模塊,用于基于自適應(yīng)三重?fù)p失函數(shù)和量化損失函數(shù),確定所述文本哈希碼和所述圖像哈希碼的總損失;基于所述總損失,優(yōu)化所述待訓(xùn)練的跨模態(tài)信息檢索模型,得到訓(xùn)練好的跨模態(tài)信息檢索模型;所述訓(xùn)練好的跨模態(tài)信息檢索模型用于根據(jù)輸入的文本來檢索圖像,或者根據(jù)輸入的圖像來檢索文本。
20、第三方面,本技術(shù)還提供了一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:
21、獲取文本數(shù)據(jù)和圖像數(shù)據(jù),基于所述文本數(shù)據(jù)和所述圖像數(shù)據(jù)建立多個(gè)樣本對;
22、對于每個(gè)樣本對,通過待訓(xùn)練的跨模態(tài)信息檢索模型中的文本信息提取模型、圖像信息提取模型以及跨注意力模塊,生成文本融合特征和圖像融合特征;通過所述文本信息提取模型將所述文本融合特征轉(zhuǎn)換為文本哈希碼;通過所述圖像信息提取模型將所述圖像融合特征轉(zhuǎn)換為圖像哈希碼;
23、基于自適應(yīng)三重?fù)p失函數(shù)和量化損失函數(shù),確定所述文本哈希碼和所述圖像哈希碼的總損失;基于所述總損失,優(yōu)化所述待訓(xùn)練的跨模態(tài)信息檢索模型,得到訓(xùn)練好的跨模態(tài)信息檢索模型;所述訓(xùn)練好的跨模態(tài)信息檢索模型用于根據(jù)輸入的文本來檢索圖像,或者根據(jù)輸入的圖像來檢索文本。
24、第四方面,本技術(shù)還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:
25、獲取文本數(shù)據(jù)和圖像數(shù)據(jù),基于所述文本數(shù)據(jù)和所述圖像數(shù)據(jù)建立多個(gè)樣本對;
26、對于每個(gè)樣本對,通過待訓(xùn)練的跨模態(tài)信息檢索模型中的文本信息提取模型、圖像信息提取模型以及跨注意力模塊,生成文本融合特征和圖像融合特征;通過所述文本信息提取模型將所述文本融合特征轉(zhuǎn)換為文本哈希碼;通過所述圖像信息提取模型將所述圖像融合特征轉(zhuǎn)換為圖像哈希碼;
27、基于自適應(yīng)三重?fù)p失函數(shù)和量化損失函數(shù),確定所述文本哈希碼和所述圖像哈希碼的總損失;基于所述總損失,優(yōu)化所述待訓(xùn)練的跨模態(tài)信息檢索模型,得到訓(xùn)練好的跨模態(tài)信息檢索模型;所述訓(xùn)練好的跨模態(tài)信息檢索模型用于根據(jù)輸入的文本來檢索圖像,或者根據(jù)輸入的圖像來檢索文本。
28、第五方面,本技術(shù)還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:
29、獲取文本數(shù)據(jù)和圖像數(shù)據(jù),基于所述文本數(shù)據(jù)和所述圖像數(shù)據(jù)建立多個(gè)樣本對;
30、對于每個(gè)樣本對,通過待訓(xùn)練的跨模態(tài)信息檢索模型中的文本信息提取模型、圖像信息提取模型以及跨注意力模塊,生成文本融合特征和圖像融合特征;通過所述文本信息提取模型將所述文本融合特征轉(zhuǎn)換為文本哈希碼;通過所述圖像信息提取模型將所述圖像融合特征轉(zhuǎn)換為圖像哈希碼;
31、基于自適應(yīng)三重?fù)p失函數(shù)和量化損失函數(shù),確定所述文本哈希碼和所述圖像哈希碼的總損失;基于所述總損失,優(yōu)化所述待訓(xùn)練的跨模態(tài)信息檢索模型,得到訓(xùn)練好的跨模態(tài)信息檢索模型;所述訓(xùn)練好的跨模態(tài)信息檢索模型用于根據(jù)輸入的文本來檢索圖像,或者根據(jù)輸入的圖像來檢索文本。
32、上述信息檢索方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲介質(zhì)和計(jì)算機(jī)程序產(chǎn)品,獲取文本數(shù)據(jù)和圖像數(shù)據(jù),基于所述文本數(shù)據(jù)和所述圖像數(shù)據(jù)建立多個(gè)樣本對;對于每個(gè)樣本對,通過待訓(xùn)練的跨模態(tài)信息檢索模型中的文本信息提取模型、圖像信息提取模型以及跨注意力模塊,生成文本融合特征和圖像融合特征;通過所述文本信息提取模型將所述文本融合特征轉(zhuǎn)換為文本哈希碼;通過所述圖像信息提取模型將所述圖像融合特征轉(zhuǎn)換為圖像哈希碼;基于自適應(yīng)三重?fù)p失函數(shù)和量化損失函數(shù),確定所述文本哈希碼和所述圖像哈希碼的總損失;基于所述總損失,優(yōu)化所述待訓(xùn)練的跨模態(tài)信息檢索模型,得到訓(xùn)練好的跨模態(tài)信息檢索模型;所述訓(xùn)練好的跨模態(tài)信息檢索模型用于根據(jù)輸入的文本來檢索圖像,或者根據(jù)輸入的圖像來檢索文本。通過跨注意力融合模塊和自適應(yīng)三重?fù)p失來對齊模態(tài)間的語義以及彌合特征上的鴻溝,提升了跨模態(tài)檢索的精度。