本本發(fā)明涉及知識(shí)圖譜補(bǔ)全,尤其涉及一種多模態(tài)知識(shí)圖譜補(bǔ)全方法。
背景技術(shù):
1、多模態(tài)知識(shí)圖譜(multimodal?knowledge?graph,mkg)作為人工智能和計(jì)算機(jī)視覺領(lǐng)域的關(guān)鍵研究方向,近年來發(fā)展迅速。隨著社交媒體、移動(dòng)終端和各類?app?的廣泛應(yīng)用,互聯(lián)網(wǎng)上的多模態(tài)數(shù)據(jù)(如文本、圖像、視頻等)呈爆發(fā)式增長。多模態(tài)知識(shí)圖譜通過融合多種類型的數(shù)據(jù),能夠提供更為全面和豐富的知識(shí)表示,在自然語言處理、計(jì)算機(jī)視覺等跨領(lǐng)域研究中發(fā)揮著重要作用,成為當(dāng)前研究的熱點(diǎn)。
2、傳統(tǒng)的知識(shí)圖譜大多依賴文本數(shù)據(jù)中的潛在結(jié)構(gòu)關(guān)系進(jìn)行構(gòu)建,主要用于描述和表示實(shí)體及實(shí)體間的關(guān)系。然而,隨著多模態(tài)數(shù)據(jù)的興起,單一模態(tài)的知識(shí)圖譜在表達(dá)能力上的局限性逐漸凸顯。為應(yīng)對(duì)這一挑戰(zhàn),多模態(tài)知識(shí)圖譜應(yīng)運(yùn)而生。但現(xiàn)有的多模態(tài)補(bǔ)全方法存在諸多問題:一是模態(tài)間語義不一致,實(shí)體圖像與文本描述可能存在語義偏差;二是特征空間差異大,不同模態(tài)數(shù)據(jù)的特征難以有效融合;三是噪聲干擾嚴(yán)重,影響補(bǔ)全模型的準(zhǔn)確性和可靠性。這些問題限制了多模態(tài)知識(shí)圖譜補(bǔ)全技術(shù)的發(fā)展和應(yīng)用。
技術(shù)實(shí)現(xiàn)思路
1、為了有效利用多模態(tài)信息獲得實(shí)體嵌入從而提升多模態(tài)知識(shí)圖譜補(bǔ)全模型的性能,本發(fā)明提出了一種多模態(tài)知識(shí)圖譜補(bǔ)全方法,實(shí)現(xiàn)在數(shù)據(jù)、特征、分布三個(gè)層面上的多模態(tài)語義對(duì)齊。
2、具體來說,本發(fā)明旨在提供一種多模態(tài)知識(shí)圖譜補(bǔ)全方法,通過創(chuàng)新的技術(shù)手段,解決多模態(tài)數(shù)據(jù)在語義一致性、特征融合和噪聲處理等方面的關(guān)鍵問題,增強(qiáng)模型在多模態(tài)知識(shí)圖譜補(bǔ)全中的準(zhǔn)確性、魯棒性與收斂速度,提升模型性能,使其具備較強(qiáng)的擴(kuò)展性,適用于各種模態(tài)數(shù)據(jù)的融合與補(bǔ)全任務(wù)。
3、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
4、(1)步驟一:數(shù)據(jù)預(yù)處理與圖像篩選
5、為解決實(shí)體圖像與文本描述語義不一致的問題,實(shí)現(xiàn)數(shù)據(jù)層面?zhèn)恼Z義對(duì)齊,本發(fā)明構(gòu)建了數(shù)據(jù)預(yù)處理與圖像篩選模塊。首先,利用可以處理圖像并為圖像輸出文本描述的圖文模型為每個(gè)實(shí)體的圖像生成文本描述,將實(shí)體的文本描述與圖像描述進(jìn)行關(guān)聯(lián)。然后,采用合適的文本相似度計(jì)算技術(shù)(基于向量或者基于語義的),計(jì)算文本之間的相似度。通過對(duì)相似度進(jìn)行排序,并設(shè)置合理的閾值,篩選出與文本語義相符的實(shí)體圖像,去除不相關(guān)的圖像信息,從而提升多模態(tài)數(shù)據(jù)的質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)層面的模態(tài)對(duì)齊。
6、(2)步驟二:特征編碼與融合
7、為實(shí)現(xiàn)特征層面的語義對(duì)齊,本發(fā)明構(gòu)建了特征編碼與融合模塊。一方面,使用合適的預(yù)訓(xùn)練模型將文本和圖像映射到同一語義空間,有效捕捉文本和圖像之間的密集語義關(guān)系。另一方面,引入合適的網(wǎng)絡(luò)結(jié)構(gòu)處理知識(shí)圖譜中的結(jié)構(gòu)信息,獲取稀疏語義關(guān)系。通過密度和稀疏性的相輔相成,獲得最佳的實(shí)體表示。在此基礎(chǔ)上,利用特定的融合技術(shù)將不同模態(tài)的特征聚合在一起,通過降維操作降低計(jì)算復(fù)雜度,同時(shí)保留模態(tài)之間的復(fù)雜相互關(guān)系。
8、(3)步驟三:去噪與關(guān)系建模
9、為提高模型對(duì)噪聲的處理能力并增強(qiáng)實(shí)體與關(guān)系間的交互,本發(fā)明構(gòu)建了去噪與關(guān)系建模模塊。在融合特征之后,采用有效的去噪技術(shù)對(duì)特征進(jìn)行去噪處理,通過正向和逆向的處理過程,去除噪聲信息,尤其是處理圖像過濾后仍可能存在的強(qiáng)視覺噪聲。此外,基于關(guān)系和實(shí)體嵌入構(gòu)建上下文權(quán)重矩陣,將關(guān)系上下文引入實(shí)體嵌入,增強(qiáng)實(shí)體及其相關(guān)關(guān)系之間的交互。通過計(jì)算所有候選實(shí)體之間的相似度完成鏈接預(yù)測(cè)任務(wù),并利用模態(tài)的互補(bǔ)性質(zhì),通過同時(shí)訓(xùn)練模型來整合預(yù)測(cè),提高預(yù)測(cè)的準(zhǔn)確性。
10、(4)步驟四:語義對(duì)齊約束與優(yōu)化
11、為進(jìn)一步增強(qiáng)語義對(duì)齊效果,實(shí)現(xiàn)分布層面上的語義對(duì)齊,本發(fā)明構(gòu)建了語義對(duì)齊約束與優(yōu)化模塊。通過設(shè)計(jì)多種約束方式,如采用合適的指標(biāo)進(jìn)行分布對(duì)齊約束,對(duì)齊視覺和文本特征的語義分布;引入稀疏語義的實(shí)體結(jié)構(gòu)信息進(jìn)行完整性對(duì)齊約束,實(shí)現(xiàn)模態(tài)間的對(duì)齊;設(shè)計(jì)解碼?-?重建機(jī)制進(jìn)行融合保真度約束,確保多模態(tài)融合后的表示能夠保留信息的保真性。
12、(5)步驟五:最小化損失優(yōu)化模型
13、最后,通過最小化總體損失函數(shù)來優(yōu)化模型的參數(shù),該損失函數(shù)綜合考慮了各個(gè)模塊的輸出,并通過合理設(shè)置超參數(shù)進(jìn)行平衡,從而確保模型在多模態(tài)知識(shí)圖譜補(bǔ)全任務(wù)中達(dá)到最佳性能。
14、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明提出的多模態(tài)知識(shí)圖譜補(bǔ)全方法,與現(xiàn)有技術(shù)相比,本方法有效解決了圖像和文本之間的語義不一致、模態(tài)間特征空間差異、強(qiáng)視覺噪聲的去除等關(guān)鍵問題,增強(qiáng)了模型在多模態(tài)知識(shí)圖譜補(bǔ)全中的準(zhǔn)確性、魯棒性與收斂速度,且具備較強(qiáng)的擴(kuò)展性,適用于各種模態(tài)數(shù)據(jù)的融合與補(bǔ)全任務(wù)。
1.一種多模態(tài)知識(shí)圖譜補(bǔ)全方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的多模態(tài)知識(shí)圖譜補(bǔ)全方法,其特征在于,所述數(shù)據(jù)預(yù)處理與圖像篩選步驟中,采用pnp-vqa模型對(duì)圖像的文本描述提??;采用tf?-?idf矢量化與余弦相似度計(jì)算文本相似度。
3.根據(jù)權(quán)利要求1所述的多模態(tài)知識(shí)圖譜補(bǔ)全方法,其特征在于,所述特征編碼與融合步驟中,采用clip模型將文本和圖像映射到同一語義空間的模型;采用圖注意網(wǎng)絡(luò)處理知識(shí)圖譜結(jié)構(gòu)信息。
4.根據(jù)權(quán)利要求1所述的多模態(tài)知識(shí)圖譜補(bǔ)全方法,其特征在于,所述去噪與關(guān)系建模步驟中,采用正向擴(kuò)散和逆向生成的方式去噪;采用信息傳遞網(wǎng)絡(luò)構(gòu)建上下文權(quán)重矩陣,實(shí)現(xiàn)上下文信息集合。