本發(fā)明屬于視覺語言多模態(tài)信息融合,尤其是涉及一種基于圖像描述的多模態(tài)情感分析方法、設(shè)備和介質(zhì)。
背景技術(shù):
1、視覺語言模型(vlms)有機結(jié)合了圖像和文本數(shù)據(jù),能夠同時從視覺和語言兩個維度獲取信息,從而增強模型理解和認(rèn)知能力,可有效處理情感分析等實際任務(wù)。然而,圖像與文本之間天然存在語義鴻溝,導(dǎo)致多模態(tài)模型在語義對齊出現(xiàn)困難,進(jìn)而導(dǎo)致語義理解方面的能力受到限制,降低了模型的整體表現(xiàn)和應(yīng)用效果。因此,彌合二者之間的鴻溝成為一項關(guān)鍵挑戰(zhàn)。
2、圖像描述作為由oriol?vinyals等人提出的有趣多模態(tài)任務(wù),可理解為讓計算機依據(jù)圖片內(nèi)容生成完整的描述性文字。早期的圖像描述依賴人工設(shè)計的規(guī)則和模板進(jìn)行生成,通常需預(yù)定義可能的物體、動作及場景列表,利用分類算法識別這些元素并填充至描述模板中,這種方法過于依賴于手動定義的規(guī)則和模板,導(dǎo)致在面對復(fù)雜場景時顯得不夠靈活,難以適應(yīng)多變的圖像內(nèi)容。后續(xù)研究開始采用機器學(xué)習(xí)方法,利用特征工程提取關(guān)鍵圖像特征(如sift、hog等),并基于這些特征進(jìn)行更復(fù)雜的圖像處理和文本生成。盡管此類方法更具靈活性,但通常需要處理復(fù)雜的視覺信息,這對計算資源的需求較高,可能導(dǎo)致處理速度緩慢和效率低下。此外,如何將圖像描述和文本數(shù)據(jù)進(jìn)行融合也是多模態(tài)深度學(xué)習(xí)的重大難題,現(xiàn)有方法主要是學(xué)習(xí)融合提取的異構(gòu)特征,并將其投射至共同的表示空間,而這對模態(tài)交互模塊提出了極高要求。因此,盡管現(xiàn)有的視覺-語言預(yù)訓(xùn)練模型(vlp)在圖像描述生成等任務(wù)上表現(xiàn)出色,但直接應(yīng)用于多模態(tài)任務(wù)時,由于缺乏跨模態(tài)相關(guān)性學(xué)習(xí),性能并不理想。
3、綜上所述,需要設(shè)計一種多模態(tài)情感分析方法,可以有效減少模態(tài)間的語義差距,改善多模態(tài)信息的融合效果,進(jìn)而提高分析結(jié)果的準(zhǔn)確性,同時還可以降低對計算資源的需求。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于圖像描述的多模態(tài)情感分析方法、設(shè)備和介質(zhì),以有效減少模態(tài)間的語義差距,改善多模態(tài)信息的融合效果,進(jìn)而提高分析結(jié)果的準(zhǔn)確性,同時還可以降低對計算資源的需求。
2、本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
3、本發(fā)明提供一種基于圖像描述的多模態(tài)情感分析方法,包括以下步驟:
4、獲取圖像數(shù)據(jù)和文本數(shù)據(jù),輸入基于圖像描述的多模態(tài)情感分析模型,輸出情感分析結(jié)果;
5、其中,所述基于圖像描述的多模態(tài)情感分析模型包括語義提取模塊、特征提取模塊、語義重構(gòu)模塊、特征融合模塊和分類模塊,所述語義提取模塊用于通過預(yù)訓(xùn)練的視覺語言模型根據(jù)圖像數(shù)據(jù)生成相應(yīng)的圖像描述;所述特征提取模塊用于對文本數(shù)據(jù)和所述圖像描述分別進(jìn)行特征提取,獲得文本特征和圖像描述特征;所述語義重構(gòu)模塊包括多個線性層,用于對所述文本特征和所述圖像描述特征分別進(jìn)行重構(gòu),獲得文本重構(gòu)特征和圖像描述重構(gòu)特征;所述特征融合模塊通過門控機制動態(tài)調(diào)整所述文本重構(gòu)特征和所述圖像描述重構(gòu)特征的權(quán)重,將所述文本重構(gòu)特征和所述圖像描述重構(gòu)特征進(jìn)行加權(quán)融合,獲得融合特征;所述分類模塊用于通過分類器根據(jù)所述融合特征輸出情感分析結(jié)果。
6、進(jìn)一步地,所述預(yù)訓(xùn)練的視覺語言模型為blip-2-opt-2.7b。
7、進(jìn)一步地,通過預(yù)訓(xùn)練的gpt-2對文本數(shù)據(jù)和所述圖像描述分別進(jìn)行特征提取。
8、進(jìn)一步地,所述語義重構(gòu)模塊包括兩個單層的線性層。
9、進(jìn)一步地,通過早期融合和后期融合將所述文本重構(gòu)特征和所述圖像描述重構(gòu)特征進(jìn)行加權(quán)融合。
10、進(jìn)一步地,所述早期融合基于雙線性池化進(jìn)行,具體過程如下:
11、分別通過多層感知機將所述文本重構(gòu)特征和所述圖像描述重構(gòu)特征進(jìn)行映射,獲得文本重構(gòu)特征向量和圖像描述重構(gòu)特征向量;
12、計算所述文本重構(gòu)特征向量和所述圖像描述重構(gòu)特征向量的外積并進(jìn)行池化操作。
13、進(jìn)一步地,所述后期融合基于平均方法進(jìn)行,具體過程如下:
14、分別將所述文本重構(gòu)特征和所述圖像描述重構(gòu)特征輸入線性分類器,獲得相應(yīng)的分類器決策;
15、對所述文本重構(gòu)特征和所述圖像描述重構(gòu)特征的分類器決策進(jìn)行加權(quán)平均。
16、進(jìn)一步地,所述分類器為線性分類器。
17、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器,以及存儲于所述存儲器中的程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述方法。
18、本發(fā)明還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)上述方法。
19、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
20、1、本發(fā)明提出了一種基于圖像描述的多模態(tài)情感分析方法,設(shè)計了一個基于圖像描述的多模態(tài)情感分析模型,可根據(jù)圖像數(shù)據(jù)和文本數(shù)據(jù)生成情感分析結(jié)果;該模型包括語義提取模塊、特征提取模塊、語義重構(gòu)模塊、特征融合模塊和分類模塊,其中,語義提取模塊用于根據(jù)圖像數(shù)據(jù)生成相應(yīng)的圖像描述作為后續(xù)模塊的輸入,一方面可以減少模態(tài)間的語義差距,另一方面可以簡化視覺信息的處理過程,在保留圖像內(nèi)容豐富性和準(zhǔn)確性的同時大幅減少對計算資源的需求,而通過預(yù)訓(xùn)練的視覺語言模型生成圖像描述,可以降低訓(xùn)練成本,顯著增強多模態(tài)效應(yīng),提取更為豐富、客觀的信息;特征提取模塊用于對文本數(shù)據(jù)和圖像描述分別進(jìn)行特征提取,獲得文本特征和圖像描述特征,可以準(zhǔn)確地反映圖像內(nèi)容和文本語義,為后續(xù)的處理過程奠定堅實基礎(chǔ);語義重構(gòu)模塊包括多個線性層,用于對所述文本特征和所述圖像描述特征分別進(jìn)行重構(gòu),能夠確保不同模態(tài)的特征在同一空間中進(jìn)行有效比較與結(jié)合;特征融合模塊通過門控機制動態(tài)調(diào)整文本重構(gòu)特征和圖像描述重構(gòu)特征的權(quán)重,將文本重構(gòu)特征和圖像描述重構(gòu)特征進(jìn)行加權(quán)融合,獲得融合特征,使得模型能夠更好地學(xué)習(xí)不同模態(tài)之間的關(guān)系,大幅提升最終的識別和生成能力;因此,上述方法可以有效減少模態(tài)間的語義差距,改善多模態(tài)信息的融合效果,進(jìn)而提高分析結(jié)果的準(zhǔn)確性,同時還可以降低對計算資源的需求。
21、2、本發(fā)明具體通過早期融合和后期融合將文本重構(gòu)特征和圖像描述重構(gòu)特征進(jìn)行加權(quán)融合,其中,早期融合基于雙線性池化進(jìn)行,具體過程如下:分別通過多層感知機將文本重構(gòu)特征和圖像描述重構(gòu)特征進(jìn)行映射,獲得文本重構(gòu)特征向量和圖像描述重構(gòu)特征向量,然后計算文本重構(gòu)特征向量和圖像描述重構(gòu)特征向量的外積并進(jìn)行池化操作;后期融合基于平均方法進(jìn)行,具體過程如下:分別將文本重構(gòu)特征和圖像描述重構(gòu)特征輸入線性分類器,獲得相應(yīng)的分類器決策,然后對文本重構(gòu)特征和圖像描述重構(gòu)特征的分類器決策進(jìn)行加權(quán)平均;早期融合為特征級融合,可以保留各模態(tài)的完整信息,后期融合為決策級融合,可以充分利用不同模態(tài)數(shù)據(jù)的互補性,提高模型的魯棒性和準(zhǔn)確性。
1.一種基于圖像描述的多模態(tài)情感分析方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于圖像描述的多模態(tài)情感分析方法,其特征在于,所述預(yù)訓(xùn)練的視覺語言模型為blip-2-opt-2.7b。
3.根據(jù)權(quán)利要求1所述的一種基于圖像描述的多模態(tài)情感分析方法,其特征在于,通過預(yù)訓(xùn)練的gpt-2對文本數(shù)據(jù)和所述圖像描述分別進(jìn)行特征提取。
4.根據(jù)權(quán)利要求1所述的一種基于圖像描述的多模態(tài)情感分析方法,其特征在于,所述語義重構(gòu)模塊包括兩個單層的線性層。
5.根據(jù)權(quán)利要求1所述的一種基于圖像描述的多模態(tài)情感分析方法,其特征在于,通過早期融合和后期融合將所述文本重構(gòu)特征和所述圖像描述重構(gòu)特征進(jìn)行加權(quán)融合。
6.根據(jù)權(quán)利要求5所述的一種基于圖像描述的多模態(tài)情感分析方法,其特征在于,所述早期融合基于雙線性池化進(jìn)行,具體過程如下:
7.根據(jù)權(quán)利要求5所述的一種基于圖像描述的多模態(tài)情感分析方法,其特征在于,所述后期融合基于平均方法進(jìn)行,具體過程如下:
8.根據(jù)權(quán)利要求1所述的一種基于圖像描述的多模態(tài)情感分析方法,其特征在于,所述分類器為線性分類器。
9.一種電子設(shè)備,包括存儲器、處理器,以及存儲于所述存儲器中的程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-8中任一所述的方法。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-8中任一所述的方法。