本發(fā)明屬于計算機(jī)視覺和自然語言處理領(lǐng)域,尤其涉及一種增強(qiáng)目標(biāo)視覺特征的多模態(tài)方面級情感分析方法。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,社交媒體和電子商務(wù)平臺已成為人們?nèi)粘=涣骱蜕虡I(yè)活動的重要平臺。這些平臺上的用戶互動大多通過文本評論表達(dá),同時越來越多的用戶傾向于附加相關(guān)圖片以增強(qiáng)信息的表達(dá)力。這種多模態(tài)(文本和圖像)數(shù)據(jù)的普及為情感分析技術(shù)提供了新的研究方向和應(yīng)用場景,即通過分析文本與圖像的綜合信息來更全面地理解用戶的情緒和意見。
2、多模態(tài)情感分析是指結(jié)合來自不同信息源(如文本、圖像、音頻等)的數(shù)據(jù),以預(yù)測用戶的情感態(tài)度。特別是文本和圖像的結(jié)合,為情感分析提供了更豐富的情境和背景信息。例如,一張表情豐富的圖片配合消極的評論,可能表達(dá)的是諷刺的情感,這在單一的文本分析中可能難以準(zhǔn)確捕捉。方面級情感分析更進(jìn)一步,不僅分析整體的情感傾向,還細(xì)化到文本中具體方面的情感分析,如評價對象的具體屬性或特征。這種分析幫助企業(yè)精確理解消費者對產(chǎn)品各個方面的具體感受。目前,廣泛使用的公知技術(shù)包括以下:卷積神經(jīng)網(wǎng)絡(luò)(cnn):廣泛用于圖像處理,能夠捕捉圖像中的空間層次結(jié)構(gòu)。長短期記憶網(wǎng)絡(luò)(lstm):優(yōu)于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn),能更有效地處理長序列文本數(shù)據(jù)。注意力機(jī)制:改善模型對于信息重要部分的聚焦能力,尤其在方面級情感分析中應(yīng)用廣泛。bert(bidirectionalencoder?representations?from?transformers):作為一種預(yù)訓(xùn)練模型,通過大規(guī)模語料庫訓(xùn)練得到,能夠有效提取文本特征。faster?r-cnn:一種高效的目標(biāo)檢測技術(shù),常用于在圖像中快速準(zhǔn)確地識別和定位對象。
3、盡管目前的多模態(tài)情感分析技術(shù)已取得一定進(jìn)展,但依然存在以下缺陷:模態(tài)融合困難:不同模態(tài)之間存在較大的表示差異,如何有效融合文本和圖像信息是一個挑戰(zhàn)。現(xiàn)有方法往往無法充分利用圖像中的細(xì)節(jié)信息,特別是當(dāng)圖像內(nèi)容與文本信息直接相關(guān)時。情感預(yù)測不準(zhǔn)確:現(xiàn)有模型在處理具有諷刺或含糊不清情感表達(dá)的文本時,往往準(zhǔn)確率較低。這是因為模型難以捕捉到細(xì)微的情感變化,尤其是當(dāng)文本的字面意思與圖像表達(dá)的情感不一致時。資源消耗大:多模態(tài)分析通常需要較大的計算資源,尤其是在處理高分辨率圖像和大規(guī)模文本數(shù)據(jù)時,計算成本和時間成本較高。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有多模態(tài)情感分析技術(shù)在模態(tài)融合困難、情感預(yù)測不準(zhǔn)確及資源消耗大的問題,本發(fā)明提出一種增強(qiáng)目標(biāo)視覺特征的多模態(tài)方面級情感分析方法,以提高情感預(yù)測的精度和效率,同時減少計算資源的消耗。為實現(xiàn)上述目的,本發(fā)明所述技術(shù)方案包括以下步驟:
2、s1:多模態(tài)數(shù)據(jù)獲取,獲取一組多模態(tài)數(shù)據(jù)樣本d,其中每個樣本d∈d,每個樣本包括文本評論t={t1,t2,…,tn}、其中出現(xiàn)的一個或多個方面詞a={a1,a2,…,ar}以及與所述文本評論相對應(yīng)的圖像i;
3、s2:文本預(yù)處理與編碼,對所述文本評論t進(jìn)行分詞、去除無效字符和大小寫標(biāo)準(zhǔn)化預(yù)處理;使用bert模型對預(yù)處理后的文本評論t和方面詞a的特征提取編碼器進(jìn)行編碼,其計算公式為:
4、ttext=bert(t)?(1)
5、taspect=bert(a)?(2)
6、其中,ttext∈rs×d,taspect∈rq×d,s和q分別表示編碼后的文本和方面詞序列的長度,d表示每個單詞向量的隱藏維度;
7、s3:圖像預(yù)處理與編碼,包括以下步驟:
8、s3-1:對所述圖像i進(jìn)行尺寸調(diào)整與歸一化處理,并將處理后的圖像輸入至預(yù)訓(xùn)練的resnet50模型,提取圖像特征圖,其計算公式為:
9、
10、iij=i[i×14:(i+1)×14,j×14:(j+1)×14]?(4)
11、iijimage=resnet50?(iij)?(5)
12、其中,iijimage∈r196×2048,w和h是原圖像的寬度和高度,nh和nw表示圖像塊的數(shù)量,iij表示分割的圖像塊;
13、s3-2:將圖像模態(tài)的特征維度iijimage展平為二維矩陣表示,并通過線性變換層映射到與文本嵌入相同維度,其計算公式為:
14、iijv=w0iijimage+b0?(6)
15、其中,iijv∈r196×d,w0和b0為線性變換層的可學(xué)習(xí)的參數(shù);
16、s4:文本圖構(gòu)建與圖卷積網(wǎng)絡(luò)處理,利用依存句法分析工具對文本評論t的單詞與單詞之間進(jìn)行依存句法解析,得到文本依存關(guān)系的鄰接矩陣at∈rn×n,提供鄰接矩陣圖卷積網(wǎng)絡(luò)gcn處理,其計算公式為:
17、
18、ft=ht(l+1)?(8)
19、其中,ht(l)表示第l層的gcn的輸入特征,ht(l+1)表示第(l+1)層gcn的輸出特征,為鄰接矩陣at的度矩陣,w(l)表示可訓(xùn)練參數(shù);
20、s5:圖像圖構(gòu)建與圖卷積網(wǎng)絡(luò)處理,對每個圖像塊iijv特征向量使用k近鄰算法來尋找每個特征向量的最近鄰居,找到了每個特征向量的k個最近鄰居,并記錄這些鄰居的索引。并基于鄰居信息構(gòu)建圖的鄰接矩陣av∈rm×m。其具體的計算公式如下:
21、
22、fv=hv(s+1)?(10)
23、其中,hv(s)表示第s層的gcn的輸入特征,hv(s+1)表示第(s+1)層gcn的輸出特征,為鄰接矩陣av的度矩陣,s表示可訓(xùn)練參數(shù),k默認(rèn)設(shè)置為8;
24、s6:通過clip模型同時對文本與圖像進(jìn)行編碼,分別計算文本與圖像、方面詞與圖像之間的余弦相似度,并通過加權(quán)系數(shù)得到綜合相似度,其計算公式為:
25、fimage,ftext,faspect=clipmodel(i,t,a)?(11)
26、
27、其中,ftext,faspect,fimage表示文本、方面詞和圖像的特征向量,simtext,i和simaspect,i分別表示文本和圖像以及方面詞和圖像的余弦相似度,simcombined表示文本和方面詞與圖像的綜合余弦相似度,其值域在[-1,1],值越接近1表示向量越相似,μ表示相似度權(quán)重參數(shù)比例值;
28、s7:多模態(tài)交互注意力,以方面詞作為查詢,文本作為鍵和值進(jìn)行一次交叉注意力計算;以目標(biāo)視覺特征作為查詢,由blip模型生成的文本描述作為鍵和值進(jìn)行另一次交叉注意力計算,動態(tài)地調(diào)整注意力分布,其計算公式為:
29、qi=taspectwiq,?ki=ttextwik,?vi=ttextwiv?(15)
30、
31、head?i=attention?i(qi,ki,vi)?(17)
32、multihead(q,k,v)=concat?(head1,head2,…h(huán)ead?h)wo?(18)
33、其中,wiq,wik,wiv作為權(quán)重矩陣,h表示注意力頭的數(shù)量,ra-t=multihead(q,k,v)表示方面詞作為查詢的文本特征信息,其中ra-t∈rg×d;
34、s8:多模態(tài)交互注意力,通過拼接多個模塊輸出的特征向量,實現(xiàn)了對不同模態(tài)信息的全面整合,計算公式為:
35、eatv=concat?(ft;fv;ra-t;rv-t)?(19)
36、zatv=relu(watveatv+batv)?(20)
37、其中,watv,batv是可訓(xùn)練權(quán)重參數(shù);
38、s9:通過情感預(yù)測模塊進(jìn)行情感預(yù)測。
39、作為本發(fā)明的一個技術(shù)優(yōu)選方案,步驟s1包括獲取一組圖文多模態(tài)數(shù)據(jù)集d,每個樣本d∈d包括一個文本評論t、一副圖像i以及一個方面序列a;方面序列a是文本評論t的子序列;其中文本評論的長度為n,方面詞的長度為r,綜合運(yùn)用圖文信息(t,i),針對方面序列a進(jìn)行情感極性的預(yù)測,其中情感極性包括積極、中性和消極三種情感類別。
40、作為本發(fā)明的一個技術(shù)優(yōu)選方案,步驟s3中所述圖像預(yù)處理包括以下步驟:輸入的圖像首先被分割成14×14大小的圖像塊,然后每個圖像塊調(diào)整為224×224像素的標(biāo)準(zhǔn)尺寸;接著,將調(diào)整尺寸后的圖像轉(zhuǎn)換為張量形式,并將其像素值歸一化至[0,1]的范圍;最后,通過標(biāo)準(zhǔn)化操作,對每個顏色通道的像素值進(jìn)行歸一化處理,將其均值和標(biāo)準(zhǔn)差分別調(diào)整為[0.485,0.456,0.406]和[0.229,0.224,0.225],以確保圖像數(shù)據(jù)與預(yù)訓(xùn)練網(wǎng)絡(luò)的輸入格式高度一致。
41、作為本發(fā)明的一個技術(shù)優(yōu)選方案,步驟s6進(jìn)一步使用faster?r-cnn模型生成圖像中的候選區(qū)域;通過將faster?r-cnn與clip模型結(jié)合,精準(zhǔn)生成與文本描述相關(guān)的候選區(qū)域,其中,所述候選區(qū)域的確定包括物體的邊界框和相應(yīng)的置信分?jǐn)?shù),以及提取的最佳目標(biāo)視覺特征向量信息,具體計算公式為:
42、d=faster?r-cnn(i)?(21)
43、
44、其中,d包含物體的邊界框和對應(yīng)的置信分?jǐn)?shù),fr是最佳目標(biāo)視覺特征向量信息。
45、作為本發(fā)明的一個技術(shù)優(yōu)選方案,步驟s7進(jìn)一步使用最佳目標(biāo)視覺特征作為查詢,利用blip模型生成的文本描述timage作為鍵和值進(jìn)行多頭交叉注意力計算,該方法通過目標(biāo)視覺特征引導(dǎo)的文本特征信息rv-t∈r196×d;此過程借助多頭交叉注意力機(jī)制深度融合跨模態(tài)信息,多維度捕捉圖像與文本的豐富上下文。
46、作為本發(fā)明的一個技術(shù)優(yōu)選方案,步驟s9中所述情感預(yù)測模塊通過以下步驟進(jìn)行情感預(yù)測:
47、s9-1:將所述多模態(tài)融合向量f輸入至多層感知器,經(jīng)過若干全連接層并使用激活函數(shù);
48、s9-2:在輸出層采用softmax函數(shù)得到方面詞的情感預(yù)測結(jié)果y,其中情感極性包括積極、中性和消極;
49、s9-3:訓(xùn)練過程中,通過標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)加上l2正則項作為損失函數(shù)對模型進(jìn)行標(biāo)準(zhǔn)梯度下降訓(xùn)練,其計算公式為:
50、y=softmax(wsmlp(zatv)+bs)?(23)
51、
52、其中,softmax是激活函數(shù),ws和bs是可訓(xùn)練權(quán)重矩陣,i表示數(shù)據(jù)集中的一個樣本,l表示包含所有樣本的集合,yi為樣本標(biāo)簽真實值,為樣本的預(yù)測標(biāo)簽值;λ為正則化系數(shù),θ是所有可訓(xùn)練參數(shù)。
53、與相關(guān)的現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
54、細(xì)粒度特征信息的有效提?。和ㄟ^結(jié)合句法依存關(guān)系和knn算法,本模型能夠更深入地挖掘文本和圖像中的細(xì)粒度信息。這種方法相比傳統(tǒng)的多模態(tài)情感分析技術(shù),能夠更精確地識別和利用與情感相關(guān)的關(guān)鍵視覺和文本特征。
55、精確的視覺特征定位:利用clip模型結(jié)合faster?r-cnn實現(xiàn)目標(biāo)視覺特征的精確定位,本發(fā)明能夠有效地識別與文本方面詞最相關(guān)的圖像區(qū)域。這種方法提高了情感分析的準(zhǔn)確性,尤其是在處理復(fù)雜的視覺情境時,相比現(xiàn)有技術(shù),能更好地解析圖像內(nèi)容與文本意義之間的關(guān)聯(lián)。
56、深層模態(tài)間關(guān)聯(lián)的挖掘:通過交互注意力機(jī)制,本發(fā)明加強(qiáng)了不同模態(tài)之間的信息交互,使模型不僅僅處理表面的模態(tài)數(shù)據(jù),而是能夠深入理解模態(tài)間的內(nèi)在聯(lián)系。這種深層次的信息融合方法在多模態(tài)情感分析中是一大創(chuàng)新,能顯著提升分析的綜合性和深度。
57、性能和資源效率的優(yōu)化:本發(fā)明致力于設(shè)計更加輕量化的模型結(jié)構(gòu),減少計算復(fù)雜度和資源消耗,使得模型更適合在資源受限的環(huán)境下運(yùn)行。這對于實時或大規(guī)模數(shù)據(jù)處理場景尤為重要,有助于提升模型的實用性和可擴(kuò)展性。
58、適應(yīng)性和泛化能力:通過引入更多模態(tài)信息并改進(jìn)目標(biāo)視覺模塊,本發(fā)明能夠處理更廣泛的數(shù)據(jù)類型和更復(fù)雜的情感分析任務(wù)。這種靈活性和強(qiáng)大的泛化能力使得模型不僅適用于當(dāng)前的社交媒體和電子商務(wù)平臺,還能適應(yīng)未來可能出現(xiàn)的新平臺和新類型的多模態(tài)數(shù)據(jù)。