本發(fā)明屬于自然語言處理領(lǐng)域,特別是涉及一種基于提示驅(qū)動和對比學習的社交媒體多模態(tài)情感分類方法。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,在社交媒體已成為人們表達感受、態(tài)度和一眼的重要平臺,人們不再局限于單一的文字交流,而是利用多種模態(tài)形式全方位、多角度地表達。情感分類旨在識別和分類各模態(tài)信息中所蘊含的情感傾向,將其分為積極的、消極的或中性的。早期的情感分類模型大多利用單一模態(tài)數(shù)據(jù)挖掘情感信息,容易導致情境的缺失以及分類結(jié)果的偏差,難以滿足精準、全面的情感識別與分類的需求,而多模態(tài)情感分類能夠融合多種模態(tài)信息源,更全面地捕捉情感線索,并提高情感分類的準確性。
2、現(xiàn)有的多模態(tài)情感分類方法雖然在一定程度上提高了情感識別的準確性,但仍面臨一些挑戰(zhàn)。其中,文本模態(tài)中包含著重要的情感線索,能夠提供更詳細、更準確的情感描述,但社交媒體中的文本數(shù)據(jù)中往往存在錯誤的句法結(jié)構(gòu)、冗余信息等,可能會引入額外的噪聲信息,這些信息影響文本的準確表達,甚至可能對情感分類產(chǎn)生誤導,不僅增加了模型處理的復雜度,還可能降低情感識別的準確性,而現(xiàn)有方法在處理文本模態(tài)信息時往往忽視這一點。其次,現(xiàn)有的基于對比學習的多模態(tài)情感分類方法在設計對比學習任務時,往往只關(guān)注簡單的特征匹配,雖然能夠在一定程度上提高模型的泛化能力,但過于簡單的對比學習任務可能無法充分挖掘和利用多模態(tài)信息中的情感線索,從而限制了模型在情感分類方面的性能。另外,忽視了情感極性之間的對比學習,可能無法使模型充分學習到不同情感極性樣本之間的微妙特征差異,從而影響了模型在情感分類方面的準確性和魯棒性。
3、為此,本發(fā)明旨在解決文本模態(tài)中錯誤與冗余信息處理不足的問題,并優(yōu)化對比學習任務的設計,以將多模態(tài)情感分類技術(shù)應用于社交媒體監(jiān)測、客戶服務、市場策略指定等領(lǐng)域。在社交媒體監(jiān)測方面,該技術(shù)能夠?qū)崟r分析公眾對特定品牌、產(chǎn)品或事件的情感傾向,為企業(yè)提供寶貴的市場洞察;在客戶服務領(lǐng)域,通過分析客戶發(fā)布的信息,企業(yè)能夠準確識別客戶的情緒狀態(tài),從而調(diào)整服務策略,提升客戶滿意度;在市場策略制定方面,有助于企業(yè)深入了解觀眾對廣告內(nèi)容的情感反應,為優(yōu)化營銷策略提供科學依據(jù)。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于提示驅(qū)動和對比學習的社交媒體多模態(tài)情感分類方法,以解決社交媒體中的用戶發(fā)表非正式語言、表情符號等多媒體內(nèi)容時面臨的文本模態(tài)噪聲與冗余信息處理不足的問題。
2、本發(fā)明所采用的技術(shù)方案是一種基于提示驅(qū)動和對比學習的社交媒體多模態(tài)情感分類方法,包括以下步驟:
3、步驟s1,獲取社交媒體的文本和視覺模態(tài)數(shù)據(jù)樣本,并對數(shù)據(jù)樣本進行預處理;
4、步驟s2,構(gòu)建文本主干結(jié)構(gòu)提示信息;
5、步驟s3,提取原始文本和數(shù)據(jù)增強后的文本模態(tài)特征序列,對文本數(shù)據(jù)進行句子劃分,并加入特殊標識符[cls]和[sep]分別標記句子的開頭、結(jié)尾;
6、步驟s4,對每個分支的視覺模態(tài)提取視覺特征序列;
7、步驟s5,構(gòu)建網(wǎng)絡,并將融合特征輸入到一個注意力層中,深入挖掘模態(tài)之間的潛在聯(lián)系;
8、步驟s6,將特征融合后的原始文本-視覺樣本對、加入提示的文本-視覺樣本對,分別與數(shù)據(jù)增強的文本-視覺樣本對進行對比學習;
9、步驟s7,計算原始樣本對與加入提示文本樣本對的一致性損失及最終的分類損失,進一步優(yōu)化模型;
10、步驟s8,經(jīng)過多模態(tài)情感分類器獲得情感分類結(jié)果。
11、進一步的,步驟s1具體包括:
12、s11,劃分訓練集、驗證集和測試集;
13、s12,去除標簽不一致的視覺-文本對;
14、s13,對不同模態(tài)的數(shù)據(jù)做統(tǒng)一處理,利用數(shù)據(jù)增強技術(shù)擴充數(shù)據(jù)集,采用同義詞替換、隨機插入、反向翻譯數(shù)據(jù)增強技術(shù)擴充文本模態(tài)數(shù)據(jù)集,采用裁剪、顏色變換、旋轉(zhuǎn)、色度分離數(shù)據(jù)增強技術(shù)擴充視覺模態(tài)數(shù)據(jù)集。
15、進一步的,步驟s2中,構(gòu)建文本主干結(jié)構(gòu)提示信息的具體公式如下:
16、p=llama(t1,t2,…,ts)
17、其中,p表示經(jīng)過llama3模型構(gòu)建的文本主干結(jié)構(gòu)提示信息,t1,t2,…,ts表示原始文本切片,s表示原始文本的長度,llama(·)表示llama3模型生成提示文本信息的過程。
18、進一步的,步驟s3中,將分詞后的文本轉(zhuǎn)換為bert模型可以識別的id列表,具體可表示為:
19、torigin=token_to_id([[cls],t1,t2,…,ts,[sep]])
20、taug=token_to_id([[cls],a1,a2,…,ak,[sep]])
21、其中,torigin表示預處理后的原始文本,taug表示預處理后的數(shù)據(jù)增強的文本,t1,t2,…,ts表示原始文本切片,s表示原始文本的長度,a,a2,…,ak表示數(shù)據(jù)增強后的文本切片,k表示數(shù)據(jù)增強后的文本長度,token_to_id(·)表示將分詞后的文本轉(zhuǎn)換為bert模型可識別的id列表的操作;
22、然后對步驟s2中加入提示信息的文本模態(tài)特征序列進行提取,采用bert分詞器進行句子劃分,將原始文本與提示信息采用特殊標識[sep]連接,并通過[cls]和[sep]分別標記開頭和結(jié)尾,將分詞后的加入提示信息的文本轉(zhuǎn)換為bert模型可以識別的id列表,具體可表示為:
23、tprompt=token_to_id([[cls],t1,t2,…,ts,[sep],p1,p2,…,pm,[sep]])
24、其中,tprompt表示預處理后的加入提示信息的文本,t1,t2,…,ts表示原始文本切片,s表示原始文本的長度,p1,p2,…,pm表示由llama3模型生成的提示文本切片,m表示提示文本的長度,token_to_id(·)表示將分詞后的文本轉(zhuǎn)換為bert模型可識別的id列表的操作;
25、進而將torigin、taug和tprompt輸入到bert模型進行編碼以提取原始文本和數(shù)據(jù)增強后的文本特征序列,具體表示如下:
26、
27、其中,表示由bert提取到的原始文本特征序列,表示由bert提取到的數(shù)據(jù)增強后的文本特征序列,表示由bert提取到的加入提示的文本特征序列,bert(·)表示利用bert模型進行特征提取的過程,torigin表示預處理后的原始文本,taug表示預處理后的數(shù)據(jù)增強的文本,tprompt表示預處理后的加入提示信息的文本。
28、進一步的,步驟s4中,具體視覺模態(tài)特征序列表示為:
29、
30、
31、其中,iorigin表示原始視覺輸入,iaug表示增強視覺輸入;resnet(·)表示利用resnet-50模型進行視覺特征提取,表示由resnet模型提取的原始視覺特征序列,表示由resnet模型提取的增強視覺特征序列,roberta(·)表示采用roberta模型進一步提取視覺模態(tài)特征,表示最終提取的原始視覺特征序列,表示最終提取的數(shù)據(jù)增強后的視覺特征序列。
32、進一步的,步驟s5中,實現(xiàn)對跨模態(tài)特征的融合與對齊,并將融合特征輸入到一個注意力層中深入挖掘模態(tài)之間的潛在聯(lián)系的具體公式為:
33、
34、其中,cat(·)表示級聯(lián)操作,h表示文本-視覺模態(tài)簡單連接的特征,ho表示原始樣本對的簡單連接特征,ha表示數(shù)據(jù)增強后的樣本對的簡單連接特征,hp表示加入提示的樣本對的簡單連接特征,f表示經(jīng)過transformer獲取到的融合特征,fo表示經(jīng)過transformer獲取到的原始文本-視覺對融合特征,fa表示經(jīng)過transformer獲取到的數(shù)據(jù)增強后的文本-視覺對融合特征,fp表示經(jīng)過transformer獲取到的加入提示信息的文本-視覺對融合特征,qf表示由f獲取的查詢向量,表示由f獲取的鍵向量kf的轉(zhuǎn)置向量,vf表示由f獲取的值向量,f表示由注意力層進一步獲得的最終融合特征,fo表示由注意力層獲得的原始數(shù)據(jù)的融合特征,fa表示由注意力層獲得的數(shù)據(jù)增強后的數(shù)據(jù)的融合特征,fp表示由注意力層獲得的加入提示的數(shù)據(jù)的融合特征,表示最終提取的原始視覺特征序列,表示最終提取的數(shù)據(jù)增強后的視覺特征序列,表示由bert提取到的原始文本特征序列,表示由bert提取到的數(shù)據(jù)增強后的文本特征序列,htp表示由bert提取到的加入提示的文本特征序列,tf(·)表示采用transformer融合網(wǎng)絡進行跨模態(tài)特征融合的過程,softmax(·)表示歸一化處理過程。
35、進一步的,步驟s6中,對比學習的具體表示如下:
36、
37、其中,foa表示原始數(shù)據(jù)樣本與數(shù)據(jù)增強的數(shù)據(jù)樣本之間的矩陣乘積,fo表示最終提取的原始文本-視覺對的融合特征,表示最終提取的原始文本-視覺對的融合特征的轉(zhuǎn)置,fpa表示加入提示信息的數(shù)據(jù)樣本與數(shù)據(jù)增強的數(shù)據(jù)樣本之間的矩陣乘積,fp表示最終提取的加入提示信息的文本-視覺對的融合特征,τ表示溫度參數(shù),取值為0.07,loacl表示原始數(shù)據(jù)樣本與數(shù)據(jù)增強的樣本之間的對比損失,lpacl表示加入提示信息的數(shù)據(jù)樣本與數(shù)據(jù)增強的樣本之間的對比損失,yi=y(tǒng)j表示具有相同的情感極性的樣本,yi≠yj表示具有不同的情感極性的樣本,yi表示第i個數(shù)據(jù)樣本,yj表示第j個數(shù)據(jù)樣本,dot(·)表示點積相似度計算過程,n表示批處理樣本數(shù),表示第i個原始數(shù)據(jù)樣本與數(shù)據(jù)增強的數(shù)據(jù)樣本的矩陣乘積,表示第j個原始數(shù)據(jù)樣本與數(shù)據(jù)增強的數(shù)據(jù)樣本的矩陣乘積,表示第i個加入提示信息的數(shù)據(jù)樣本與數(shù)據(jù)增強的數(shù)據(jù)樣本的矩陣乘積,表示第j個加入提示信息的數(shù)據(jù)樣本與數(shù)據(jù)增強的數(shù)據(jù)樣本的矩陣乘積。
38、進一步的,步驟s7中,計算損失的具體步驟如下:
39、s71,原始樣本對與加入提示文本的樣本的一致性損失具體表示為:
40、
41、其中,lopcl表示原始樣本對與加入提示文本的樣本對的一致性損失,表示第i個原始樣本對最終提取的的融合特征,表示第i個加入提示信息的樣本對最終提取的融合特征,cos(·)表示計算余弦相似度,n表示批處理樣本數(shù),i表示第i個樣本,τ表示溫度參數(shù),取值為0.07,γ1表示均方誤差計算過程的超參系數(shù),取值為0.8,γ2表示余弦相似度一致性損失計算過程的超參系數(shù),取值為0.2;
42、s72,計算最終的分類損失,具體表示為:
43、
44、其中,lce表示分類損失,crossentropyloss(·)表示交叉熵損失,表示模型預測輸出,label表示樣本真實標簽;
45、s73,計算總損失,具體表示為:
46、ltotal=lce+λ1lopcl+λ2loacl+λ3lpacl
47、其中,ltotal表示總損失,lce表示分類損失,lopcl表示原始樣本對與加入提示文本的樣本的一致性損失,loacl表示原始數(shù)據(jù)樣本與數(shù)據(jù)增強的樣本之間的對比損失,lpacl表示加入提示信息的數(shù)據(jù)樣本與數(shù)據(jù)增強的樣本之間的對比損失,λ1表示原始數(shù)據(jù)樣本與數(shù)據(jù)增強的樣本之間的對比損失的超參系數(shù),取值為0.4,λ2表示加入提示信息的數(shù)據(jù)樣本與數(shù)據(jù)增強的樣本之間的對比損失的超參系數(shù),取值為0.3,λ3表示原始樣本對與加入提示文本的樣本的一致性損失的超參系數(shù),取值為0.3。
48、進一步的,步驟s8中,情感分類結(jié)果具體表示為:
49、
50、其中,fc(·)表示全連接層,gelu(·)表示激活函數(shù),表示模型預測輸出,fo表示由注意力層獲得的原始數(shù)據(jù)的融合特征。
51、本發(fā)明的有益效果是:
52、1、本發(fā)明通過引入的提示驅(qū)動機制和對比學習策略,有效降低了社交媒體文本中噪聲和冗余信息對情感分類準確性的影響,使得模型能夠更精確地捕捉文本和視覺模態(tài)信息中的情感線索,從而大幅度提升了情感分類的準確性。
53、2、本發(fā)明充分考慮了多模態(tài)數(shù)據(jù)間的互補性和關(guān)聯(lián)性,通過構(gòu)建對比損失和一致性損失函數(shù),促進了不同模態(tài)特征之間的有效融合,不僅增強了模型對復雜情感信息的處理能力,還使得模型能夠更全面地理解社交媒體內(nèi)容中的情感表達。