本發(fā)明屬于人工智能與自然語言處理,特別涉及一種基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法。
背景技術(shù):
1、情感分析是對帶有情感信息的數(shù)據(jù)進(jìn)行分析、處理、歸納和推理的過程。情感分析的理論和算法構(gòu)建涉及人工智能(ai)、計算機(jī)視覺(cv)和自然語言處理(nlp)等多個方面,是一個多學(xué)科交叉的研究領(lǐng)域。
2、傳統(tǒng)的情感分析通常局限于單一信息源,如文本或語音,難以全面地捕捉人類復(fù)雜的情感狀態(tài)。多模態(tài)情感分析(msa)旨在融合不同信息源如視覺、語音和文本等,以更準(zhǔn)確地識別和理解人類的情感。但是,相比中文、英文等主流語言的情感分析研究,蒙古語作為小語種語言,其情感分析因樣本缺乏、語言結(jié)構(gòu)特殊等原因,在準(zhǔn)確度、速度等方面仍有不足。
技術(shù)實現(xiàn)思路
1、為了克服上述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,以解決蒙古語情感分析中存在的有效信息易丟失、情感信息提取能力弱和多模態(tài)特征缺乏深度融合導(dǎo)致的融合不充分等問題。
2、為了實現(xiàn)上述目的,本發(fā)明首先將原始數(shù)據(jù)經(jīng)過預(yù)處理得到各模態(tài)的初始特征。其次,通過門控transformer編碼器實現(xiàn)信息過濾,得到低級文本特征和初始超模態(tài)特征。接著,進(jìn)入到自適應(yīng)超模態(tài)學(xué)習(xí)模塊,低級文本特征和初始超模態(tài)通過雙向跨模態(tài)注意力進(jìn)行交互,得到最終文本特征和最終超模態(tài)特征。然后,通過跨模態(tài)transformer得到一個聯(lián)合的多模態(tài)表示,再利用軟注意力機(jī)制為聯(lián)合多模態(tài)表示分配不同的權(quán)重,最終通過全連接層實現(xiàn)多模態(tài)情感分類。
3、本發(fā)明采用的技術(shù)方案可進(jìn)一步描述如下:
4、一種基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,包括如下步驟:
5、步驟1,對由文本、音頻和視頻組成的多模態(tài)數(shù)據(jù),分別提取文本特征、音頻特征和視頻特征;
6、步驟2,利用門控transformer編碼器,從所述文本特征、音頻特征和視頻特征分別提取低級文本特征、低級音頻特征和低級視頻特征;
7、步驟3,利用由n個門控transformer編碼器和n+1個自適應(yīng)超模態(tài)學(xué)習(xí)層組成的自適應(yīng)超模態(tài)學(xué)習(xí)模塊,定義初始超模態(tài)特征,在一個自適應(yīng)超模態(tài)學(xué)習(xí)層中,以所述低級文本特征引導(dǎo)所述低級音頻特征和低級視頻特征產(chǎn)生中間超模態(tài)特征,隨后以中間超模態(tài)特征作用于低級文本特征并利用一個門控transformer編碼器從提取下一尺度文本特征,實現(xiàn)雙向跨模態(tài)注意力交互,中間超模態(tài)特征和下一尺度文本特征再繼續(xù)進(jìn)行n次雙向跨模態(tài)注意力交互,得到最終文本特征和最終超模態(tài)特征;
8、步驟4,將所述最終文本特征和最終超模態(tài)特征通過跨模態(tài)transformer得到一個聯(lián)合的多模態(tài)表示,再利用軟注意力機(jī)制為所述聯(lián)合的多模態(tài)表示分配不同的權(quán)重進(jìn)行加權(quán)融合,最終通過全連接層實現(xiàn)多模態(tài)情感分類。
9、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
10、蒙古語多模態(tài)情感分析任務(wù)中,避免有效信息的丟失、提高情感信息提取能力是提升情感分類性能的關(guān)鍵問題。在傳統(tǒng)transformer模型中,前饋層只是對輸入特征的線性變換,難以區(qū)分有價值的信息,容易造成信息丟失。本發(fā)明構(gòu)建的基于門控信息通道的transformer編碼器引入門控信息通道以替代前饋層,自適應(yīng)地選擇保留初始特征或更新后的特征,從而避免重要信息的丟失,更加高效和準(zhǔn)確。除此之外,本發(fā)明通過引入自適應(yīng)超模態(tài)學(xué)習(xí)(ahl)模塊動態(tài)學(xué)習(xí)情感相關(guān)的信息,生成包含較少無關(guān)信息的中間超模態(tài)標(biāo)記,增加情感相關(guān)特征的權(quán)重,從而提高蒙古語情感信息提取能力,以便于進(jìn)行最后的多模態(tài)融合。
11、在蒙古語多模態(tài)情感分析中,文本、視覺和音頻等模態(tài)包含了關(guān)鍵的情感信息。然而,現(xiàn)有的多模態(tài)融合方法未能有效捕捉模態(tài)間復(fù)雜的交互關(guān)系,導(dǎo)致特征融合不足。為了解決這一問題,本發(fā)明構(gòu)建了一種多層注意力機(jī)制。首先通過多頭自注意力機(jī)制對每個模態(tài)內(nèi)部信息進(jìn)行建模,隨后利用雙向跨模態(tài)注意力機(jī)制促進(jìn)文本特征與視覺、音頻模態(tài)之間的交互,最后通過單向跨模態(tài)注意力機(jī)制進(jìn)一步融合超模態(tài)與文本特征。這種分層的動態(tài)交互策略能夠有效地促進(jìn)模態(tài)間的信息融合,從而解決多模態(tài)特征融合不充分的問題。
1.一種基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,所述門控transformer編碼器,是以門控信息通道替換transformer編碼器現(xiàn)有的前饋層,所述門控信息通道由記憶門和更新門組成,所述門控transformer編碼器由多個子層堆疊而成,每個子層保留transformer的多頭自注意力機(jī)制,對于輸入模態(tài),所述門控transformer編碼器先通過分層多頭自注意力機(jī)制提取特征h∈rt×d,然后利用門控信息通道的記憶門和更新門對提取到的特征進(jìn)行篩選和融合,其中t為時間步數(shù),d為特征維度。
3.根據(jù)權(quán)利要求2所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,所述記憶門用于存儲信息,保留有價值的初始特征信息,并將其與新的信息相結(jié)合,生成新的特征hm,表示為:
4.根據(jù)權(quán)利要求1至3任一項權(quán)利要求所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,n=2,所述自適應(yīng)超模態(tài)學(xué)習(xí)模塊進(jìn)行了雙尺度文本特征的構(gòu)建,方法如下:
5.根據(jù)權(quán)利要求4所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,所述自適應(yīng)超模態(tài)學(xué)習(xí)層,對于不同尺度的文本特征首先初始化一個超模態(tài)特征然后利用雙向跨模態(tài)注意力機(jī)制,通過計算獲得的文本特征與音頻特征、視頻特征之間的關(guān)系來更新并用更新后得到的超模態(tài)特征反向影響得到反向影響后的文本特征
6.根據(jù)權(quán)利要求5所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,在自適應(yīng)超模態(tài)學(xué)習(xí)層中,將作為查詢向量,低級音頻特征和低級視頻特征分別作為鍵向量,得到文本模態(tài)與音頻模態(tài)之間的相似矩陣α,以及文本模態(tài)與視覺模態(tài)之間的相似矩陣β,表示為:
7.根據(jù)權(quán)利要求5所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,所述超模態(tài)特征通過加權(quán)音頻特征和加權(quán)視覺特征進(jìn)行更新,表示為:
8.根據(jù)權(quán)利要求5所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,所述超模態(tài)特征反向作用于文本模態(tài),更新文本特征得到表示為:
9.根據(jù)權(quán)利要求5所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,所述跨模態(tài)transformer中,采用單向跨模態(tài)注意力機(jī)制,實現(xiàn)文本特征與超模態(tài)特征之間的融合,融合過程表示為:
10.根據(jù)權(quán)利要求6所述基于自適應(yīng)超模態(tài)和多層注意力的蒙古語多模態(tài)情感分析方法,其特征在于,所述利用軟注意力機(jī)制為所述聯(lián)合的多模態(tài)表示分配不同的權(quán)重進(jìn)行加權(quán)融合,包括: