:本發(fā)明涉及情感分析領(lǐng)域,具體涉及一種基于雙通道語(yǔ)義增強(qiáng)的彈幕情感分析模型構(gòu)建方法,用于從彈幕文本中抽取豐富的語(yǔ)義信息并進(jìn)行情感分類。
背景技術(shù)
0、
背景技術(shù):
1、情感分析(sentiment?analysis,sa)是自然語(yǔ)言處理中的熱點(diǎn)研究方向之一,是輿情分析的重要維度,其主要目標(biāo)是將給定文本分類為多個(gè)情感類別(如積極、消極或中立),提取和識(shí)別人們對(duì)于某實(shí)體的情感傾向,對(duì)內(nèi)容推薦、網(wǎng)絡(luò)輿情挖掘、社交媒體分析等領(lǐng)域具有重要意義。
2、彈幕是一種在視頻中滾動(dòng)而過(guò)的新型短文本,廣受青年用戶的青睞。在視頻觀看過(guò)程中,觀眾可以通過(guò)發(fā)送彈幕來(lái)圍繞視頻內(nèi)容進(jìn)行實(shí)時(shí)交流,同時(shí)傳遞自身的想法和情感。體量龐大的彈幕文本中蘊(yùn)藏著豐富的情緒信息,挖掘這些信息能夠?yàn)橐曨l內(nèi)容推薦、計(jì)算廣告學(xué)、計(jì)算傳播學(xué)等領(lǐng)域提供重要參考價(jià)值。但是,彈幕本身存在著語(yǔ)義稀疏和一詞多義的特點(diǎn),并且含有大量的表情符號(hào)和顏文字等非文字情感元素,為彈幕情感分析帶來(lái)了挑戰(zhàn)。
3、近年來(lái),由于深度學(xué)習(xí)模型強(qiáng)大的學(xué)習(xí)表征能力,短文本情感分析領(lǐng)域的研究視角已經(jīng)逐漸從機(jī)器學(xué)習(xí)轉(zhuǎn)向了深度學(xué)習(xí)方法。彈幕作為一種新型短文本,對(duì)其所進(jìn)行的情感分析工作也基本圍繞著深度學(xué)習(xí)方法展開。彈幕以文本的形式傳播于網(wǎng)絡(luò)世界中,但是文本并不能為計(jì)算機(jī)所直接識(shí)別,因此需要事先將文本映射為計(jì)算機(jī)可識(shí)別的數(shù)據(jù)(如ascii碼),方能對(duì)其進(jìn)行運(yùn)算。同理,在深度學(xué)習(xí)中,需要事先將文本映射為詞向量后,方能為深度學(xué)習(xí)模型所識(shí)別。這個(gè)過(guò)程被稱為“詞嵌入”,用于完成詞嵌入的模型稱為“詞嵌入模型”。在情感分析任務(wù)中,一般認(rèn)為,詞嵌入模型提取的語(yǔ)義信息越豐富,后續(xù)計(jì)算對(duì)語(yǔ)義信息的挖掘越充分,越有利于提高情感分析的準(zhǔn)確性。但是現(xiàn)有技術(shù)通常存在三個(gè)問(wèn)題:(1)語(yǔ)義信息提取不充分;(2)在模型的計(jì)算步驟中,容易丟失部分由詞嵌入模型所提取到的初始語(yǔ)義信息;(3)用于情感分類的特征維度過(guò)高,導(dǎo)致冗余信息太多,從而影響模型的泛化性能。因此,現(xiàn)有技術(shù)需要一種能夠充分提取彈幕文本語(yǔ)義信息,緩解初始語(yǔ)義信息丟失問(wèn)題,同時(shí)能夠在不丟失語(yǔ)義信息的前提下,降低情感分類特征維度的彈幕情感分析模型構(gòu)建方法。
技術(shù)實(shí)現(xiàn)思路
0、
技術(shù)實(shí)現(xiàn)要素:
1、本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)存在的不足,提出一種基于雙通道語(yǔ)義增強(qiáng)(dual-channel?semantic?enhancement,dcse)的彈幕情感分析模型,旨在解決彈幕文本語(yǔ)義信息提取不充分和情感分類特征維度過(guò)高的問(wèn)題。同時(shí),本發(fā)明提出一種句向量增強(qiáng)機(jī)制(sentence?vector?enhancement?mechanism,sve),該機(jī)制作為dcse的一個(gè)模塊嵌入在模型中,目的是應(yīng)對(duì)初始語(yǔ)義信息丟失問(wèn)題。
2、本發(fā)明方法通過(guò)以下方式實(shí)現(xiàn):
3、步驟s01:獲取彈幕文本,構(gòu)建彈幕語(yǔ)料庫(kù);
4、步驟s02:安裝并配置doccano數(shù)據(jù)標(biāo)注平臺(tái),對(duì)語(yǔ)料庫(kù)中的彈幕文本進(jìn)行情感標(biāo)注,形成彈幕數(shù)據(jù)集;
5、步驟s03:對(duì)彈幕數(shù)據(jù)集中的彈幕文本進(jìn)行預(yù)處理;
6、步驟s04:使用經(jīng)彈幕文本微調(diào)的bert預(yù)訓(xùn)練模型進(jìn)行詞嵌入;
7、步驟s05:以彈幕數(shù)據(jù)集中所含有的表情符號(hào)、顏文字等非文字情感元素為結(jié)點(diǎn),依據(jù)其共現(xiàn)關(guān)系,構(gòu)建基于非文字情感元素共現(xiàn)關(guān)系的語(yǔ)義網(wǎng)絡(luò)圖;
8、步驟s06:使用gcn模型對(duì)步驟s05所構(gòu)建的語(yǔ)義網(wǎng)絡(luò)圖進(jìn)行圖卷積操作,提取結(jié)點(diǎn)的全局語(yǔ)義信息;
9、步驟s07:使用bi-lstm模型對(duì)步驟s04所生成的詞向量進(jìn)行處理,提取語(yǔ)序信息;
10、步驟s08:將步驟s06所提取的字符結(jié)點(diǎn)的全局語(yǔ)義信息,與步驟s07中所提取的語(yǔ)序信息進(jìn)行融合,得到綜合特征;
11、步驟s09:使用所述句向量增強(qiáng)機(jī)制對(duì)步驟s08融合后的綜合特征進(jìn)行特征增強(qiáng);
12、步驟s10:使用dpcnn模型對(duì)步驟s09所得特征進(jìn)行處理,提取高層次特征并降低維度;
13、步驟s11:使用多層感知機(jī)(multilayer?perceptron,mlp)對(duì)步驟s10所得低維高層次特征進(jìn)行分類。
14、優(yōu)先地,所述步驟s01中,查看視頻所在頁(yè)面的html源代碼,搜尋該視頻的cid碼,通過(guò)網(wǎng)址https://comment.bilibili.com/[cid].xml來(lái)獲取該視頻的彈幕數(shù)據(jù)文件。由于彈幕數(shù)據(jù)中不僅包含彈幕文本,而且含有彈幕的多種屬性標(biāo)簽(顏色、字號(hào)、彈幕模式等),因此需要對(duì)彈幕數(shù)據(jù)中的彈幕文本進(jìn)行提取,從而形成彈幕語(yǔ)料庫(kù)。
15、優(yōu)先地,所述步驟s02中,doccano是一個(gè)開源的數(shù)據(jù)標(biāo)注平臺(tái),能夠?yàn)槲谋痉诸?、命名?shí)體識(shí)別、序列標(biāo)記等任務(wù)的數(shù)據(jù)標(biāo)注提供支持。該平臺(tái)提供了多人協(xié)作進(jìn)行數(shù)據(jù)標(biāo)注的功能,提高了數(shù)據(jù)標(biāo)注的效率。
16、優(yōu)先地,所述步驟s03中,為了避免不必要的噪聲對(duì)模型造成影響,首先需要對(duì)數(shù)據(jù)集中的彈幕文本去除停用詞和無(wú)意義的標(biāo)點(diǎn)符號(hào),但需保留其中的表情符號(hào)和顏文字等非文字情感元素,因?yàn)檫@些元素含有豐富的情感內(nèi)涵。其中,停用詞是指為節(jié)省存儲(chǔ)空間和提高信息檢索效率,在處理自然語(yǔ)言文本之前需要過(guò)濾掉的某些字或詞。然后,統(tǒng)計(jì)彈幕的平均文本長(zhǎng)度,并對(duì)彈幕中超出平均長(zhǎng)度的部分進(jìn)行截?cái)唷?/p>
17、優(yōu)先地,所述步驟s04中,bert預(yù)訓(xùn)練模型是一種可以從彈幕文本中動(dòng)態(tài)提取具有豐富語(yǔ)義信息的詞向量的詞嵌入模型。針對(duì)同一字詞,bert能夠根據(jù)上下文語(yǔ)境的變化,生成不同的詞向量來(lái)表征該字詞,這是以word2vec、fasttext、glove等為代表的傳統(tǒng)詞嵌入模型所不具備的能力。因此,使用bert作為彈幕文本的詞嵌入模型更能契合其一詞多義的特點(diǎn)。另外,bert支持使用所收集的彈幕文本進(jìn)行預(yù)訓(xùn)練模型的微調(diào),從而使得所生成的詞向量對(duì)于彈幕文本具有更強(qiáng)的針對(duì)性。
18、優(yōu)先地,所述步驟s05中,共現(xiàn)是指兩個(gè)字符是否曾在同一段落或同一文本中共同出現(xiàn),若二者共同出現(xiàn)過(guò),說(shuō)明二者共同構(gòu)成了文本語(yǔ)境。兩個(gè)字符之間具有共現(xiàn)關(guān)系,說(shuō)明它們具有語(yǔ)義上的關(guān)聯(lián)。因此,可以根據(jù)字符之間的共現(xiàn)關(guān)系建立一個(gè)語(yǔ)義網(wǎng)絡(luò)圖,用于反映數(shù)據(jù)集中各字符之間的語(yǔ)義關(guān)系。在本發(fā)明中,通過(guò)基于非文字情感元素共現(xiàn)關(guān)系的語(yǔ)義網(wǎng)絡(luò)圖的構(gòu)建,可以達(dá)到豐富表情符號(hào)和顏文字符號(hào)語(yǔ)義的目的。
19、優(yōu)先地,所述步驟s06中,gcn模型能夠利用語(yǔ)義網(wǎng)絡(luò)圖中邊的信息對(duì)節(jié)點(diǎn)特征進(jìn)行聚合,從而生成新的節(jié)點(diǎn)特征表示,因而可以實(shí)現(xiàn)特征信息在圖中沿邊的傳播,以達(dá)到根據(jù)語(yǔ)義網(wǎng)絡(luò)圖從非文字情感元素的共現(xiàn)關(guān)系層面提取語(yǔ)義信息的目的;
20、優(yōu)先地,所述步驟s07中,bi-lstm模型是由兩個(gè)相反方向的lstm模型所構(gòu)成的,能夠在語(yǔ)序?qū)用鎻恼磧蓚€(gè)方向上提取彈幕文本的語(yǔ)義信息,從而有效地應(yīng)對(duì)彈幕文本中修飾詞的前置和后置兩種情況。由于兩個(gè)lstm模型的疊加,使得bi-lstm模型的輸出特征具有較高的維度,是lstm模型輸出維度大小的兩倍;
21、優(yōu)先地,所述步驟s08中,由于在步驟s06和步驟s07中分別使用gcn模型和bi-lstm模型對(duì)步驟s04所生成的詞向量進(jìn)行了特征提取,因此需要對(duì)兩類特征進(jìn)行融合,以便得到一個(gè)綜合特征,并確保綜合特征能夠同時(shí)包含語(yǔ)序和由非文字情感元素共現(xiàn)關(guān)系所提取的全局語(yǔ)義兩方面的特征,最大程度強(qiáng)化綜合特征中所包含的語(yǔ)義信息;
22、優(yōu)先地,所述步驟s09中,所述句向量增強(qiáng)機(jī)制是基于逐組增強(qiáng)機(jī)制提出來(lái)的,主要用于對(duì)步驟s08所融合的綜合特征進(jìn)行語(yǔ)義增強(qiáng),強(qiáng)化特征中關(guān)鍵信息的權(quán)重,弱化非關(guān)鍵信息的權(quán)重。其中,逐組增強(qiáng)機(jī)制是一種將詞向量分組后,取每一組特征向量的平均值與組內(nèi)每一向量求相似度,以此來(lái)進(jìn)一步計(jì)算每一個(gè)詞向量所應(yīng)分配的權(quán)重的方法。因?yàn)橹鸾M增強(qiáng)機(jī)制采用每組詞向量的平均值作為參照來(lái)計(jì)算語(yǔ)義相似度,因此該機(jī)制缺乏依據(jù)彈幕文本的初始語(yǔ)義來(lái)對(duì)詞向量進(jìn)行增強(qiáng)的能力,所以所述句向量增強(qiáng)機(jī)制使用了bert所生成的彈幕文本的句向量來(lái)對(duì)逐組增強(qiáng)機(jī)制進(jìn)行改進(jìn),通過(guò)將句向量與平均向量進(jìn)行加和形成新的評(píng)估向量來(lái)達(dá)到依據(jù)初始語(yǔ)義來(lái)對(duì)詞向量進(jìn)行增強(qiáng)的目的。由于在步驟s04中所使用的bert預(yù)訓(xùn)練模型生成的詞向量本身已經(jīng)具有豐富的語(yǔ)義信息,在步驟s06、步驟s07的處理中,雖然詞向量的特征分別從字詞共現(xiàn)關(guān)系和語(yǔ)序兩方面獲得了增強(qiáng),但由于詞向量中各元素?cái)?shù)值發(fā)生了大幅度變化,因此最初由bert生成時(shí)所含有的初始語(yǔ)義信息會(huì)發(fā)生丟失,而丟失的語(yǔ)義信息對(duì)于緩解彈幕文本中常見的一詞多義現(xiàn)象具有重要作用,因此通過(guò)所述句向量增強(qiáng)機(jī)制來(lái)緩解語(yǔ)義丟失問(wèn)題是必要的;
23、優(yōu)先地,所述步驟s10中,經(jīng)過(guò)步驟s08融合后所得到的綜合特征具有較高的維度,而步驟s09僅對(duì)語(yǔ)義特征進(jìn)行了增強(qiáng)并沒有使特征維度降低。一方面,過(guò)高的特征維度帶來(lái)了更多的參數(shù),增加了模型訓(xùn)練時(shí)的計(jì)算負(fù)載,另一方面,高特征維度通常含有冗余的特征信息,降低了模型的泛化能力。因此,使用dpcnn模型在提取高層次信息的同時(shí)降低特征維度。相比經(jīng)典的cnn模型,dpcnn模型每一層的計(jì)算時(shí)間能夠以“金字塔形狀”呈指數(shù)級(jí)下降,可以在不提升計(jì)算成本的前提下增加網(wǎng)絡(luò)深度,在處理文本數(shù)據(jù)時(shí)能夠更高效地提取信息;
24、優(yōu)先地,所述步驟s11中,使用多層感知機(jī)對(duì)步驟s10所提取的高層次特征進(jìn)行處理,并在多層感知機(jī)中嵌入sigmoid激活函數(shù)以增強(qiáng)其非線性擬合能力。
25、本發(fā)明的有益效果是:首先,本發(fā)明提出了一種基于雙通道語(yǔ)義增強(qiáng)的彈幕情感分析模型的拓?fù)浣Y(jié)構(gòu),能夠從彈幕文本中提取語(yǔ)序信息和全局語(yǔ)義信息,從而為情感分類提供綜合全面的語(yǔ)義支撐;其次,本發(fā)明在逐組增強(qiáng)機(jī)制基礎(chǔ)上,提出了一種句向量增強(qiáng)機(jī)制,用于應(yīng)對(duì)初始語(yǔ)義丟失問(wèn)題;最后,本發(fā)明使用dpcnn模型來(lái)對(duì)高維度的特征信息進(jìn)行處理,在不顯著增加計(jì)算量的情況下提取高層次特征并降低用于分類的特征維度。