最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于雙重對(duì)抗學(xué)習(xí)的語(yǔ)音情感識(shí)別方法及識(shí)別系統(tǒng)

文檔序號(hào):41944910發(fā)布日期:2025-05-16 14:02閱讀:7來(lái)源:國(guó)知局
基于雙重對(duì)抗學(xué)習(xí)的語(yǔ)音情感識(shí)別方法及識(shí)別系統(tǒng)

本發(fā)明涉及語(yǔ)音信號(hào)處理,更具體的,涉及一種基于雙重對(duì)抗學(xué)習(xí)的語(yǔ)音情感識(shí)別方法及識(shí)別系統(tǒng)。


背景技術(shù):

1、近年來(lái),隨著語(yǔ)音信號(hào)處理技術(shù)的快速發(fā)展,語(yǔ)音情感識(shí)別作為人機(jī)交互領(lǐng)域的重要研究方向,得到了廣泛關(guān)注。然而,語(yǔ)音信號(hào)中通常包含大量的說(shuō)話人信息和內(nèi)容信息,這些信息會(huì)對(duì)情感識(shí)別任務(wù)造成干擾,降低模型的識(shí)別能力。因此,需要一種有效的技術(shù)手段,提取僅包含情感信息的語(yǔ)音特征,從而提高語(yǔ)音情感識(shí)別的準(zhǔn)確性。

2、現(xiàn)有的語(yǔ)音情感識(shí)別方法通常直接使用語(yǔ)音信號(hào)的特征進(jìn)行情感分類,缺乏有效的機(jī)制去除說(shuō)話人和內(nèi)容相關(guān)的干擾信息。因此,如何去除說(shuō)話人信息和內(nèi)容信息,實(shí)現(xiàn)更高精度的語(yǔ)音情感識(shí)別是亟需解決的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問(wèn)題,本發(fā)明提出了一種基于雙重對(duì)抗學(xué)習(xí)的語(yǔ)音情感識(shí)別方法及識(shí)別系統(tǒng),通過(guò)對(duì)抗說(shuō)話人分類器和對(duì)抗音素分類器的訓(xùn)練,去除語(yǔ)音信號(hào)中的說(shuō)話人信息和內(nèi)容信息,從而提取僅包含情感信息的特征用于情感分類。

2、本發(fā)明提供了一種基于雙重對(duì)抗學(xué)習(xí)的語(yǔ)音情感識(shí)別方法,包括以下步驟:

3、獲取語(yǔ)音信號(hào)并進(jìn)行預(yù)處理,使用情感分類器中的wavlm預(yù)訓(xùn)練模型從預(yù)處理后的語(yǔ)音信號(hào)中提取wavlm特征;

4、將提取的wavlm特征分別送入情感編碼器、對(duì)抗音素分類器和對(duì)抗說(shuō)話人分類器,并分別計(jì)算情感分類器、對(duì)抗音素分類器及對(duì)抗說(shuō)話人分類器的交叉熵?fù)p失;

5、將計(jì)算的三個(gè)交叉熵?fù)p失相加得到總損失函數(shù),使用所述總損失函數(shù)同時(shí)訓(xùn)練情感分類器、對(duì)抗音素分類器及對(duì)抗說(shuō)話人分類器;

6、將待識(shí)別語(yǔ)音信號(hào)分別導(dǎo)入訓(xùn)練好的情感分類器、對(duì)抗音素分類器和對(duì)抗說(shuō)話人分類器,通過(guò)雙重對(duì)抗學(xué)習(xí)去除待識(shí)別語(yǔ)音信號(hào)中的說(shuō)話人信息及內(nèi)容信息,通過(guò)情感分類器獲取待識(shí)別語(yǔ)音信號(hào)的情感類別。

7、本方案中,獲取語(yǔ)音信號(hào)并進(jìn)行預(yù)處理,使用情感分類器中的wavlm預(yù)訓(xùn)練模型從預(yù)處理后的語(yǔ)音信號(hào)中提取wavlm特征,具體為:

8、獲取海量的帶音素標(biāo)注、情感標(biāo)注及說(shuō)話人標(biāo)注的語(yǔ)音信號(hào),對(duì)所述語(yǔ)音信號(hào)進(jìn)行頻域分析,獲取語(yǔ)音信號(hào)對(duì)應(yīng)的頻帶分量分布,通過(guò)所述頻帶分量分布確定對(duì)應(yīng)的頻率段,根據(jù)所述頻率段配置帶通濾波去除不符合頻率要求的信號(hào);

9、將帶通濾波后的語(yǔ)音信號(hào)進(jìn)行下采樣,使用雙正交小波基進(jìn)行數(shù)字濾波,獲取降噪后的語(yǔ)音信號(hào),計(jì)算出降噪后語(yǔ)音信號(hào)的小波熵,獲取最大小波熵及最小小波熵之間的區(qū)間生成閾值區(qū)間;

10、使用所述閾值區(qū)間對(duì)降噪后的語(yǔ)音信號(hào)進(jìn)行模糊語(yǔ)音分辨,當(dāng)語(yǔ)音信號(hào)的小波熵不處于所述閾值區(qū)間時(shí),則進(jìn)行剔除,遍歷所有語(yǔ)音信號(hào)后獲取預(yù)處理后的語(yǔ)音信號(hào);

11、構(gòu)建wavlm預(yù)訓(xùn)練模型,在所述wavlm預(yù)訓(xùn)練模型的訓(xùn)練中,使用卷積編碼器及transformer編碼器語(yǔ)音信號(hào)進(jìn)行特征編碼,隨機(jī)對(duì)輸入語(yǔ)音信號(hào)進(jìn)行變換,再隨機(jī)遮蓋預(yù)設(shè)比例的語(yǔ)音信號(hào),并預(yù)測(cè)被遮蓋位置所對(duì)應(yīng)的標(biāo)簽;

12、完成訓(xùn)練后使用wavlm預(yù)訓(xùn)練模型提取預(yù)處理后的語(yǔ)音信號(hào)對(duì)應(yīng)的標(biāo)簽序列的概率分布,將所述概率分布作為wavlm特征,所述wavlm特征包含情感信息、音素信息及說(shuō)話人信息。

13、本方案中,所述情感分類器由wavlm預(yù)訓(xùn)練模型、情感編碼器、全連接層及softmax分類層組成;

14、所述對(duì)抗音素分類器由梯度反轉(zhuǎn)、音素編碼器、全連接層及softmax分類層組成;

15、所述對(duì)抗說(shuō)話人分類器梯度反轉(zhuǎn)、說(shuō)話人編碼器、全連接層及softmax分類層組成;

16、將獲取的wavlm特征分別作為情感編碼器、對(duì)抗音素分類器和對(duì)抗說(shuō)話人分類器的輸入,分別計(jì)算情感分類器、對(duì)抗因素分類器及對(duì)抗說(shuō)話人分類器的交叉熵?fù)p失。

17、本方案中,所述對(duì)抗音素分類器,具體為:

18、將獲取的wavlm特征導(dǎo)入音素編碼器,在音素編碼器中通過(guò)一層卷積層進(jìn)行初始卷積,接著采用兩層卷積層進(jìn)行下采樣,減小特征尺寸,使用三個(gè)相同的殘差模塊對(duì)下采樣得到的特征進(jìn)行音素特征提取,并在特征提取中引入多頭自注意力機(jī)制,獲取音素編碼;

19、將獲取的音素編碼導(dǎo)入判別器,通過(guò)梯度反轉(zhuǎn)層利用負(fù)系數(shù)乘以誤差控制反向傳播,使得梯度反轉(zhuǎn)層前后的網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)相反,實(shí)現(xiàn)音素特征的對(duì)抗學(xué)習(xí);

20、使用全連接層及softmax激活函數(shù)對(duì)wavlm特征中的音素信息進(jìn)行分類預(yù)測(cè)。

21、本方案中,基于對(duì)抗音素分類器通過(guò)共享特征配置情感分類器及對(duì)抗說(shuō)話人分類器的參數(shù),采用帶標(biāo)注的語(yǔ)音信號(hào)對(duì)應(yīng)的wavlm特征對(duì)所述對(duì)抗音素分類器、情感分類器及對(duì)抗說(shuō)話人分類器同時(shí)進(jìn)行有監(jiān)督訓(xùn)練;

22、將獲取的wavlm特征導(dǎo)入配置好的對(duì)抗說(shuō)話人分類器,對(duì)wavlm特征中的說(shuō)話人信息進(jìn)行分類預(yù)測(cè);

23、根據(jù)wavlm特征中的音素信息標(biāo)簽及說(shuō)話人信息標(biāo)簽進(jìn)行內(nèi)容信息及說(shuō)話人信息的標(biāo)記,將標(biāo)記的內(nèi)容信息及說(shuō)話人信息進(jìn)行剔除。

24、本方案中,分別計(jì)算情感分類器、對(duì)抗因素分類器及對(duì)抗說(shuō)話人分類器的交叉熵?fù)p失,具體為:

25、將帶標(biāo)注的語(yǔ)音信號(hào)對(duì)應(yīng)的wavlm特征按照比例劃分為訓(xùn)練集及測(cè)試集,初始化情感分類器、對(duì)抗因素分類器及對(duì)抗說(shuō)話人分類器的框架參數(shù)及學(xué)習(xí)率,使用訓(xùn)練集中的訓(xùn)練樣本輸入三個(gè)分類器中進(jìn)行訓(xùn)練;

26、在三個(gè)分類器的訓(xùn)練過(guò)程中,基于訓(xùn)練樣本與標(biāo)簽信息的從屬關(guān)系計(jì)算情感分類器的輸出與情感標(biāo)注之間的情感交叉熵?fù)p失、對(duì)抗音素分類器的輸出與音素標(biāo)注之間的音素交叉熵?fù)p失、對(duì)抗說(shuō)話人分類器的輸出與說(shuō)話人標(biāo)注之間的說(shuō)話人交叉熵?fù)p失;

27、使用所述情感交叉熵?fù)p失、音素交叉熵?fù)p失及說(shuō)話人交叉熵?fù)p失進(jìn)行相加,構(gòu)建總損失函數(shù)監(jiān)督三個(gè)分類器的訓(xùn)練,根據(jù)前向傳播中總損失迭代更新合成三個(gè)分類器的網(wǎng)絡(luò)參數(shù),使用測(cè)試集進(jìn)行分類性能測(cè)試,當(dāng)性能測(cè)試結(jié)果符合預(yù)設(shè)標(biāo)準(zhǔn)時(shí),則完成三個(gè)分類器的訓(xùn)練。

28、本方案中,獲取預(yù)處理后的待識(shí)別語(yǔ)音信號(hào),將所述待識(shí)別語(yǔ)音信號(hào)分別導(dǎo)入訓(xùn)練好的情感分類器、對(duì)抗音素分類器和對(duì)抗說(shuō)話人分類器;

29、通過(guò)雙重對(duì)抗學(xué)習(xí)去除待識(shí)別語(yǔ)音信號(hào)中的說(shuō)話人信息及內(nèi)容信息,通過(guò)情感分類器中的全連接層及softmax函數(shù)獲取待識(shí)別語(yǔ)音信號(hào)對(duì)應(yīng)的情感標(biāo)簽概率分布,根據(jù)所述概率分布輸出待識(shí)別語(yǔ)音信號(hào)的情感類別。

30、本發(fā)明第二方面提供了一種基于雙重對(duì)抗學(xué)習(xí)的語(yǔ)音情感識(shí)別系統(tǒng),該系統(tǒng)包括:語(yǔ)音信號(hào)輸入模塊、情感分類器模塊、對(duì)抗音素分類器模塊、對(duì)抗說(shuō)話人分類器模塊、分類器訓(xùn)練模塊及語(yǔ)音情感輸出模塊;

31、所述語(yǔ)音信號(hào)輸入模塊負(fù)責(zé)獲取待識(shí)別語(yǔ)音信號(hào),并將所述待識(shí)別語(yǔ)音信號(hào)進(jìn)行預(yù)處理;

32、所述情感分類器模塊負(fù)責(zé)提取待識(shí)別語(yǔ)音信號(hào)的wavlm特征,根據(jù)所述wavlm特征獲取待識(shí)別語(yǔ)音信號(hào)的情感類別;

33、所述對(duì)抗音素分類器模塊負(fù)責(zé)去除待識(shí)別語(yǔ)音信號(hào)的內(nèi)容信息;

34、所述對(duì)抗說(shuō)話人分類器模塊負(fù)責(zé)去除待識(shí)別語(yǔ)音信號(hào)的說(shuō)話人信息;

35、所述分類器訓(xùn)練模塊負(fù)責(zé)采用帶有標(biāo)注的語(yǔ)音信號(hào)對(duì)情感分類器、對(duì)抗音素分類器及對(duì)抗說(shuō)話人分類器進(jìn)行訓(xùn)練;

36、所述語(yǔ)音輸出模塊負(fù)責(zé)輸出待識(shí)別語(yǔ)音信號(hào)對(duì)應(yīng)不含內(nèi)容信息及說(shuō)話人信息的情感類別信息,并按照預(yù)設(shè)方式進(jìn)行展示。

37、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

38、本發(fā)明通過(guò)對(duì)說(shuō)話人分類器和音素分類器分別進(jìn)行對(duì)抗學(xué)習(xí),去除語(yǔ)音信號(hào)中的說(shuō)話人信息和內(nèi)容信息,從而提取只包含情感信息的特征用于語(yǔ)音情感識(shí)別,有效的提高了語(yǔ)音情感識(shí)別的準(zhǔn)確率。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1