本發(fā)明涉及自然語言處理,尤其涉及的是基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法。
背景技術:
1、情感是人類獨有的組成部分。隨著人工智能設備的日益普及,識別用戶的情緒可以為他們提供友好的服務,并且已經(jīng)變得非常普遍,例如,呼叫中心、銷售中心、車輛駕駛系統(tǒng)等,因為它只需要語音信號和語音捕獲設備。因此,語音情感識別在人機交互領域發(fā)揮著重要作用,并引起了研究人員越來越多的興趣。
2、總體而言,盡管近年來的大量研究推動了語音情感識別(speech?emotionrecognition,ser)技術的發(fā)展,但低準確率的問題并未得到解決,這阻礙了ser的潛在應用。事實上,其中一個最關鍵的原因是現(xiàn)有方法使用語音、視頻或將語音信號轉換為文本和圖像,然后提取ser特征。然而,主觀情緒是隨機的,并且特征微小;而且它們通常隱藏在音頻、視頻或文本信息中,這三種信息源可能不足以區(qū)分主觀情緒。因此,現(xiàn)有的語音情感識別技術無法準確地捕捉用戶的主觀情緒,從而導致機器人交互系統(tǒng)在一些情感交互的場景出現(xiàn)錯誤的回復或動作,所以,必須研究一種可以識別動態(tài)語音信號中隱藏的情感信息的方法。
3、因此,現(xiàn)有技術還有待改進。
技術實現(xiàn)思路
1、本發(fā)明要解決的技術問題在于,針對現(xiàn)有技術缺陷,本發(fā)明提供基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,以解決現(xiàn)有的語音情感識別技術無法準確地捕捉用戶的主觀情緒,從而導致機器人交互系統(tǒng)在一些情感交互的場景出現(xiàn)錯誤的回復或動作。
2、本發(fā)明解決技術問題所采用的技術方案如下:
3、第一方面,本發(fā)明提供基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,包括:
4、獲取待識別語音信號,并對所述待識別語音信號進行預處理,得到預處理語音信號;
5、根據(jù)所述預處理語音信號生成動態(tài)脈沖信號,并利用脈沖神經(jīng)網(wǎng)絡對所述動態(tài)脈沖信號進行語音情緒識別,得到第一情緒識別矩陣;
6、根據(jù)所述預處理語音信號生成梅爾頻譜圖,并利用卷積神經(jīng)網(wǎng)絡對所述梅爾頻譜圖進行語音情緒識別,得到第二情緒識別矩陣;
7、根據(jù)所述第一情緒識別矩陣和所述第二情緒識別矩陣進行情感融合判斷,輸出所述待識別語音信號對應的基于機器人交互的情緒識別結果。
8、在一種實現(xiàn)方式中,所述對所述待識別語音信號進行預處理,得到預處理語音信號,包括:
9、根據(jù)預設窗口大小和預設步長對所述待識別語音信號進行分幀處理,得到固定長度的語音序列;
10、根據(jù)漢明窗函數(shù)對所述語音序列中的每個片段進行窗口化處理,得到所述預處理語音信號。
11、在一種實現(xiàn)方式中,所述脈沖神經(jīng)網(wǎng)絡的脈沖神經(jīng)元的數(shù)學模型為:
12、;
13、;
14、其中,和分別表示細胞膜的漏電導和總興奮電導;
15、,其中表示細胞膜電容;
16、、、分別表示實際膜電位、漏電位和反轉電位;
17、、、分別表示興奮神經(jīng)元的電導衰減、學習率以及從突觸前神經(jīng)元j到目標神經(jīng)元i的連接權重。
18、在一種實現(xiàn)方式中,所述根據(jù)所述預處理語音信號生成動態(tài)脈沖信號,并利用脈沖神經(jīng)網(wǎng)絡對所述動態(tài)脈沖信號進行語音情緒識別,之前還包括:
19、采用遠程監(jiān)督方法,對所述脈沖神經(jīng)網(wǎng)絡進行訓練:
20、;
21、其中,用于調整突觸輸入的平均強度,從而對神經(jīng)元施加所需的脈沖活動水平;表示定義學習窗口形狀的赫布項。
22、在一種實現(xiàn)方式中,所述利用脈沖神經(jīng)網(wǎng)絡對所述動態(tài)脈沖信號進行語音情緒識別,得到第一情緒識別矩陣,包括:
23、將所述動態(tài)脈沖信號輸入所述脈沖神經(jīng)網(wǎng)絡,利用編碼層進行編碼,并通過興奮層對編碼后的脈沖信號進行閾值檢測;
24、當所述編碼后的脈沖信號對應的興奮性神經(jīng)元膜電位達到閾值時,利用所述興奮層發(fā)射一個脈沖,并觸發(fā)抑制層中對應的抑制性神經(jīng)元的脈沖發(fā)射,輸出得到所述第一情緒識別矩陣。
25、在一種實現(xiàn)方式中,所述利用卷積神經(jīng)網(wǎng)絡對所述梅爾頻譜圖進行語音情緒識別,得到第二情緒識別矩陣,包括:
26、將所述梅爾頻譜圖輸入所述卷積神經(jīng)網(wǎng)絡,在梅爾標度的頻域中提取逆頻譜特征,并對提取的逆頻譜特征進行分類,得到所述第二情緒識別矩陣。
27、在一種實現(xiàn)方式中,所述根據(jù)所述第一情緒識別矩陣和所述第二情緒識別矩陣進行情感融合判斷,輸出所述待識別語音信號對應的基于機器人交互的情緒識別結果,包括:
28、采用加權方法融合所述第一情緒識別矩陣和所述第二情緒識別矩陣:
29、;
30、;
31、;
32、根據(jù)加權融合結果輸出所述待識別語音信號對應的基于機器人交互的情緒識別結果。
33、第二方面,本發(fā)明提供一種基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別系統(tǒng),包括:
34、預處理模塊,用于獲取待識別語音信號,并對所述待識別語音信號進行預處理,得到預處理語音信號;
35、脈沖神經(jīng)網(wǎng)絡模塊,用于根據(jù)所述預處理語音信號生成動態(tài)脈沖信號,并利用脈沖神經(jīng)網(wǎng)絡對所述動態(tài)脈沖信號進行語音情緒識別,得到第一情緒識別矩陣;
36、卷積神經(jīng)網(wǎng)絡模塊,用于根據(jù)所述預處理語音信號生成梅爾頻譜圖,并利用卷積神經(jīng)網(wǎng)絡對所述梅爾頻譜圖進行語音情緒識別,得到第二情緒識別矩陣;
37、加權融合模塊,用于根據(jù)所述第一情緒識別矩陣和所述第二情緒識別矩陣進行情感融合判斷,輸出所述待識別語音信號對應的基于機器人交互的情緒識別結果。
38、第三方面,本發(fā)明提供一種終端,包括:處理器以及存儲器,所述存儲器存儲有基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別程序,所述基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別程序被所述處理器執(zhí)行時用于實現(xiàn)如第一方面所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法的操作。
39、第四方面,本發(fā)明還提供一種介質,所述介質為計算機可讀存儲介質,所述介質存儲有基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別程序,所述基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別程序被處理器執(zhí)行時用于實現(xiàn)如第一方面所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法的操作。
40、本發(fā)明采用上述技術方案具有以下效果:
41、本發(fā)明通過對待識別語音信號進行預處理,可根據(jù)預處理語音信號生成動態(tài)脈沖信號,利用脈沖神經(jīng)網(wǎng)絡對動態(tài)脈沖信號進行語音情緒識別;以及根據(jù)預處理語音信號生成梅爾頻譜圖,利用卷積神經(jīng)網(wǎng)絡對梅爾頻譜圖進行語音情緒識別;從而根據(jù)兩個網(wǎng)絡輸出的情緒識別矩陣進行情感融合判斷,輸出待識別語音信號對應的基于機器人交互的情緒識別結果。本發(fā)明通過加權融合機制將脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的輸出進行加權融合,以利用兩個框架的互補優(yōu)勢,可以捕獲和處理語音信號中不斷變化的情緒信息,提高了語音情感識別的準確性。
1.一種基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,其特征在于,包括:
2.根據(jù)權利要求1所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,其特征在于,所述對所述待識別語音信號進行預處理,得到預處理語音信號,包括:
3.根據(jù)權利要求1所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,其特征在于,所述脈沖神經(jīng)網(wǎng)絡的脈沖神經(jīng)元的數(shù)學模型為:
4.根據(jù)權利要求1所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,其特征在于,所述根據(jù)所述預處理語音信號生成動態(tài)脈沖信號,并利用脈沖神經(jīng)網(wǎng)絡對所述動態(tài)脈沖信號進行語音情緒識別,之前還包括:
5.根據(jù)權利要求1所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,其特征在于,所述利用脈沖神經(jīng)網(wǎng)絡對所述動態(tài)脈沖信號進行語音情緒識別,得到第一情緒識別矩陣,包括:
6.根據(jù)權利要求1所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,其特征在于,所述利用卷積神經(jīng)網(wǎng)絡對所述梅爾頻譜圖進行語音情緒識別,得到第二情緒識別矩陣,包括:
7.根據(jù)權利要求1所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法,其特征在于,所述根據(jù)所述第一情緒識別矩陣和所述第二情緒識別矩陣進行情感融合判斷,輸出所述待識別語音信號對應的基于機器人交互的情緒識別結果,包括:
8.一種基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別系統(tǒng),其特征在于,包括:
9.一種終端,其特征在于,包括:處理器以及存儲器,所述存儲器存儲有基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別程序,所述基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別程序被所述處理器執(zhí)行時用于實現(xiàn)如權利要求1-7中任意一項所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法的操作。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別程序,所述基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別程序被處理器執(zhí)行時用于實現(xiàn)如權利要求1-7中任意一項所述的基于脈沖神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的語音情感識別方法的操作。