本發(fā)明涉及語音識(shí)別,尤其涉及一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法。
背景技術(shù):
1、近年來,語音增強(qiáng)(speechenhancement,se)技術(shù)的進(jìn)步在復(fù)雜聲學(xué)環(huán)境中大大提高了語音的清晰度和可懂度,當(dāng)語音信號(hào)被各種各樣的噪聲干擾、甚至淹沒后,通過語音增強(qiáng)技術(shù)從噪聲背景中提取有用的語音信號(hào),抑制、降低噪聲干擾。語音增強(qiáng)技術(shù)的目的是通過對(duì)包含噪聲的語音信號(hào)進(jìn)行處理,輸出處理后的純凈語音信號(hào)。
2、然而,將se集成到自動(dòng)語音識(shí)別(automaticspeechrecognition,asr)系統(tǒng)中,通常會(huì)因?yàn)樵鰪?qiáng)過程引入的失真而導(dǎo)致性能下降。雖然現(xiàn)有技術(shù)中通過各種方法已經(jīng)提高了se-asr系統(tǒng)的識(shí)別準(zhǔn)確率,但它們往往需要對(duì)se或asr模型進(jìn)行微調(diào)或重新訓(xùn)練,這在許多實(shí)際應(yīng)用中是不現(xiàn)實(shí)的。
3、因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題:需要調(diào)整前后端模型參數(shù),使前端模型的信號(hào)增強(qiáng)能力顯著下降;對(duì)顯存要求高且訓(xùn)練過程緩慢。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,所述方法包括如下步驟:
3、s1:輸入原始復(fù)數(shù)頻譜和增強(qiáng)復(fù)數(shù)頻譜;
4、s2:依據(jù)所述步驟s1中的輸入獲取失真抑制系數(shù);
5、s3:將所述失真抑制系數(shù)應(yīng)用于失真抑制插值算法獲取輸出修正頻譜。
6、進(jìn)一步地,步驟s2中獲取所述失真抑制系數(shù)的方法為:
7、通過子帶分割模塊將所述原始復(fù)數(shù)頻譜和所述增強(qiáng)復(fù)數(shù)頻譜分解為不同的子帶,所述子帶經(jīng)過時(shí)間rnn和頻帶rnn處理,將生成的隱藏表征映射為所述失真抑制系數(shù),通過線性層和sigmoid激活函數(shù)生成所述失真抑制系數(shù)。
8、進(jìn)一步地,步驟s2中獲取所述失真抑制系數(shù)的方法為:
9、將所述步驟s1中的輸入為直接利用bsrnn生成隱藏表征計(jì)算所述失真抑制系數(shù)。
10、進(jìn)一步地,所述時(shí)間rnn沿時(shí)間軸t操作,所述頻帶rnn沿頻率軸k操作。
11、進(jìn)一步地,所述失真抑制系數(shù)的形狀為(k,t)。
12、進(jìn)一步地,所述修正頻譜輸出公式為:
13、
14、其中,xr∈c(f×t)為所述原始復(fù)數(shù)頻譜、為增強(qiáng)復(fù)數(shù)頻譜、sband為頻帶內(nèi)失真抑制系數(shù)、為頻帶內(nèi)的頻率范圍。
15、進(jìn)一步地,所述修正頻譜計(jì)算公式為:
16、
17、其中,xr∈c(f×t)為所述原始復(fù)數(shù)頻譜、為增強(qiáng)復(fù)數(shù)頻譜、s∈[0,1]為失真抑制系數(shù)。
18、進(jìn)一步地,所述失真抑制插值算法為全頻帶插值和子頻帶插值。
19、本發(fā)明還提供了一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊,其執(zhí)行上述所述的方法,所述失真抑制模塊完全獨(dú)立于語音增強(qiáng)模型前端和自動(dòng)語音識(shí)別模型后端。
20、進(jìn)一步地,在訓(xùn)練時(shí)僅更新所述失真抑制模塊的參數(shù),所述語音增強(qiáng)模型和所述自動(dòng)語音識(shí)別模型保持凍結(jié)狀態(tài)。
21、本發(fā)明提出的一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,使用非侵入式的前后端橋接模塊,可以實(shí)現(xiàn)計(jì)算量小,且設(shè)計(jì)上可以處理流式輸入并實(shí)現(xiàn)流式輸出,可以與現(xiàn)有的流式、非流式語音增強(qiáng)模型兼容;增強(qiáng)模型訓(xùn)練需求數(shù)據(jù)量小、模型參數(shù)量小,可以在少量有標(biāo)注數(shù)據(jù)上完成快速適應(yīng);不改變?cè)鰪?qiáng)模型的輸出信號(hào),有效保持了不同增強(qiáng)算法對(duì)增強(qiáng)語音不同方面的聽感增益。
1.一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述方法包括如下步驟:
2.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,步驟s2中獲取所述失真抑制系數(shù)的方法為:
3.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,步驟s2中獲取所述失真抑制系數(shù)的方法為:
4.如權(quán)利要求2所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述時(shí)間rnn沿時(shí)間軸t操作,所述頻帶rnn沿頻率軸k操作。
5.如權(quán)利要求4所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述失真抑制系數(shù)的形狀為(k,t)。
6.如權(quán)利要求5所述的面向魯棒語音識(shí)別非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述修正頻譜輸出公式為:
7.如權(quán)利要求3所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述修正頻譜計(jì)算公式為:
8.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述失真抑制插值算法為全頻帶插值和子頻帶插值。
9.一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊,其執(zhí)行所述權(quán)利要求1-8任一所述的方法,其特征在于,所述失真抑制模塊完全獨(dú)立于語音增強(qiáng)模型前端和自動(dòng)語音識(shí)別模型后端。
10.如權(quán)利要求9所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊,其特征在于,在訓(xùn)練時(shí)僅更新所述失真抑制模塊的參數(shù),所述語音增強(qiáng)模型和所述自動(dòng)語音識(shí)別模型保持凍結(jié)狀態(tài)。