最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法

文檔序號(hào):41929556發(fā)布日期:2025-05-16 13:45閱讀:6來源:國知局
面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法

本發(fā)明涉及語音識(shí)別,尤其涉及一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法。


背景技術(shù):

1、近年來,語音增強(qiáng)(speechenhancement,se)技術(shù)的進(jìn)步在復(fù)雜聲學(xué)環(huán)境中大大提高了語音的清晰度和可懂度,當(dāng)語音信號(hào)被各種各樣的噪聲干擾、甚至淹沒后,通過語音增強(qiáng)技術(shù)從噪聲背景中提取有用的語音信號(hào),抑制、降低噪聲干擾。語音增強(qiáng)技術(shù)的目的是通過對(duì)包含噪聲的語音信號(hào)進(jìn)行處理,輸出處理后的純凈語音信號(hào)。

2、然而,將se集成到自動(dòng)語音識(shí)別(automaticspeechrecognition,asr)系統(tǒng)中,通常會(huì)因?yàn)樵鰪?qiáng)過程引入的失真而導(dǎo)致性能下降。雖然現(xiàn)有技術(shù)中通過各種方法已經(jīng)提高了se-asr系統(tǒng)的識(shí)別準(zhǔn)確率,但它們往往需要對(duì)se或asr模型進(jìn)行微調(diào)或重新訓(xùn)練,這在許多實(shí)際應(yīng)用中是不現(xiàn)實(shí)的。

3、因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題:需要調(diào)整前后端模型參數(shù),使前端模型的信號(hào)增強(qiáng)能力顯著下降;對(duì)顯存要求高且訓(xùn)練過程緩慢。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,所述方法包括如下步驟:

3、s1:輸入原始復(fù)數(shù)頻譜和增強(qiáng)復(fù)數(shù)頻譜;

4、s2:依據(jù)所述步驟s1中的輸入獲取失真抑制系數(shù);

5、s3:將所述失真抑制系數(shù)應(yīng)用于失真抑制插值算法獲取輸出修正頻譜。

6、進(jìn)一步地,步驟s2中獲取所述失真抑制系數(shù)的方法為:

7、通過子帶分割模塊將所述原始復(fù)數(shù)頻譜和所述增強(qiáng)復(fù)數(shù)頻譜分解為不同的子帶,所述子帶經(jīng)過時(shí)間rnn和頻帶rnn處理,將生成的隱藏表征映射為所述失真抑制系數(shù),通過線性層和sigmoid激活函數(shù)生成所述失真抑制系數(shù)。

8、進(jìn)一步地,步驟s2中獲取所述失真抑制系數(shù)的方法為:

9、將所述步驟s1中的輸入為直接利用bsrnn生成隱藏表征計(jì)算所述失真抑制系數(shù)。

10、進(jìn)一步地,所述時(shí)間rnn沿時(shí)間軸t操作,所述頻帶rnn沿頻率軸k操作。

11、進(jìn)一步地,所述失真抑制系數(shù)的形狀為(k,t)。

12、進(jìn)一步地,所述修正頻譜輸出公式為:

13、

14、其中,xr∈c(f×t)為所述原始復(fù)數(shù)頻譜、為增強(qiáng)復(fù)數(shù)頻譜、sband為頻帶內(nèi)失真抑制系數(shù)、為頻帶內(nèi)的頻率范圍。

15、進(jìn)一步地,所述修正頻譜計(jì)算公式為:

16、

17、其中,xr∈c(f×t)為所述原始復(fù)數(shù)頻譜、為增強(qiáng)復(fù)數(shù)頻譜、s∈[0,1]為失真抑制系數(shù)。

18、進(jìn)一步地,所述失真抑制插值算法為全頻帶插值和子頻帶插值。

19、本發(fā)明還提供了一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊,其執(zhí)行上述所述的方法,所述失真抑制模塊完全獨(dú)立于語音增強(qiáng)模型前端和自動(dòng)語音識(shí)別模型后端。

20、進(jìn)一步地,在訓(xùn)練時(shí)僅更新所述失真抑制模塊的參數(shù),所述語音增強(qiáng)模型和所述自動(dòng)語音識(shí)別模型保持凍結(jié)狀態(tài)。

21、本發(fā)明提出的一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,使用非侵入式的前后端橋接模塊,可以實(shí)現(xiàn)計(jì)算量小,且設(shè)計(jì)上可以處理流式輸入并實(shí)現(xiàn)流式輸出,可以與現(xiàn)有的流式、非流式語音增強(qiáng)模型兼容;增強(qiáng)模型訓(xùn)練需求數(shù)據(jù)量小、模型參數(shù)量小,可以在少量有標(biāo)注數(shù)據(jù)上完成快速適應(yīng);不改變?cè)鰪?qiáng)模型的輸出信號(hào),有效保持了不同增強(qiáng)算法對(duì)增強(qiáng)語音不同方面的聽感增益。



技術(shù)特征:

1.一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述方法包括如下步驟:

2.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,步驟s2中獲取所述失真抑制系數(shù)的方法為:

3.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,步驟s2中獲取所述失真抑制系數(shù)的方法為:

4.如權(quán)利要求2所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述時(shí)間rnn沿時(shí)間軸t操作,所述頻帶rnn沿頻率軸k操作。

5.如權(quán)利要求4所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述失真抑制系數(shù)的形狀為(k,t)。

6.如權(quán)利要求5所述的面向魯棒語音識(shí)別非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述修正頻譜輸出公式為:

7.如權(quán)利要求3所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述修正頻譜計(jì)算公式為:

8.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,其特征在于,所述失真抑制插值算法為全頻帶插值和子頻帶插值。

9.一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊,其執(zhí)行所述權(quán)利要求1-8任一所述的方法,其特征在于,所述失真抑制模塊完全獨(dú)立于語音增強(qiáng)模型前端和自動(dòng)語音識(shí)別模型后端。

10.如權(quán)利要求9所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊,其特征在于,在訓(xùn)練時(shí)僅更新所述失真抑制模塊的參數(shù),所述語音增強(qiáng)模型和所述自動(dòng)語音識(shí)別模型保持凍結(jié)狀態(tài)。


技術(shù)總結(jié)
本發(fā)明公開一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法,所述方法包括如下步驟:S1:輸入原始復(fù)數(shù)頻譜和增強(qiáng)復(fù)數(shù)頻譜;S2:依據(jù)所述步驟S1中的輸入獲取失真抑制系數(shù);S3:將所述失真抑制系數(shù)應(yīng)用于失真抑制插值算法獲取輸出修正頻譜。本發(fā)明通過使用非侵入式的前后端橋接模塊,實(shí)現(xiàn)計(jì)算量小,且可與現(xiàn)有的流式、非流式語音增強(qiáng)模型兼容;增強(qiáng)模型訓(xùn)練需求數(shù)據(jù)量小,可在少量有標(biāo)注數(shù)據(jù)上完成快速適應(yīng);不改變?cè)鰪?qiáng)模型的輸出信號(hào),有效保持了不同增強(qiáng)算法對(duì)增強(qiáng)語音不同方面的聽感增益。

技術(shù)研發(fā)人員:錢彥旻,王巍,趙思怡
受保護(hù)的技術(shù)使用者:上海交通大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1