面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法

文檔序號(hào)：41929556發(fā)布日期：2025-05-16 13:45閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識(shí)別，尤其涉及一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法。

背景技術(shù)：

1、近年來，語音增強(qiáng)(speechenhancement,se)技術(shù)的進(jìn)步在復(fù)雜聲學(xué)環(huán)境中大大提高了語音的清晰度和可懂度，當(dāng)語音信號(hào)被各種各樣的噪聲干擾、甚至淹沒后，通過語音增強(qiáng)技術(shù)從噪聲背景中提取有用的語音信號(hào)，抑制、降低噪聲干擾。語音增強(qiáng)技術(shù)的目的是通過對(duì)包含噪聲的語音信號(hào)進(jìn)行處理，輸出處理后的純凈語音信號(hào)。

2、然而，將se集成到自動(dòng)語音識(shí)別(automaticspeechrecognition,asr)系統(tǒng)中，通常會(huì)因?yàn)樵鰪?qiáng)過程引入的失真而導(dǎo)致性能下降。雖然現(xiàn)有技術(shù)中通過各種方法已經(jīng)提高了se-asr系統(tǒng)的識(shí)別準(zhǔn)確率，但它們往往需要對(duì)se或asr模型進(jìn)行微調(diào)或重新訓(xùn)練，這在許多實(shí)際應(yīng)用中是不現(xiàn)實(shí)的。

3、因此，本領(lǐng)域的技術(shù)人員致力于開發(fā)一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于現(xiàn)有技術(shù)的上述缺陷，本發(fā)明所要解決的技術(shù)問題：需要調(diào)整前后端模型參數(shù)，使前端模型的信號(hào)增強(qiáng)能力顯著下降；對(duì)顯存要求高且訓(xùn)練過程緩慢。

2、為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，所述方法包括如下步驟：

3、s1：輸入原始復(fù)數(shù)頻譜和增強(qiáng)復(fù)數(shù)頻譜；

4、s2：依據(jù)所述步驟s1中的輸入獲取失真抑制系數(shù)；

5、s3：將所述失真抑制系數(shù)應(yīng)用于失真抑制插值算法獲取輸出修正頻譜。

6、進(jìn)一步地，步驟s2中獲取所述失真抑制系數(shù)的方法為：

7、通過子帶分割模塊將所述原始復(fù)數(shù)頻譜和所述增強(qiáng)復(fù)數(shù)頻譜分解為不同的子帶，所述子帶經(jīng)過時(shí)間rnn和頻帶rnn處理，將生成的隱藏表征映射為所述失真抑制系數(shù)，通過線性層和sigmoid激活函數(shù)生成所述失真抑制系數(shù)。

8、進(jìn)一步地，步驟s2中獲取所述失真抑制系數(shù)的方法為：

9、將所述步驟s1中的輸入為直接利用bsrnn生成隱藏表征計(jì)算所述失真抑制系數(shù)。

10、進(jìn)一步地，所述時(shí)間rnn沿時(shí)間軸t操作，所述頻帶rnn沿頻率軸k操作。

11、進(jìn)一步地，所述失真抑制系數(shù)的形狀為(k,t)。

12、進(jìn)一步地，所述修正頻譜輸出公式為：

13、

14、其中，xr∈c(f×t)為所述原始復(fù)數(shù)頻譜、為增強(qiáng)復(fù)數(shù)頻譜、sband為頻帶內(nèi)失真抑制系數(shù)、為頻帶內(nèi)的頻率范圍。

15、進(jìn)一步地，所述修正頻譜計(jì)算公式為：

16、

17、其中，xr∈c(f×t)為所述原始復(fù)數(shù)頻譜、為增強(qiáng)復(fù)數(shù)頻譜、s∈[0，1]為失真抑制系數(shù)。

18、進(jìn)一步地，所述失真抑制插值算法為全頻帶插值和子頻帶插值。

19、本發(fā)明還提供了一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊，其執(zhí)行上述所述的方法，所述失真抑制模塊完全獨(dú)立于語音增強(qiáng)模型前端和自動(dòng)語音識(shí)別模型后端。

20、進(jìn)一步地，在訓(xùn)練時(shí)僅更新所述失真抑制模塊的參數(shù)，所述語音增強(qiáng)模型和所述自動(dòng)語音識(shí)別模型保持凍結(jié)狀態(tài)。

21、本發(fā)明提出的一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，使用非侵入式的前后端橋接模塊，可以實(shí)現(xiàn)計(jì)算量小，且設(shè)計(jì)上可以處理流式輸入并實(shí)現(xiàn)流式輸出，可以與現(xiàn)有的流式、非流式語音增強(qiáng)模型兼容；增強(qiáng)模型訓(xùn)練需求數(shù)據(jù)量小、模型參數(shù)量小，可以在少量有標(biāo)注數(shù)據(jù)上完成快速適應(yīng)；不改變?cè)鰪?qiáng)模型的輸出信號(hào)，有效保持了不同增強(qiáng)算法對(duì)增強(qiáng)語音不同方面的聽感增益。

技術(shù)特征：

1.一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，其特征在于，所述方法包括如下步驟：

2.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，其特征在于，步驟s2中獲取所述失真抑制系數(shù)的方法為：

3.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，其特征在于，步驟s2中獲取所述失真抑制系數(shù)的方法為：

4.如權(quán)利要求2所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，其特征在于，所述時(shí)間rnn沿時(shí)間軸t操作，所述頻帶rnn沿頻率軸k操作。

5.如權(quán)利要求4所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，其特征在于，所述失真抑制系數(shù)的形狀為(k,t)。

6.如權(quán)利要求5所述的面向魯棒語音識(shí)別非侵入式的增強(qiáng)語音失真抑制方法，其特征在于，所述修正頻譜輸出公式為：

7.如權(quán)利要求3所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，其特征在于，所述修正頻譜計(jì)算公式為：

8.如權(quán)利要求1所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，其特征在于，所述失真抑制插值算法為全頻帶插值和子頻帶插值。

9.一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊，其執(zhí)行所述權(quán)利要求1-8任一所述的方法，其特征在于，所述失真抑制模塊完全獨(dú)立于語音增強(qiáng)模型前端和自動(dòng)語音識(shí)別模型后端。

10.如權(quán)利要求9所述的面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制模塊，其特征在于，在訓(xùn)練時(shí)僅更新所述失真抑制模塊的參數(shù)，所述語音增強(qiáng)模型和所述自動(dòng)語音識(shí)別模型保持凍結(jié)狀態(tài)。

技術(shù)總結(jié)
本發(fā)明公開一種面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法，所述方法包括如下步驟：S1：輸入原始復(fù)數(shù)頻譜和增強(qiáng)復(fù)數(shù)頻譜；S2：依據(jù)所述步驟S1中的輸入獲取失真抑制系數(shù)；S3：將所述失真抑制系數(shù)應(yīng)用于失真抑制插值算法獲取輸出修正頻譜。本發(fā)明通過使用非侵入式的前后端橋接模塊，實(shí)現(xiàn)計(jì)算量小，且可與現(xiàn)有的流式、非流式語音增強(qiáng)模型兼容；增強(qiáng)模型訓(xùn)練需求數(shù)據(jù)量小，可在少量有標(biāo)注數(shù)據(jù)上完成快速適應(yīng)；不改變?cè)鰪?qiáng)模型的輸出信號(hào)，有效保持了不同增強(qiáng)算法對(duì)增強(qiáng)語音不同方面的聽感增益。

技術(shù)研發(fā)人員：錢彥旻,王巍,趙思怡
受保護(hù)的技術(shù)使用者：上海交通大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/15

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：錢彥旻,王巍,趙思怡
技術(shù)所有人：上海交通大學(xué)
我是此專利的發(fā)明人

上一篇：一種直線導(dǎo)軌磨床用自動(dòng)定位機(jī)構(gòu)的制作方法
上一篇：方形可調(diào)雙色主噴嘴的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

面向魯棒語音識(shí)別的非侵入式的增強(qiáng)語音失真抑制方法