專利名稱:非線性譜減缺失分量估計方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到計算機技術(shù)應(yīng)用技術(shù),特別是語音識別技術(shù)中根據(jù)局部信噪比,估計語音特征矢量受噪聲掩蔽的分量的非線性譜減缺失分量估計技術(shù)。
背景技術(shù):
噪聲魯棒性問題是語音識別技術(shù)目前面臨的主要挑戰(zhàn)之一,深入研究基于數(shù)據(jù)重建的語音識別魯棒性技術(shù),具有重要的理論意義和廣泛應(yīng)用價值。
當兩個響度不等的聲音作用于人耳時,響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感知,使其變得不易察覺,這種現(xiàn)象稱為掩蔽效應(yīng)。根據(jù)人耳掩蔽效應(yīng),人們提出了缺失特征方法。缺失特征方法認為噪聲和語音在時間~頻率域上不同區(qū)域具有不同局部信噪比,并進行缺失分量估計,即把局部信噪比較低的區(qū)域標記為“缺失矢量”,而局部信噪比較高的區(qū)域標記為“可靠矢量”,然后進行語音識別。
缺失分量估計是缺失特征方法應(yīng)用于魯棒語音識別的基礎(chǔ),對缺失特征方法的性能有重要的影響。譜減法假設(shè)語音信號是平穩(wěn)或者緩變的,并根據(jù)歷史噪聲功率譜估計當前噪聲功率譜。譜減法可以估計出語音每個美子帶內(nèi)的信噪比,因此可以用于缺失分量估計。
譜減法假設(shè)噪聲是平穩(wěn)或者緩變的,并利用歷史噪聲譜估計當前噪聲譜。基于譜減法的缺失分量估計方法和步驟如下1)假設(shè)噪聲為平穩(wěn)或者緩變信號,且在語音的起始部分僅僅包括了噪聲。使用若干起始美子帶特征的平均作為噪聲子帶特征矢量的估計;2)估計在每個美子帶內(nèi)的局部信噪比;首先,估計每個美子帶內(nèi)噪聲能量 其中,NSi(k)表示受噪聲破壞的語音第i幀美子帶特征的第k個分量(對應(yīng)第k個美三角子帶內(nèi)的受噪聲破壞語音的能量); 表示噪聲第i幀美子帶特征的第k個分量的估計(對應(yīng)第k個美三角子帶內(nèi)的噪聲能量估計)。α,噪聲更新系數(shù),定義了根據(jù)當前信號,噪聲能量估計更新速度的快慢;β,噪聲門限,定義了更新噪聲能量估計的信號能量門限。
然后,估計每個美子帶內(nèi)的局部信噪比SN^Ri(k)=10Log10(NSi(k)-N^i(k)N^i(k))---(2)]]>3)缺失分量估計 掩蔽門限δ是判斷特征是否可靠的門限。δ的取值范圍根據(jù)人耳掩蔽效應(yīng)進行選擇和調(diào)整。
基于譜減法的缺失分量估計算法根據(jù)當前輸入信號能量,調(diào)整噪聲譜估計,進而進行局部信噪比估計,根據(jù)局部信噪比估計完成缺失分量估計。一系列實驗表明,基于譜減法的缺失分量估計算法在處理非平穩(wěn)噪聲時遇到了困難如果噪聲譜估計根據(jù)當前輸入信號能量更新得比較快,在靜音段,噪聲譜能夠得到較好的估計,但是在語音段,噪聲譜估計受到語音譜的影響發(fā)生較大誤差;如果噪聲譜估計根據(jù)當前輸入信號能量更新得比較慢,在語音段,噪聲譜估計受到語音譜的影響較小,但是在靜音段,噪聲譜不能很好得到跟隨和估計。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決這些問題,通過調(diào)整參數(shù)A、B、C、N,使非線性譜減缺失分量估計算法達到如下目的在信噪比較大的語音段,α取較大值,噪聲子帶特征矢量的估計更新較慢;在信噪比較低的靜音段,α取較小值,噪聲子帶特征矢量的估計更新較快。
為了達到上述目的,本發(fā)明的技術(shù)解決方案是提出一種非線性譜減缺失分量估計方法,是根據(jù)局部信噪比,估計語音受噪聲掩蔽部份的缺失分量,其通過調(diào)整參數(shù)A、B、C、N,使在信噪比較大的語音段,噪聲更新系數(shù)α取較大值,噪聲子帶特征矢量的估計更新較慢;在信噪比較低的靜音段,噪聲更新系數(shù)α取較小值,噪聲子帶特征矢量的估計更新較快。
所述的非線性譜減缺失分量估計方法,其算法步驟包括第一步,噪聲子帶特征矢量估計若噪聲為平穩(wěn)或者緩變信號,且在語音的起始部分僅包括噪聲,使用若干起始美子帶特征矢量平均作為噪聲矢量估計;當噪聲為非平穩(wěn)噪聲的時候,首先對含噪語音進行基于能量的端點檢測,然后,利用噪聲段美子帶特征矢量平均作為噪聲矢量的估計;第二步,估計在每個美子帶內(nèi)的局部信噪比根據(jù)含噪語音能量和噪聲能量估計,估計新輸入信號與噪聲的信噪比SN^R=10log10(NSi-N^i-1N^i-1)]]>其中,NSi為含噪語音能量, 為上一楨的噪聲能量估計;根據(jù)信噪比估計,構(gòu)造如下函數(shù),根據(jù)新輸入信號與噪聲能量比估計,計算噪聲更新系數(shù)α
α=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N]]>得到噪聲更新系數(shù)α后,估計每個美子帶內(nèi)噪聲能量Ni′(k)=(1-α)NSi(k)+αN^i-1(k)]]>估計每個美子帶內(nèi)的局部信噪比SN^Ri(k)=10Log10(NSi(k)-N^i(k)N^i(k))]]>第三步,缺失分量估計 其中,δ是判斷特征是否可靠的門限。
所述的非線性譜減缺失分量估計方法,其算法第二步中,其中,0≤A≤1,為更新范圍系數(shù),用來調(diào)整噪聲更新系數(shù)α的取值范圍,確定了A取值,即確定了噪聲更新系數(shù)α的取值范圍A≤α<1。
所述的非線性譜減缺失分量估計方法,其所述噪聲更新系數(shù)α,決定了根據(jù)當前信號更新噪聲能量估計的快慢。
所述的非線性譜減缺失分量估計方法,其算法第二步中,其中α=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N]]>公式中β=[B*(SN^R-C)]2N>0,]]>調(diào)整β的取值可以改變噪聲更新系數(shù)α的取值;選擇不同B、C、N,可以獲得不同的β計算公式,稱B為擴展系數(shù),C為信噪比偏移,N為更新階數(shù)。
所述的非線性譜減缺失分量估計方法,其算法第二步中,其中每個美子帶內(nèi)噪聲能量公式的NSi(k)表示受噪聲破壞的語音第I幀美子帶特征的第k個分量,即對應(yīng)第k個美三角子帶內(nèi)的受噪聲破壞語音的能量; 表示噪聲第I幀美子帶特征的第k個分量的估計,即對應(yīng)第k個美三角子帶內(nèi)的噪聲能量估計。
所述的非線性譜減缺失分量估計方法,其在非平穩(wěn)Babble噪聲環(huán)境下,非線性譜減缺失分量估計方法明顯降低了缺失分量估計誤差;在語音段,語音美子帶特征矢量更接近原始純凈語音特征矢量;在靜音段,有效的去除了基于譜減法的缺失分量估計方法引起的“偽語音”特征矢量;在平穩(wěn)高斯白噪聲環(huán)境下,非線性譜減缺失分量估計方法的性能和基于譜減法的缺失分量估計算法的性能接近。
圖1為噪聲對語音美子帶特征矢量的破壞示意圖,(圖中的漢語語音是談到汽車定點(tan2 dao4 qi4 chel ding4 dian3);圖2為含噪語音的缺失分量估計圖。
具體實施例方式
算法描述基于譜減法的缺失分量估計方法面臨的最大的挑戰(zhàn)來自于噪聲譜估計。在靜音段,缺失分量估計算法希望噪聲譜估計能夠根據(jù)當前輸入信號快速進行更新;而在語音段由于語音信號能量較高,如果根據(jù)當前輸入信號進行快速更新,有可能在噪聲譜估計中引入較多語音譜信息,估計誤差變大,因此在語音段,缺失分量估計算法希望噪聲譜估計根據(jù)當前輸入信號進行更新的速度較慢。
為了達到這個目的,對基于譜減法的缺失分量估計方法,提出了如下的非線性譜減缺失分量估計方法1)噪聲子帶特征矢量估計譜減法假設(shè)噪聲為平穩(wěn)或者緩變信號,且在語音的起始部分僅包括噪聲,使用若干起始美子帶特征矢量平均作為噪聲矢量估計。當噪聲為非平穩(wěn)噪聲的時候,使用該方法初始化噪聲子帶特征矢量的估計并不能取得明顯的效果。為了更好的初始化噪聲功率譜,首先對含噪語音進行基于能量的端點檢測,然后,利用噪聲段美子帶特征矢量平均作為噪聲矢量的估計。
2)估計在每個美子帶內(nèi)的局部信噪比;根據(jù)含噪語音能量和噪聲能量估計,估計新輸入信號與噪聲的信噪比SN^R=10log10(NSi-N^i-1N^i-1)---(4)]]>其中,NSi為含噪語音能量, 為上一楨的噪聲能量估計。根據(jù)信噪比估計,構(gòu)造如下函數(shù),根據(jù)新輸入信號與噪聲能量比估計,計算噪聲更新系數(shù)αα=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N----(5)]]>其中,0≤A≤1,用來調(diào)整噪聲更新系數(shù)α的取值范圍,稱之為更新范圍系數(shù)。確定了A取值,即確定了噪聲更新系數(shù)α的取值范圍A≤α<1。
通過調(diào)整更新范圍系數(shù)A,希望達到如下目的在信噪比較高的語音段,α取較大值,噪聲子帶特征矢量更新較慢;在信噪比較低的靜音段,α取較小值,噪聲子帶特征矢量更新較快。
β=[B*(SN^R-C)]2N>0,]]>是與信噪比有關(guān)的量,調(diào)整β的取值可以改變噪聲更新系數(shù)α的取值。選擇不同B、C、N,可以獲得不同的β計算公式,稱B為擴展系數(shù),C為信噪比偏移,N為更新階數(shù)。
得到噪聲更新系數(shù)α后,估計每個美子帶內(nèi)噪聲能量N′i(k)=(1-α)NSi(k)+αN^i-1(k)---(6)]]>
其中,NSi(k)表示受噪聲破壞的語音第i幀美子帶特征的第k個分量(對應(yīng)第k個美三角子帶內(nèi)的受噪聲破壞語音的能量); 表示噪聲第i幀美子帶特征的第k個分量的估計(對應(yīng)第k個美三角子帶內(nèi)的噪聲能量估計)。噪聲更新系數(shù)α,決定了根據(jù)當前信號更新噪聲能量估計的快慢。
估計每個美子帶內(nèi)的局部信噪比SN^Ri=10Log10(NSi(k)-N^i(k)N^i(k))---(7)]]>3)缺失分量估計 其中,δ是判斷特征是否可靠的門限。
人耳對聲音的感知具有明顯的非線性特性,在語音特征中融入一些反映人耳聽覺特性的因素能夠顯著提高語音識別系統(tǒng)的性能,考慮到聽覺系統(tǒng)的臨界帶效應(yīng),通常選用在美頻率域上均勻分布的三角濾波器組對語音特征矢量進行子帶特征分析,在語音識別技術(shù)中得到了廣泛的應(yīng)用。
下面,將以語音美(Mel)子帶特征矢量的缺失分量估計來說明基于非線性譜減缺失分量估計方法。
純凈語音受到噪聲破壞后,美子帶特征的形態(tài)和分布發(fā)生了比較大的畸變,因此將造成語音識別系統(tǒng)性能大大下降,如圖1所示。從圖1可以看出,噪聲破壞了純凈語音特征矢量的形態(tài)和分布,由于噪聲特性和強度的不同,不同的噪聲對語音特征的破壞作用也不同。
缺失分量估計的目的是把語音特征S分為兩個矢量受到噪聲嚴重破壞的“缺失矢量”Sm和未受到噪聲破壞的“可靠矢量”S°。圖2給出了對含噪語音(高斯白噪聲、Babble噪聲,SNR=15dB)進行缺失分量估計的結(jié)果。
從缺失分量估計的結(jié)果看,基于譜減法的缺失分量估計帶來了噪聲平穩(wěn)性限制對受高斯白噪聲破壞的語音,基于譜減法的缺失分量估計取得了相對較好的結(jié)果,但由于語音特征的隨機性,也出現(xiàn)了一定的估計誤差;對非平穩(wěn)babble噪聲,基于譜減法的缺失分量估計效果不太理想在語音段,美子帶特征“可靠矢量”的分布和數(shù)值出現(xiàn)了較大誤差;同時,在信噪比很低,不會出現(xiàn)美子帶特征“可靠矢量”的靜音段,出現(xiàn)了大量“可靠矢量”(參見圖2)。
實驗結(jié)果表明,在非平穩(wěn)Babble噪聲環(huán)境下,非線性譜減缺失分量估計方法明顯降低了缺失分量估計誤差。因此,在語音段,語音美子帶特征矢量更接近原始純凈語音特征矢量;在靜音段,有效的去除了基于譜減法的缺失分量估計方法引起的“偽語音”特征矢量。在平穩(wěn)高斯白噪聲環(huán)境下,非線性譜減缺失分量估計方法的性能和基于譜減法的缺失分量估計算法的性能比較接近。
因此,在信噪較高的情況下,無論噪聲是非平穩(wěn)Babble噪聲還是平穩(wěn)高斯白噪聲環(huán)境下,非線性譜減缺失分量估計方法都具有良好性能。
權(quán)利要求
1.一種非線性譜減缺失分量估計方法,該方法根據(jù)局部信噪比,估計語音受噪聲掩蔽的語音子帶特征“缺失”分量,其特征為通過調(diào)整參數(shù)A、B、C、N,使在信噪比較大的語音段,噪聲更新系數(shù)α取較大值,噪聲子帶特征矢量的估計更新較慢;在信噪比較低的靜音段,噪聲更新系數(shù)α取較小值,噪聲子帶特征矢量的估計更新較快。
2.如權(quán)利要求1所述的非線性譜減缺失分量估計方法,其特征為算法步驟包括第一步,噪聲子帶特征矢量估計若噪聲為平穩(wěn)或者緩變信號,且在語音的起始部分僅包括噪聲,使用若干起始美子帶特征矢量平均作為噪聲矢量估計;當噪聲為非平穩(wěn)噪聲的時候,首先對含噪語音進行基于能量的端點檢測,然后,利用噪聲段美子帶特征矢量平均作為噪聲矢量的估計;第二步,估計在每個美子帶內(nèi)的局部信噪比根據(jù)含噪語音能量和噪聲能量估計,估計新輸入信號與噪聲的信噪比SN^R=10log10(NSi-N^i-1N^i-1)]]>其中,NSi為含噪語音能量, 為上一楨的噪聲能量估計;根據(jù)信噪比估計,構(gòu)造如下函數(shù),根據(jù)新輸入信號與噪聲能量比估計,計算噪聲更新系數(shù)αα=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N]]>得到噪聲更新系數(shù)α后,估計每個美子帶內(nèi)噪聲能量N′i(k)=(1-α)NSi(k)+αN^i-1(k)]]>估計每個美子帶內(nèi)的局部信噪比SN^Ri(k)=10Log10(NSi(k)-N^i(k)N^i(k))]]>第三步,缺失分量估計 其中,δ是判斷特征是否可靠的門限。
3.如權(quán)利要求2所述的非線性譜減缺失分量估計方法,其特征為算法第二步中,其中,0 ≤A≤1,為更新范圍系數(shù),用來調(diào)整噪聲更新系數(shù)α的取值范圍,確定了A取值,即確定了噪聲更新系數(shù)α的取值范圍A≤α<1。
4.如權(quán)利要求2或3所述的非線性譜減缺失分量估計方法,其特征為當α取較大值時,在信噪比較高的語音段,噪聲子帶特征矢量更新較慢;當α取較小值時,在信噪比較低的靜音段,噪聲子帶特征矢量更新較快。
5.如權(quán)利要求2或3所述的非線性譜減缺失分量估計方法,其特征為所述噪聲更新系數(shù)α,決定了根據(jù)當前信號更新噪聲能量估計的快慢。
6.如權(quán)利要求2所述的非線性譜減缺失分量估計方法,其特征為算法第二步中,其中α=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N]]>公式中β=[B*(SN^R-C)]2N>0,]]>調(diào)整β的取值可以改變噪聲更新系數(shù)α的取值;選擇不同B、C、N,可以獲得不同的β計算公式,稱B為擴展系數(shù),C為信噪比偏移,N為更新階數(shù)。
7.如權(quán)利要求2所述的非線性譜減缺失分量估計方法,其特征為算法第二步中,其中每個美子帶內(nèi)噪聲能量公式的NSi(k)表示受噪聲破壞的語音第I幀美子帶特征的第k個分量,即對應(yīng)第k個美三角子帶內(nèi)的受噪聲破壞語音的能量; 表示噪聲第I幀美子帶特征的第k個分量的估計,即對應(yīng)第k個美三角子帶內(nèi)的噪聲能量估計。
8.如權(quán)利要求1所述的非線性譜減缺失分量估計方法,其特征為在非平穩(wěn)Babble噪聲環(huán)境下,非線性譜減缺失分量估計方法明顯降低了缺失分量估計誤差;在語音段,語音美子帶特征矢量更接近原始純凈語音特征矢量;在靜音段,有效的去除了基于譜減法的缺失分量估計方法引起的“偽語音”特征矢量;在平穩(wěn)高斯白噪聲環(huán)境下,非線性譜減缺失分量估計方法的性能和基于譜減法的缺失分量估計算法的性能接近。
全文摘要
一種根據(jù)局部信噪比,估計受噪聲掩蔽的語音子帶特征分量的方法。其特征為通過調(diào)整參數(shù)A、B、C、N,使在信噪比較大的語音段,噪聲更新系數(shù)α取較大值,噪聲子帶特征矢量的估計更新較慢;在信噪比較低的靜音段,噪聲更新系數(shù)α取較小值,噪聲子帶特征矢量的估計更新較快。在信噪較高的情況下,無論是非平穩(wěn)噪聲還是平穩(wěn)噪聲,非線性譜減缺失分量估計方法都具有良好性能。
文檔編號G10L15/00GK1514431SQ0312749
公開日2004年7月21日 申請日期2003年8月8日 優(yōu)先權(quán)日2003年8月8日
發(fā)明者杜利民, 羅宇 申請人:中國科學(xué)院聲學(xué)研究所