本發(fā)明涉及的是一種語音識別領(lǐng)域的技術(shù),具體是一種基于鑒別性訓(xùn)練的定制語音喚醒優(yōu)化方法及系統(tǒng)。
背景技術(shù):
可定制的語音喚醒(voicewake-up)系統(tǒng)的任務(wù)是指從一段連續(xù)的語音中自動發(fā)現(xiàn)并定位一些事先指定的命令詞(喚醒詞)??啥ㄖ频奶匦泽w現(xiàn)在喚醒詞檢測模型不依賴于用戶指定的喚醒詞,從而實現(xiàn)無需修改模型即可方便更改用戶喚醒詞。主要的語音喚醒技術(shù)包括早期的動態(tài)時間規(guī)整法,如今的基于隱馬爾科夫模型的方法,以及基于深度學(xué)習(xí)的方法。
技術(shù)實現(xiàn)要素:
本發(fā)明針對現(xiàn)有技術(shù)無法明確區(qū)分喚醒詞和非喚醒詞語之間的區(qū)分性不高,或通過定制語音模型才能實現(xiàn)從而提高了實現(xiàn)成本的同時降低了魯棒性等缺陷和不足,提出一種基于鑒別性訓(xùn)練的定制語音喚醒優(yōu)化方法及系統(tǒng),利用前后文無關(guān)音素的聲學(xué)解碼進行高效搜索,從而完成對喚醒詞置信度選擇。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
本發(fā)明包括以下步驟:
步驟1)在給定帶標注的聲學(xué)數(shù)據(jù)后,結(jié)合初始的基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,通過神經(jīng)網(wǎng)絡(luò)前向傳播得到逐幀聲學(xué)概率;
步驟2)結(jié)合標注序列及逐幀聲學(xué)概率,得到標注喚醒詞的建模概率。
步驟3)利用在大量文本上統(tǒng)計得到的音素級語言模型,構(gòu)建為相應(yīng)的搜索網(wǎng)絡(luò),具體是指:在測試階段根據(jù)關(guān)鍵詞構(gòu)建搜索網(wǎng)絡(luò),而后在搜索網(wǎng)絡(luò)上結(jié)合聲學(xué)模型進行搜索。本發(fā)明采用基于上下文無關(guān)音素的聲學(xué)模型,這是由于經(jīng)過了鑒別性訓(xùn)練,聲學(xué)模型具有更強的序列級信息,因此采用上下文相關(guān)音素和上下文無關(guān)音素對聲學(xué)模型的建模效果沒有差別?;谏舷挛臒o關(guān)音素的聲學(xué)模型,所構(gòu)建的搜索網(wǎng)絡(luò)只有傳統(tǒng)方法的三分之一大小,而對喚醒性能沒有影響。
所述的搜索是指:在測試階段結(jié)合已訓(xùn)練好的聲學(xué)模型和已構(gòu)建好的搜索網(wǎng)絡(luò),進行逐幀維特比解碼,搜索得到發(fā)音特征序列對應(yīng)的最優(yōu)喚醒詞序列,及其相應(yīng)的識別概率,作為喚醒詞置信度。
步驟4)基于音素級語言模型的搜索空間和逐幀聲學(xué)模型可以進行喚醒詞競爭項建模,得到后驗概率。
步驟5)結(jié)合喚醒詞競爭項建模和標注喚醒詞建模,進行聲學(xué)模型的鑒別性訓(xùn)練。
步驟6)通過鑒別性訓(xùn)練得到的聲學(xué)模型對喚醒詞和非喚醒詞的區(qū)分性更強,能夠得到更好的喚醒結(jié)果;通過該聲學(xué)模型采用基于喚醒詞置信度與自動估計閾值的比較以判別是否喚醒。
由于可定制喚醒系統(tǒng)不限定喚醒詞,對于不同喚醒詞所使用的閾值也很難統(tǒng)一,本發(fā)明采用針對不同喚醒詞自動估計閾值的方法,一定程度上解決閾值難以統(tǒng)一的問題,從而提升系統(tǒng)喚醒的準確性。自動估計閾值方法基于對filler(填充物)的識別概率,將其作為閾值。當(dāng)喚醒詞置信度大于閾值時,系統(tǒng)將輸出喚醒詞,否則不輸出喚醒詞,等待下次喚醒語音。
所述的filler是由所有的音素并行構(gòu)建而成的搜索空間,其識別概率是指在該搜索空間上基于已訓(xùn)練得到的聲學(xué)模型和聲學(xué)特征序列進行解碼搜索得到的識別概率。
技術(shù)效果
與現(xiàn)有技術(shù)相比,本發(fā)明基于鑒別性訓(xùn)練、音素級語言模型搜索空間以及前后文無關(guān)音素的聲學(xué)解碼,從而具有更好的序列級建模,提高喚醒率、更好的序列級非喚醒詞建模,降低誤喚醒率以及相對更少的模型搜索計算量。
附圖說明
圖1為本發(fā)明實施例系統(tǒng)示意圖;
圖2為本發(fā)明流程圖;
圖3為閾值建立示意圖。
具體實施方式
如圖1所示,本實施例涉及一種基于鑒別性訓(xùn)練的定制語音喚醒優(yōu)化系統(tǒng),包括:基于喚醒詞的搜索網(wǎng)絡(luò)、解碼搜索模塊、基于鑒別性訓(xùn)練的聲學(xué)模型模塊以及置信度判別模塊,其中:搜索網(wǎng)絡(luò)與解碼搜索模塊相連并傳輸針對定制喚醒詞的語言學(xué)信息,聲學(xué)模型模塊與解碼搜索模塊相連并傳輸針對信號進行建模的聲學(xué)信息分值,解碼搜索模塊經(jīng)模型推測得到后驗概率并輸出至置信度判別模塊,置信度判別模塊采用自動估計閾值得到喚醒判定結(jié)果。
所述的聲學(xué)模型模塊具體包括:標注喚醒詞建模單元、喚醒詞競爭項建模單元和聲學(xué)模型鑒別性訓(xùn)練單元,其中:喚醒詞競爭項建模單元根據(jù)搜索空間生成基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型并輸出至喚醒詞競爭項建模單元,標注喚醒詞建模單元根據(jù)帶標注的聲學(xué)數(shù)據(jù)和初始的聲學(xué)模型,通過神經(jīng)網(wǎng)絡(luò)前向傳播得到逐幀聲學(xué)概率并輸出至聲學(xué)模型鑒別性訓(xùn)練單元,得到基于鑒別性訓(xùn)練的聲學(xué)模型用于對信號進行建模的聲學(xué)信息評分。
所述的喚醒詞競爭項建模單元內(nèi)含有基于音素級語言模型的搜索空間,喚醒詞競爭項聲學(xué)信息,通過傳輸逐幀各音素聲學(xué)概率,用以得到喚醒詞競爭項建模后驗概率。
如圖2所示,本實施例包括以下步驟:
步驟1)在給定帶標注的聲學(xué)數(shù)據(jù)后,結(jié)合初始的基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,通過神經(jīng)網(wǎng)絡(luò)前向傳播得到逐幀聲學(xué)概率;
步驟2)結(jié)合標注序列及逐幀聲學(xué)概率,得到標注喚醒詞的建模概率。
步驟3)利用在大量文本上統(tǒng)計得到的音素級語言模型,構(gòu)建為相應(yīng)的搜索網(wǎng)絡(luò),具體是指:在測試階段根據(jù)關(guān)鍵詞構(gòu)建搜索網(wǎng)絡(luò),而后在搜索網(wǎng)絡(luò)上結(jié)合聲學(xué)模型進行搜索。本發(fā)明采用基于上下文無關(guān)音素的聲學(xué)模型,這是由于經(jīng)過了鑒別性訓(xùn)練,聲學(xué)模型具有更強的序列級信息,因此采用上下文相關(guān)音素和上下文無關(guān)音素對聲學(xué)模型的建模效果沒有差別?;谏舷挛臒o關(guān)音素的聲學(xué)模型,本模塊所構(gòu)建的搜索網(wǎng)絡(luò)只有傳統(tǒng)方法的三分之一大小,而對喚醒性能沒有影響。
所述的搜索是指:在測試階段結(jié)合已訓(xùn)練好的聲學(xué)模型和已構(gòu)建好的搜索網(wǎng)絡(luò),進行逐幀維特比解碼,搜索得到發(fā)音特征序列對應(yīng)的最優(yōu)喚醒詞序列,及其相應(yīng)的識別概率,作為喚醒詞置信度。
步驟4)基于音素級語言模型的搜索空間和逐幀聲學(xué)模型可以進行喚醒詞競爭項建模,得到其概率。
步驟5)結(jié)合喚醒詞競爭項建模和標注喚醒詞建模,進行聲學(xué)模型的鑒別性訓(xùn)練。
所述的鑒別性訓(xùn)練具體包括:
5.1)根據(jù)標注喚醒詞建模,使用前后向算法,得到喚醒詞的對數(shù)概率;
5.2)根據(jù)喚醒詞競爭項建模,使用前后向算法,得到搜索網(wǎng)絡(luò)對應(yīng)的對數(shù)邊緣概率;
5.3)逐幀將對數(shù)概率減去對數(shù)邊緣概率,得到喚醒詞在該幀的后驗概率;
5.4)基于后驗概率使用誤差反向傳播算法更新聲學(xué)模型的參數(shù),完成訓(xùn)練。
步驟6)通過鑒別性訓(xùn)練得到的聲學(xué)模型對喚醒詞和非喚醒詞的區(qū)分性更強,能夠得到更好的喚醒結(jié)果;通過該聲學(xué)模型采用基于喚醒詞置信度與自動估計閾值的比較以判別是否喚醒。
如圖3所示,本發(fā)明基于喚醒詞置信度與閾值的比較以判別是否喚醒。由于可定制喚醒系統(tǒng)不限定喚醒詞,對于不同喚醒詞所使用的閾值也很難統(tǒng)一,所以這里提出了一種針對不同喚醒詞自動估計閾值的方法,一定程度上解決閾值難以統(tǒng)一的問題,從而提升系統(tǒng)喚醒的準確性。自動估計閾值方法基于對filler的識別概率,將其作為閾值。當(dāng)喚醒詞置信度大于閾值時,系統(tǒng)將輸出喚醒詞,否則不輸出喚醒詞,等待下次喚醒語音。
所述的filler是由所有的音素并行構(gòu)建而成的搜索空間,其識別概率是指在該搜索空間上基于已訓(xùn)練得到的聲學(xué)模型和聲學(xué)特征序列進行解碼搜索得到的識別概率。
以下為本實施例與現(xiàn)有技術(shù)比較得到的實驗數(shù)據(jù),其中第一行是基于逐幀交叉熵訓(xùn)練(ce)的傳統(tǒng)方法,第二行是基于ce初始化后訓(xùn)練最小貝葉斯風(fēng)險(ce+smbr)的傳統(tǒng)方法,第三行是本方法(lf-bmmi)。倒數(shù)第二列是性能指標,越小越好,倒數(shù)第三列是效率指標,越小越好;由表中可以看出本發(fā)明相對兩種傳統(tǒng)方法,在性能上,等錯率(eer)分別有相對40%和相對20%的顯著提升,同時在效率上,實時率(rtf)有近一倍改善。
上述具體實施可由本領(lǐng)域技術(shù)人員在不背離本發(fā)明原理和宗旨的前提下以不同的方式對其進行局部調(diào)整,本發(fā)明的保護范圍以權(quán)利要求書為準且不由上述具體實施所限,在其范圍內(nèi)的各個實現(xiàn)方案均受本發(fā)明之約束。