本發(fā)明涉及語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)音喚醒的控制方法、裝置及終端。
背景技術(shù):
隨著智能技術(shù)的發(fā)展,在控制終端設(shè)備時(shí),用戶可以通過(guò)喚醒詞控制終端設(shè)備從休眠狀態(tài)下被喚醒,終端設(shè)備在喚醒模式下可以執(zhí)行用戶的語(yǔ)音指令。
現(xiàn)有技術(shù)中,在通過(guò)喚醒方式控制終端設(shè)備時(shí),控制方式通常為:接收喚醒詞,進(jìn)入喚醒模式,在執(zhí)行完一條控制指令后結(jié)束喚醒。
但是,在用戶需要執(zhí)行多條指令的情況下,則需要反復(fù)執(zhí)行上述過(guò)程,使得操作更加繁瑣,且增加了喚醒詞被拒識(shí)的風(fēng)險(xiǎn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的技術(shù)問(wèn)題是如何實(shí)現(xiàn)語(yǔ)音喚醒控制的便捷性。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種語(yǔ)音喚醒的控制方法,語(yǔ)音喚醒的控制方法包括:
接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果;根據(jù)所述第二識(shí)別結(jié)果進(jìn)行響應(yīng),響應(yīng)后保持對(duì)語(yǔ)音的接收。
可選的,所述根據(jù)所述第二識(shí)別結(jié)果進(jìn)行響應(yīng)包括:在所述第二識(shí)別結(jié)果中存在第一控制指令時(shí),對(duì)所述第一控制指令進(jìn)行響應(yīng)。
可選的,所述控制方法還包括:在所述第二識(shí)別結(jié)果中不存在所述第一控制指令時(shí),提示用戶指令異常。
可選的,所述控制方法還包括:在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作。
可選的,所述根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作包括:根據(jù)所述第三語(yǔ)音數(shù)據(jù)對(duì)相應(yīng)的控制指令進(jìn)行響應(yīng),或結(jié)束所述喚醒模式。
可選的,所述在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作包括:確定執(zhí)行完成所述第一控制指令的時(shí)間為時(shí)間起始點(diǎn);在所述時(shí)間起始點(diǎn)之后的第一設(shè)定時(shí)間內(nèi),如果接收到所述第三語(yǔ)音數(shù)據(jù),則進(jìn)行語(yǔ)音識(shí)別,以得到第三識(shí)別結(jié)果。
可選的,所述控制方法還包括:在所述時(shí)間起始點(diǎn)之后的所述第一設(shè)定時(shí)間內(nèi),如果未接收到所述第三語(yǔ)音數(shù)據(jù),則發(fā)送語(yǔ)音提示;在發(fā)送所述語(yǔ)音提示后的第二設(shè)定時(shí)間內(nèi),如果未接收到所述第三語(yǔ)音數(shù)據(jù),則結(jié)束所述喚醒模式。
可選的,對(duì)所述第一控制指令進(jìn)行響應(yīng)的同時(shí),對(duì)所述第二語(yǔ)音數(shù)據(jù)提取聲紋,以得到第一聲紋;所述在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作還包括:對(duì)所述第三語(yǔ)音數(shù)據(jù)提取聲紋,作為第二聲紋;將所述第一聲紋和所述第二聲紋進(jìn)行匹配,以得到第一相似度得分;在所述第一相似度得分大于第一閾值,且所述第三識(shí)別結(jié)果中存在第二控制指令時(shí),響應(yīng)所述第二控制指令。
可選的,所述在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作還包括:在所述第一相似度得分小于第二閾值時(shí),結(jié)束所述喚醒模式,所述第二閾值小于所述第一閾值。
可選的,所述在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作還包括:在所述第一相似度得分大于所述第二閾值且小于所述第一閾值時(shí),將所述第二聲紋與預(yù)設(shè)聲紋庫(kù)進(jìn)行匹配,以得到第二相似度得分;在所述第二相似度得分大于第一閾值時(shí),在所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令;在所述第二相似度得分小于第二閾值時(shí),結(jié)束所述喚醒模式。
可選的,所述控制方法還包括:接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別的同時(shí),對(duì)所述第一語(yǔ)音數(shù)據(jù)進(jìn)行聲紋提取以得到第一語(yǔ)音數(shù)據(jù)的聲紋;如果在接收所述第三語(yǔ)音數(shù)據(jù)之前,以及接收所述第二語(yǔ)音數(shù)據(jù)之后,存在至少一條中間語(yǔ)音數(shù)據(jù),則接收所述至少一條中間語(yǔ)音數(shù)據(jù)的同時(shí),對(duì)所述至少一條中間語(yǔ)音數(shù)據(jù)提取聲紋進(jìn)行聲紋識(shí)別;將所述第二聲紋與所述第一聲紋、所述至少一條中間語(yǔ)音數(shù)據(jù)的聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,以得到第三相似度得分;在所述第三相似度得分大于所述第一閾值,且所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令,否則結(jié)束所述喚醒模式。
可選的,所述控制方法還包括:接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別的同時(shí),對(duì)所述第一語(yǔ)音數(shù)據(jù)進(jìn)行聲紋識(shí)別以得到第一語(yǔ)音數(shù)據(jù)的聲紋;如果所述第三語(yǔ)音數(shù)據(jù)和所述第二語(yǔ)音數(shù)據(jù)之間沒(méi)有接收其他語(yǔ)音數(shù)據(jù),則將所述第二聲紋與所述第一聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,以得到第四相似度得分;在所述第四相似度得分大于所述第一閾值,且所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令,否則結(jié)束所述喚醒模式。
可選的,所述將所述第二聲紋與所述第一聲紋、至少一條中間語(yǔ)音數(shù)據(jù)和所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配包括:將所述第二聲紋與所述第一聲紋、所述至少一條中間語(yǔ)音數(shù)據(jù)的聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋分別進(jìn)行兩兩匹配,得到多個(gè)相似度得分;將所述多個(gè)相似度得分與對(duì)應(yīng)的設(shè)定權(quán)重的乘積相加,以作為所述第三相似度得分,其中,所述第二聲紋與所述第一語(yǔ)音數(shù)據(jù)的聲紋對(duì)應(yīng)的設(shè)定權(quán)重最大。
可選的,采用GMM-UBM模型提取聲紋。
可選的,所述在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作還包括:在所述第三識(shí)別結(jié)果中存在結(jié)束詞時(shí),結(jié)束所述喚醒模式。
可選的,采用以下方式對(duì)所述第一控制指令進(jìn)行響應(yīng):確定所述第一控制指令對(duì)應(yīng)的指令文本;對(duì)所述指令文本進(jìn)行分詞處理以及關(guān)鍵詞提取處理,以得到關(guān)鍵詞;將所述關(guān)鍵詞與預(yù)設(shè)知識(shí)庫(kù)進(jìn)行匹配,確定標(biāo)準(zhǔn)問(wèn)題以及對(duì)應(yīng)的答案,并發(fā)送所述答案。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還公開(kāi)了一種語(yǔ)音喚醒的控制裝置,語(yǔ)音喚醒的控制裝置包括:第一語(yǔ)音識(shí)別模塊,用于接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;喚醒模塊,用于在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;第二語(yǔ)音識(shí)別模塊,用于接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果;語(yǔ)音接收模塊,用于根據(jù)所述第二識(shí)別結(jié)果進(jìn)行響應(yīng),響應(yīng)后保持對(duì)語(yǔ)音的接收。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還公開(kāi)了一種終端,所述終端包括所述語(yǔ)音喚醒的控制裝置。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
本發(fā)明技術(shù)方案接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果;根據(jù)所述第二識(shí)別結(jié)果進(jìn)行響應(yīng),響應(yīng)后保持對(duì)語(yǔ)音的接收。本發(fā)明技術(shù)方案在對(duì)第二識(shí)別結(jié)果進(jìn)行響應(yīng)后,還可以繼續(xù)處于喚醒模式,保持對(duì)語(yǔ)音的接收,而不是結(jié)束喚醒模式;從而在需要執(zhí)行多條指令的情況下,避免反復(fù)進(jìn)入喚醒模式,實(shí)現(xiàn)了語(yǔ)音喚醒控制的便捷性,進(jìn)而可以實(shí)現(xiàn)人機(jī)語(yǔ)音交互中多指令的識(shí)別與執(zhí)行。
進(jìn)一步,對(duì)所述第一控制指令進(jìn)行響應(yīng)的同時(shí),對(duì)所述第二語(yǔ)音數(shù)據(jù)提取聲紋,以得到第一聲紋;所述在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作還包括:對(duì)所述第三語(yǔ)音數(shù)據(jù)提取聲紋,作為第二聲紋;將所述第一聲紋和所述第二聲紋進(jìn)行匹配,以得到第一相似度得分;在所述第一相似度得分大于第一閾值,且所述第三識(shí)別結(jié)果中存在第二控制指令時(shí),響應(yīng)所述第二控制指令;在所述第一相似度得分小于第二閾值時(shí),結(jié)束所述喚醒模式。本發(fā)明技術(shù)方案通過(guò)將第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,在匹配得到的第一相似度得分表明第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的來(lái)源為同一人時(shí),可以執(zhí)行第三識(shí)別結(jié)果中的第二控制指令;在第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的來(lái)源不是同一人時(shí),結(jié)束喚醒模式,可以提高語(yǔ)音喚醒控制的安全性,避免非法人員的非法語(yǔ)音控制。
進(jìn)一步地,在所述第三語(yǔ)音數(shù)據(jù)與第二語(yǔ)音數(shù)據(jù)之間存在多條語(yǔ)音數(shù)據(jù)時(shí),將所述第二聲紋與所述第一聲紋、多條語(yǔ)音數(shù)據(jù)和所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,以得到第三相似度得分;在所述第三相似度得分大于所述第一閾值,且所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令,否則結(jié)束所述喚醒模式。
本發(fā)明技術(shù)方案通過(guò)將第三語(yǔ)音數(shù)據(jù)與多個(gè)語(yǔ)音數(shù)據(jù)進(jìn)行對(duì)比,可以進(jìn)一步提高對(duì)第三語(yǔ)音數(shù)據(jù)的來(lái)源判斷的準(zhǔn)確性,從而進(jìn)一步提高語(yǔ)音喚醒控制的安全性。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例一種語(yǔ)音喚醒的控制方法的流程圖;
圖2是本發(fā)明實(shí)施例另一種語(yǔ)音喚醒的控制方法的流程圖;
圖3是本發(fā)明實(shí)施例又一種語(yǔ)音喚醒的控制方法的流程圖;
圖4是本發(fā)明實(shí)施例一種語(yǔ)音喚醒的控制裝置的結(jié)構(gòu)示意圖;
圖5是本發(fā)明實(shí)施例另一種語(yǔ)音喚醒的控制裝置的結(jié)構(gòu)示意圖;
圖6是本發(fā)明實(shí)施例又一種語(yǔ)音喚醒的控制裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
如背景技術(shù)中所述,現(xiàn)有技術(shù)在用戶需要執(zhí)行多條指令的情況下,則需要反復(fù)執(zhí)行上述過(guò)程,使得操作更加繁瑣,且增加了喚醒詞被拒識(shí)的風(fēng)險(xiǎn)。
本發(fā)明實(shí)施例在對(duì)第二識(shí)別結(jié)果進(jìn)行響應(yīng)后,還可以繼續(xù)處于喚醒模式,保持對(duì)語(yǔ)音的接收,而不是結(jié)束喚醒模式;從而在需要執(zhí)行多條指令的情況下,避免反復(fù)進(jìn)入喚醒模式,實(shí)現(xiàn)了語(yǔ)音喚醒控制的便捷性,進(jìn)而可以實(shí)現(xiàn)人機(jī)語(yǔ)音交互中多指令的識(shí)別與執(zhí)行。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例做詳細(xì)的說(shuō)明。
圖1是本發(fā)明實(shí)施例一種語(yǔ)音喚醒的控制方法的流程圖。
圖1所示的語(yǔ)音喚醒的控制方法可以包括以下步驟:
步驟S101:接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;
步驟S102:在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;
步驟S103:接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果;
步驟S104:根據(jù)所述第二識(shí)別結(jié)果進(jìn)行響應(yīng),響應(yīng)后保持對(duì)語(yǔ)音的接收。
本實(shí)施例中,以終端設(shè)備或智能系統(tǒng)在步驟S101之前處于休眠模式為例,對(duì)語(yǔ)音喚醒的控制方法進(jìn)行說(shuō)明。
具體實(shí)施中,由于終端設(shè)備或智能系統(tǒng)可以通過(guò)喚醒詞進(jìn)行喚醒,因此在步驟S101和步驟S102中,接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,在第一語(yǔ)音數(shù)據(jù)的第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式。終端設(shè)備或智能系統(tǒng)在處于喚醒模式時(shí),可以根據(jù)用戶的語(yǔ)音執(zhí)行相應(yīng)的控制指令。
具體而言,所述喚醒詞可以是用戶自定義設(shè)置的,也可以是終端設(shè)備系統(tǒng)配置的,本發(fā)明實(shí)施例對(duì)此不做限制。
具體實(shí)施中,經(jīng)步驟S102進(jìn)入喚醒模式后,在步驟S103中接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果。然后在步驟S104中,根據(jù)所述第二識(shí)別結(jié)果進(jìn)行響應(yīng),并在響應(yīng)完成后保持對(duì)語(yǔ)音的接收。也就是說(shuō),相對(duì)于現(xiàn)有技術(shù)執(zhí)行完一條控制指令后結(jié)束喚醒,步驟S104在對(duì)第二識(shí)別結(jié)果響應(yīng)完成后可以繼續(xù)保持對(duì)語(yǔ)音的接收,以便可以對(duì)下一語(yǔ)音進(jìn)行響應(yīng)。
本發(fā)明實(shí)施例在對(duì)第二識(shí)別結(jié)果進(jìn)行響應(yīng)后,還可以繼續(xù)處于喚醒模式,保持對(duì)語(yǔ)音的接收,而不是結(jié)束喚醒模式;從而在需要執(zhí)行多條指令的情況下,避免反復(fù)進(jìn)入喚醒模式,實(shí)現(xiàn)了語(yǔ)音喚醒控制的便捷性,進(jìn)而可以實(shí)現(xiàn)人機(jī)語(yǔ)音交互中多指令的識(shí)別與執(zhí)行。
具體而言,步驟S104可以包括以下步驟:在所述第二識(shí)別結(jié)果中存在第一控制指令時(shí),對(duì)所述第一控制指令進(jìn)行響應(yīng);在所述第二識(shí)別結(jié)果中不存在所述第一控制指令時(shí),提示用戶指令異常。也就是說(shuō),第二識(shí)別結(jié)果中存在第一控制指令的話,則執(zhí)行第一控制指令;在第二語(yǔ)音數(shù)據(jù)不正常的情況下,第二識(shí)別結(jié)果中不存在第一控制指令,則對(duì)用戶進(jìn)行提示,以便用戶可以根據(jù)提示來(lái)選擇退出喚醒模式或者重新輸入語(yǔ)音。更具體而言,可以設(shè)置時(shí)間段,例如5秒;在5秒內(nèi)未檢測(cè)到第一控制指令時(shí),則結(jié)束喚醒模式。
圖2是本發(fā)明實(shí)施例另一種語(yǔ)音喚醒的控制方法的流程圖。
圖2所示的語(yǔ)音喚醒的控制方法可以包括以下步驟:
步驟S201:接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;
步驟S202:在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;
步驟S203:接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果;
步驟S204:在所述第二識(shí)別結(jié)果中存在第一控制指令時(shí),對(duì)所述第一控制指令進(jìn)行響應(yīng);
步驟S205:確定執(zhí)行完成所述第一控制指令的時(shí)間為時(shí)間起始點(diǎn);
步驟S207:在所述時(shí)間起始點(diǎn)之后的所述第一設(shè)定時(shí)間內(nèi),如果未接收到所述第三語(yǔ)音數(shù)據(jù),則發(fā)送語(yǔ)音提示;
步驟S208:在發(fā)送所述語(yǔ)音提示后的第二設(shè)定時(shí)間內(nèi),如果未接收到所述第三語(yǔ)音數(shù)據(jù),則結(jié)束所述喚醒模式;
步驟S206:在所述時(shí)間起始點(diǎn)之后的第一設(shè)定時(shí)間內(nèi),如果接收到所述第三語(yǔ)音數(shù)據(jù),則進(jìn)行語(yǔ)音識(shí)別,以得到第三識(shí)別結(jié)果;
步驟S209:在所述第三識(shí)別結(jié)果中存在結(jié)束詞時(shí),結(jié)束所述喚醒模式。
本實(shí)施例中,步驟S201至步驟S203可以參照?qǐng)D1所示的步驟S101至步驟S103,此處不再贅述。
本實(shí)施例中,在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作。具體而言,可以根據(jù)所述第三語(yǔ)音數(shù)據(jù)對(duì)相應(yīng)的控制指令進(jìn)行響應(yīng),或結(jié)束所述喚醒模式。
具體實(shí)施中,在步驟S205中,確定時(shí)間起始點(diǎn)為執(zhí)行完成所述第一控制指令的時(shí)間。那么,在步驟S206中,在所述時(shí)間起始點(diǎn)之后的第一設(shè)定時(shí)間內(nèi),如果接收到所述第三語(yǔ)音數(shù)據(jù),則進(jìn)行語(yǔ)音識(shí)別,以得到第三識(shí)別結(jié)果。相應(yīng)地,在步驟S207中,在所述時(shí)間起始點(diǎn)之后的所述第一設(shè)定時(shí)間內(nèi),如果未接收到所述第三語(yǔ)音數(shù)據(jù),則發(fā)送語(yǔ)音提示。例如,自時(shí)間起始點(diǎn)開(kāi)始5秒內(nèi)未接收到語(yǔ)音信號(hào),則發(fā)送語(yǔ)音提示:“請(qǐng)問(wèn)還有什么可以幫您的嗎”。
然后在步驟S208中,在發(fā)送所述語(yǔ)音提示后的第二設(shè)定時(shí)間內(nèi),如果未接收到所述第三語(yǔ)音數(shù)據(jù),則結(jié)束所述喚醒模式。例如,在發(fā)送語(yǔ)音提示后5秒內(nèi)仍未接收到語(yǔ)音信號(hào),則判斷為無(wú)指令,結(jié)束本次喚醒。也就是說(shuō),本實(shí)施例通過(guò)設(shè)置第一設(shè)定時(shí)間和第二設(shè)定時(shí)間,一方面為用戶提供等待時(shí)間,另一方面避免終端設(shè)備無(wú)限制的等待,導(dǎo)致資源浪費(fèi)。
具體而言,在步驟S206至步驟S208中,可以采用能量雙門限法判斷是否接收到第三語(yǔ)音數(shù)據(jù)。例如,設(shè)置三個(gè)閾值:低能量閾值T_low、高能量閾值T_high以及過(guò)零率閾值Z_CR,當(dāng)某幀語(yǔ)音信號(hào)能量大于低能量閾值T_low或者大于過(guò)零率閾值Z_CR時(shí),則可以判定語(yǔ)音信號(hào)的開(kāi)始,當(dāng)某幀語(yǔ)音信號(hào)能量大于T_high時(shí),則可以判定為正式的語(yǔ)音信號(hào),如果語(yǔ)音信號(hào)能量大于高能量閾值T_high保持一段時(shí)間,則確定該語(yǔ)音信號(hào)為所需語(yǔ)音信號(hào)。
具體實(shí)施中,終端設(shè)備或智能系統(tǒng)可以通過(guò)結(jié)束詞結(jié)束喚醒。在執(zhí)行完步驟S206后可以執(zhí)行步驟S209,用以對(duì)第三識(shí)別結(jié)果中是否包括結(jié)束詞進(jìn)行判斷,在所述第三識(shí)別結(jié)果中存在結(jié)束詞時(shí),結(jié)束所述喚醒模式。本領(lǐng)域技術(shù)人員可以理解的是,結(jié)束詞可以是用戶自定義設(shè)置的,也可以是終端設(shè)備系統(tǒng)配置的,例如,終止詞可以是“不用”,“沒(méi)有”,“就這樣”。本發(fā)明實(shí)施例對(duì)此不做限制。
具體實(shí)施中,在步驟S204中,可以采用以下方式對(duì)所述第一控制指令進(jìn)行響應(yīng):確定所述第一控制指令對(duì)應(yīng)的指令文本;對(duì)所述指令文本進(jìn)行分詞處理以及關(guān)鍵詞提取處理,以得到關(guān)鍵詞;將所述關(guān)鍵詞與預(yù)設(shè)知識(shí)庫(kù)進(jìn)行匹配,確定標(biāo)準(zhǔn)問(wèn)題以及對(duì)應(yīng)的答案,并發(fā)送所述答案。也就是說(shuō),在本實(shí)施例的應(yīng)用場(chǎng)景中,對(duì)所述第一控制指令進(jìn)行響應(yīng)可以是對(duì)第二語(yǔ)音數(shù)據(jù)進(jìn)行回答。
需要說(shuō)明的是,在步驟S204中,如果在所述第二識(shí)別結(jié)果中不存在所述第一控制指令時(shí),提示用戶指令異常;那么在步驟S205中,則確定提示用戶指令異常的時(shí)間為時(shí)間起始點(diǎn)。
本發(fā)明實(shí)施例在用戶長(zhǎng)時(shí)間無(wú)應(yīng)答或者發(fā)送的語(yǔ)音中包括結(jié)束詞時(shí),結(jié)束喚醒模式,相對(duì)于現(xiàn)有技術(shù)執(zhí)行完一條控制指令后結(jié)束喚醒,在可以執(zhí)行多條指令的基礎(chǔ)上,進(jìn)一步提高了語(yǔ)音喚醒控制的便捷性,提高了用戶體驗(yàn)。
圖3是本發(fā)明實(shí)施例又一種語(yǔ)音喚醒的控制方法的流程圖。
圖3所示的語(yǔ)音喚醒的控制方法可以包括以下步驟:
步驟S301:接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;
步驟S302:在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;
步驟S303:接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果;
步驟S304:在所述第二識(shí)別結(jié)果中存在第一控制指令時(shí),對(duì)所述第一控制指令進(jìn)行響應(yīng),同時(shí)對(duì)所述第二語(yǔ)音數(shù)據(jù)提取聲紋,得到第一聲紋;
步驟S305:在接收到第三語(yǔ)音數(shù)據(jù)時(shí),對(duì)所述第三語(yǔ)音數(shù)據(jù)提取聲紋,作為第二聲紋;
步驟S306:將所述第一聲紋和所述第二聲紋進(jìn)行匹配,以得到第一相似度得分;
步驟S307:在所述第一相似度得分大于第一閾值,且所述第三識(shí)別結(jié)果中存在第二控制指令時(shí),響應(yīng)所述第二控制指令;
步驟S308:在所述第一相似度得分小于第二閾值時(shí),結(jié)束所述喚醒模式;
步驟S309:在所述第一相似度得分大于所述第二閾值且小于所述第一閾值時(shí),將所述第二聲紋與預(yù)設(shè)聲紋庫(kù)進(jìn)行匹配,以得到第二相似度得分;
步驟S310:在所述第二相似度得分大于第一閾值時(shí),在所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令;
步驟S311:在所述第二相似度得分小于第二閾值時(shí),結(jié)束所述喚醒模式。
本實(shí)施例中,步驟S301至步驟S303可以參照?qǐng)D1所示的步驟S101至步驟S103,此處不再贅述。
具體實(shí)施中,在步驟S304中,在所述第二識(shí)別結(jié)果中存在第一控制指令時(shí),對(duì)所述第一控制指令進(jìn)行響應(yīng)的同時(shí)對(duì)所述第二語(yǔ)音數(shù)據(jù)提取聲紋,得到對(duì)應(yīng)于第二語(yǔ)音數(shù)據(jù)的第一聲紋。其中,聲紋可以表征語(yǔ)音數(shù)據(jù)的特征,不同的語(yǔ)音來(lái)源具備不同的聲紋,故聲紋可以用以判斷不同的語(yǔ)音數(shù)據(jù)是否來(lái)源于同一人。例如,兩段語(yǔ)音數(shù)據(jù)的聲紋一致,則表明兩段語(yǔ)音數(shù)據(jù)來(lái)源于同一個(gè)人,否則來(lái)源于不同的人。
具體實(shí)施中,在步驟S305中,在接收到第三語(yǔ)音數(shù)據(jù)時(shí),在對(duì)第三語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別之前,對(duì)所述第三語(yǔ)音數(shù)據(jù)提取聲紋,作為第二聲紋。其中,第二聲紋可以表征第三語(yǔ)音數(shù)據(jù)的來(lái)源的特征。也就是說(shuō),在接收到第三語(yǔ)音數(shù)據(jù)后,首先對(duì)第三語(yǔ)音數(shù)據(jù)的來(lái)源進(jìn)行驗(yàn)證,在驗(yàn)證安全后,再去執(zhí)行第三語(yǔ)音數(shù)據(jù)中的控制指令。具體而言,可以采用Gauss混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)提取聲紋。更具體地,可以采用GMM_UBM來(lái)訓(xùn)練聲紋模型,并用于聲紋提取。
具體實(shí)施中,在步驟S306中,通過(guò)將所述第一聲紋和所述第二聲紋進(jìn)行匹配,得到第一相似度得分。也就是說(shuō),通過(guò)第一聲紋和第二聲紋的相似度得分來(lái)表示第一聲紋和第二聲紋是否相似,以及是否來(lái)源于同一人。具體而言,相似度得分可以是兩段語(yǔ)音對(duì)應(yīng)聲紋的余弦(cosine)距離,那么第一相似度得分為第一聲紋和所述第二聲紋的余弦距離。
具體實(shí)施中,在步驟S307中,在所述第一相似度得分大于或大于等于第一閾值,例如,第一相似度得分大于0.6;表示第一聲紋和第二聲紋相似,來(lái)源于同一人,那么如果第三語(yǔ)音數(shù)據(jù)的所述第三識(shí)別結(jié)果中存在第二控制指令,則響應(yīng)所述第二控制指令。相應(yīng)地,在步驟S308中,在所述第一相似度得分小于第二閾值或小于等于時(shí),例如,第一相似度得分小于0.4;表示第一聲紋和第二聲紋差異大,不是來(lái)源于同一人,為了保證安全,則結(jié)束所述喚醒模式。其中,所述第二閾值可以小于第一閾值,也可以等于第一閾值。
具體實(shí)施中,如果第二閾值小于第一閾值,那么在步驟S309中,在所述第一相似度得分大于所述第二閾值且小于所述第一閾值時(shí),將所述第二聲紋與預(yù)設(shè)聲紋庫(kù)進(jìn)行匹配,以得到第二相似度得分。也就是說(shuō),在無(wú)法判定第二語(yǔ)音數(shù)據(jù)和第三語(yǔ)音數(shù)據(jù)是否來(lái)自于同一人時(shí),例如,第一相似度得分大于0.4且小于0.6,可以將第二聲紋與預(yù)設(shè)聲紋庫(kù)進(jìn)行匹配,得到第二相似度得分。具體而言,預(yù)設(shè)聲紋庫(kù)可以是預(yù)先配置的,可以通過(guò)錄取終端設(shè)備的常用人員的多條語(yǔ)音,提取得到對(duì)應(yīng)聲紋,并將其存入預(yù)設(shè)聲紋庫(kù)。具體地,第二相似度得分可以是第一聲紋與預(yù)設(shè)聲紋庫(kù)中多條聲紋的最大余弦距離。
具體實(shí)施中,在步驟S310中,如果所述第二相似度得分大于第一閾值時(shí),例如,第二相似度得分大于0.6;表示第一聲紋與預(yù)設(shè)聲紋庫(kù)中的聲紋相似,第一聲紋的來(lái)源為終端設(shè)備的常用人員,那么如果第三語(yǔ)音數(shù)據(jù)的所述第三識(shí)別結(jié)果中存在第二控制指令,則響應(yīng)所述第二控制指令。相應(yīng)地,在步驟S311中,如果所述第二相似度得分小于第二閾值時(shí),例如,第二相似度得分小于0.4;表示第一聲紋不是預(yù)設(shè)聲紋庫(kù)中的任一聲紋,第一聲紋的來(lái)源不是終端設(shè)備的常用人員,為了保證安全,則結(jié)束所述喚醒模式。
本發(fā)明實(shí)施例通過(guò)將第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,在匹配得到的第一相似度得分表明第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的來(lái)源為同一人時(shí),可以執(zhí)行第三識(shí)別結(jié)果中的第二控制指令;在第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的來(lái)源不是同一人時(shí),結(jié)束喚醒模式,可以提高語(yǔ)音喚醒控制的安全性,避免非法人員的非法語(yǔ)音控制。
優(yōu)選地,在步驟S306至步驟S308中,還可以將第二聲紋與多條語(yǔ)音數(shù)據(jù)進(jìn)行比對(duì),以提高聲紋比對(duì)的準(zhǔn)確性。具體步驟如下:
接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別的同時(shí),對(duì)所述第一語(yǔ)音數(shù)據(jù)進(jìn)行聲紋識(shí)別提取以得到第一語(yǔ)音數(shù)據(jù)的聲紋;如果在接收所述第三語(yǔ)音數(shù)據(jù)之前,以及接收所述第二語(yǔ)音數(shù)據(jù)之后,存在至少一條中間語(yǔ)音數(shù)據(jù),則接收所述至少一條中間語(yǔ)音數(shù)據(jù)的同時(shí),對(duì)所述至少一條中間語(yǔ)音數(shù)據(jù)提取聲紋;將所述第二聲紋與所述第一聲紋、所述至少一條中間語(yǔ)音數(shù)據(jù)的聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,以得到第三相似度得分;在所述第三相似度得分大于所述第一閾值,且所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令,否則結(jié)束所述喚醒模式。
也可以包括以下步驟:接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別的同時(shí),對(duì)所述第一語(yǔ)音數(shù)據(jù)進(jìn)行聲紋識(shí)別以得到第一語(yǔ)音數(shù)據(jù)的聲紋;如果所述第三語(yǔ)音數(shù)據(jù)和所述第二語(yǔ)音數(shù)據(jù)之間沒(méi)有接收其他語(yǔ)音數(shù)據(jù),則將所述第二聲紋與所述第一聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,以得到第四相似度得分;在所述第四相似度得分大于所述第一閾值,且所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令,否則結(jié)束所述喚醒模式。
也就是說(shuō),在本次的喚醒模式中,可以將所述第三語(yǔ)音數(shù)據(jù)與第三語(yǔ)音數(shù)據(jù)之前出現(xiàn)過(guò)的多條語(yǔ)音數(shù)據(jù)的至少一部分進(jìn)行比對(duì)。具體地,可以是第二聲紋與所述第一聲紋、第三語(yǔ)音數(shù)據(jù)與第二語(yǔ)音數(shù)據(jù)之間的所述至少一條中間語(yǔ)音數(shù)據(jù)以及所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行比對(duì);也可以是與所述第一聲紋以及第三語(yǔ)音數(shù)據(jù)與第二語(yǔ)音數(shù)據(jù)之間的所述至少一條中間語(yǔ)音數(shù)據(jù)進(jìn)行比對(duì);還可以是與第一聲紋和第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行比對(duì)。
具體而言,第三語(yǔ)音數(shù)據(jù)的第二聲紋與多個(gè)聲紋特征進(jìn)行比對(duì)時(shí),第三相似得分的計(jì)算方式如下:將所述第二聲紋與所述第一聲紋、所述至少一條中間語(yǔ)音數(shù)據(jù)的聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋分別進(jìn)行兩兩匹配,得到多個(gè)相似度得分;將所述多個(gè)相似度得分與對(duì)應(yīng)的設(shè)定權(quán)重的乘積相加,以作為所述第三相似度得分,其中,所述第二聲紋與所述第一語(yǔ)音數(shù)據(jù)的聲紋對(duì)應(yīng)的設(shè)定權(quán)重最大。也即以第二聲紋與第一語(yǔ)音數(shù)據(jù)的聲紋的相似度得分為主,同時(shí)考慮第二聲紋與第二聲紋之前其他語(yǔ)音數(shù)據(jù)的聲紋的相似度得分,計(jì)算得到第二聲紋比對(duì)的最終得分。例如,第一語(yǔ)音數(shù)據(jù)的聲紋、第一聲紋、第二聲紋以及所述至少一條中間語(yǔ)音數(shù)據(jù)的聲紋分別表示為vid1,vid2,vid3……vidn;兩兩匹配后多個(gè)相似度得分分別為Score21,Score31,Score32……Scoren1等;故第三相似度得分其中,weight∈[0,1]??梢岳斫獾氖?,第二聲紋與第一聲紋和第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行比對(duì)時(shí),也可以采用上述計(jì)算方式,本發(fā)明實(shí)施例對(duì)此不做限制。例如,將所述第二聲紋與所述第一聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋分別進(jìn)行兩兩匹配,得到三個(gè)相似度得分;將所述三個(gè)相似度得分與對(duì)應(yīng)的設(shè)定權(quán)重的乘積相加,以作為所述第四相似度得分,其中,所述第二聲紋與所述第一語(yǔ)音數(shù)據(jù)的聲紋對(duì)應(yīng)的設(shè)定權(quán)重最大。
本發(fā)明實(shí)施例的具體實(shí)施方式可參照前述相應(yīng)實(shí)施例,此處不再贅述。
本發(fā)明實(shí)施例通過(guò)將第三語(yǔ)音數(shù)據(jù)與多個(gè)語(yǔ)音數(shù)據(jù)進(jìn)行對(duì)比,可以進(jìn)一步提高對(duì)第三語(yǔ)音數(shù)據(jù)的來(lái)源判斷的準(zhǔn)確性,從而進(jìn)一步提高語(yǔ)音喚醒控制的安全性。
需要說(shuō)明的是,圖3所示實(shí)施例可以結(jié)合圖2所示實(shí)施例進(jìn)行實(shí)施,例如,在步驟S206之后,執(zhí)行步驟S305至步驟S311,也就是在時(shí)間起始點(diǎn)之后的第一設(shè)定時(shí)間內(nèi)如果接收到第三語(yǔ)音數(shù)據(jù),則通過(guò)聲紋對(duì)比的方式判斷第三語(yǔ)音數(shù)據(jù)的來(lái)源,進(jìn)而確定執(zhí)行指令或退出喚醒模式;也可以是在發(fā)送語(yǔ)音提示后的第二設(shè)定時(shí)間內(nèi)如果接收到第三語(yǔ)音數(shù)據(jù),執(zhí)行步驟S305至步驟S311,通過(guò)聲紋對(duì)比的方式判斷第三語(yǔ)音數(shù)據(jù)的來(lái)源,進(jìn)而確定執(zhí)行指令或退出喚醒模式。應(yīng)當(dāng)理解的是,本領(lǐng)域技術(shù)人員在此基礎(chǔ)上可作出任意可實(shí)施的變化例,本發(fā)明實(shí)施例對(duì)此不做限制。
圖4是本發(fā)明實(shí)施例一種語(yǔ)音喚醒的控制裝置的結(jié)構(gòu)示意圖。
圖4所示的語(yǔ)音喚醒的控制裝置40可以包括第一語(yǔ)音識(shí)別模塊401、喚醒模塊402、第二語(yǔ)音識(shí)別模塊403和語(yǔ)音接收模塊404。
其中,第一語(yǔ)音識(shí)別模塊401用于接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;喚醒模塊402用于在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;第二語(yǔ)音識(shí)別模塊403用于接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果;語(yǔ)音接收模塊404用于根據(jù)所述第二識(shí)別結(jié)果進(jìn)行響應(yīng),響應(yīng)后保持對(duì)語(yǔ)音的接收。
本實(shí)施例中,以終端設(shè)備或智能系統(tǒng)在語(yǔ)音喚醒的控制裝置40工作之前處于休眠模式為例,對(duì)語(yǔ)音喚醒的控制過(guò)程進(jìn)行說(shuō)明。
具體實(shí)施中,由于終端設(shè)備或智能系統(tǒng)可以通過(guò)喚醒詞進(jìn)行喚醒,因此第一語(yǔ)音識(shí)別模塊401接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,喚醒模塊402在第一語(yǔ)音數(shù)據(jù)的第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式。具體而言,所述喚醒詞可以是用戶自定義設(shè)置的,也可以是終端設(shè)備系統(tǒng)配置的,本發(fā)明實(shí)施例對(duì)此不做限制。
具體實(shí)施中,進(jìn)入喚醒模式后,第二語(yǔ)音識(shí)別模塊403可以接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果。然后語(yǔ)音接收模塊404根據(jù)所述第二識(shí)別結(jié)果進(jìn)行響應(yīng),并在響應(yīng)完成后保持對(duì)語(yǔ)音的接收。也就是說(shuō),相對(duì)于現(xiàn)有技術(shù)執(zhí)行完一條控制指令后結(jié)束喚醒,語(yǔ)音接收模塊404可以在對(duì)第二識(shí)別結(jié)果響應(yīng)完成后可以繼續(xù)保持對(duì)語(yǔ)音的接收,以便可以對(duì)下一語(yǔ)音進(jìn)行響應(yīng)。
本發(fā)明實(shí)施例在對(duì)第二識(shí)別結(jié)果進(jìn)行響應(yīng)后,還可以繼續(xù)處于喚醒模式,保持對(duì)語(yǔ)音的接收,而不是結(jié)束喚醒模式;從而在需要執(zhí)行多條指令的情況下,避免反復(fù)進(jìn)入喚醒模式,實(shí)現(xiàn)了語(yǔ)音喚醒控制的便捷性,進(jìn)而可以實(shí)現(xiàn)人機(jī)語(yǔ)音交互中多指令的識(shí)別與執(zhí)行。
具體而言,語(yǔ)音接收模塊404可以包括第一響應(yīng)單元(圖未示)和第一提示單元(圖未示)。第一響應(yīng)單元在所述第二識(shí)別結(jié)果中存在第一控制指令時(shí),對(duì)所述第一控制指令進(jìn)行響應(yīng);第一提示單元在所述第二識(shí)別結(jié)果中不存在所述第一控制指令時(shí),提示用戶指令異常。也就是說(shuō),第二識(shí)別結(jié)果中存在第一控制指令的話,則執(zhí)行第一控制指令;在第二語(yǔ)音數(shù)據(jù)不正常的情況下,第二識(shí)別結(jié)果中不存在第一控制指令,則對(duì)用戶進(jìn)行提示,以便用戶可以根據(jù)提示來(lái)選擇退出喚醒模式或者重新輸入語(yǔ)音。更具體而言,可以設(shè)置時(shí)間段,例如5秒;在第二識(shí)別結(jié)果中不存在第一控制指令且在設(shè)置的時(shí)間段之內(nèi)也未識(shí)別到第一控制指令,則結(jié)束喚醒模式。
具體而言,第一響應(yīng)單元可以包括指令文本確定子單元(圖未示)、關(guān)鍵詞確定子單元(圖未示)和答案發(fā)送子單元(圖未示)。指令文本確定子單元用于確定所述第一控制指令對(duì)應(yīng)的指令文本;關(guān)鍵詞確定子單元,用于對(duì)所述指令文本進(jìn)行分詞處理以及關(guān)鍵詞提取處理,以得到關(guān)鍵詞;答案發(fā)送子單元,用于將所述關(guān)鍵詞與預(yù)設(shè)知識(shí)庫(kù)進(jìn)行匹配,確定標(biāo)準(zhǔn)問(wèn)題以及對(duì)應(yīng)的答案,并發(fā)送所述答案。
本發(fā)明實(shí)施例的具體實(shí)施方式可參照?qǐng)D1所示實(shí)施例,此處不再贅述。
圖5是本發(fā)明實(shí)施例另一種語(yǔ)音喚醒的控制裝置的結(jié)構(gòu)示意圖。
圖5所示的語(yǔ)音喚醒的控制裝置50可以包括第一語(yǔ)音識(shí)別模塊501、喚醒模塊502、第二語(yǔ)音識(shí)別模塊503、語(yǔ)音接收模塊504和操作執(zhí)行模塊505;操作執(zhí)行模塊505可以包括時(shí)間起始點(diǎn)確定單元5051、語(yǔ)音識(shí)別單元5052、第二提示單元5053和第一結(jié)束單元5054。
其中,第一語(yǔ)音識(shí)別模塊501用于接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;喚醒模塊502用于在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;第二語(yǔ)音識(shí)別模塊503用于接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果。第一語(yǔ)音識(shí)別模塊501、喚醒模塊502、第二語(yǔ)音識(shí)別模塊503和語(yǔ)音接收模塊504的具體實(shí)施方式可參照?qǐng)D4所示第一語(yǔ)音識(shí)別模塊401、喚醒模塊402、第二語(yǔ)音識(shí)別模塊403和語(yǔ)音接收模塊404,此處不再贅述。
其中,操作執(zhí)行模塊505用于在接收到第三語(yǔ)音數(shù)據(jù)時(shí),根據(jù)所述第三語(yǔ)音數(shù)據(jù)執(zhí)行相應(yīng)的操作。具體而言,操作執(zhí)行模塊505可以根據(jù)所述第三語(yǔ)音數(shù)據(jù)對(duì)相應(yīng)的控制指令進(jìn)行響應(yīng),或結(jié)束所述喚醒模式。
具體實(shí)施中,時(shí)間起始點(diǎn)確定單元5051用于確定執(zhí)行完成所述第一控制指令的時(shí)間為時(shí)間起始點(diǎn);語(yǔ)音識(shí)別單元5052用于在在所述時(shí)間起始點(diǎn)之后的第一設(shè)定時(shí)間內(nèi),如果接收到所述第三語(yǔ)音數(shù)據(jù),則進(jìn)行語(yǔ)音識(shí)別,以得到第三識(shí)別結(jié)果。那么,操作執(zhí)行模塊505在所述第三識(shí)別結(jié)果中存在結(jié)束詞時(shí),結(jié)束所述喚醒模式;在第三識(shí)別結(jié)果中存在控制指令時(shí),可以執(zhí)行控制指令,也可以對(duì)第三語(yǔ)音數(shù)據(jù)進(jìn)行聲紋比對(duì),以確定是否執(zhí)行控制指令,此處可參照?qǐng)D3所示實(shí)施例。
具體實(shí)施中,第二提示單元5053用于在所述時(shí)間起始點(diǎn)之后的所述第一設(shè)定時(shí)間內(nèi),如果未接收到所述第三語(yǔ)音數(shù)據(jù),則發(fā)送語(yǔ)音提示。例如,自時(shí)間起始點(diǎn)開(kāi)始5秒內(nèi)未接收到語(yǔ)音信號(hào),則發(fā)送語(yǔ)音提示:“請(qǐng)問(wèn)還有什么可以幫您的嗎”。第一結(jié)束單元5054用于在發(fā)送所述語(yǔ)音提示后的第二設(shè)定時(shí)間內(nèi),如果未接收到所述第三語(yǔ)音數(shù)據(jù),則結(jié)束所述喚醒模式。例如,在發(fā)送語(yǔ)音提示后5秒內(nèi)仍未接收到語(yǔ)音信號(hào),則判斷為無(wú)指令,結(jié)束本次喚醒。也就是說(shuō),本實(shí)施例通過(guò)設(shè)置第一設(shè)定時(shí)間和第二設(shè)定時(shí)間,一方面為用戶提供等待時(shí)間,另一方面避免終端設(shè)備無(wú)限制的等待,導(dǎo)致資源浪費(fèi)。
具體而言,可以采用能量雙門限法判斷是否接收到第三語(yǔ)音數(shù)據(jù)。例如,設(shè)置三個(gè)閾值:低能量閾值T_low、高能量閾值T_high以及過(guò)零率閾值Z_CR,當(dāng)某幀語(yǔ)音信號(hào)能量大于T_low或者大于Z_CR時(shí),則可以判定語(yǔ)音信號(hào)的開(kāi)始,當(dāng)某幀語(yǔ)音信號(hào)能量大于T_high時(shí),則可以判定為正式的語(yǔ)音信號(hào),如果語(yǔ)音信號(hào)能量大于T_high保持一段時(shí)間,則確定該語(yǔ)音信號(hào)為所需語(yǔ)音信號(hào)。
具體實(shí)施中,終端設(shè)備或智能系統(tǒng)可以通過(guò)結(jié)束詞結(jié)束喚醒。操作執(zhí)行模塊505可以對(duì)第三識(shí)別結(jié)果中是否包括結(jié)束詞進(jìn)行判斷,在所述第三識(shí)別結(jié)果中存在結(jié)束詞時(shí),結(jié)束所述喚醒模式。本領(lǐng)域技術(shù)人員可以理解的是,結(jié)束詞可以是用戶自定義設(shè)置的,也可以是終端設(shè)備系統(tǒng)配置的,例如,終止詞可以是“不用”,“沒(méi)有”,“就這樣”。本發(fā)明實(shí)施例對(duì)此不做限制。
具體實(shí)施中,語(yǔ)音接收模塊504在所述第二識(shí)別結(jié)果中存在第一控制指令時(shí),對(duì)所述第一控制指令進(jìn)行響應(yīng),可以采用以下方式對(duì)所述第一控制指令進(jìn)行響應(yīng):確定所述第一控制指令對(duì)應(yīng)的指令文本;對(duì)所述指令文本進(jìn)行分詞處理以及關(guān)鍵詞提取處理,以得到關(guān)鍵詞;將所述關(guān)鍵詞與預(yù)設(shè)知識(shí)庫(kù)進(jìn)行匹配,確定標(biāo)準(zhǔn)問(wèn)題以及對(duì)應(yīng)的答案,并發(fā)送所述答案。也就是說(shuō),在本實(shí)施例的應(yīng)用場(chǎng)景中,對(duì)所述第一控制指令進(jìn)行響應(yīng)可以是對(duì)第二語(yǔ)音數(shù)據(jù)進(jìn)行回答。
需要說(shuō)明的是,如果在所述第二識(shí)別結(jié)果中不存在所述第一控制指令時(shí),提示用戶指令異常;那么時(shí)間起始點(diǎn)確定單元5051則可以確定提示用戶指令異常的時(shí)間為時(shí)間起始點(diǎn)。
本發(fā)明實(shí)施例在用戶長(zhǎng)時(shí)間無(wú)應(yīng)答或者發(fā)送的語(yǔ)音中包括結(jié)束詞時(shí),結(jié)束喚醒模式,相對(duì)于現(xiàn)有技術(shù)執(zhí)行完一條控制指令后結(jié)束喚醒,在可以執(zhí)行多條指令的基礎(chǔ)上,進(jìn)一步提高了語(yǔ)音喚醒控制的便捷性,提高了用戶體驗(yàn)。
本發(fā)明實(shí)施例的具體實(shí)施方式可參照?qǐng)D2所示實(shí)施例,此處不再贅述。
圖6是本發(fā)明實(shí)施例又一種語(yǔ)音喚醒的控制裝置的結(jié)構(gòu)示意圖。
圖6所示的語(yǔ)音喚醒的控制裝置60可以包括第一語(yǔ)音識(shí)別模塊601、喚醒模塊602、第二語(yǔ)音識(shí)別模塊603、語(yǔ)音接收模塊604、聲紋提取模塊605和操作執(zhí)行模塊606;操作執(zhí)行模塊606可以包括第一聲紋提取單元6061第一聲紋匹配單元6062、第二響應(yīng)單元6063、第二聲紋匹配單元6064、第三響應(yīng)單元6065、第二結(jié)束單元6066、第三聲紋匹配單元6067和第四響應(yīng)單元6068。
其中,第一語(yǔ)音識(shí)別模塊601用于接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第一識(shí)別結(jié)果;喚醒模塊602用于在所述第一識(shí)別結(jié)果中存在喚醒詞時(shí),進(jìn)入喚醒模式;第二語(yǔ)音識(shí)別模塊603用于接收第二語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別,以得到第二識(shí)別結(jié)果。第一語(yǔ)音識(shí)別模塊601、喚醒模塊602、第二語(yǔ)音識(shí)別模塊603和語(yǔ)音接收模塊604的具體實(shí)施方式可參照?qǐng)D4所示第一語(yǔ)音識(shí)別模塊401、喚醒模塊402、第二語(yǔ)音識(shí)別模塊403和語(yǔ)音接收模塊404,此處不再贅述。
其中,聲紋提取模塊605用于在所述第一響應(yīng)單元(圖未示)對(duì)所述第一控制指令進(jìn)行響應(yīng)的同時(shí),對(duì)所述第二語(yǔ)音數(shù)據(jù)提取聲紋,以得到第一聲紋。
具體實(shí)施中,聲紋提取模塊605可以對(duì)所述第二語(yǔ)音數(shù)據(jù)提取聲紋,得到對(duì)應(yīng)于第二語(yǔ)音數(shù)據(jù)的第一聲紋。其中,聲紋可以表征語(yǔ)音數(shù)據(jù)的特征,不同的語(yǔ)音來(lái)源具備不同的聲紋,故聲紋可以用以判斷不同的語(yǔ)音數(shù)據(jù)是否來(lái)源于同一人。例如,兩段語(yǔ)音數(shù)據(jù)的聲紋一致,則表明兩段語(yǔ)音數(shù)據(jù)來(lái)源于同一個(gè)人,否則來(lái)源于不同的人。
具體實(shí)施中,第一聲紋提取單元6061可以在接收到第三語(yǔ)音數(shù)據(jù)時(shí),在對(duì)第三語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別之前,對(duì)所述第三語(yǔ)音數(shù)據(jù)提取聲紋,作為第二聲紋。其中,第二聲紋可以表征第三語(yǔ)音數(shù)據(jù)的來(lái)源的特征。也就是說(shuō),在接收到第三語(yǔ)音數(shù)據(jù)后,首先對(duì)第三語(yǔ)音數(shù)據(jù)的來(lái)源進(jìn)行驗(yàn)證,在驗(yàn)證安全后,再去執(zhí)行第三語(yǔ)音數(shù)據(jù)中的控制指令。具體而言,可以采用Gauss混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)提取聲紋。更具體地,可以采用GMM_UBM來(lái)訓(xùn)練聲紋模型,并用于聲紋提取。
具體實(shí)施中,第一聲紋匹配單元6062用于將所述第一聲紋和所述第二聲紋進(jìn)行匹配,以得到第一相似度得分;可以通過(guò)將所述第一聲紋和所述第二聲紋進(jìn)行匹配,得到第一相似度得分。也就是說(shuō),通過(guò)第一聲紋和第二聲紋的相似度得分來(lái)表示第一聲紋和第二聲紋是否相似,以及是否來(lái)源于同一人。具體而言,相似度得分可以是兩段語(yǔ)音對(duì)應(yīng)聲紋的余弦(cosine)距離,那么第一相似度得分為第一聲紋和所述第二聲紋的余弦距離。
具體實(shí)施中,第二響應(yīng)單元6063用于在所述第一相似度得分大于第一閾值,且所述第三識(shí)別結(jié)果中存在第二控制指令時(shí),響應(yīng)所述第二控制指令。在所述第一相似度得分大于或大于等于第一閾值,例如,第一相似度得分大于0.6;表示第一聲紋和第二聲紋相似,來(lái)源于同一人,那么如果第三語(yǔ)音數(shù)據(jù)的所述第三識(shí)別結(jié)果中存在第二控制指令,則響應(yīng)所述第二控制指令。相應(yīng)地,第二響應(yīng)單元6063在所述第一相似度得分小于第二閾值或小于等于時(shí),例如,第一相似度得分小于0.4;表示第一聲紋和第二聲紋差異大,不是來(lái)源于同一人,為了保證安全,則結(jié)束所述喚醒模式。其中,所述第二閾值可以小于第一閾值,也可以等于第一閾值。
具體實(shí)施中,如果第二閾值小于第一閾值,第二聲紋匹配單元6064用于在所述第一相似度得分大于所述第二閾值且小于所述第一閾值時(shí),將所述第二聲紋與預(yù)設(shè)聲紋庫(kù)進(jìn)行匹配,以得到第二相似度得分。也就是說(shuō),在無(wú)法判定第二語(yǔ)音數(shù)據(jù)和第三語(yǔ)音數(shù)據(jù)是否來(lái)自于同一人時(shí),例如,第一相似度得分大于0.4且小于0.6,可以將第二聲紋與預(yù)設(shè)聲紋庫(kù)進(jìn)行匹配,得到第二相似度得分。具體而言,預(yù)設(shè)聲紋庫(kù)可以是預(yù)先配置的,可以通過(guò)錄取終端設(shè)備的常用人員的多條語(yǔ)音,提取得到對(duì)應(yīng)聲紋,并將其存入預(yù)設(shè)聲紋庫(kù)。具體地,第二相似度得分可以是第一聲紋與預(yù)設(shè)聲紋庫(kù)中多條聲紋的最大余弦距離。
具體實(shí)施中,第三響應(yīng)單元6065用于在所述第二相似度得分大于第一閾值時(shí),在所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令。如果所述第二相似度得分大于第一閾值時(shí),例如,第二相似度得分大于0.6;表示第一聲紋與預(yù)設(shè)聲紋庫(kù)中的聲紋相似,第一聲紋的來(lái)源為終端設(shè)備的常用人員,那么如果第三語(yǔ)音數(shù)據(jù)的所述第三識(shí)別結(jié)果中存在第二控制指令,則響應(yīng)所述第二控制指令。相應(yīng)地,結(jié)束單元6066在所述第二相似度得分小于第二閾值時(shí),例如,第二相似度得分小于0.4;表示第一聲紋不是預(yù)設(shè)聲紋庫(kù)中的任一聲紋,第一聲紋的來(lái)源不是終端設(shè)備的常用人員,為了保證安全,則結(jié)束所述喚醒模式。
本發(fā)明實(shí)施例通過(guò)將第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,在匹配得到的第一相似度得分表明第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的來(lái)源為同一人時(shí),可以執(zhí)行第三識(shí)別結(jié)果中的第二控制指令;在第三語(yǔ)音數(shù)據(jù)和第二語(yǔ)音數(shù)據(jù)的來(lái)源不是同一人時(shí),結(jié)束喚醒模式,可以提高語(yǔ)音喚醒控制的安全性,避免非法人員的非法語(yǔ)音控制。
優(yōu)選地,還可以將第二聲紋與多條語(yǔ)音數(shù)據(jù)進(jìn)行比對(duì),以提高聲紋比對(duì)的準(zhǔn)確性。具體實(shí)施中,聲紋提取模塊605可以包括第二聲紋提取單元(圖未示)和第三聲紋提取單元(圖未示),第二聲紋提取單元用于在接收第一語(yǔ)音數(shù)據(jù)并進(jìn)行語(yǔ)音識(shí)別的同時(shí),對(duì)所述第一語(yǔ)音數(shù)據(jù)進(jìn)行聲紋提取以得到第一語(yǔ)音數(shù)據(jù)的聲紋;第三聲紋提取單元用于如果在接收所述第三語(yǔ)音數(shù)據(jù)之前,以及接收所述第二語(yǔ)音數(shù)據(jù)之后,存在至少一條中間語(yǔ)音數(shù)據(jù),則接收所述至少一條中間語(yǔ)音數(shù)據(jù)的同時(shí),對(duì)所述至少一條中間語(yǔ)音數(shù)據(jù)提取聲紋。
那么,第三聲紋匹配單元6067用于在所述第三語(yǔ)音數(shù)據(jù)與第二語(yǔ)音數(shù)據(jù)之間存在至少一條中間語(yǔ)音數(shù)據(jù)時(shí),將所述第二聲紋與所述第一聲紋、所述至少一條中間語(yǔ)音數(shù)據(jù)的聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,以得到第三相似度得分;第四響應(yīng)單元6068用于在所述第三相似度得分大于所述第一閾值,且所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令,否則結(jié)束所述喚醒模式。
可選地,操作執(zhí)行模塊606還可以包括第四聲紋匹配單元(圖未示)和第五響應(yīng)單元(圖未示)。第四聲紋匹配單元用于在所述第三語(yǔ)音數(shù)據(jù)和所述第二語(yǔ)音數(shù)據(jù)之間沒(méi)有接收其他語(yǔ)音數(shù)據(jù),則將所述第二聲紋與所述第一聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行匹配,以得到第四相似度得分第五響應(yīng)單元,用于在所述第四相似度得分大于所述第一閾值,且所述第三識(shí)別結(jié)果中存在所述第二控制指令時(shí),響應(yīng)所述第二控制指令,否則結(jié)束所述喚醒模式。
也就是說(shuō),在本次的喚醒模式中,可以將所述第三語(yǔ)音數(shù)據(jù)與第三語(yǔ)音數(shù)據(jù)之前出現(xiàn)過(guò)的多條語(yǔ)音數(shù)據(jù)的至少一部分進(jìn)行比對(duì)。具體地,可以是與所述第一聲紋、第三語(yǔ)音數(shù)據(jù)與第二語(yǔ)音數(shù)據(jù)之間的所述至少一條中間語(yǔ)音數(shù)據(jù)以及所述第一語(yǔ)音數(shù)據(jù)的聲紋進(jìn)行比對(duì);也可以是與所述第一聲紋以及第三語(yǔ)音數(shù)據(jù)與第二語(yǔ)音數(shù)據(jù)之間的所述至少一條中間語(yǔ)音數(shù)據(jù)進(jìn)行比對(duì)。
具體而言,第三聲紋匹配單元6067可以包括匹配子單元(圖未示)和計(jì)算子單元(圖未示)。匹配子單元可以將所述第二聲紋與所述第一聲紋、所述至少一條中間語(yǔ)音數(shù)據(jù)的聲紋和所述第一語(yǔ)音數(shù)據(jù)的聲紋分別進(jìn)行兩兩匹配,得到多個(gè)相似度得分;計(jì)算子單元可以將所述多個(gè)相似度得分與對(duì)應(yīng)的設(shè)定權(quán)重的乘積相加,以作為所述第三相似度得分,其中,所述第二聲紋與所述第一語(yǔ)音數(shù)據(jù)的聲紋對(duì)應(yīng)的設(shè)定權(quán)重最大。也即以第二聲紋與第一語(yǔ)音數(shù)據(jù)的聲紋的相似度得分為主,同時(shí)考慮第二聲紋與第二聲紋之前其他語(yǔ)音數(shù)據(jù)的聲紋的相似度得分,計(jì)算得到第二聲紋比對(duì)的最終得分。例如,第一語(yǔ)音數(shù)據(jù)的聲紋、第一聲紋、第二聲紋以及所述至少一條中間語(yǔ)音數(shù)據(jù)的聲紋分別表示為vid1,vid2,vid3……vidn;兩兩匹配后多個(gè)相似度得分分別為Score21,Score31,Score32……Scoren1等;故第三相似度得分其中,weight∈[0,1]。
本發(fā)明實(shí)施例的具體實(shí)施方式可參照前述相應(yīng)實(shí)施例,此處不再贅述。
本發(fā)明實(shí)施例通過(guò)將第三語(yǔ)音數(shù)據(jù)與多個(gè)語(yǔ)音數(shù)據(jù)進(jìn)行對(duì)比,可以進(jìn)一步提高對(duì)第三語(yǔ)音數(shù)據(jù)的來(lái)源判斷的準(zhǔn)確性,從而進(jìn)一步提高語(yǔ)音喚醒控制的安全性。
需要說(shuō)明的是,圖6所示實(shí)施例可以結(jié)合圖5所示實(shí)施例進(jìn)行實(shí)施,例如,語(yǔ)音識(shí)別單元5052在時(shí)間起始點(diǎn)之后的第一設(shè)定時(shí)間內(nèi)如果接收到第三語(yǔ)音數(shù)據(jù),操作執(zhí)行模塊606則通過(guò)聲紋對(duì)比的方式判斷第三語(yǔ)音數(shù)據(jù)的來(lái)源,進(jìn)而確定執(zhí)行指令或退出喚醒模式;也可以是在發(fā)送語(yǔ)音提示后的第二設(shè)定時(shí)間內(nèi)如果接收到第三語(yǔ)音數(shù)據(jù),操作執(zhí)行模塊606通過(guò)聲紋對(duì)比的方式判斷第三語(yǔ)音數(shù)據(jù)的來(lái)源,進(jìn)而確定執(zhí)行指令或退出喚醒模式。應(yīng)當(dāng)理解的是,本領(lǐng)域技術(shù)人員在此基礎(chǔ)上可作出任意可實(shí)施的變化例,本發(fā)明實(shí)施例對(duì)此不做限制。
可以理解的是,第二響應(yīng)單元6063、第三響應(yīng)單元6065和第四響應(yīng)單元6068也可以包括前述的指令文本確定子單元、關(guān)鍵詞確定子單元和答案發(fā)送子單元;指令文本確定子單元確定的是第二控制指令對(duì)應(yīng)的指令文本,以用以執(zhí)行第二控制指令。
本發(fā)明實(shí)施例還公開(kāi)了一種終端,所述終端可以包括圖4所示的語(yǔ)音喚醒的控制裝置40或圖5所示的語(yǔ)音喚醒的控制裝置50或圖6所示的語(yǔ)音喚醒的控制裝置60。所述終端可以進(jìn)入或退出喚醒模式。所述終端可以是智能手機(jī)、平板電腦、計(jì)算機(jī)等設(shè)備。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于以計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:ROM、RAM、磁盤或光盤等。
雖然本發(fā)明披露如上,但本發(fā)明并非限定于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動(dòng)與修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。