本發(fā)明屬于智能語音識(shí)別,具體涉及一種用于音響的智能語音識(shí)別控制方法、系統(tǒng)及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著智能家居技術(shù)的快速發(fā)展,人們對(duì)于音響系統(tǒng)的要求不再局限于使用遙控器進(jìn)行控制,希望控制更自由更舒適更便利,語音控制已成為音響設(shè)備的重要交互方式。
2、但是,現(xiàn)有的音響語音控制技術(shù)仍然存在一些問題:
3、在遠(yuǎn)場場景中,語音信號(hào)因距離衰減和環(huán)境噪聲干擾,導(dǎo)致識(shí)別準(zhǔn)確率顯著下降,傳統(tǒng)單麥克風(fēng)系統(tǒng)難以有效捕捉遠(yuǎn)場語音,尤其是在背景噪聲較大的環(huán)境中,因此,在嘈雜環(huán)境或遠(yuǎn)場場景中,用戶需要提高音量或重復(fù)指令,導(dǎo)致交互體驗(yàn)不自然;
4、現(xiàn)有技術(shù)通常僅關(guān)注語音信號(hào)的頻率特征,而忽略了對(duì)音色特征和空間位置信息的綜合利用,限制了語音識(shí)別系統(tǒng)在個(gè)性化交互、情感分析等領(lǐng)域的應(yīng)用;而且,現(xiàn)有音響語音控制系統(tǒng)難以在復(fù)雜動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)高精度的全方位語音識(shí)別和個(gè)性化控制,導(dǎo)致用戶體驗(yàn)不佳。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的就在于為了解決上述問題而提供一種用于音響的智能語音識(shí)別控制方法、系統(tǒng)及存儲(chǔ)介質(zhì)。
2、本發(fā)明通過以下技術(shù)方案來實(shí)現(xiàn)上述目的:
3、本發(fā)明第一方面提供一種用于音響的智能語音識(shí)別控制方法,包括以下步驟:
4、獲取語音信號(hào)及其相關(guān)特征信息,相關(guān)特征信息包括聲音空間位置信息和音色特征參數(shù);
5、對(duì)語音信號(hào)進(jìn)行預(yù)處理,通過傅里葉變換將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào),提取語音的頻率特征;
6、利用麥克風(fēng)陣列技術(shù),根據(jù)聲音到達(dá)不同麥克風(fēng)的時(shí)間差計(jì)算聲源位置;
7、采用特征提取方法提取音色特征;
8、構(gòu)建全息語音模型,模型采用深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將頻率特征、空間位置信息和音色特征作為輸入,輸出對(duì)應(yīng)的控制指令。
9、進(jìn)一步地,利用麥克風(fēng)陣列技術(shù),根據(jù)聲音到達(dá)不同麥克風(fēng)的時(shí)間差計(jì)算聲源位置,具體包括:
10、計(jì)算聲音到達(dá)不同麥克風(fēng)的時(shí)間差;
11、結(jié)合聲音傳播速度,通過公式計(jì)算聲音到達(dá)不同麥克風(fēng)的距離差;
12、利用三角定位原理計(jì)算聲音空間位置。
13、進(jìn)一步地,構(gòu)建全息語音模型,該模型采用深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括:輸入層:接收頻率特征、空間位置信息和音色特征向量;隱藏層:多層全連接層,使用relu激活函數(shù);輸出層:使用softmax函數(shù)輸出識(shí)別結(jié)果的概率分布;
14、全息語音模型的數(shù)學(xué)表達(dá)式為:
15、;
16、其中:為輸入特征的組合,所述輸入特征組合包括接收頻率特征、空間位置信息和音色特征向量,為輸出層權(quán)重,為輸出層偏置,為隱藏層權(quán)重,為隱藏層偏置;
17、全息語音模型訓(xùn)練采用反向傳播算法和隨機(jī)梯度下降優(yōu)化:
18、損失函數(shù):交叉熵;
19、參數(shù)更新:,其中:表示對(duì)個(gè)類別進(jìn)行求和,為真實(shí)標(biāo)簽,為模型預(yù)測概率,表示對(duì)參數(shù)求梯度,為學(xué)習(xí)率,控制參數(shù)更新步長,為第次迭代時(shí)的參數(shù),為第+1次迭代時(shí)的參數(shù)。
20、進(jìn)一步地,還包括以下步驟:
21、采用信號(hào)分離算法對(duì)混合語音信號(hào)進(jìn)行分離;對(duì)分離出的各語音信號(hào)進(jìn)行說話者識(shí)別;根據(jù)說話者身份信息確定語音指令的優(yōu)先級(jí);按照優(yōu)先級(jí)順序處理語音指令。
22、進(jìn)一步地,還包括以下步驟:
23、構(gòu)建場景識(shí)別模型,識(shí)別當(dāng)前場景類型;根據(jù)場景類型選擇對(duì)應(yīng)的處理模型;整合場景特征與基礎(chǔ)特征;實(shí)現(xiàn)場景識(shí)別模型與對(duì)應(yīng)的處理模型協(xié)同。
24、本發(fā)明第二方面提供一種用于音響的智能語音識(shí)別控制系統(tǒng),包括:
25、信號(hào)采集單元,用于獲取語音信號(hào);特征提取單元,用于提取頻率特征、空間位置信息和音色特征;模型處理單元,用于運(yùn)行全息語音模型;控制執(zhí)行單元,用于執(zhí)行識(shí)別后的控制指令;系統(tǒng)優(yōu)化單元,用于進(jìn)行性能優(yōu)化。
26、進(jìn)一步地,所述特征提取單元包括:頻譜分析模塊,用于進(jìn)行信號(hào)變換;空間定位模塊,用于計(jì)算聲源位置;音色特征模塊,用于提取音色特征。
27、進(jìn)一步地,還包括:場景識(shí)別單元,用于識(shí)別使用場景;模型選擇單元,用于切換處理模型;特征融合單元,用于整合特征;模型協(xié)同單元,用于全息語音模型、場景識(shí)別模型以及不同場景下的處理模型的工作。
28、進(jìn)一步地,所述系統(tǒng)優(yōu)化單元包括:性能評(píng)估模塊,用于評(píng)估系統(tǒng)性能;資源調(diào)度模塊,用于優(yōu)化資源分配;故障處理模塊,用于處理系統(tǒng)故障。
29、本發(fā)明第三方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述中任一種所述的用于音響的智能語音識(shí)別控制方法。
30、本發(fā)明的有益效果在于:本發(fā)明通過全息語音建模技術(shù),能夠捕捉語音信號(hào)中的頻率成分,實(shí)現(xiàn)了對(duì)語音信號(hào)頻率特征、空間位置和音色特征的綜合分析,提升語音識(shí)別準(zhǔn)確性,即使在嘈雜或多說話人環(huán)境中更精準(zhǔn)地提取目標(biāo)語音,利用空間位置和頻率特征有效抑制噪聲,提高語音清晰度;采用多麥克風(fēng)陣列和聲源定位技術(shù),提高了遠(yuǎn)場語音識(shí)別的準(zhǔn)確性,為用戶提供更自然、高效的語音交互體驗(yàn)感。
1.一種用于音響的智能語音識(shí)別控制方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種用于音響的智能語音識(shí)別控制方法,其特征在于,利用麥克風(fēng)陣列技術(shù),根據(jù)聲音到達(dá)不同麥克風(fēng)的時(shí)間差計(jì)算聲源位置的方法包括:
3.根據(jù)權(quán)利要求1所述的一種用于音響的智能語音識(shí)別控制方法,其特征在于,所述全息語音模型包括:
4.根據(jù)權(quán)利要求1所述的一種用于音響的智能語音識(shí)別控制方法,其特征在于,還包括以下步驟:
5.根據(jù)權(quán)利要求1所述的一種用于音響的智能語音識(shí)別控制方法,其特征在于,還包括以下步驟:
6.一種用于音響的智能語音識(shí)別控制系統(tǒng),其特征在于,其用于執(zhí)行權(quán)利要求1-5任一所述的一種用于音響的智能語音識(shí)別控制方法,包括:
7.根據(jù)權(quán)利要求6所述的一種用于音響的智能語音識(shí)別控制系統(tǒng),其特征在于,所述特征提取單元包括:
8.根據(jù)權(quán)利要求6所述的一種用于音響的智能語音識(shí)別控制系統(tǒng),其特征在于,還包括:
9.根據(jù)權(quán)利要求6所述的一種用于音響的智能語音識(shí)別控制系統(tǒng),其特征在于,所述系統(tǒng)優(yōu)化單元包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的用于音響的智能語音識(shí)別控制方法。