最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種麥克風音量動態(tài)調(diào)整方法及相關(guān)裝置與流程

文檔序號:41952061發(fā)布日期:2025-05-16 14:13閱讀:4來源:國知局
一種麥克風音量動態(tài)調(diào)整方法及相關(guān)裝置與流程

本技術(shù)屬于一種音量自動調(diào)整方法,具體涉及一種麥克風音量動態(tài)調(diào)整方法及相關(guān)裝置。


背景技術(shù):

1、在傳統(tǒng)麥克風系統(tǒng)中,音頻信號的采集質(zhì)量往往受限于人工增益調(diào)節(jié)機制?,F(xiàn)有技術(shù)通常要求用戶根據(jù)聲源距離變化或環(huán)境噪聲波動,通過物理旋鈕或軟件界面手動調(diào)節(jié)輸入靈敏度參數(shù),這種方式存在顯著的實時性缺陷與技術(shù)局限性。具體表現(xiàn)為:當聲源發(fā)生位移或環(huán)境噪聲水平產(chǎn)生動態(tài)變化時,固定增益設(shè)置會導致語音信號出現(xiàn)過載失真或信噪比惡化;在突發(fā)性干擾噪聲場景下,操作延遲會引發(fā)語音動態(tài)范圍壓縮失效;此外,由于未考慮不同性別說話人在基頻范圍、聲壓級特性方面的生理差異,現(xiàn)有系統(tǒng)缺乏基于生物聲學特征的差異化增益補償機制,導致特定用戶群體的語音可懂度顯著降低,嚴重影響語音采集系統(tǒng)的魯棒性與適應(yīng)性。


技術(shù)實現(xiàn)思路

1、本技術(shù)針對傳統(tǒng)麥克風系統(tǒng)中音頻信號的調(diào)節(jié)方法,存在調(diào)節(jié)實時性差,語音采集魯棒性和適應(yīng)性差的技術(shù)問題,提供一種麥克風音量動態(tài)調(diào)整方法及相關(guān)裝置。

2、為了實現(xiàn)上述目的,本技術(shù)采用以下技術(shù)方案予以實現(xiàn):

3、第一方面,本技術(shù)提出一種麥克風音量動態(tài)調(diào)整方法,包括:

4、在預設(shè)時間范圍內(nèi),持續(xù)獲取麥克風接收的音頻信號,判斷所述音頻信號的平穩(wěn)性是否滿足預設(shè)要求,若滿足,根據(jù)距離結(jié)果和最終性別判斷結(jié)果,動態(tài)調(diào)整麥克風的輸出音量,否則,根據(jù)最終性別判斷結(jié)果,動態(tài)調(diào)整麥克風的輸出音量;所述距離結(jié)果和所述最終性別判斷結(jié)果的獲取方法,包括:

5、對所述音頻信號進行距離檢測,確定音頻信號來源處與麥克風之間的距離,得到距離檢測結(jié)果;

6、從所述音頻信號中分別提取梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度,結(jié)合梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度確定發(fā)出音頻信號的人員的第一性別判斷結(jié)果;將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度輸入至性別判斷模型中,得到發(fā)出音頻信號的人員的第二性別判斷結(jié)果;所述性別判斷模型采用卷積神經(jīng)網(wǎng)絡(luò)、殘差卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的混合模型結(jié)構(gòu);若第一性別判斷結(jié)果和第二性別判斷結(jié)果一致,則以一致的結(jié)果作為最終性別判斷結(jié)果。

7、進一步地,對所述音頻信號進行距離檢測的方法,包括:

8、對所述音頻信號應(yīng)用窗函數(shù),得到第一預處理音頻信號;

9、對所述第一預處理音頻信號進行幀處理,得到一組第一序號幀信號;

10、分別計算所有第一序號幀信號的功率,對應(yīng)得到一組幀功率;

11、計算一組幀功率的平均功率;

12、將平均功率轉(zhuǎn)換為分貝,并求絕對值,根據(jù)絕對值確定音頻信號來源處與麥克風之間的距離。

13、進一步地,所述梅爾頻率倒譜系數(shù)的提取方法,包括:

14、對音頻信號預加重,得到加重信號;

15、對加重信號分幀,得到分幀信號;

16、對所述分幀信號應(yīng)用窗函數(shù),得到第二預處理音頻信號;

17、對所述第二預處理音頻信號進行幀處理,得到一組第二序號幀信號;

18、對一組第二序號幀信號進行快速傅里葉變換,將第二序號幀信號轉(zhuǎn)換為頻域信號,記作第一頻域信號;

19、使第一頻域信號通過梅爾濾波器組,得到梅爾頻率頻域信號;

20、對梅爾頻率頻域信號進行對數(shù)壓縮,得到壓縮信號;

21、對所述壓縮信號進行離散余弦變換,提取出梅爾頻率倒譜系數(shù)。

22、進一步地,所述譜質(zhì)心的計算方法,包括:

23、對所述音頻信號應(yīng)用窗函數(shù),得到第一預處理音頻信號;

24、對所述第一預處理音頻信號進行幀處理,得到一組第一序號幀信號;

25、對一組第一序號幀信號進行快速傅里葉變換,將第一序號幀信號轉(zhuǎn)換為頻域信號,記作第二頻域信號;

26、計算所述第二頻域信號中所有頻率的能量加權(quán)平均值,得到譜質(zhì)心。

27、進一步地,譜對比度的計算方法,包括:

28、對所述音頻信號應(yīng)用窗函數(shù),得到第一預處理音頻信號;

29、對所述第一預處理音頻信號進行幀處理,得到一組第一序號幀信號;

30、對一組第一序號幀信號進行快速傅里葉變換,將第一序號幀信號轉(zhuǎn)換為頻域信號,記作第二頻域信號;

31、將所述第二頻域信號劃分為多個不相交的頻帶,得到多個頻帶;

32、分別計算每個頻帶的能量,獲取每個頻帶的能量峰值和能量谷值;

33、根據(jù)每個頻帶的能量峰值和能量谷值,計算每個頻帶的譜對比度。

34、進一步地,所述結(jié)合梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度確定發(fā)出音頻信號的人員的第一性別判斷結(jié)果的方法,包括:

35、將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度對齊至相同的幀數(shù);

36、將對齊后的梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度拼接為一個特征矩陣,記作第一拼接特征矩陣;

37、對第一拼接特征矩陣做歸一化處理;

38、對歸一化處理后的第一拼接特征矩陣中的不同特征分配權(quán)重,得到加權(quán)后的特征矩陣;

39、使加權(quán)后的特征矩陣與預設(shè)的常數(shù)矩陣對比,若大于等于常數(shù)矩陣,則第一性別判斷結(jié)果為女性,否則,第一性別判斷結(jié)果為男性。

40、進一步地,所述性別判斷模型中采用的卷積神經(jīng)網(wǎng)絡(luò)包括第一卷積神經(jīng)網(wǎng)絡(luò)和第二卷積神經(jīng)網(wǎng)絡(luò);

41、所述將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度輸入至性別判斷模型中,得到發(fā)出音頻信號的人員的第二性別判斷結(jié)果的方法,包括:

42、將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度按幀拼接為第二拼接特征矩陣;

43、將第二拼接特征矩陣輸入至性別判斷模型中,在性別判斷模型中,采用第一卷積神經(jīng)網(wǎng)絡(luò)從梅爾頻率倒譜系數(shù)中提取第一局部特征;采用第二卷積神經(jīng)網(wǎng)絡(luò)從譜質(zhì)心和譜對比度中提取統(tǒng)計特征;采用殘差卷積網(wǎng)絡(luò)處理語音頻譜圖,得到第二局部特征;采用循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉時間序列中的依賴關(guān)系,得到多個第三局部特征;所述語音頻譜圖包括第一頻域信號和第二頻域信號;所述時間序列為第一局部特征、統(tǒng)計特征和第二局部特征按照時間順序排列得到;

44、對多個第三局部特征加權(quán)平均,得到第二性別判斷結(jié)果。

45、第二方面,本技術(shù)提出一種麥克風音量動態(tài)調(diào)整系統(tǒng),包括:

46、信號獲取模塊,用于在預設(shè)時間范圍內(nèi),持續(xù)獲取麥克風接收的音頻信號,判斷所述音頻信號的平穩(wěn)性是否滿足預設(shè)要求,若滿足,根據(jù)距離結(jié)果和最終性別判斷結(jié)果,動態(tài)調(diào)整麥克風的輸出音量,否則,根據(jù)最終性別判斷結(jié)果,動態(tài)調(diào)整麥克風的輸出音量;所述距離結(jié)果和所述最終性別判斷結(jié)果,通過距離檢測模塊和性別判斷模塊的輸出得到;

47、距離檢測模塊,用于對所述音頻信號進行距離檢測,確定音頻信號來源處與麥克風之間的距離,得到距離檢測結(jié)果;

48、性別判斷模塊,用于從所述音頻信號中分別提取梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度,結(jié)合梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度確定發(fā)出音頻信號的人員的第一性別判斷結(jié)果;將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度輸入至性別判斷模型中,得到發(fā)出音頻信號的人員的第二性別判斷結(jié)果;所述性別判斷模型采用卷積神經(jīng)網(wǎng)絡(luò)、殘差卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的混合模型結(jié)構(gòu);若第一性別判斷結(jié)果和第二性別判斷結(jié)果一致,則以一致的結(jié)果作為最終性別判斷結(jié)果。

49、第三方面,本技術(shù)提出一種電子設(shè)備,包括:存儲器、一個或多個處理器;所述存儲器與所述處理器耦合;其中,所述存儲器中存儲有計算機程序代碼,所述計算機程序代碼包括計算機指令,當所述計算機指令被所述處理器執(zhí)行時,所述電子設(shè)備執(zhí)行上述麥克風音量動態(tài)調(diào)整方法的步驟。

50、第四方面,本技術(shù)提出一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述麥克風音量動態(tài)調(diào)整方法的步驟。

51、與現(xiàn)有技術(shù)相比,本技術(shù)具有以下有益效果:

52、本技術(shù)提出一種麥克風音量動態(tài)調(diào)整方法,先對預設(shè)時間范圍內(nèi)的音頻信號進行平穩(wěn)性判斷,若音頻信號平穩(wěn),對音頻信號進行距離檢測,確定音頻信號來源處與麥克風之間的距離。同時,根據(jù)從音頻信號中提取得到的梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度,得到第一性別判斷結(jié)果和第二性別判斷結(jié)果,其中,第二性別判斷結(jié)果結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、殘差卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)組成的混合模型結(jié)構(gòu)得到,進一步使第一性別判斷結(jié)果和第二性別判斷結(jié)果相互印證,提高性別判斷結(jié)果的準確性。采用本技術(shù)的麥克風音量動態(tài)調(diào)整方法,能夠快速準確根據(jù)發(fā)出音頻信號的人員與麥克風的距離,以及發(fā)出音頻信號的人員的性別調(diào)整音量,以適應(yīng)不同的說話距離和人員性別,減少手動操作,提供清晰、一致的音頻輸出,取消了傳統(tǒng)的距離傳感器,能夠有效降低使用成本。若音頻信號不平穩(wěn),根據(jù)最終性別判斷結(jié)果,動態(tài)調(diào)整麥克風的輸出音量,同樣能夠達到上述效果。

53、本技術(shù)還提出一種麥克風音量動態(tài)調(diào)整系統(tǒng),一種電子設(shè)備和一種計算機存儲介質(zhì),具備上述麥克風音量動態(tài)調(diào)整方法的全部優(yōu)勢。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1