一種麥克風音量動態(tài)調(diào)整方法及相關(guān)裝置與流程

文檔序號：41952061發(fā)布日期：2025-05-16 14:13閱讀：4來源：國知局

本技術(shù)屬于一種音量自動調(diào)整方法，具體涉及一種麥克風音量動態(tài)調(diào)整方法及相關(guān)裝置。

背景技術(shù)：

1、在傳統(tǒng)麥克風系統(tǒng)中，音頻信號的采集質(zhì)量往往受限于人工增益調(diào)節(jié)機制?，F(xiàn)有技術(shù)通常要求用戶根據(jù)聲源距離變化或環(huán)境噪聲波動，通過物理旋鈕或軟件界面手動調(diào)節(jié)輸入靈敏度參數(shù)，這種方式存在顯著的實時性缺陷與技術(shù)局限性。具體表現(xiàn)為：當聲源發(fā)生位移或環(huán)境噪聲水平產(chǎn)生動態(tài)變化時，固定增益設(shè)置會導致語音信號出現(xiàn)過載失真或信噪比惡化；在突發(fā)性干擾噪聲場景下，操作延遲會引發(fā)語音動態(tài)范圍壓縮失效；此外，由于未考慮不同性別說話人在基頻范圍、聲壓級特性方面的生理差異，現(xiàn)有系統(tǒng)缺乏基于生物聲學特征的差異化增益補償機制，導致特定用戶群體的語音可懂度顯著降低，嚴重影響語音采集系統(tǒng)的魯棒性與適應(yīng)性。

技術(shù)實現(xiàn)思路

1、本技術(shù)針對傳統(tǒng)麥克風系統(tǒng)中音頻信號的調(diào)節(jié)方法，存在調(diào)節(jié)實時性差，語音采集魯棒性和適應(yīng)性差的技術(shù)問題，提供一種麥克風音量動態(tài)調(diào)整方法及相關(guān)裝置。

2、為了實現(xiàn)上述目的，本技術(shù)采用以下技術(shù)方案予以實現(xiàn)：

3、第一方面，本技術(shù)提出一種麥克風音量動態(tài)調(diào)整方法，包括：

4、在預設(shè)時間范圍內(nèi)，持續(xù)獲取麥克風接收的音頻信號，判斷所述音頻信號的平穩(wěn)性是否滿足預設(shè)要求，若滿足，根據(jù)距離結(jié)果和最終性別判斷結(jié)果，動態(tài)調(diào)整麥克風的輸出音量，否則，根據(jù)最終性別判斷結(jié)果，動態(tài)調(diào)整麥克風的輸出音量；所述距離結(jié)果和所述最終性別判斷結(jié)果的獲取方法，包括：

5、對所述音頻信號進行距離檢測，確定音頻信號來源處與麥克風之間的距離，得到距離檢測結(jié)果；

6、從所述音頻信號中分別提取梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度，結(jié)合梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度確定發(fā)出音頻信號的人員的第一性別判斷結(jié)果；將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度輸入至性別判斷模型中，得到發(fā)出音頻信號的人員的第二性別判斷結(jié)果；所述性別判斷模型采用卷積神經(jīng)網(wǎng)絡(luò)、殘差卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的混合模型結(jié)構(gòu)；若第一性別判斷結(jié)果和第二性別判斷結(jié)果一致，則以一致的結(jié)果作為最終性別判斷結(jié)果。

7、進一步地，對所述音頻信號進行距離檢測的方法，包括：

8、對所述音頻信號應(yīng)用窗函數(shù)，得到第一預處理音頻信號；

9、對所述第一預處理音頻信號進行幀處理，得到一組第一序號幀信號；

10、分別計算所有第一序號幀信號的功率，對應(yīng)得到一組幀功率；

11、計算一組幀功率的平均功率；

12、將平均功率轉(zhuǎn)換為分貝，并求絕對值，根據(jù)絕對值確定音頻信號來源處與麥克風之間的距離。

13、進一步地，所述梅爾頻率倒譜系數(shù)的提取方法，包括：

14、對音頻信號預加重，得到加重信號；

15、對加重信號分幀，得到分幀信號；

16、對所述分幀信號應(yīng)用窗函數(shù)，得到第二預處理音頻信號；

17、對所述第二預處理音頻信號進行幀處理，得到一組第二序號幀信號；

18、對一組第二序號幀信號進行快速傅里葉變換，將第二序號幀信號轉(zhuǎn)換為頻域信號，記作第一頻域信號；

19、使第一頻域信號通過梅爾濾波器組，得到梅爾頻率頻域信號；

20、對梅爾頻率頻域信號進行對數(shù)壓縮，得到壓縮信號；

21、對所述壓縮信號進行離散余弦變換，提取出梅爾頻率倒譜系數(shù)。

22、進一步地，所述譜質(zhì)心的計算方法，包括：

23、對所述音頻信號應(yīng)用窗函數(shù)，得到第一預處理音頻信號；

24、對所述第一預處理音頻信號進行幀處理，得到一組第一序號幀信號；

25、對一組第一序號幀信號進行快速傅里葉變換，將第一序號幀信號轉(zhuǎn)換為頻域信號，記作第二頻域信號；

26、計算所述第二頻域信號中所有頻率的能量加權(quán)平均值，得到譜質(zhì)心。

27、進一步地，譜對比度的計算方法，包括：

28、對所述音頻信號應(yīng)用窗函數(shù)，得到第一預處理音頻信號；

29、對所述第一預處理音頻信號進行幀處理，得到一組第一序號幀信號；

30、對一組第一序號幀信號進行快速傅里葉變換，將第一序號幀信號轉(zhuǎn)換為頻域信號，記作第二頻域信號；

31、將所述第二頻域信號劃分為多個不相交的頻帶，得到多個頻帶；

32、分別計算每個頻帶的能量，獲取每個頻帶的能量峰值和能量谷值；

33、根據(jù)每個頻帶的能量峰值和能量谷值，計算每個頻帶的譜對比度。

34、進一步地，所述結(jié)合梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度確定發(fā)出音頻信號的人員的第一性別判斷結(jié)果的方法，包括：

35、將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度對齊至相同的幀數(shù)；

36、將對齊后的梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度拼接為一個特征矩陣，記作第一拼接特征矩陣；

37、對第一拼接特征矩陣做歸一化處理；

38、對歸一化處理后的第一拼接特征矩陣中的不同特征分配權(quán)重，得到加權(quán)后的特征矩陣；

39、使加權(quán)后的特征矩陣與預設(shè)的常數(shù)矩陣對比，若大于等于常數(shù)矩陣，則第一性別判斷結(jié)果為女性，否則，第一性別判斷結(jié)果為男性。

40、進一步地，所述性別判斷模型中采用的卷積神經(jīng)網(wǎng)絡(luò)包括第一卷積神經(jīng)網(wǎng)絡(luò)和第二卷積神經(jīng)網(wǎng)絡(luò)；

41、所述將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度輸入至性別判斷模型中，得到發(fā)出音頻信號的人員的第二性別判斷結(jié)果的方法，包括：

42、將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度按幀拼接為第二拼接特征矩陣；

43、將第二拼接特征矩陣輸入至性別判斷模型中，在性別判斷模型中，采用第一卷積神經(jīng)網(wǎng)絡(luò)從梅爾頻率倒譜系數(shù)中提取第一局部特征；采用第二卷積神經(jīng)網(wǎng)絡(luò)從譜質(zhì)心和譜對比度中提取統(tǒng)計特征；采用殘差卷積網(wǎng)絡(luò)處理語音頻譜圖，得到第二局部特征；采用循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉時間序列中的依賴關(guān)系，得到多個第三局部特征；所述語音頻譜圖包括第一頻域信號和第二頻域信號；所述時間序列為第一局部特征、統(tǒng)計特征和第二局部特征按照時間順序排列得到；

44、對多個第三局部特征加權(quán)平均，得到第二性別判斷結(jié)果。

45、第二方面，本技術(shù)提出一種麥克風音量動態(tài)調(diào)整系統(tǒng)，包括：

46、信號獲取模塊，用于在預設(shè)時間范圍內(nèi)，持續(xù)獲取麥克風接收的音頻信號，判斷所述音頻信號的平穩(wěn)性是否滿足預設(shè)要求，若滿足，根據(jù)距離結(jié)果和最終性別判斷結(jié)果，動態(tài)調(diào)整麥克風的輸出音量，否則，根據(jù)最終性別判斷結(jié)果，動態(tài)調(diào)整麥克風的輸出音量；所述距離結(jié)果和所述最終性別判斷結(jié)果，通過距離檢測模塊和性別判斷模塊的輸出得到；

47、距離檢測模塊，用于對所述音頻信號進行距離檢測，確定音頻信號來源處與麥克風之間的距離，得到距離檢測結(jié)果；

48、性別判斷模塊，用于從所述音頻信號中分別提取梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度，結(jié)合梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度確定發(fā)出音頻信號的人員的第一性別判斷結(jié)果；將梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度輸入至性別判斷模型中，得到發(fā)出音頻信號的人員的第二性別判斷結(jié)果；所述性別判斷模型采用卷積神經(jīng)網(wǎng)絡(luò)、殘差卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的混合模型結(jié)構(gòu)；若第一性別判斷結(jié)果和第二性別判斷結(jié)果一致，則以一致的結(jié)果作為最終性別判斷結(jié)果。

49、第三方面，本技術(shù)提出一種電子設(shè)備，包括：存儲器、一個或多個處理器；所述存儲器與所述處理器耦合；其中，所述存儲器中存儲有計算機程序代碼，所述計算機程序代碼包括計算機指令，當所述計算機指令被所述處理器執(zhí)行時，所述電子設(shè)備執(zhí)行上述麥克風音量動態(tài)調(diào)整方法的步驟。

50、第四方面，本技術(shù)提出一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)中存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)上述麥克風音量動態(tài)調(diào)整方法的步驟。

51、與現(xiàn)有技術(shù)相比，本技術(shù)具有以下有益效果：

52、本技術(shù)提出一種麥克風音量動態(tài)調(diào)整方法，先對預設(shè)時間范圍內(nèi)的音頻信號進行平穩(wěn)性判斷，若音頻信號平穩(wěn)，對音頻信號進行距離檢測，確定音頻信號來源處與麥克風之間的距離。同時，根據(jù)從音頻信號中提取得到的梅爾頻率倒譜系數(shù)、譜質(zhì)心和譜對比度，得到第一性別判斷結(jié)果和第二性別判斷結(jié)果，其中，第二性別判斷結(jié)果結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、殘差卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)組成的混合模型結(jié)構(gòu)得到，進一步使第一性別判斷結(jié)果和第二性別判斷結(jié)果相互印證，提高性別判斷結(jié)果的準確性。采用本技術(shù)的麥克風音量動態(tài)調(diào)整方法，能夠快速準確根據(jù)發(fā)出音頻信號的人員與麥克風的距離，以及發(fā)出音頻信號的人員的性別調(diào)整音量，以適應(yīng)不同的說話距離和人員性別，減少手動操作，提供清晰、一致的音頻輸出，取消了傳統(tǒng)的距離傳感器，能夠有效降低使用成本。若音頻信號不平穩(wěn)，根據(jù)最終性別判斷結(jié)果，動態(tài)調(diào)整麥克風的輸出音量，同樣能夠達到上述效果。

53、本技術(shù)還提出一種麥克風音量動態(tài)調(diào)整系統(tǒng)，一種電子設(shè)備和一種計算機存儲介質(zhì)，具備上述麥克風音量動態(tài)調(diào)整方法的全部優(yōu)勢。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊飛,王丹彤,劉嬌,殷小清,龐梅梅,邱麗華
技術(shù)所有人：深圳市烽火宏聲科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種麥克風音量動態(tài)調(diào)整方法及相關(guān)裝置與流程