本技術(shù)涉及車輛音頻控制領(lǐng)域,具體而言,涉及一種音頻失真修復(fù)方法、音頻播放方法及系統(tǒng)。
背景技術(shù):
1、目前,車載音頻系統(tǒng)所依賴的音頻處理技術(shù),如高頻補償、頻率增強、時間拉伸與相位矯正、諧波失真控制以及瞬態(tài)控制等,已經(jīng)相對成熟且廣泛應(yīng)用于各種車載音響設(shè)備中。這些技術(shù)主要關(guān)注于音頻信號本身的優(yōu)化,旨在提升音質(zhì)、增強音頻細節(jié),以及糾正由音頻設(shè)備本身或播放過程中的某些固定因素引起的失真。
2、然而,隨著車載音頻系統(tǒng)使用環(huán)境的日益復(fù)雜多變,環(huán)境改變導致的突發(fā)失真問題逐漸凸顯出來。這類失真可能由多種因素引起,如外部噪音的突然干擾、車內(nèi)空間結(jié)構(gòu)變化導致的聲學特性改變、車輛行駛過程中的震動和顛簸等。這些突發(fā)失真往往具有實時性和動態(tài)性,對音頻質(zhì)量產(chǎn)生顯著影響,且難以通過傳統(tǒng)的音頻處理技術(shù)進行有效解決。
3、現(xiàn)有的車載音頻系統(tǒng)在面對這類突發(fā)失真時,主要存在以下缺點:
4、缺乏實時檢測機制:現(xiàn)有的音頻處理技術(shù)大多基于靜態(tài)的音頻信號進行分析和處理,缺乏對突發(fā)失真的實時檢測能力。當突發(fā)失真發(fā)生時,系統(tǒng)往往無法及時感知并作出相應(yīng)調(diào)整,導致音質(zhì)下降。
5、動態(tài)修復(fù)能力不足:對于突發(fā)失真,傳統(tǒng)的音頻處理技術(shù)往往無法提供足夠的動態(tài)修復(fù)能力。由于突發(fā)失真具有不確定性和快速變化的特點,傳統(tǒng)的靜態(tài)處理方法難以適應(yīng)這種變化,導致修復(fù)效果不佳。
6、適應(yīng)性差:車載音頻系統(tǒng)的使用環(huán)境復(fù)雜多變,不同的車輛、不同的行駛狀態(tài)以及不同的乘客分布都可能導致聲學特性的變化?,F(xiàn)有的音頻處理技術(shù)往往缺乏對這種變化的適應(yīng)性,難以在不同環(huán)境下保持一致的音質(zhì)表現(xiàn)。
7、缺乏智能化處理:隨著人工智能技術(shù)的不斷發(fā)展,越來越多的領(lǐng)域開始嘗試引入智能化處理方法。然而,在車載音頻系統(tǒng)領(lǐng)域,智能化處理的應(yīng)用仍然相對較少。如果能夠利用人工智能技術(shù)對環(huán)境變化進行實時感知和預(yù)測,并根據(jù)預(yù)測結(jié)果動態(tài)調(diào)整音頻處理策略,將有望顯著提高系統(tǒng)的抗突發(fā)失真能力。
8、綜上所述,雖然現(xiàn)有的車載音頻處理技術(shù)已經(jīng)相對成熟,但在應(yīng)對環(huán)境改變導致的突發(fā)失真方面仍存在諸多不足。為了進一步提升車載音頻系統(tǒng)的音質(zhì)表現(xiàn)和用戶體驗,需要加強對突發(fā)失真的實時檢測和動態(tài)修復(fù)技術(shù)的研究和應(yīng)用。
9、有鑒于此,特提出本技術(shù)。
技術(shù)實現(xiàn)思路
1、本技術(shù)的目的在于提供一種音頻失真修復(fù)方法、音頻播放方法及系統(tǒng),以解決現(xiàn)有技術(shù)存在的無法實時、動態(tài)、適應(yīng)性和智能化修復(fù)失真音頻的問題。
2、為了實現(xiàn)上述目的,本技術(shù)采用以下技術(shù)方案:
3、第一方面,本技術(shù)提供了一種音頻失真修復(fù)方法,包括:
4、獲取第一音頻信號的時頻特征圖;
5、將所述時頻特征圖輸入至vggish模型,進行特征提??;
6、將提取到的音頻特征輸入至音頻失真檢測模型中,輸出音頻失真類型;所述音頻失真檢測模型為采用音頻失真樣本訓練得到的全連接神經(jīng)網(wǎng)絡(luò)模型;
7、根據(jù)所述音頻失真類型,修復(fù)失真的音頻片段。
8、在一些技術(shù)方案中,所述時頻特征圖采用以下方式確定:
9、將第一音頻信號劃分成多個時間幀,對各個時間幀的音頻信號計算mel頻譜圖,進行歸一化處理,得到所述時頻特征圖。
10、在一些技術(shù)方案中,所述音頻失真檢測模型包括輸入層、多個隱藏層和輸出層;
11、所述輸入層用于接收所述音頻特征,
12、所述隱藏層包括多個全連接層,各個全連接層采用relu為激活函數(shù),各個所述隱藏層之間包含dropout層;
13、所述輸出層包括全連接層,激活函數(shù)為softmax,所述輸出層用于輸出音頻失真類型。
14、在一些技術(shù)方案中,在所述音頻失真類型為剪切失真或飽和失真的情況下,所述修復(fù)失真的音頻片段包括:根據(jù)失真音頻片段信號幅度和失真音頻片段信號幅度閾值,調(diào)整失真音頻片段的增益;所述幅度包括電壓或振幅。
15、在一些技術(shù)方案中,在所述音頻失真類型為高頻失真的情況下,所述修復(fù)失真的音頻片段包括:根據(jù)失真音頻片段的寬度,選擇均衡器;根據(jù)失真頻率,確定均衡器參數(shù)。
16、在一些技術(shù)方案中,在所述音頻失真類型為與頻率相關(guān)的失真的情況下,所述修復(fù)失真的音頻片段包括:采用與失真頻率適配的濾波器進行修復(fù)。
17、第二方面,本技術(shù)提供了一種音頻播放方法,包括:
18、獲取初始音頻信號,將所述初始音頻信號分流為第一音頻信號和第二音頻信號,所述第一音頻信號和所述第二音頻信號相同;
19、采用上述方法對所述第一音頻信號進行音頻失真修復(fù);
20、在所述第一音頻信號不存在失真的音頻片段的情況下,播放所述第二音頻信號;
21、在所述第一音頻信號存在失真的音頻片段且被修復(fù)的情況下,播放修復(fù)后的所述第一音頻信號。
22、第三方面,本技術(shù)提供了一種音頻播放系統(tǒng),包括:
23、分流模塊,用于獲取初始音頻信號,將所述初始音頻信號分流為第一音頻信號和第二音頻信號,所述第一音頻信號和所述第二音頻信號相同;
24、并行處理模塊,包括音頻失真修復(fù)緩沖區(qū)和播放緩沖區(qū),所述音頻失真修復(fù)緩沖區(qū)用于獲取第一音頻信號的時頻特征圖;將所述時頻特征圖輸入至vggish模型,進行特征提??;將提取到的音頻特征輸入至音頻失真檢測模型中,輸出音頻失真類型;所述音頻失真檢測模型為采用音頻失真樣本訓練得到的全連接神經(jīng)網(wǎng)絡(luò)模型;根據(jù)所述音頻失真類型,修復(fù)失真的音頻片段;所述播放緩沖區(qū)用于儲存所述第二音頻信號;
25、音頻輸出模塊,用于在所述第一音頻信號不存在失真的音頻片段的情況下,播放所述第二音頻信號;在所述第一音頻信號存在失真的音頻片段且被修復(fù)的情況下,播放修復(fù)后的所述第一音頻信號。
26、第四方面,本技術(shù)提供了一種電子設(shè)備,包括:
27、至少一個處理器,以及與至少一個所述處理器通信連接的存儲器;
28、其中,所述存儲器存儲有可被至少一個所述處理器執(zhí)行的指令,所述指令被至少一個所述處理器執(zhí)行,以使至少一個所述處理器能夠執(zhí)行上述的方法。
29、第五方面,本技術(shù)提供了一種計算機可讀存儲介質(zhì),所述介質(zhì)上存儲有計算機指令,所述計算機指令用于使計算機執(zhí)行上述的方法。
30、與現(xiàn)有技術(shù)相比,本技術(shù)的有益效果為:
31、本技術(shù)提供的音頻失真修復(fù)方法包括獲取第一音頻信號的時頻特征圖;將所述時頻特征圖輸入至vggish模型,進行特征提??;將提取到的音頻特征輸入至音頻失真檢測模型中,輸出音頻失真類型;所述音頻失真檢測模型為采用音頻失真樣本訓練得到的全連接神經(jīng)網(wǎng)絡(luò)模型;根據(jù)所述音頻失真類型,修復(fù)失真的音頻片段。該方法采用vggish模型和全連接神經(jīng)網(wǎng)絡(luò)模型結(jié)合進行音頻失真類型檢測,vggish在音頻分類任務(wù)中表現(xiàn)優(yōu)異,能夠?qū)崟r準確檢測多種音頻失真類型,具有輕量化的特點,能夠在車載系統(tǒng)的硬件限制下高效運行,在檢測到失真后再根據(jù)失真類型實時、快速修復(fù)失真的音頻片段,從而消除失真影響、優(yōu)化音頻質(zhì)量,確保最終輸出的音頻符合高標準的聽覺體驗要求。
32、本技術(shù)提供的音頻播放方法通過將初始音頻信號分流為第一音頻信號和第二音頻信號,分別用于失真修復(fù)和播放,在不需要修復(fù)的情況下播放第二音頻信號,在需要修復(fù)且已經(jīng)被修復(fù)的情況下播放修復(fù)后的第一音頻信號,保證播放的音頻質(zhì)量。
33、本技術(shù)提供的音頻播放系統(tǒng)包括特定的分流模塊、并行處理模塊和音頻輸出模塊,通過模塊化設(shè)計保證了不同模塊之間互相配合且不干擾,在并行處理模塊中設(shè)置的音頻失真修復(fù)緩沖區(qū)和播放緩沖區(qū)可分別進行音頻失真修復(fù)和儲存待播放的音頻信號,確保了兩者能夠并行處理而不產(chǎn)生延遲或沖突。