本技術(shù)涉及音頻處理,具體而言,涉及一種音頻調(diào)整方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著音視頻的流行,可通過網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)時(shí)的語音交互,極大地便利了用戶之間的溝通交流,提升了信息傳遞效率。但是,在語音交互場(chǎng)景中,由于設(shè)備差異、環(huán)境差異或者距離變化等,會(huì)出現(xiàn)一端(可作為本端)所接收到的對(duì)端的聲音過小或者過大的現(xiàn)象,影響了用戶體驗(yàn)度。因此,需要對(duì)音頻進(jìn)行調(diào)整。
2、目前,針對(duì)語音交互場(chǎng)景中,主要是通過對(duì)本端或?qū)Χ说牟杉囊纛l數(shù)據(jù)進(jìn)行agc(automatic?gain?control,自動(dòng)增益控制)處理,以獲取目標(biāo)音量增益,從而實(shí)現(xiàn)音頻調(diào)整。
3、但是,由于上述方法適用場(chǎng)景有限,導(dǎo)致在某些場(chǎng)景中需要用戶手動(dòng)調(diào)整目標(biāo)音量增益,用戶體驗(yàn)度低。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種音頻調(diào)整方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),可以適用于任意場(chǎng)景,可以根據(jù)環(huán)境音頻與本端對(duì)象意圖自動(dòng)調(diào)整目標(biāo)音量增益,提高了音頻調(diào)整的精準(zhǔn)度和用戶滿意度。
2、為了實(shí)現(xiàn)上述目的,第一方面,本技術(shù)提供了一種音頻調(diào)整方法,包括:
3、采集本端的環(huán)境音頻;
4、基于環(huán)境音頻,獲取第一語音信號(hào);
5、基于第一語音信號(hào)、待播放音頻和本端對(duì)象意圖,確定待播放音頻的目標(biāo)音量增益,其中,待播放音頻為與本端進(jìn)行語音通信的對(duì)端的音頻流,本端對(duì)象意圖用于表征本端的對(duì)象所期望的音量調(diào)節(jié)趨勢(shì);
6、依據(jù)目標(biāo)音頻增益調(diào)整待播放音頻,得到調(diào)整后的待播放音頻,以在本端播放調(diào)整后的待播放音頻。
7、在一實(shí)施例方式中,基于環(huán)境音頻,獲取第一語音信號(hào),包括:
8、對(duì)環(huán)境音頻進(jìn)行處理,得到環(huán)境音頻信號(hào);
9、檢測(cè)環(huán)境音頻信號(hào)中是否存在第一語音信號(hào);
10、若存在,從環(huán)境音頻信號(hào)中提取第一語音信號(hào)。
11、在一實(shí)施例方式中,檢測(cè)環(huán)境音頻信號(hào)中是否存在第一語音信號(hào),包括:
12、計(jì)算環(huán)境音頻信號(hào)的能量占比;
13、基于能量占與第一預(yù)設(shè)閾值的大小,檢測(cè)環(huán)境音頻信號(hào)中是否存在第一語音信號(hào)。
14、在一實(shí)施例方式中,計(jì)算環(huán)境音頻信號(hào)的能量占比,包括:
15、獲取環(huán)境音頻信號(hào)對(duì)應(yīng)的頻域信號(hào),并計(jì)算頻域信號(hào)的總能量值;
16、獲取頻域信號(hào)中的目標(biāo)頻域信號(hào),并計(jì)算目標(biāo)頻域信號(hào)的總能量值,其中,目標(biāo)頻域信號(hào)為預(yù)設(shè)頻率的信號(hào);
17、將目標(biāo)頻域信號(hào)的總能量值與頻域信號(hào)的總能量值作商,得到環(huán)境音頻信號(hào)的能量占比。
18、在一實(shí)施例方式中,基于第一語音信號(hào)、待播放音頻和本端對(duì)象意圖,確定待播放音頻的目標(biāo)音量增益,包括:
19、計(jì)算第一語音信號(hào)的目標(biāo)能量值;
20、獲取待播放音頻對(duì)應(yīng)的待播放音頻信號(hào),并檢測(cè)待播放音頻信號(hào)中是否存在第二語音信號(hào);
21、若存在,計(jì)算第二語音信號(hào)的目標(biāo)能量值;
22、基于第一語音信號(hào)的目標(biāo)能量值、第二語音信號(hào)的目標(biāo)能量值和本端對(duì)象意圖,確定待播放音頻的目標(biāo)音量增益;
23、其中,第一語音信號(hào)為本端對(duì)象的語音信號(hào),第二語音信號(hào)為對(duì)端對(duì)象的語音信號(hào)。
24、在一實(shí)施例方式中,計(jì)算第一語音信號(hào)的目標(biāo)能量值,包括:
25、計(jì)算第一語音信號(hào)的初始能量值;
26、獲取第一預(yù)設(shè)音量增益;
27、將第一語音信號(hào)的初始能量值與第一預(yù)設(shè)音量增益作商,得到第一語音信號(hào)的目標(biāo)能量值。
28、在一實(shí)施例方式中,計(jì)算第二語音信號(hào)的目標(biāo)能量值,包括:
29、計(jì)算第二語音信號(hào)的初始能量值;
30、獲取第二預(yù)設(shè)音量增益,其中,第二預(yù)設(shè)音量增益與第二語音信號(hào)的初始能量值相對(duì)應(yīng);
31、將第二語音信號(hào)的初始能量值與第二預(yù)設(shè)音量增益作和,得到第二語音信號(hào)的目標(biāo)能量值。
32、在一實(shí)施例方式中,基于第一語音信號(hào)的目標(biāo)能量值、第二語音信號(hào)的目標(biāo)能量值和本端對(duì)象意圖,確定待播放音頻的目標(biāo)音量增益,包括:
33、將第一語音信號(hào)的目標(biāo)能量值、第二語音信號(hào)的目標(biāo)能量值進(jìn)行比較,得的待播放音頻的初始音量增益;
34、獲取本端對(duì)象意圖;
35、基于本端對(duì)象意圖和初始音量增益,確定待播放音頻的目標(biāo)音量增益。
36、在一實(shí)施例方式中,將第一語音信號(hào)的目標(biāo)能量值、第二語音信號(hào)的目標(biāo)能量值進(jìn)行比較,得的待播放音頻的初始音量增益,包括:
37、將第一語音信號(hào)的目標(biāo)能量值與第二語音信號(hào)的目標(biāo)能量值作差,得到差值;
38、將差值作為待播放音頻的初始音量增益。
39、在一實(shí)施例方式中,獲取本端對(duì)象意圖,包括:
40、獲取預(yù)設(shè)時(shí)間內(nèi)的音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì);
41、基于音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì),確定本端對(duì)象意圖。
42、在一實(shí)施例方式中,基于音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì),確定本端對(duì)象意圖,包括:
43、若音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì)均為上升,本端對(duì)象意圖為提升待播放音頻的音量;
44、若音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì)均為下降,本端對(duì)象意圖為降低待播放音頻的音量;
45、若音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì)均不變,本端對(duì)象意圖為保持待播放音頻的音量。
46、在一實(shí)施例方式中,基于本端對(duì)象意圖和初始音量增益,確定待播放音頻的目標(biāo)音量增益,包括:
47、若本端對(duì)象意圖為保持待播放音頻的音量,且初始音量增益大于第二預(yù)設(shè)閾值,調(diào)整初始音量增益,并將調(diào)整后的初始音量增益作為待播放音頻的目標(biāo)音量增益;
48、若本端對(duì)象意圖為提升待播放音頻的音量且初始音量增益小于或等于第二預(yù)設(shè)閾值,將待播放音頻的目標(biāo)音量增益置零;
49、若本端對(duì)象意圖為降低待播放音頻的音量,且初始音量增益小于或等于第二預(yù)設(shè)閾值,將待播放音頻的目標(biāo)音量增益置零。
50、第二方面,本技術(shù)實(shí)施例提供了一種音頻調(diào)整裝置,包括:
51、采集模塊,用于采集本端的環(huán)境音頻;
52、語音獲取模塊,用于基于環(huán)境音頻,獲取第一語音信號(hào);
53、增益確定模塊,用于基于第一語音信號(hào)、待播放音頻和本端對(duì)象意圖,確定待播放音頻的目標(biāo)音量增益,其中,待播放音頻為與本端進(jìn)行語音通信的對(duì)端的音頻流,本端對(duì)象意圖用于表征本端的對(duì)象所期望的音量調(diào)節(jié)趨勢(shì);
54、音頻調(diào)整模塊,用于依據(jù)目標(biāo)音頻增益調(diào)整待播放音頻,得到調(diào)整后的待播放音頻,以在本端播放調(diào)整后的待播放音頻。
55、在一實(shí)施例方式中,語音獲取模塊還用于對(duì)環(huán)境音頻進(jìn)行處理,得到環(huán)境音頻信號(hào);
56、檢測(cè)環(huán)境音頻信號(hào)中是否存在第一語音信號(hào);
57、若存在,從環(huán)境音頻信號(hào)中提取第一語音信號(hào)。
58、在一實(shí)施例方式中,語音獲取模塊還用于計(jì)算環(huán)境音頻信號(hào)的能量占比;
59、基于能量占與第一預(yù)設(shè)閾值的大小,檢測(cè)環(huán)境音頻信號(hào)中是否存在第一語音信號(hào)。
60、在一實(shí)施例方式中,語音獲取模塊還用于獲取環(huán)境音頻信號(hào)對(duì)應(yīng)的頻域信號(hào),并計(jì)算頻域信號(hào)的總能量值;
61、獲取頻域信號(hào)中的目標(biāo)頻域信號(hào),并計(jì)算目標(biāo)頻域信號(hào)的總能量值,其中,目標(biāo)頻域信號(hào)為預(yù)設(shè)頻率的信號(hào);
62、將目標(biāo)頻域信號(hào)的總能量值與頻域信號(hào)的總能量值作商,得到環(huán)境音頻信號(hào)的能量占比。
63、在一實(shí)施例方式中,增益確定模塊還用于計(jì)算第一語音信號(hào)的目標(biāo)能量值;
64、獲取待播放音頻對(duì)應(yīng)的待播放音頻信號(hào),并檢測(cè)待播放音頻信號(hào)中是否存在第二語音信號(hào);
65、若存在,計(jì)算第二語音信號(hào)的目標(biāo)能量值;
66、基于第一語音信號(hào)的目標(biāo)能量值、第二語音信號(hào)的目標(biāo)能量值和本端對(duì)象意圖,確定待播放音頻的目標(biāo)音量增益;
67、其中,第一語音信號(hào)為本端對(duì)象的語音信號(hào),第二語音信號(hào)為對(duì)端對(duì)象的語音信號(hào)。
68、在一實(shí)施例方式中,增益確定模塊還用于計(jì)算第一語音信號(hào)的初始能量值;
69、獲取第一預(yù)設(shè)音量增益;
70、將第一語音信號(hào)的初始能量值與第一預(yù)設(shè)音量增益作商,得到第一語音信號(hào)的目標(biāo)能量值。
71、在一實(shí)施例方式中,增益確定模塊還用于計(jì)算第二語音信號(hào)的初始能量值;
72、獲取第二預(yù)設(shè)音量增益,其中,第二預(yù)設(shè)音量增益與第二語音信號(hào)的初始能量值相對(duì)應(yīng);
73、將第二語音信號(hào)的初始能量值與第二預(yù)設(shè)音量增益作和,得到第二語音信號(hào)的目標(biāo)能量值。
74、在一實(shí)施例方式中,增益確定模塊還用于將第一語音信號(hào)的目標(biāo)能量值、第二語音信號(hào)的目標(biāo)能量值進(jìn)行比較,得的待播放音頻的初始音量增益;
75、獲取本端對(duì)象意圖;
76、基于本端對(duì)象意圖和初始音量增益,確定待播放音頻的目標(biāo)音量增益。
77、在一實(shí)施例方式中,增益確定模塊還用于將第一語音信號(hào)的目標(biāo)能量值與第二語音信號(hào)的目標(biāo)能量值作差,得到差值;
78、將差值作為待播放音頻的初始音量增益。
79、在一實(shí)施例方式中,增益確定模塊還用于獲取預(yù)設(shè)時(shí)間內(nèi)的音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì);
80、基于音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì),確定本端對(duì)象意圖。
81、在一實(shí)施例方式中,增益確定模塊還用于若音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì)均為上升,本端對(duì)象意圖為提升待播放音頻的音量;
82、若音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì)均為下降,本端對(duì)象意圖為降低待播放音頻的音量;
83、若音量按鍵的音量趨勢(shì)和應(yīng)用程序的播放音量趨勢(shì)均不變,本端對(duì)象意圖為保持待播放音頻的音量。
84、在一實(shí)施例方式中,增益確定模塊還用于若本端對(duì)象意圖為保持待播放音頻的音量,且初始音量增益大于第二預(yù)設(shè)閾值,調(diào)整初始音量增益,并將調(diào)整后的初始音量增益作為待播放音頻的目標(biāo)音量增益;
85、若本端對(duì)象意圖為提升待播放音頻的音量且初始音量增益小于或等于第二預(yù)設(shè)閾值,將待播放音頻的目標(biāo)音量增益置零;
86、若本端對(duì)象意圖為降低待播放音頻的音量,且初始音量增益小于或等于第二預(yù)設(shè)閾值,將待播放音頻的目標(biāo)音量增益置零。
87、第三方面,本技術(shù)實(shí)施例提供了一種設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上任一方法的步驟。
88、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任一方法的步驟。
89、本技術(shù)實(shí)施例提供了一種音頻調(diào)整方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),包括:先采集本端的環(huán)境音頻,然后基于環(huán)境音頻,獲取第一語音信號(hào),再基于第一語音信號(hào)、待播放音頻和本端對(duì)象意圖,確定待播放音頻的目標(biāo)音量增益,最后依據(jù)目標(biāo)音頻增益調(diào)整待播放音頻,得到調(diào)整后的待播放音頻,以在本端播放調(diào)整后的待播放音頻。本技術(shù)從環(huán)境音頻中獲取第一語音信號(hào),使本端對(duì)象所處環(huán)境與目標(biāo)音量增益進(jìn)行自動(dòng)匹配,拓展了音頻調(diào)整適用場(chǎng)景,使得在進(jìn)行音頻調(diào)整時(shí)能夠更加充分地考慮到環(huán)境因素,從而提高了音頻調(diào)整的準(zhǔn)確性和適應(yīng)性;此外,在獲取目標(biāo)音量增益中增加本端對(duì)象意圖,實(shí)現(xiàn)了待播放音頻的播放音量的精準(zhǔn)增益調(diào)整,使得在進(jìn)行音頻調(diào)整時(shí)能夠更加充分地考慮到用戶的需求和意圖,進(jìn)而提高了音頻調(diào)整的精準(zhǔn)度和用戶滿意度。