本技術(shù)實施例涉及計算機,尤其涉及一種音頻編解碼方法、裝置、設(shè)備。
背景技術(shù):
1、隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,深度學(xué)習(xí)技術(shù)被廣泛應(yīng)用于不同維度的信號,例如音頻,圖像以及視頻等的處理技術(shù)中。以音頻信號為例,在基于深度學(xué)習(xí)的端到端的音頻編解碼方案中,編碼器將音頻信號經(jīng)過編碼網(wǎng)絡(luò)映射為編碼向量,進(jìn)一步通過量化技術(shù)生成對應(yīng)的二進(jìn)制碼流文件。解碼端通過讀取二進(jìn)制碼流文件獲取量化結(jié)果,并通過反量化技術(shù)對量化結(jié)果進(jìn)行反量化得到重建的編碼向量,之后再將重建的編碼向量作為解碼網(wǎng)絡(luò)的輸入,解碼得到最終的重建音頻信號。
2、為了提高音頻的編解碼效果,則編碼端在對音頻數(shù)據(jù)進(jìn)行編碼之前先進(jìn)行信號強度變換處理,例如進(jìn)行響度歸一化處理,對應(yīng)的解碼端的解碼網(wǎng)絡(luò)重建出音頻數(shù)據(jù)后對音頻數(shù)據(jù)的信號強度進(jìn)行反變換,例如對重建的音頻數(shù)據(jù)的響度進(jìn)行反歸一化處理。但是,目前信號強度變換方法,存在信號強度起伏的問題,進(jìn)而使得音頻編解碼效果不理想。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種音頻編解碼方法、裝置、設(shè)備及存儲介質(zhì),可以使得信號強度的變換更加平滑,進(jìn)而提升音頻編解碼效果。
2、第一方面,本技術(shù)提供一種音頻解碼方法,包括:
3、解碼碼流,得到解碼網(wǎng)絡(luò)重建的當(dāng)前音頻塊,所述當(dāng)前音頻塊為對目標(biāo)音頻數(shù)據(jù)進(jìn)行塊劃分所得到的m個音頻塊中的一個音頻塊,所述m為大于1的正整數(shù),所述音頻塊包括2個或2個以上的音頻幀;
4、對所述重建的當(dāng)前音頻塊的信號強度進(jìn)行反變換,得到所述當(dāng)前音頻塊的重建值。
5、第二方面,本技術(shù)提供一種音頻編碼方法,包括:
6、對待編碼的目標(biāo)音頻數(shù)據(jù)進(jìn)行塊劃分,得到m個音頻塊,所述m為大于1的正整數(shù),所述音頻塊包括2個或2個以上的音頻幀;
7、對于所述m個音頻塊中的當(dāng)前音頻塊,對所述當(dāng)前音頻塊的信號強度進(jìn)行反變換,得到變換后的當(dāng)前音頻塊;
8、對所述變換后的當(dāng)前音頻塊進(jìn)行編碼,得到碼流。
9、第三方面,本技術(shù)提供一種音頻解碼裝置,包括:
10、解碼單元,用于解碼單元,用于解碼碼流,得到解碼網(wǎng)絡(luò)重建的當(dāng)前音頻塊,所述當(dāng)前音頻塊為對目標(biāo)音頻數(shù)據(jù)進(jìn)行塊劃分所得到的m個音頻塊中的一個音頻塊,所述m為大于1的正整數(shù),所述音頻塊包括2個或2個以上的音頻幀;
11、變換單元,用于對所述重建的當(dāng)前音頻塊的信號強度進(jìn)行反變換,得到所述當(dāng)前音頻塊的重建值。
12、在一些實施例中,變換單元,具體用于確定所述當(dāng)前音頻塊的信號強度的反變換值;基于所述反變換值,對所述重建的當(dāng)前音頻塊的信號強度進(jìn)行反變換,得到所述當(dāng)前音頻塊。
13、在一些實施例中,變換單元,具體基于所述重建的當(dāng)前音頻塊,確定所述當(dāng)前音頻塊的信號強度的反變換值。
14、在一些實施例中,所述當(dāng)前音頻幀的信號強度包括所述當(dāng)前音頻塊的幅值、能量和響度中的至少一個。
15、在一些實施例中,若所述當(dāng)前音頻幀的信號強度包括所述當(dāng)前音頻塊的響度,且所述反變換值包括響度反增益值時,則變換單元具體用于解碼所述碼流,得到所述當(dāng)前音頻塊的第一參考響度值,所述第一參考響度值是基于所述當(dāng)前音頻塊的原始音頻數(shù)據(jù)計算得到;基于所述重建的當(dāng)前音頻塊,確定所述當(dāng)前音頻塊的第二參考響度值;基于所述當(dāng)前音頻塊的第一參考響度值和所述當(dāng)前音頻塊的第二參考響度值,確定所述響度反增益值。
16、在一些實施例中,變換單元,具體用于對于所述當(dāng)前音頻塊所包括的每一個音頻幀,基于所述音頻幀的響度歸一化后的重建音頻數(shù)據(jù),確定所述音頻幀的第二參考響度值;基于所述每一個音頻幀的第二參考響度值,確定所述當(dāng)前音頻塊的第二參考響度值。
17、在一些實施例中,變換單元,具體用于將所述當(dāng)前音頻塊的第一參考響度值和所述當(dāng)前音頻塊的第二參考響度值作差,得到第一差值;基于所述第一差值和第一預(yù)設(shè)數(shù)值,得到所述響度反增益值。
18、在一些實施例中,變換單元,具體用于將所述第一差值與所述第一預(yù)設(shè)數(shù)值相乘,得到第一乘積;對所述第一乘積進(jìn)行預(yù)設(shè)運算,得到所述響度反增益值。
19、在一些實施例中,變換單元,具體用于將所述重建的當(dāng)前音頻塊中的每一個元素分別與所述響度反增益值進(jìn)行相乘,得到所述當(dāng)前音頻塊的重建值。
20、在一些實施例中,變換單元,具體用于確定所述當(dāng)前音頻塊的長度信息;基于所述當(dāng)前音頻塊的長度信息,解碼所述當(dāng)前音頻塊對應(yīng)的碼流,得到所述響度歸一化后的當(dāng)前音頻塊。
21、在一些實施例中,變換單元,具體用于解碼所述碼流,得到所述當(dāng)前音頻幀的長度信息。
22、在一些實施例中,所述m個音頻塊是基于所述目標(biāo)音頻數(shù)據(jù)的長度所確定的音頻塊劃分長度,對所述目標(biāo)音頻數(shù)據(jù)所包括的多個音頻幀進(jìn)行塊劃分得到。
23、第四方面,本技術(shù)提供一種音頻編碼裝置,包括:
24、塊劃分單元,用于對待編碼的目標(biāo)音頻數(shù)據(jù)進(jìn)行塊劃分,得到m個音頻塊,所述m為大于1的正整數(shù),所述音頻塊包括2個或2個以上的音頻幀;
25、變換單元,用于對于所述m個音頻塊中的當(dāng)前音頻塊,對所述當(dāng)前音頻塊的信號強度進(jìn)行變換,得到變換后的當(dāng)前音頻塊;
26、編碼單元,用于對所述變換后的當(dāng)前音頻塊進(jìn)行編碼,得到碼流。
27、在一些實施例中,變換單元,具體用于基于所述當(dāng)前音頻塊的原始音頻數(shù)據(jù),確定所述當(dāng)前音頻塊的信號強度的變換值;基于所述變換值,對所述當(dāng)前音頻塊的信號強度進(jìn)行變換,得到所述變換后的當(dāng)前音頻塊。
28、在一些實施例中,所述當(dāng)前音頻塊的信號強度包括所述當(dāng)前音頻塊的幅值、能量和響度中的至少一個。
29、在一些實施例中,若所述當(dāng)前音頻塊的信號強度包括所述當(dāng)前音頻塊的響度,且所述變換值包括響度增益值時,則變換單元,具體用于基于所述當(dāng)前音頻塊的原始音頻數(shù)據(jù),確定所述當(dāng)前音頻塊的第一參考響度值;確定所述當(dāng)前音頻塊對應(yīng)的歸一化目標(biāo)響度值;基于所述歸一化目標(biāo)響度值和所述當(dāng)前音頻塊的第一參考響度值,確定所述當(dāng)前音頻塊的響度增益值。
30、在一些實施例中,變換單元,具體用于對于所述當(dāng)前音頻塊所包括的每一個音頻幀,基于所述音頻幀的原始音頻數(shù)據(jù),確定所述音頻幀的第一參考響度值;基于所述每一個音頻幀的第一參考響度值,確定所述當(dāng)前音頻塊的第一參考響度值。
31、在一些實施例中,變換單元,具體用于確定所述目標(biāo)音頻數(shù)據(jù)的響度值;基于所述目標(biāo)音頻數(shù)據(jù)的響度值,確定所述當(dāng)前音頻塊對應(yīng)的歸一化目標(biāo)響度值。
32、在一些實施例中,變換單元,具體用于將所述歸一化目標(biāo)響度值和所述當(dāng)前音頻塊的第一參考響度值作差,得到第二差值;基于所述第二差值和第二預(yù)設(shè)數(shù)值,得到所述響度增益值。
33、在一些實施例中,變換單元,具體用于將所述第二差值與所述第二預(yù)設(shè)數(shù)值相乘,得到第二乘積;對所述第二乘積進(jìn)行預(yù)設(shè)運算,得到所述響度增益值。
34、在一些實施例中,編碼單元,還用于將所述當(dāng)前音頻塊的第一參考響度值寫入所述碼流。
35、在一些實施例中,變換單元,具體用于將所述當(dāng)前音頻塊的每一個元素的響度值與所述響度增益值進(jìn)行相乘,得到所述變換后的當(dāng)前音頻塊。
36、在一些實施例中,編碼單元,還用于將所述當(dāng)前音頻塊的長度信息寫入所述碼流。
37、第五方面,提供了一種電子設(shè)備,包括處理器和存儲器。所述存儲器用于存儲計算機程序,所述處理器用于調(diào)用并運行所述存儲器中存儲的計算機程序,以執(zhí)行上述第一方面至第二方面中任一方面或其各實現(xiàn)方式中的方法。
38、在一些實施例中,塊劃分單元,具體用于基于所述目標(biāo)音頻數(shù)據(jù)的長度,確定的音頻塊劃分長度;基于所述音頻塊劃分長度,對所述目標(biāo)音頻數(shù)據(jù)所包括的多個音頻幀進(jìn)行塊劃分,得到所述m個音頻塊。
39、第六方面,提供了一種芯片,用于實現(xiàn)上述第一方面至第二方面中任一方面或其各實現(xiàn)方式中的方法。具體地,所述芯片包括:處理器,用于從存儲器中調(diào)用并運行計算機程序,使得安裝有所述芯片的設(shè)備執(zhí)行如上述第一方面至第二方面中任一方面或其各實現(xiàn)方式中的方法。
40、第七方面,提供了一種計算機可讀存儲介質(zhì),用于存儲計算機程序,所述計算機程序使得計算機執(zhí)行上述第一方面至第二方面中任一方面或其各實現(xiàn)方式中的方法。
41、第八方面,提供了一種計算機程序產(chǎn)品,包括計算機程序指令,所述計算機程序指令使得計算機執(zhí)行上述第一方面至第二方面中任一方面或其各實現(xiàn)方式中的方法。
42、第九方面,提供了一種計算機程序,當(dāng)其在計算機上運行時,使得計算機執(zhí)行上述第一方面至第二方面中任一方面或其各實現(xiàn)方式中的方法。
43、綜上,本技術(shù)通過解碼碼流,得到解碼網(wǎng)絡(luò)重建的當(dāng)前音頻塊,該當(dāng)前音頻塊為對目標(biāo)音頻數(shù)據(jù)進(jìn)行塊劃分所得到的m個音頻塊中的一個音頻塊,m為大于1的正整數(shù),音頻塊包括2個或2個以上的音頻幀,接著,對重建的當(dāng)前音頻塊的信號強度進(jìn)行反變換,得到當(dāng)前音頻塊的重建值。也就是說,本技術(shù)實施例將2個或2個以上的音頻幀劃分為一個音頻塊,進(jìn)而以音頻塊為單位進(jìn)行信號強度進(jìn)行變換處理,這樣可以實現(xiàn)對音頻信號強度的平滑處理,例如實現(xiàn)響度、幅值、能量等的平滑變換,進(jìn)而提升音頻數(shù)據(jù)的解碼效果。