本申請涉及音頻處理,特別是涉及一種音頻合成方法、裝置、計算機設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、近年來,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,音頻合成、音頻增強、音頻分析等音頻處理技術(shù)也得到了廣泛的應(yīng)用,其中,音頻合成可以基于音色轉(zhuǎn)換來實現(xiàn),比如為了得到對象a演唱某歌曲的音頻數(shù)據(jù),通常是在得到對象b演唱該歌曲的音頻數(shù)據(jù)后,可以使用對象a的聲紋特征來對該音頻數(shù)據(jù)的歌唱音軌進行音色轉(zhuǎn)換,從而得到由對象a演唱該歌曲的合成音頻數(shù)據(jù)。
2、然而這種音頻合成的方式,通常無法實現(xiàn)精準的音色轉(zhuǎn)換,從而導(dǎo)致合成音頻的質(zhì)量較差。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠提高合成音頻質(zhì)量的音頻合成方法、裝置、計算機設(shè)備和存儲介質(zhì)。
2、第一方面,本申請?zhí)峁┝艘环N音頻合成方法。所述方法包括:
3、對源音頻數(shù)據(jù)進行音軌特征分離,得到源歌唱音軌特征;對待處理音頻數(shù)據(jù)進行音軌特征分離,得到待處理歌唱音軌特征和待處理伴奏音軌特征;
4、對所述源歌唱音軌特征進行聲紋特征提取,得到源歌唱聲紋特征;
5、通過注意力網(wǎng)絡(luò)對所述源歌唱聲紋特征和所述待處理歌唱音軌特征進行注意力處理,并在進行注意力處理的過程中,將所述注意力網(wǎng)絡(luò)中每個注意力層所得的注意力處理結(jié)果與所述源歌唱聲紋特征作為下一個注意力層的輸入數(shù)據(jù)進行注意力處理,得到目標歌唱音軌特征;
6、將所述目標歌唱音軌特征和所述待處理伴奏音軌特征進行融合,得到合成音頻數(shù)據(jù)。
7、第二方面,本申請還提供了一種音頻合成裝置。所述裝置包括:
8、音頻特征分離模塊,用于對源音頻數(shù)據(jù)進行音軌特征分離,得到源歌唱音軌特征;對待處理音頻數(shù)據(jù)進行音軌特征分離,得到待處理歌唱音軌特征和待處理伴奏音軌特征;
9、聲紋提取模塊,用于對所述源歌唱音軌特征進行聲紋特征提取,得到源歌唱聲紋特征;
10、音色轉(zhuǎn)換模塊,用于通過注意力網(wǎng)絡(luò)對所述源歌唱聲紋特征和所述待處理歌唱音軌特征進行注意力處理,并在進行注意力處理的過程中,將所述注意力網(wǎng)絡(luò)中每個注意力層所得的注意力處理結(jié)果與所述源歌唱聲紋特征作為下一個注意力層的輸入數(shù)據(jù)進行注意力處理,得到目標歌唱音軌特征;
11、融合模塊,用于將所述目標歌唱音軌特征和所述待處理伴奏音軌特征進行融合,得到合成音頻數(shù)據(jù)。
12、第三方面,本申請還提供了一種計算機設(shè)備。所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述音頻合成方法的步驟。
13、第四方面,本申請還提供了一種計算機可讀存儲介質(zhì)。所述計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述音頻合成方法的步驟。
14、第五方面,本申請還提供了一種計算機程序產(chǎn)品。所述計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)所述音頻合成方法的步驟。
15、上述音頻合成方法、裝置、計算機設(shè)備、存儲介質(zhì)和計算機程序產(chǎn)品,通過對源音頻數(shù)據(jù)和待處理音頻數(shù)據(jù)分別進行音軌特征分離,從而可以避免伴奏音軌對歌唱音軌造成影響,得到純凈的源歌唱音軌特征、待處理歌唱音軌特征和待處理伴奏音軌特征,進而在基于純凈的源歌唱音軌特征、待處理歌唱音軌特征和待處理伴奏音軌特征進行音頻合成時,可以提高合成音頻的質(zhì)量;對源歌唱音軌特征進行聲紋特征提取,得到源歌唱聲紋特征,通過注意力網(wǎng)絡(luò)對源歌唱聲紋特征和待處理歌唱音軌特征進行基于注意力機制的音色轉(zhuǎn)換處理,并在進行注意力處理的過程中,將注意力網(wǎng)絡(luò)中每個注意力層所得的注意力處理結(jié)果與源歌唱聲紋特征作為下一個注意力層的輸入數(shù)據(jù)進行注意力處理,源歌唱聲紋特征可以在音色換過程中的多個層次中分別給與轉(zhuǎn)換指導(dǎo),從而可以提高音色轉(zhuǎn)換的效果,得到轉(zhuǎn)換效果更好的目標歌唱音軌特征,之后再將目標歌唱音軌特征和待處理伴奏音軌特征進行融合,得到合成音頻數(shù)據(jù),從而提高了合成音頻數(shù)據(jù)的質(zhì)量。
1.一種音頻合成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對源音頻數(shù)據(jù)進行音軌特征分離,得到源歌唱音軌特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對源音頻數(shù)據(jù)進行特征提取,得到所述源音頻數(shù)據(jù)的第i源歌唱音軌特征和第i源伴奏音軌特征,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述音軌特征分離網(wǎng)絡(luò)包括n個注意力層;所述基于所述第i源歌唱音軌特征和所述第i源伴奏音軌特征確定第i相關(guān)性,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對待處理音頻數(shù)據(jù)進行音軌特征分離,得到待處理歌唱音軌特征和待處理伴奏音軌特征,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述源歌唱音軌特征進行聲紋特征提取,得到源歌唱聲紋特征,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述第一分支包括第一主分支和第一輔分支,所述第二分支包括第二主分支和第二輔分支;所述通過聲紋提取網(wǎng)絡(luò)的第一分支對所述源歌唱音軌特征進行聲紋特征提取,得到第一聲紋特征,包括:
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述注意力網(wǎng)絡(luò)包括與所述注意力層對應(yīng)的維度變換層;所述將所述注意力網(wǎng)絡(luò)中每個注意力層所得的注意力處理結(jié)果與所述源歌唱聲紋特征作為下一個注意力層的輸入數(shù)據(jù)進行注意力處理,得到目標歌唱音軌特征,包括:
10.根據(jù)權(quán)利要求1至9中任一項所述的方法,其特征在于,所述待處理伴奏音軌特征為目標伴奏音軌特征;所述將所述目標歌唱音軌特征和所述待處理伴奏音軌特征進行融合,得到合成音頻數(shù)據(jù),包括:
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述確定所述目標歌唱音軌數(shù)據(jù)的合成歌唱音量,包括:
12.根據(jù)權(quán)利要求1至9中任一項所述的方法,其特征在于,所述對源音頻數(shù)據(jù)進行音軌特征分離之前,所述方法還包括:
13.一種音頻合成裝置,其特征在于,所述裝置包括:
14.一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至12中任一項所述的方法的步驟。
15.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至12中任一項所述的方法的步驟。
16.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至12中任一項所述的方法的步驟。