最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品與流程

文檔序號:41558367發(fā)布日期:2025-04-08 18:11閱讀:17來源:國知局
語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品與流程

本發(fā)明涉及音頻處理,尤其涉及一種語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品。


背景技術(shù):

1、隨著人工智能的迅速發(fā)展,語音合成的應(yīng)用場景越來越廣泛,例如個性化語音合成、音色遷移、韻律遷移等語音合成方向。其中,語音合成通常需要進(jìn)行語音解耦,語音解耦是指將人類說話語音解耦為內(nèi)容、韻律和音色三個部分。為實現(xiàn)高質(zhì)量語音合成,需要在保持語音自然度的同時,實現(xiàn)對語音內(nèi)容、音色和韻律的有效解耦。

2、目前,通過有監(jiān)督的訓(xùn)練方式訓(xùn)練語音解耦模型,以基于訓(xùn)練后的語音解耦模型進(jìn)行語音解耦。然而,有監(jiān)督的訓(xùn)練方式由于需要進(jìn)行標(biāo)簽標(biāo)注,導(dǎo)致無法基于太多的訓(xùn)練樣本進(jìn)行訓(xùn)練,從而導(dǎo)致無法很好地將韻律和音色解耦開來,且無法基于海量的說話人的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,導(dǎo)致語音解耦泛化性不高。即使通過無監(jiān)督的訓(xùn)練方式訓(xùn)練語音解耦模型,然而該訓(xùn)練方式所達(dá)到的解耦效果往往達(dá)不到預(yù)期,導(dǎo)致無法很好地將韻律和音色解耦開來。


技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品,用以解決現(xiàn)有技術(shù)中音色韻律解耦不完全的缺陷,實現(xiàn)充分的語音解耦。

2、本發(fā)明提供一種語音解耦方法,包括:

3、將待解耦語音數(shù)據(jù)分別輸入至音色編碼器和韻律編碼器,得到所述音色編碼器輸出的解耦音色信息,以及所述韻律編碼器輸出的解耦韻律信息;

4、其中,所述音色編碼器和所述韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的;

5、所述第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的;所述第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的;

6、所述第一發(fā)音者和所述第二發(fā)音者為不同的發(fā)音者。

7、根據(jù)本發(fā)明提供的一種語音解耦方法,所述音色編碼器和所述韻律編碼器是基于如下方式訓(xùn)練:

8、將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息;

9、將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù);所述音頻解碼器用于基于輸入信息重構(gòu)音頻數(shù)據(jù);

10、將所述第一重構(gòu)音頻數(shù)據(jù)輸入至所述音色編碼器,得到所述音色編碼器輸出的重構(gòu)音色信息,并將所述第一重構(gòu)音頻數(shù)據(jù)輸入至所述韻律編碼器,得到所述韻律編碼器輸出的重構(gòu)韻律信息;

11、將所述重構(gòu)音色信息和所述第一發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù);

12、基于所述第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù),確定第一重構(gòu)損失,并基于所述第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù),確定第二重構(gòu)損失;

13、基于所述第一重構(gòu)損失和所述第二重構(gòu)損失,訓(xùn)練所述聲學(xué)模型。

14、根據(jù)本發(fā)明提供的一種語音解耦方法,所述第一發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù),所述第二發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第三音頻數(shù)據(jù)和第四音頻數(shù)據(jù);

15、所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,包括:

16、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息;

17、所述將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù),包括:

18、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù);

19、所述將所述重構(gòu)音色信息和所述第一發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù),包括:

20、將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù);

21、所述基于所述第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù),確定第一重構(gòu)損失,并基于所述第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù),確定第二重構(gòu)損失,包括:

22、基于所述第一發(fā)音者的所述第一音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù),確定第一重構(gòu)損失,并基于所述第二發(fā)音者的所述第三音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù),確定第二重構(gòu)損失。

23、根據(jù)本發(fā)明提供的一種語音解耦方法,所述將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,包括:

24、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,以及將所述第一音頻數(shù)據(jù)對應(yīng)的第一文本數(shù)據(jù)和所述第三音頻數(shù)據(jù)對應(yīng)的第三文本數(shù)據(jù)分別輸入至所述聲學(xué)模型中的內(nèi)容編碼器,得到所述內(nèi)容編碼器分別輸出的目標(biāo)內(nèi)容信息;

25、所述將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù),包括:

26、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù);

27、所述將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù),包括:

28、將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息,以及所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù)。

29、根據(jù)本發(fā)明提供的一種語音解耦方法,所述基于所述第一重構(gòu)損失和所述第二重構(gòu)損失,訓(xùn)練所述聲學(xué)模型,包括:

30、將所述重構(gòu)音色信息和所述第二發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù),并將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù);

31、基于所述第一重構(gòu)音頻數(shù)據(jù)和所述第四重構(gòu)音頻數(shù)據(jù),確定第三重構(gòu)損失,并基于所述第一重構(gòu)音頻數(shù)據(jù)和所述第五重構(gòu)音頻數(shù)據(jù),確定第四重構(gòu)損失;

32、基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失和所述第四重構(gòu)損失,訓(xùn)練所述聲學(xué)模型。

33、根據(jù)本發(fā)明提供的一種語音解耦方法,所述第一發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù),所述第二發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第三音頻數(shù)據(jù)和第四音頻數(shù)據(jù);

34、所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,包括:

35、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,以及將所述第一音頻數(shù)據(jù)對應(yīng)的第一文本數(shù)據(jù)和所述第三音頻數(shù)據(jù)對應(yīng)的第三文本數(shù)據(jù)分別輸入至所述聲學(xué)模型中的內(nèi)容編碼器,得到所述內(nèi)容編碼器分別輸出的目標(biāo)內(nèi)容信息;

36、所述將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù),包括:

37、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù);

38、所述將所述重構(gòu)音色信息和所述第二發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù),并將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù),包括:

39、將所述重構(gòu)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù),并將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù)。

40、根據(jù)本發(fā)明提供的一種語音解耦方法,所述基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失和所述第四重構(gòu)損失,訓(xùn)練所述聲學(xué)模型,包括:

41、將所述第一重構(gòu)音頻數(shù)據(jù)、所述第二重構(gòu)音頻數(shù)據(jù)、所述第三重構(gòu)音頻數(shù)據(jù)和所述第四重構(gòu)音頻數(shù)據(jù)分別輸入至判別器,得到所述判別器輸出的四個判別損失;

42、基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失、所述第四重構(gòu)損失和所述四個判別損失,訓(xùn)練所述聲學(xué)模型。

43、根據(jù)本發(fā)明提供的一種語音解耦方法,所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,包括:

44、對第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別進(jìn)行音色變化處理,得到音色變化后的第一發(fā)音者的樣本音頻數(shù)據(jù)和音色變化后的第二發(fā)音者的樣本音頻數(shù)據(jù);

45、將所述音色變化后的第一發(fā)音者的樣本音頻數(shù)據(jù)和所述音色變化后的第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息。

46、本發(fā)明還提供一種語音解耦裝置,包括:

47、語音解耦模塊,用于將待解耦語音數(shù)據(jù)分別輸入至音色編碼器和韻律編碼器,得到所述音色編碼器輸出的解耦音色信息,以及所述韻律編碼器輸出的解耦韻律信息;

48、其中,所述音色編碼器和所述韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的;

49、所述第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的;所述第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的;

50、所述第一發(fā)音者和所述第二發(fā)音者為不同的發(fā)音者。

51、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述語音解耦方法。

52、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述語音解耦方法。

53、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述語音解耦方法。

54、本發(fā)明提供的語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品,音色編碼器和韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的,且第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于第一發(fā)音者對應(yīng)的目標(biāo)音色信息和第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,且第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于音色編碼器對第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于韻律編碼器對第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,從而第一重構(gòu)損失可以約束音色編碼器對第一發(fā)音者的音色保持能力,從而提高音色解耦的充分性,以及可以約束韻律編碼器對第一發(fā)音者的韻律保持能力,從而提高韻律解耦的充分性;同時,第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于第二發(fā)音者對應(yīng)的目標(biāo)音色信息和第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,且第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于音色編碼器對第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于韻律編碼器對第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,從而第二重構(gòu)損失可以約束音色編碼器對第二發(fā)音者的音色保持能力,從而提高音色解耦的充分性,以及可以約束韻律編碼器對第二發(fā)音者的韻律保持能力,從而提高韻律解耦的充分性;此外,第一發(fā)音者和第二發(fā)音者為不同的發(fā)音者,從而可以基于不同發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行模型訓(xùn)練,即可以基于海量的說話人的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,提高語音解耦泛化性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1