語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品與流程

文檔序號：41558367發(fā)布日期：2025-04-08 18:11閱讀：17來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品與流程

本發(fā)明涉及音頻處理，尤其涉及一種語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品。

背景技術(shù)：

1、隨著人工智能的迅速發(fā)展，語音合成的應(yīng)用場景越來越廣泛，例如個性化語音合成、音色遷移、韻律遷移等語音合成方向。其中，語音合成通常需要進(jìn)行語音解耦，語音解耦是指將人類說話語音解耦為內(nèi)容、韻律和音色三個部分。為實現(xiàn)高質(zhì)量語音合成，需要在保持語音自然度的同時，實現(xiàn)對語音內(nèi)容、音色和韻律的有效解耦。

2、目前，通過有監(jiān)督的訓(xùn)練方式訓(xùn)練語音解耦模型，以基于訓(xùn)練后的語音解耦模型進(jìn)行語音解耦。然而，有監(jiān)督的訓(xùn)練方式由于需要進(jìn)行標(biāo)簽標(biāo)注，導(dǎo)致無法基于太多的訓(xùn)練樣本進(jìn)行訓(xùn)練，從而導(dǎo)致無法很好地將韻律和音色解耦開來，且無法基于海量的說話人的音頻數(shù)據(jù)進(jìn)行訓(xùn)練，導(dǎo)致語音解耦泛化性不高。即使通過無監(jiān)督的訓(xùn)練方式訓(xùn)練語音解耦模型，然而該訓(xùn)練方式所達(dá)到的解耦效果往往達(dá)不到預(yù)期，導(dǎo)致無法很好地將韻律和音色解耦開來。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品，用以解決現(xiàn)有技術(shù)中音色韻律解耦不完全的缺陷，實現(xiàn)充分的語音解耦。

2、本發(fā)明提供一種語音解耦方法，包括：

3、將待解耦語音數(shù)據(jù)分別輸入至音色編碼器和韻律編碼器，得到所述音色編碼器輸出的解耦音色信息，以及所述韻律編碼器輸出的解耦韻律信息；

4、其中，所述音色編碼器和所述韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的；

5、所述第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的，所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的，所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的，所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的；所述第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的，所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的，所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的，所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的；

6、所述第一發(fā)音者和所述第二發(fā)音者為不同的發(fā)音者。

7、根據(jù)本發(fā)明提供的一種語音解耦方法，所述音色編碼器和所述韻律編碼器是基于如下方式訓(xùn)練：

8、將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器，得到所述音色編碼器分別輸出的目標(biāo)音色信息，并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息；

9、將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息，以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器，得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù)；所述音頻解碼器用于基于輸入信息重構(gòu)音頻數(shù)據(jù)；

10、將所述第一重構(gòu)音頻數(shù)據(jù)輸入至所述音色編碼器，得到所述音色編碼器輸出的重構(gòu)音色信息，并將所述第一重構(gòu)音頻數(shù)據(jù)輸入至所述韻律編碼器，得到所述韻律編碼器輸出的重構(gòu)韻律信息；

11、將所述重構(gòu)音色信息和所述第一發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù)，并將所述第二發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù)；

12、基于所述第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù)，確定第一重構(gòu)損失，并基于所述第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù)，確定第二重構(gòu)損失；

13、基于所述第一重構(gòu)損失和所述第二重構(gòu)損失，訓(xùn)練所述聲學(xué)模型。

14、根據(jù)本發(fā)明提供的一種語音解耦方法，所述第一發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)，所述第二發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第三音頻數(shù)據(jù)和第四音頻數(shù)據(jù)；

15、所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器，得到所述音色編碼器分別輸出的目標(biāo)音色信息，并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息，包括：

16、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器，得到所述音色編碼器分別輸出的目標(biāo)音色信息，并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息；

17、所述將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息，以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器，得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù)，包括：

18、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息，以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù)；

19、所述將所述重構(gòu)音色信息和所述第一發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù)，并將所述第二發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù)，包括：

20、將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù)，并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù)；

21、所述基于所述第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù)，確定第一重構(gòu)損失，并基于所述第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù)，確定第二重構(gòu)損失，包括：

22、基于所述第一發(fā)音者的所述第一音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù)，確定第一重構(gòu)損失，并基于所述第二發(fā)音者的所述第三音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù)，確定第二重構(gòu)損失。

23、根據(jù)本發(fā)明提供的一種語音解耦方法，所述將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器，得到所述音色編碼器分別輸出的目標(biāo)音色信息，并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息，包括：

24、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器，得到所述音色編碼器分別輸出的目標(biāo)音色信息，并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息，以及將所述第一音頻數(shù)據(jù)對應(yīng)的第一文本數(shù)據(jù)和所述第三音頻數(shù)據(jù)對應(yīng)的第三文本數(shù)據(jù)分別輸入至所述聲學(xué)模型中的內(nèi)容編碼器，得到所述內(nèi)容編碼器分別輸出的目標(biāo)內(nèi)容信息；

25、所述將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息，以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù)，包括：

26、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息，以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù)；

27、所述將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù)，并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù)，包括：

28、將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息，以及所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù)，并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息，以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù)。

29、根據(jù)本發(fā)明提供的一種語音解耦方法，所述基于所述第一重構(gòu)損失和所述第二重構(gòu)損失，訓(xùn)練所述聲學(xué)模型，包括：

30、將所述重構(gòu)音色信息和所述第二發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù)，并將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù)；

31、基于所述第一重構(gòu)音頻數(shù)據(jù)和所述第四重構(gòu)音頻數(shù)據(jù)，確定第三重構(gòu)損失，并基于所述第一重構(gòu)音頻數(shù)據(jù)和所述第五重構(gòu)音頻數(shù)據(jù)，確定第四重構(gòu)損失；

32、基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失和所述第四重構(gòu)損失，訓(xùn)練所述聲學(xué)模型。

33、根據(jù)本發(fā)明提供的一種語音解耦方法，所述第一發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)，所述第二發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第三音頻數(shù)據(jù)和第四音頻數(shù)據(jù)；

34、所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器，得到所述音色編碼器分別輸出的目標(biāo)音色信息，并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息，包括：

35、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器，得到所述音色編碼器分別輸出的目標(biāo)音色信息，并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息，以及將所述第一音頻數(shù)據(jù)對應(yīng)的第一文本數(shù)據(jù)和所述第三音頻數(shù)據(jù)對應(yīng)的第三文本數(shù)據(jù)分別輸入至所述聲學(xué)模型中的內(nèi)容編碼器，得到所述內(nèi)容編碼器分別輸出的目標(biāo)內(nèi)容信息；

36、所述將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息，以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器，得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù)，包括：

37、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息，以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù)；

38、所述將所述重構(gòu)音色信息和所述第二發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù)，并將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù)，包括：

39、將所述重構(gòu)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息，以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù)，并將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息，以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器，得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù)。

40、根據(jù)本發(fā)明提供的一種語音解耦方法，所述基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失和所述第四重構(gòu)損失，訓(xùn)練所述聲學(xué)模型，包括：

41、將所述第一重構(gòu)音頻數(shù)據(jù)、所述第二重構(gòu)音頻數(shù)據(jù)、所述第三重構(gòu)音頻數(shù)據(jù)和所述第四重構(gòu)音頻數(shù)據(jù)分別輸入至判別器，得到所述判別器輸出的四個判別損失；

42、基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失、所述第四重構(gòu)損失和所述四個判別損失，訓(xùn)練所述聲學(xué)模型。

43、根據(jù)本發(fā)明提供的一種語音解耦方法，所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息，包括：

44、對第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別進(jìn)行音色變化處理，得到音色變化后的第一發(fā)音者的樣本音頻數(shù)據(jù)和音色變化后的第二發(fā)音者的樣本音頻數(shù)據(jù)；

45、將所述音色變化后的第一發(fā)音者的樣本音頻數(shù)據(jù)和所述音色變化后的第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器，得到所述韻律編碼器分別輸出的目標(biāo)韻律信息。

46、本發(fā)明還提供一種語音解耦裝置，包括：

47、語音解耦模塊，用于將待解耦語音數(shù)據(jù)分別輸入至音色編碼器和韻律編碼器，得到所述音色編碼器輸出的解耦音色信息，以及所述韻律編碼器輸出的解耦韻律信息；

48、其中，所述音色編碼器和所述韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的；

49、所述第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的，所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的，所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的，所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的；所述第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的，所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的，所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的，所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的；

50、所述第一發(fā)音者和所述第二發(fā)音者為不同的發(fā)音者。

51、本發(fā)明還提供一種電子設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述語音解耦方法。

52、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì)，其上存儲有計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述語音解耦方法。

53、本發(fā)明還提供一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述語音解耦方法。

54、本發(fā)明提供的語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品，音色編碼器和韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的，且第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的，第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于第一發(fā)音者對應(yīng)的目標(biāo)音色信息和第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的，且第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于音色編碼器對第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的，第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于韻律編碼器對第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的，從而第一重構(gòu)損失可以約束音色編碼器對第一發(fā)音者的音色保持能力，從而提高音色解耦的充分性，以及可以約束韻律編碼器對第一發(fā)音者的韻律保持能力，從而提高韻律解耦的充分性；同時，第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的，第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于第二發(fā)音者對應(yīng)的目標(biāo)音色信息和第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的，且第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于音色編碼器對第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的，第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于韻律編碼器對第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的，從而第二重構(gòu)損失可以約束音色編碼器對第二發(fā)音者的音色保持能力，從而提高音色解耦的充分性，以及可以約束韻律編碼器對第二發(fā)音者的韻律保持能力，從而提高韻律解耦的充分性；此外，第一發(fā)音者和第二發(fā)音者為不同的發(fā)音者，從而可以基于不同發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行模型訓(xùn)練，即可以基于海量的說話人的音頻數(shù)據(jù)進(jìn)行訓(xùn)練，提高語音解耦泛化性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：童永生,孟廷,伍宏傳
技術(shù)所有人：科大訊飛股份有限公司
我是此專利的發(fā)明人

上一篇：一種電池蓋板旋鉚機構(gòu)的制作方法
上一篇：一種有色金屬板材壓延生產(chǎn)用的軋機的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品與流程

語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品與流程