本發(fā)明涉及音頻處理,尤其涉及一種語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、隨著人工智能的迅速發(fā)展,語音合成的應(yīng)用場景越來越廣泛,例如個性化語音合成、音色遷移、韻律遷移等語音合成方向。其中,語音合成通常需要進(jìn)行語音解耦,語音解耦是指將人類說話語音解耦為內(nèi)容、韻律和音色三個部分。為實現(xiàn)高質(zhì)量語音合成,需要在保持語音自然度的同時,實現(xiàn)對語音內(nèi)容、音色和韻律的有效解耦。
2、目前,通過有監(jiān)督的訓(xùn)練方式訓(xùn)練語音解耦模型,以基于訓(xùn)練后的語音解耦模型進(jìn)行語音解耦。然而,有監(jiān)督的訓(xùn)練方式由于需要進(jìn)行標(biāo)簽標(biāo)注,導(dǎo)致無法基于太多的訓(xùn)練樣本進(jìn)行訓(xùn)練,從而導(dǎo)致無法很好地將韻律和音色解耦開來,且無法基于海量的說話人的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,導(dǎo)致語音解耦泛化性不高。即使通過無監(jiān)督的訓(xùn)練方式訓(xùn)練語音解耦模型,然而該訓(xùn)練方式所達(dá)到的解耦效果往往達(dá)不到預(yù)期,導(dǎo)致無法很好地將韻律和音色解耦開來。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品,用以解決現(xiàn)有技術(shù)中音色韻律解耦不完全的缺陷,實現(xiàn)充分的語音解耦。
2、本發(fā)明提供一種語音解耦方法,包括:
3、將待解耦語音數(shù)據(jù)分別輸入至音色編碼器和韻律編碼器,得到所述音色編碼器輸出的解耦音色信息,以及所述韻律編碼器輸出的解耦韻律信息;
4、其中,所述音色編碼器和所述韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的;
5、所述第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的;所述第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的;
6、所述第一發(fā)音者和所述第二發(fā)音者為不同的發(fā)音者。
7、根據(jù)本發(fā)明提供的一種語音解耦方法,所述音色編碼器和所述韻律編碼器是基于如下方式訓(xùn)練:
8、將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息;
9、將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù);所述音頻解碼器用于基于輸入信息重構(gòu)音頻數(shù)據(jù);
10、將所述第一重構(gòu)音頻數(shù)據(jù)輸入至所述音色編碼器,得到所述音色編碼器輸出的重構(gòu)音色信息,并將所述第一重構(gòu)音頻數(shù)據(jù)輸入至所述韻律編碼器,得到所述韻律編碼器輸出的重構(gòu)韻律信息;
11、將所述重構(gòu)音色信息和所述第一發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù);
12、基于所述第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù),確定第一重構(gòu)損失,并基于所述第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù),確定第二重構(gòu)損失;
13、基于所述第一重構(gòu)損失和所述第二重構(gòu)損失,訓(xùn)練所述聲學(xué)模型。
14、根據(jù)本發(fā)明提供的一種語音解耦方法,所述第一發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù),所述第二發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第三音頻數(shù)據(jù)和第四音頻數(shù)據(jù);
15、所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,包括:
16、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息;
17、所述將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù),包括:
18、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù);
19、所述將所述重構(gòu)音色信息和所述第一發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù),包括:
20、將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù);
21、所述基于所述第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù),確定第一重構(gòu)損失,并基于所述第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù),確定第二重構(gòu)損失,包括:
22、基于所述第一發(fā)音者的所述第一音頻數(shù)據(jù)和所述第二重構(gòu)音頻數(shù)據(jù),確定第一重構(gòu)損失,并基于所述第二發(fā)音者的所述第三音頻數(shù)據(jù)和所述第三重構(gòu)音頻數(shù)據(jù),確定第二重構(gòu)損失。
23、根據(jù)本發(fā)明提供的一種語音解耦方法,所述將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,包括:
24、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,以及將所述第一音頻數(shù)據(jù)對應(yīng)的第一文本數(shù)據(jù)和所述第三音頻數(shù)據(jù)對應(yīng)的第三文本數(shù)據(jù)分別輸入至所述聲學(xué)模型中的內(nèi)容編碼器,得到所述內(nèi)容編碼器分別輸出的目標(biāo)內(nèi)容信息;
25、所述將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù),包括:
26、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù);
27、所述將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù),包括:
28、將所述重構(gòu)音色信息和所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息,以及所述第一發(fā)音者的所述第一音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第二重構(gòu)音頻數(shù)據(jù),并將所述第二發(fā)音者的所述第四音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第三重構(gòu)音頻數(shù)據(jù)。
29、根據(jù)本發(fā)明提供的一種語音解耦方法,所述基于所述第一重構(gòu)損失和所述第二重構(gòu)損失,訓(xùn)練所述聲學(xué)模型,包括:
30、將所述重構(gòu)音色信息和所述第二發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù),并將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù);
31、基于所述第一重構(gòu)音頻數(shù)據(jù)和所述第四重構(gòu)音頻數(shù)據(jù),確定第三重構(gòu)損失,并基于所述第一重構(gòu)音頻數(shù)據(jù)和所述第五重構(gòu)音頻數(shù)據(jù),確定第四重構(gòu)損失;
32、基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失和所述第四重構(gòu)損失,訓(xùn)練所述聲學(xué)模型。
33、根據(jù)本發(fā)明提供的一種語音解耦方法,所述第一發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù),所述第二發(fā)音者的樣本音頻數(shù)據(jù)包括不同的第三音頻數(shù)據(jù)和第四音頻數(shù)據(jù);
34、所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,包括:
35、將所述第二音頻數(shù)據(jù)和所述第四音頻數(shù)據(jù)分別輸入至所述音色編碼器,得到所述音色編碼器分別輸出的目標(biāo)音色信息,并將所述第一音頻數(shù)據(jù)和所述第三音頻數(shù)據(jù)分別輸入至所述韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,以及將所述第一音頻數(shù)據(jù)對應(yīng)的第一文本數(shù)據(jù)和所述第三音頻數(shù)據(jù)對應(yīng)的第三文本數(shù)據(jù)分別輸入至所述聲學(xué)模型中的內(nèi)容編碼器,得到所述內(nèi)容編碼器分別輸出的目標(biāo)內(nèi)容信息;
36、所述將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息,以及所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息輸入至所述聲學(xué)模型中的音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù),包括:
37、將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的目標(biāo)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第一重構(gòu)音頻數(shù)據(jù);
38、所述將所述重構(gòu)音色信息和所述第二發(fā)音者對應(yīng)的所述目標(biāo)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù),并將所述第一發(fā)音者對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù),包括:
39、將所述重構(gòu)音色信息和所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第四重構(gòu)音頻數(shù)據(jù),并將所述第一發(fā)音者的所述第二音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)音色信息和所述重構(gòu)韻律信息,以及所述第二發(fā)音者的所述第三音頻數(shù)據(jù)對應(yīng)的所述目標(biāo)內(nèi)容信息輸入至所述音頻解碼器,得到所述音頻解碼器輸出的第五重構(gòu)音頻數(shù)據(jù)。
40、根據(jù)本發(fā)明提供的一種語音解耦方法,所述基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失和所述第四重構(gòu)損失,訓(xùn)練所述聲學(xué)模型,包括:
41、將所述第一重構(gòu)音頻數(shù)據(jù)、所述第二重構(gòu)音頻數(shù)據(jù)、所述第三重構(gòu)音頻數(shù)據(jù)和所述第四重構(gòu)音頻數(shù)據(jù)分別輸入至判別器,得到所述判別器輸出的四個判別損失;
42、基于所述第一重構(gòu)損失、所述第二重構(gòu)損失、所述第三重構(gòu)損失、所述第四重構(gòu)損失和所述四個判別損失,訓(xùn)練所述聲學(xué)模型。
43、根據(jù)本發(fā)明提供的一種語音解耦方法,所述將第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息,包括:
44、對第一發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的樣本音頻數(shù)據(jù)分別進(jìn)行音色變化處理,得到音色變化后的第一發(fā)音者的樣本音頻數(shù)據(jù)和音色變化后的第二發(fā)音者的樣本音頻數(shù)據(jù);
45、將所述音色變化后的第一發(fā)音者的樣本音頻數(shù)據(jù)和所述音色變化后的第二發(fā)音者的樣本音頻數(shù)據(jù)分別輸入至聲學(xué)模型中的韻律編碼器,得到所述韻律編碼器分別輸出的目標(biāo)韻律信息。
46、本發(fā)明還提供一種語音解耦裝置,包括:
47、語音解耦模塊,用于將待解耦語音數(shù)據(jù)分別輸入至音色編碼器和韻律編碼器,得到所述音色編碼器輸出的解耦音色信息,以及所述韻律編碼器輸出的解耦韻律信息;
48、其中,所述音色編碼器和所述韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的;
49、所述第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,所述第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,所述第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,所述第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的;所述第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,所述第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息和所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,所述第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于所述音色編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,所述第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于所述韻律編碼器對所述第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的;
50、所述第一發(fā)音者和所述第二發(fā)音者為不同的發(fā)音者。
51、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述語音解耦方法。
52、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述語音解耦方法。
53、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述語音解耦方法。
54、本發(fā)明提供的語音解耦方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品,音色編碼器和韻律編碼器是基于第一重構(gòu)損失和第二重構(gòu)損失訓(xùn)練得到的,且第一重構(gòu)損失是基于第一發(fā)音者的樣本音頻數(shù)據(jù)和第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,第一發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于第一發(fā)音者對應(yīng)的目標(biāo)音色信息和第一發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,且第一發(fā)音者對應(yīng)的目標(biāo)音色信息是基于音色編碼器對第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,第一發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于韻律編碼器對第一發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,從而第一重構(gòu)損失可以約束音色編碼器對第一發(fā)音者的音色保持能力,從而提高音色解耦的充分性,以及可以約束韻律編碼器對第一發(fā)音者的韻律保持能力,從而提高韻律解耦的充分性;同時,第二重構(gòu)損失是基于第二發(fā)音者的樣本音頻數(shù)據(jù)和第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)確定的,第二發(fā)音者的重構(gòu)音頻數(shù)據(jù)是基于第二發(fā)音者對應(yīng)的目標(biāo)音色信息和第二發(fā)音者對應(yīng)的目標(biāo)韻律信息重構(gòu)的,且第二發(fā)音者對應(yīng)的目標(biāo)音色信息是基于音色編碼器對第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,第二發(fā)音者對應(yīng)的目標(biāo)韻律信息是基于韻律編碼器對第二發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行提取得到的,從而第二重構(gòu)損失可以約束音色編碼器對第二發(fā)音者的音色保持能力,從而提高音色解耦的充分性,以及可以約束韻律編碼器對第二發(fā)音者的韻律保持能力,從而提高韻律解耦的充分性;此外,第一發(fā)音者和第二發(fā)音者為不同的發(fā)音者,從而可以基于不同發(fā)音者的樣本音頻數(shù)據(jù)進(jìn)行模型訓(xùn)練,即可以基于海量的說話人的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,提高語音解耦泛化性。