1.一種文本引導(dǎo)的語音合成方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法,其特征在于,所述對所述語音數(shù)據(jù)集進行風(fēng)格標簽標注和場景噪聲注入,得到參考語音集的步驟包括:
3.根據(jù)權(quán)利要求2所述的文本引導(dǎo)的語音合成方法,其特征在于,所述按照預(yù)設(shè)風(fēng)格維度確定所述語音數(shù)據(jù)集中每條語音數(shù)據(jù)的風(fēng)格標簽的步驟包括:
4.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法,其特征在于,所述風(fēng)格編碼器包括bert嵌入層、空間擴展層和風(fēng)格編碼層,所述通過所述風(fēng)格編碼器對所述文本數(shù)據(jù)集和所述參考語音集的風(fēng)格標簽進行編碼,得到風(fēng)格編碼特征的步驟包括:
5.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法,其特征在于,所述文本編碼器包括文本嵌入層、transformer編碼層和池化層,所述通過所述文本編碼器對所述文本數(shù)據(jù)集進行編碼,得到文本編碼特征的步驟包括:
6.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法,其特征在于,所述聲學(xué)結(jié)構(gòu)包括可逆變換層、流解碼器和殘差層,所述將所述風(fēng)格編碼特征、所述參考語音編碼特征和所述文本編碼特征輸入所述聲學(xué)結(jié)構(gòu),獲得語音聲學(xué)特征的步驟包括:
7.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法,其特征在于,所述按照預(yù)設(shè)損失函數(shù),根據(jù)所述參考語音和所述預(yù)測合成語音計算損失的步驟包括:
8.一種文本引導(dǎo)的語音合成裝置,其特征在于,包括:
9.一種計算機設(shè)備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如權(quán)利要求1至7中任一項所述的文本引導(dǎo)的語音合成方法的步驟。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的文本引導(dǎo)的語音合成方法的步驟。