文本引導(dǎo)的語音合成方法、裝置、計算機設(shè)備及存儲介質(zhì)與流程

文檔序號：41945640發(fā)布日期：2025-05-16 14:02閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>文本引導(dǎo)的語音合成方法、裝置、計算機設(shè)備及存儲介質(zhì)與流程

技術(shù)特征：

1.一種文本引導(dǎo)的語音合成方法，其特征在于，包括下述步驟：

2.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法，其特征在于，所述對所述語音數(shù)據(jù)集進行風(fēng)格標簽標注和場景噪聲注入，得到參考語音集的步驟包括：

3.根據(jù)權(quán)利要求2所述的文本引導(dǎo)的語音合成方法，其特征在于，所述按照預(yù)設(shè)風(fēng)格維度確定所述語音數(shù)據(jù)集中每條語音數(shù)據(jù)的風(fēng)格標簽的步驟包括：

4.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法，其特征在于，所述風(fēng)格編碼器包括bert嵌入層、空間擴展層和風(fēng)格編碼層，所述通過所述風(fēng)格編碼器對所述文本數(shù)據(jù)集和所述參考語音集的風(fēng)格標簽進行編碼，得到風(fēng)格編碼特征的步驟包括：

5.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法，其特征在于，所述文本編碼器包括文本嵌入層、transformer編碼層和池化層，所述通過所述文本編碼器對所述文本數(shù)據(jù)集進行編碼，得到文本編碼特征的步驟包括：

6.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法，其特征在于，所述聲學(xué)結(jié)構(gòu)包括可逆變換層、流解碼器和殘差層，所述將所述風(fēng)格編碼特征、所述參考語音編碼特征和所述文本編碼特征輸入所述聲學(xué)結(jié)構(gòu)，獲得語音聲學(xué)特征的步驟包括：

7.根據(jù)權(quán)利要求1所述的文本引導(dǎo)的語音合成方法，其特征在于，所述按照預(yù)設(shè)損失函數(shù)，根據(jù)所述參考語音和所述預(yù)測合成語音計算損失的步驟包括：

8.一種文本引導(dǎo)的語音合成裝置，其特征在于，包括：

9.一種計算機設(shè)備，其特征在于，包括存儲器和處理器，所述存儲器中存儲有計算機可讀指令，所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如權(quán)利要求1至7中任一項所述的文本引導(dǎo)的語音合成方法的步驟。

10.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令，所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的文本引導(dǎo)的語音合成方法的步驟。

技術(shù)總結(jié)
本申請屬于人工智能技術(shù)領(lǐng)域，涉及一種文本引導(dǎo)的語音合成方法，包括對語音數(shù)據(jù)集進行風(fēng)格標簽標注和場景噪聲注入，得到參考語音集；將參考語音集和文本數(shù)據(jù)集輸入聲學(xué)模型；通過風(fēng)格編碼器對風(fēng)格標簽進行編碼，得到風(fēng)格編碼特征；通過參考編碼器對參考語音進行編碼，得到參考語音編碼特征；通過文本編碼器對文本進行編碼，得到文本編碼特征；將全部編碼特征輸入聲學(xué)結(jié)構(gòu)，獲得語音聲學(xué)特征；將語音聲學(xué)特征輸入聲碼器合成波形，得到預(yù)測合成語音進行訓(xùn)練，得到語音合成模型。本申請還提供一種文本引導(dǎo)的語音合成裝置、計算機設(shè)備及存儲介質(zhì)。此外，本申請還涉及區(qū)塊鏈技術(shù)，待轉(zhuǎn)換文本可存儲于區(qū)塊鏈中。本申請?zhí)岣哒Z音合成的效率與質(zhì)量。

技術(shù)研發(fā)人員：黃耀,陳閩川,馬駿,王少軍
受保護的技術(shù)使用者：平安科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/15

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

文本引導(dǎo)的語音合成方法、裝置、計算機設(shè)備及存儲介質(zhì)與流程

文本引導(dǎo)的語音合成方法、裝置、計算機設(shè)備及存儲介質(zhì)與流程