最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種語音合成方法、裝置、設備和存儲介質(zhì)與流程

文檔序號:41584541發(fā)布日期:2025-04-11 17:34閱讀:13來源:國知局
一種語音合成方法、裝置、設備和存儲介質(zhì)與流程

本申請涉及語音處理,特別是涉及一種語音合成方法、裝置、設備和存儲介質(zhì)。


背景技術:

1、語音合成技術是人工智能研究領域的分支之一,主要是將文字信息轉(zhuǎn)化為可聽的聲音信息,也即讓機器像人一樣開口說話。例如,語音合成技術包括一句話聲音復刻,具體是指僅參考說話人時長有限的一句話語音,生成具備該說話人說話特征的合成語音。一句話聲音應用前景廣闊,在語音交互領域比如翻譯機、手機,以及其它智能交互領域,小說閱讀、短視頻等領域均有應用潛力。

2、合成語音的效果受多種因素影響,如何能夠提升語音合成的效果成為亟待解決的問題。


技術實現(xiàn)思路

1、本申請至少提供一種語音合成方法、裝置、設備和存儲介質(zhì)。

2、本申請?zhí)峁┝艘环N語音合成方法,包括:獲取待合成文本對應的音素序列;基于時長預測相關信息進行時長預測,得到待合成文本對應的目標時長信息,其中,時長預測相關信息包括參考語音的參考時長信息、待合成文本和音素序列;基于目標時長信息進行語音表征預測,得到目標細粒度語音表征;基于目標細粒度語音表征合成目標語音。

3、本申請?zhí)峁┝艘环N語音合成裝置,包括獲取模塊、時長預測模塊、表征預測模塊和合成模塊。獲取模塊用于獲取待合成文本對應的音素序列;時長預測模塊用于基于時長預測相關信息進行時長預測,得到待合成文本對應的目標時長信息,其中,時長預測相關信息包括參考語音的參考時長信息、待合成文本和音素序列;表征預測模塊用于基于目標時長信息進行語音表征預測,得到目標細粒度語音表征;合成模塊用于基于目標細粒度語音表征合成目標語音。

4、本申請?zhí)峁┝艘环N電子設備,包括存儲器和處理器,處理器用于執(zhí)行存儲器中存儲的程序指令,以實現(xiàn)上述任一方法。

5、本申請?zhí)峁┝艘环N計算機可讀存儲介質(zhì),其上存儲有程序指令,程序指令被處理器執(zhí)行時實現(xiàn)上述任一方法。

6、在上述方案中,基于時長預測相關信息進行時長預測,得到待合成文本對應的目標時長信息,這一時長信息用于得到目標細粒度語音表征,以合成語音,使得合成的目標語音的時長能夠更加準確,提升語音合成效果。

7、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,而非限制本申請。



技術特征:

1.一種語音合成方法,其特征在于,所述方法包括:

2.根據(jù)權利要求1所述的方法,其特征在于,所述時長預測相關信息還包括所述待合成文本的語種信息、目標風格信息和所述參考語音的參考韻律表征中的至少一者,其中,所述目標風格信息表征所述目標語音的風格,所述目標風格信息包括至少一類風格信息。

3.根據(jù)權利要求2所述的方法,其特征在于,所述目標風格信息包括質(zhì)量風格、說話人數(shù)風格、表達風格中的至少一類風格的信息,所述質(zhì)量風格包括高音頻質(zhì)量、低音頻質(zhì)量,所述說話人數(shù)風格包括多說話人、少說話人,所述表達風格包括小說風格。

4.根據(jù)權利要求1所述的方法,其特征在于,所述基于時長預測相關信息進行時長預測,得到所述待合成文本對應的目標時長信息包括:

5.根據(jù)權利要求4所述的方法,其特征在于,所述時長預測相關信息還包括所述待合成文本的語種信息、目標風格信息和所述參考語音的參考韻律表征;所述獲取所述時長預測相關信息包括:

6.根據(jù)權利要求1所述的方法,其特征在于,所述獲取待合成文本對應的音素序列包括:

7.根據(jù)權利要求1所述的方法,其特征在于,所述基于所述目標時長信息進行語音表征預測,得到目標細粒度語音表征包括:

8.根據(jù)權利要求7所述的方法,其特征在于,所述基于粗粒度預測相關信息進行粗粒度語音表征預測,得到目標粗粒度語音表征包括:

9.根據(jù)權利要求8所述的方法,其特征在于,所述粗粒度預測相關信息包括參考粗粒度語音表征;所述獲取所述粗粒度預測相關信息包括:

10.根據(jù)權利要求9所述的方法,其特征在于,所述獲取所述粗粒度預測相關信息還包括:

11.根據(jù)權利要求7所述的方法,其特征在于,所述基于所述參考語音的參考細粒度語音表征、所述音素序列、所述目標時長信息和所述目標粗粒度語音表征進行細粒度語音表征預測,得到所述目標細粒度語音表征包括:

12.根據(jù)權利要求7所述的方法,其特征在于,所述細粒度語音表征預測是利用聲學模型實現(xiàn)的;所述基于所述參考語音的參考細粒度語音表征、所述音素序列、所述目標時長信息和所述目標粗粒度語音表征進行細粒度語音表征預測,得到所述目標細粒度語音表征之前,所述方法還包括:

13.根據(jù)權利要求12所述的方法,其特征在于,所述基于所述樣本合成細粒度表征,計算聲紋相似度損失和自然度損失中的至少一者包括以下至少一個步驟:

14.一種語音合成裝置,其特征在于,所述裝置包括:

15.一種電子設備,其特征在于,包括存儲器和處理器,所述存儲器上存儲有程序指令,所述程序指令被所述處理器執(zhí)行時實現(xiàn)上述權利要求1至13中任一項所述的方法。

16.一種計算機可讀存儲介質(zhì),其上存儲有程序指令,其特征在于,所述程序指令被處理器執(zhí)行時實現(xiàn)上述權利要求1至13中任一項所述的方法。


技術總結
本申請公開了一種語音合成方法、裝置、設備和存儲介質(zhì),該方法包括:獲取待合成文本對應的音素序列;基于時長預測相關信息進行時長預測,得到待合成文本對應的目標時長信息,其中,時長預測相關信息包括參考語音的參考時長信息、待合成文本和音素序列;基于目標時長信息進行語音表征預測,得到目標細粒度語音表征;基于目標細粒度語音表征合成目標語音。上述方案,能夠提升語音合成的效果。

技術研發(fā)人員:王瑾薇,陳言年,宋銳,胡亞軍,方昕,蔡明琦,高建清,劉聰
受保護的技術使用者:科大訊飛股份有限公司
技術研發(fā)日:
技術公布日:2025/4/10
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1