最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

文本引導(dǎo)的語(yǔ)音合成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41945640發(fā)布日期:2025-05-16 14:02閱讀:7來(lái)源:國(guó)知局
文本引導(dǎo)的語(yǔ)音合成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及人工智能,尤其涉及一種文本引導(dǎo)的語(yǔ)音合成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、隨著人工智能技術(shù)的不斷突破,語(yǔ)音合成大模型在近年來(lái)迎來(lái)了前所未有的發(fā)展。語(yǔ)音合成技術(shù)作為一種重要的人機(jī)交互手段,已經(jīng)滲透至智能客服、語(yǔ)音助手、教育培訓(xùn)等多個(gè)領(lǐng)域,極大地提升了用戶體驗(yàn)和效率。特別是在金融業(yè)務(wù)、醫(yī)療業(yè)務(wù)等場(chǎng)景中,語(yǔ)音合成技術(shù)被用于智能語(yǔ)音客服中以進(jìn)行金融知識(shí)解答、醫(yī)藥知識(shí)宣傳等,其自然流暢的聲音和個(gè)性化表達(dá)能力為顧客帶來(lái)了更加人性化的金融、醫(yī)療等場(chǎng)景化服務(wù)。特別是在金融領(lǐng)域,語(yǔ)音合成技術(shù)也被廣泛應(yīng)用于電話銀行、智能投顧等場(chǎng)景,通過(guò)合成逼真的語(yǔ)音來(lái)增強(qiáng)客戶的信任感和滿意度。

2、近年來(lái),隨著人們對(duì)隱私保護(hù)的日益重視以及對(duì)語(yǔ)音合成音頻多樣化、靈活性需求的提升,一種創(chuàng)新的“基于文本引導(dǎo)的語(yǔ)音合成方法”應(yīng)運(yùn)而生。該方法通過(guò)引入兩種關(guān)鍵的prmopt(即輸入?yún)?shù)),即content?prompt(內(nèi)容提示,指要合成的文本)和styleprompt(風(fēng)格提示,指語(yǔ)音風(fēng)格描述文本),實(shí)現(xiàn)了對(duì)語(yǔ)音合成的精確控制和個(gè)性化定制。內(nèi)容提示是用戶希望合成的具體文本內(nèi)容,而風(fēng)格提示則用于描述所期望的語(yǔ)音風(fēng)格,如語(yǔ)速、音調(diào)、情感等。

3、然而,盡管基于文本引導(dǎo)的語(yǔ)音合成方法在語(yǔ)音合成領(lǐng)域取得了顯著進(jìn)展,但現(xiàn)有的模型仍存在一系列缺陷和不足。首先,語(yǔ)種單一性問題是當(dāng)前模型的一大局限?,F(xiàn)有的語(yǔ)音合成大模型通常只能處理單一語(yǔ)種的內(nèi)容提示和風(fēng)格提示,無(wú)法實(shí)現(xiàn)多語(yǔ)種內(nèi)容的融合和風(fēng)格轉(zhuǎn)換,這限制了模型在全球化背景下的廣泛應(yīng)用。其次,風(fēng)格描述的有限性也是當(dāng)前模型的一大短板。在使用風(fēng)格提示描述語(yǔ)音風(fēng)格時(shí),模型主要局限于語(yǔ)速、音調(diào)、情感、信噪比、性別、口音等幾個(gè)方面,缺乏對(duì)不同噪聲場(chǎng)景下語(yǔ)音風(fēng)格的模擬能力,因此難以合成出在復(fù)雜多樣的現(xiàn)實(shí)場(chǎng)景(如路邊打電話、餐廳吃飯等)下的逼真音頻。最后,聲學(xué)模型的局限性也制約了語(yǔ)音合成大模型的性能。目前,模型中的聲學(xué)模型主要基于diffusionmodel,該模型在合成速度、音頻質(zhì)量以及對(duì)特定場(chǎng)景的適應(yīng)性方面存在一定的不足,難以滿足用戶對(duì)高效、高質(zhì)量語(yǔ)音合成的需求。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例的目的在于提出一種文本引導(dǎo)的語(yǔ)音合成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有的語(yǔ)音合成語(yǔ)種單一、風(fēng)格描述有限以及語(yǔ)音合成的效率和質(zhì)量較差的技術(shù)問題。

2、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例提供一種文本引導(dǎo)的語(yǔ)音合成方法,采用了如下所述的技術(shù)方案:

3、獲取不同語(yǔ)種的語(yǔ)音數(shù)據(jù)集和文本數(shù)據(jù)集,其中,所述語(yǔ)音數(shù)據(jù)集中的語(yǔ)音數(shù)據(jù)與所述文本數(shù)據(jù)集中的文本數(shù)據(jù)為配對(duì)數(shù)據(jù);

4、對(duì)所述語(yǔ)音數(shù)據(jù)集進(jìn)行風(fēng)格標(biāo)簽標(biāo)注和場(chǎng)景噪聲注入,得到參考語(yǔ)音集;

5、將所述參考語(yǔ)音集和所述文本數(shù)據(jù)集輸入預(yù)構(gòu)建的聲學(xué)模型中,其中,所述聲學(xué)模型包括風(fēng)格編碼器、參考編碼器、文本編碼器、聲學(xué)結(jié)構(gòu)和聲碼器;

6、通過(guò)所述風(fēng)格編碼器對(duì)所述文本數(shù)據(jù)集和所述參考語(yǔ)音集的風(fēng)格標(biāo)簽進(jìn)行編碼,得到風(fēng)格編碼特征;

7、通過(guò)所述參考編碼器對(duì)所述參考語(yǔ)音集的參考語(yǔ)音進(jìn)行編碼,得到參考語(yǔ)音編碼特征;

8、通過(guò)所述文本編碼器對(duì)所述文本數(shù)據(jù)集進(jìn)行編碼,得到文本編碼特征;

9、將所述風(fēng)格編碼特征、所述參考語(yǔ)音編碼特征和所述文本編碼特征輸入所述聲學(xué)結(jié)構(gòu),獲得語(yǔ)音聲學(xué)特征;

10、通過(guò)所述聲碼器對(duì)所述語(yǔ)音聲學(xué)特征進(jìn)行波形合成,得到預(yù)測(cè)合成語(yǔ)音;

11、按照預(yù)設(shè)損失函數(shù),根據(jù)所述參考語(yǔ)音和所述預(yù)測(cè)合成語(yǔ)音計(jì)算損失,基于所述損失調(diào)整模型參數(shù),繼續(xù)迭代訓(xùn)練,直至滿足迭代停止條件,得到最終的語(yǔ)音合成模型;

12、獲取待轉(zhuǎn)換文本,輸入所述語(yǔ)音合成模型中,得到目標(biāo)合成語(yǔ)音。

13、進(jìn)一步的,所述對(duì)所述語(yǔ)音數(shù)據(jù)集進(jìn)行風(fēng)格標(biāo)簽標(biāo)注和場(chǎng)景噪聲注入,得到參考語(yǔ)音集的步驟包括:

14、按照預(yù)設(shè)風(fēng)格維度確定所述語(yǔ)音數(shù)據(jù)集中每條語(yǔ)音數(shù)據(jù)的風(fēng)格標(biāo)簽,并基于所述風(fēng)格標(biāo)簽對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行標(biāo)注,得到標(biāo)注語(yǔ)音集;

15、獲取場(chǎng)景噪聲數(shù)據(jù)集,采用數(shù)據(jù)融合算法,將所述場(chǎng)景噪聲數(shù)據(jù)集與所述標(biāo)注語(yǔ)音集進(jìn)行融合,得到含有噪音的參考語(yǔ)音集。

16、進(jìn)一步的,所述按照預(yù)設(shè)風(fēng)格維度確定所述語(yǔ)音數(shù)據(jù)集中每條語(yǔ)音數(shù)據(jù)的風(fēng)格標(biāo)簽的步驟包括:

17、采用語(yǔ)音信號(hào)處理算法對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行分析,得到對(duì)應(yīng)的語(yǔ)速、音調(diào)和信噪比;

18、根據(jù)所述語(yǔ)速和所述音調(diào)確定所述語(yǔ)音數(shù)據(jù)的語(yǔ)速標(biāo)簽和音調(diào)標(biāo)簽;

19、將所述信噪比與預(yù)設(shè)信噪比閾值進(jìn)行比較,得到信噪比標(biāo)簽;

20、將所述語(yǔ)音數(shù)據(jù)集輸入訓(xùn)練好的情感識(shí)別模型進(jìn)行情感分類,得到對(duì)應(yīng)的情感標(biāo)簽;

21、采用訓(xùn)練好的性別識(shí)別模型,判斷所述語(yǔ)音數(shù)據(jù)集中說(shuō)話人的性別,得到對(duì)應(yīng)的性別標(biāo)簽;

22、將所述語(yǔ)音數(shù)據(jù)集輸入訓(xùn)練好的口音識(shí)別模型,判斷所述語(yǔ)音數(shù)據(jù)的口音類型,基于所述口音類型得到口音標(biāo)簽;

23、將所述語(yǔ)速標(biāo)簽、所述音調(diào)標(biāo)簽、所述信噪比標(biāo)簽、所述情感標(biāo)簽、所述性別標(biāo)簽和所述口音標(biāo)簽進(jìn)行匯總,得到風(fēng)格標(biāo)簽。

24、進(jìn)一步的,所述風(fēng)格編碼器包括bert嵌入層、空間擴(kuò)展層和風(fēng)格編碼層,所述通過(guò)所述風(fēng)格編碼器對(duì)所述文本數(shù)據(jù)集和所述參考語(yǔ)音集的風(fēng)格標(biāo)簽進(jìn)行編碼,得到風(fēng)格編碼特征的步驟包括:

25、通過(guò)所述bert嵌入層對(duì)所述文本數(shù)據(jù)集和所述參考語(yǔ)音集的風(fēng)格標(biāo)簽進(jìn)行向量轉(zhuǎn)換,得到風(fēng)格嵌入向量;

26、將所述風(fēng)格嵌入向量輸入所述空間擴(kuò)展層,通過(guò)拼接所述風(fēng)格嵌入向量和引入的風(fēng)格提示向量,得到風(fēng)格擴(kuò)展向量;

27、通過(guò)所述風(fēng)格編碼層的自注意力機(jī)制提取所述風(fēng)格擴(kuò)展向量中的風(fēng)格特征,得到風(fēng)格編碼特征。

28、進(jìn)一步的,所述文本編碼器包括文本嵌入層、transformer編碼層和池化層,所述通過(guò)所述文本編碼器對(duì)所述文本數(shù)據(jù)集進(jìn)行編碼,得到文本編碼特征的步驟包括:

29、通過(guò)所述文本嵌入層對(duì)所述文本數(shù)據(jù)集中的文本數(shù)據(jù)進(jìn)行向量嵌入,得到文本嵌入向量;

30、將所述文本嵌入向量輸入所述transformer編碼層,通過(guò)多層自注意力機(jī)制進(jìn)行語(yǔ)義特征提取,得到語(yǔ)義編碼特征;

31、通過(guò)所述池化層對(duì)所述語(yǔ)義編碼特征進(jìn)行池化操作,得到文本編碼特征。

32、進(jìn)一步的,所述聲學(xué)結(jié)構(gòu)包括可逆變換層、流解碼器和殘差層,所述將所述風(fēng)格編碼特征、所述參考語(yǔ)音編碼特征和所述文本編碼特征輸入所述聲學(xué)結(jié)構(gòu),獲得語(yǔ)音聲學(xué)特征的步驟包括:

33、通過(guò)所述可逆變換層對(duì)所述風(fēng)格編碼特征、所述參考語(yǔ)音編碼特征和所述文本編碼特征進(jìn)行特征變換,得到變換編碼特征;

34、通過(guò)所述流解碼器對(duì)所述變換編碼特征進(jìn)行解碼,得到聲學(xué)特征序列;

35、將所述聲學(xué)特征序列輸入所述殘差層進(jìn)行殘差連接,得到語(yǔ)音聲學(xué)特征。

36、進(jìn)一步的,所述按照預(yù)設(shè)損失函數(shù),根據(jù)所述參考語(yǔ)音和所述預(yù)測(cè)合成語(yǔ)音計(jì)算損失的步驟包括:

37、計(jì)算所述參考語(yǔ)音和所述預(yù)測(cè)合成語(yǔ)音之間的對(duì)抗損失和l1損失;

38、計(jì)算所述風(fēng)格編碼特征和所述參考語(yǔ)音編碼特征之間的相似度,得到特征相關(guān)損失;

39、將所述對(duì)抗損失、所述l1損失和所述特征相關(guān)損失進(jìn)行加權(quán)求和,得到最終的損失。

40、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例還提供一種文本引導(dǎo)的語(yǔ)音合成裝置,采用了如下所述的技術(shù)方案:

41、獲取模塊,用于獲取不同語(yǔ)種的語(yǔ)音數(shù)據(jù)集和文本數(shù)據(jù)集,其中,所述語(yǔ)音數(shù)據(jù)集中的語(yǔ)音數(shù)據(jù)與所述文本數(shù)據(jù)集中的文本數(shù)據(jù)為配對(duì)數(shù)據(jù);

42、標(biāo)注注入模塊,用于對(duì)所述語(yǔ)音數(shù)據(jù)集進(jìn)行風(fēng)格標(biāo)簽標(biāo)注和場(chǎng)景噪聲注入,得到參考語(yǔ)音集;

43、輸入模塊,用于將所述參考語(yǔ)音集和所述文本數(shù)據(jù)集輸入預(yù)構(gòu)建的聲學(xué)模型中,其中,所述聲學(xué)模型包括風(fēng)格編碼器、參考編碼器、文本編碼器、聲學(xué)結(jié)構(gòu)和聲碼器;

44、風(fēng)格編碼模塊,用于通過(guò)所述風(fēng)格編碼器對(duì)所述文本數(shù)據(jù)集和所述參考語(yǔ)音集的風(fēng)格標(biāo)簽進(jìn)行編碼,得到風(fēng)格編碼特征;

45、語(yǔ)音編碼模塊,用于通過(guò)所述參考編碼器對(duì)所述參考語(yǔ)音集的參考語(yǔ)音進(jìn)行編碼,得到參考語(yǔ)音編碼特征;

46、文本編碼模塊,用于通過(guò)所述文本編碼器對(duì)所述文本數(shù)據(jù)集進(jìn)行編碼,得到文本編碼特征;

47、聲學(xué)特征提取模塊,用于將所述風(fēng)格編碼特征、所述參考語(yǔ)音編碼特征和所述文本編碼特征輸入所述聲學(xué)結(jié)構(gòu),獲得語(yǔ)音聲學(xué)特征;

48、語(yǔ)音預(yù)測(cè)模塊,用于通過(guò)所述聲碼器對(duì)所述語(yǔ)音聲學(xué)特征進(jìn)行波形合成,得到預(yù)測(cè)合成語(yǔ)音;

49、迭代模塊,用于按照預(yù)設(shè)損失函數(shù),根據(jù)所述參考語(yǔ)音和所述預(yù)測(cè)合成語(yǔ)音計(jì)算損失,基于所述損失調(diào)整模型參數(shù),繼續(xù)迭代訓(xùn)練,直至滿足迭代停止條件,得到最終的語(yǔ)音合成模型;

50、語(yǔ)音合成模塊,用于獲取待轉(zhuǎn)換文本,輸入所述語(yǔ)音合成模型中,得到目標(biāo)合成語(yǔ)音。

51、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:

52、該計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如上所述的文本引導(dǎo)的語(yǔ)音合成方法的步驟。

53、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:

54、所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的文本引導(dǎo)的語(yǔ)音合成方法的步驟。

55、與現(xiàn)有技術(shù)相比,本技術(shù)主要有以下有益效果:

56、本技術(shù)提供一種文本引導(dǎo)的語(yǔ)音合成方法,通過(guò)獲取不同語(yǔ)種的語(yǔ)音數(shù)據(jù)集和文本數(shù)據(jù)集,并對(duì)語(yǔ)音數(shù)據(jù)集進(jìn)行風(fēng)格標(biāo)簽標(biāo)注和場(chǎng)景噪聲注入,可以實(shí)現(xiàn)多語(yǔ)種的文本引導(dǎo)的語(yǔ)音合成,可以使模型學(xué)習(xí)到在噪聲環(huán)境下準(zhǔn)確識(shí)別和處理語(yǔ)音信號(hào),從而提高模型的泛化能力和魯棒性,同時(shí)模擬真實(shí)場(chǎng)景,提高語(yǔ)音合成的多場(chǎng)景適用性;通過(guò)將參考語(yǔ)音集和文本數(shù)據(jù)集輸入預(yù)構(gòu)建的聲學(xué)模型中,訓(xùn)練聲學(xué)模型的風(fēng)格編碼器、參考編碼器、文本編碼器、聲學(xué)結(jié)構(gòu)和聲碼器,得到最終的語(yǔ)音合成模型,能夠提升語(yǔ)音合成的自然度與逼真度,增強(qiáng)模型的適應(yīng)性與泛化能力,同時(shí)提高語(yǔ)音合成的效率與實(shí)時(shí)性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1