本發(fā)明涉及人工智能及醫(yī)療領(lǐng)域和金融科技領(lǐng)域,尤其涉及基于口音控制的語音合成方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、語音生成技術(shù)在近幾年獲得了顯著進(jìn)步,為語音助手、有聲讀物和娛樂等提供了多樣化的高質(zhì)量合成語音,在醫(yī)療領(lǐng)域和金融領(lǐng)域等多種領(lǐng)域中都具有廣闊的應(yīng)用前景,例如醫(yī)療機(jī)構(gòu)可以通過智能語音助手幫助患者獲取醫(yī)療信息、預(yù)約掛號和咨詢醫(yī)生等服務(wù),并以語音的方式向患者傳遞相應(yīng)的服務(wù)信息,或者醫(yī)院的語音導(dǎo)航系統(tǒng)也可以提供實(shí)時(shí)的語音指導(dǎo),方便患者在醫(yī)院內(nèi)部的行動(dòng);又例如金融機(jī)構(gòu)的智能語音機(jī)器人可以通過語音生成技術(shù)進(jìn)行自動(dòng)外呼,完成個(gè)性化推薦和催收等等,提高工作效率。
2、隨著全球化的發(fā)展,語音合成技術(shù)中的口音特征對于有效溝通至關(guān)重要,因?yàn)槁犝呃斫庹f話人語音的能力取決于說話人的口音以及聽者對特定口音的熟悉程度,而期望每個(gè)人都學(xué)習(xí)單一的標(biāo)準(zhǔn)口音是不現(xiàn)實(shí)的,因此能夠根據(jù)用戶需求生成帶有特定口音的語音是很重要的。目前現(xiàn)有的口音控制方式,基本依賴于語音合成系統(tǒng)中固定設(shè)置的說話人及其口音,難以實(shí)現(xiàn)靈活與個(gè)性化的合成語音口音調(diào)控。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供可應(yīng)用于醫(yī)療領(lǐng)域或金融科技或其它相關(guān)領(lǐng)域的基于口音控制的語音合成方法、裝置、設(shè)備及介質(zhì),其主要目的在于提高語音合成中口音特征控制的靈活性。
2、本發(fā)明的技術(shù)方案如下:
3、本發(fā)明第一方面提供一種基于口音控制的語音合成方法,包括:
4、獲取待合成處理的目標(biāo)文本和參考語音;
5、將所述目標(biāo)文本輸入到預(yù)先訓(xùn)練的文本編碼器中進(jìn)行文本編碼處理,獲得相應(yīng)的目標(biāo)音素序列;
6、將所述參考語音輸入到預(yù)先訓(xùn)練的語音編碼器中進(jìn)行語音編碼與特征分離處理,獲得分離的參考說話人特征和參考口音特征;
7、響應(yīng)于語音合成控制指令,獲取當(dāng)前選擇的目標(biāo)說話人特征或目標(biāo)口音特征;
8、將所述參考說話人特征或參考口音特征對應(yīng)替換為所述目標(biāo)說話人特征或目標(biāo)口音特征,得到待合成語音特征;
9、將所述目標(biāo)音素序列和待合成語音特征輸入到預(yù)先訓(xùn)練的解碼器中進(jìn)行語音重構(gòu),生成所述目標(biāo)文本對應(yīng)的目標(biāo)語音。
10、本發(fā)明第二方面提供一種基于口音控制的語音合成裝置,包括:
11、獲取模塊,用于獲取待合成處理的目標(biāo)文本和參考語音;
12、文本編碼模塊,用于將所述目標(biāo)文本輸入到預(yù)先訓(xùn)練的文本編碼器中進(jìn)行文本編碼處理,獲得相應(yīng)的目標(biāo)音素序列;
13、語音編碼模塊,用于將所述參考語音輸入到預(yù)先訓(xùn)練的語音編碼器中進(jìn)行語音編碼與特征分離處理,獲得分離的參考說話人特征和參考口音特征;
14、合成控制模塊,用于響應(yīng)于語音合成控制指令,獲取當(dāng)前選擇的目標(biāo)說話人特征或目標(biāo)口音特征;
15、特征替換模塊,用于將所述參考說話人特征或參考口音特征對應(yīng)替換為所述目標(biāo)說話人特征或目標(biāo)口音特征,得到待合成語音特征;
16、語音重構(gòu)模塊,用于將所述目標(biāo)音素序列和待合成語音特征輸入到預(yù)先訓(xùn)練的解碼器中進(jìn)行語音重構(gòu),生成所述目標(biāo)文本對應(yīng)的目標(biāo)語音。
17、本發(fā)明第三方面提供一種計(jì)算機(jī)設(shè)備,包括至少一個(gè)處理器;以及,
18、與所述至少一個(gè)處理器通信連接的存儲器;其中,
19、所述存儲器存儲有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行上述基于口音控制的語音合成方法。
20、本發(fā)明第四方面提供一種非易失性計(jì)算機(jī)可讀存儲介質(zhì),所述非易失性計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令被一個(gè)或多個(gè)處理器執(zhí)行時(shí),可使得所述一個(gè)或多個(gè)處理器執(zhí)行上述的基于口音控制的語音合成方法。
21、有益效果:本發(fā)明公開了基于口音控制的語音合成方法、裝置、設(shè)備及介質(zhì),相比于現(xiàn)有技術(shù),本發(fā)明實(shí)施例通過獲取待合成處理的目標(biāo)文本和參考語音;將所述目標(biāo)文本輸入到預(yù)先訓(xùn)練的文本編碼器中進(jìn)行文本編碼處理,獲得相應(yīng)的目標(biāo)音素序列;將所述參考語音輸入到預(yù)先訓(xùn)練的語音編碼器中進(jìn)行語音編碼與特征分離處理,獲得分離的參考說話人特征和參考口音特征;響應(yīng)于語音合成控制指令,獲取當(dāng)前選擇的目標(biāo)說話人特征或目標(biāo)口音特征;將所述參考說話人特征或參考口音特征對應(yīng)替換為所述目標(biāo)說話人特征或目標(biāo)口音特征,得到待合成語音特征;將所述目標(biāo)音素序列和待合成語音特征輸入到預(yù)先訓(xùn)練的解碼器中進(jìn)行語音重構(gòu),生成所述目標(biāo)文本對應(yīng)的目標(biāo)語音。通過分離說話人特征和口音特征并基于控制指令靈活替換說話人和/或口音后生成目標(biāo)語音,可以實(shí)現(xiàn)說話人與口音之間的解耦與任意組合,極大地提高了語音合成中口音控制的靈活性。
1.一種基于口音控制的語音合成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于口音控制的語音合成方法,其特征在于,所述將所述目標(biāo)文本輸入到預(yù)先訓(xùn)練的文本編碼器中進(jìn)行文本編碼處理,獲得相應(yīng)的目標(biāo)音素序列,包括:
3.根據(jù)權(quán)利要求1所述的基于口音控制的語音合成方法,其特征在于,所述將所述參考語音輸入到預(yù)先訓(xùn)練的語音編碼器中進(jìn)行語音編碼與特征分離處理,獲得分離的參考說話人特征和參考口音特征,包括:
4.根據(jù)權(quán)利要求1所述的基于口音控制的語音合成方法,其特征在于,所述將所述參考語音輸入到預(yù)先訓(xùn)練的語音編碼器中進(jìn)行語音編碼與特征分離處理,獲得分離的參考說話人特征和參考口音特征之后,方法還包括:
5.根據(jù)權(quán)利要求1所述的基于口音控制的語音合成方法,其特征在于,所述響應(yīng)于語音合成控制指令,獲取當(dāng)前選擇的目標(biāo)說話人特征或目標(biāo)口音特征,包括:
6.根據(jù)權(quán)利要求1所述的基于口音控制的語音合成方法,其特征在于,所述將所述目標(biāo)文本輸入到預(yù)先訓(xùn)練的文本編碼器中進(jìn)行文本編碼處理,獲得相應(yīng)的目標(biāo)音素序列之前,包括:
7.根據(jù)權(quán)利要求6所述的基于口音控制的語音合成方法,其特征在于,所述根據(jù)所述模型訓(xùn)練數(shù)據(jù)對待訓(xùn)練的文本編碼器、語音編碼器和解碼器進(jìn)行多任務(wù)學(xué)習(xí)的模型訓(xùn)練,得到訓(xùn)練好的文本編碼器、語音編碼器和解碼器,包括:
8.一種基于口音控制的語音合成裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括至少一個(gè)處理器;以及,
10.一種非易失性計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述非易失性計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令被一個(gè)或多個(gè)處理器執(zhí)行時(shí),可使得所述一個(gè)或多個(gè)處理器執(zhí)行權(quán)利要求1-7任一項(xiàng)所述的基于口音控制的語音合成方法。