本公開涉及計(jì)算機(jī),特別涉及一種語(yǔ)音離散表征模型的訓(xùn)練方法、語(yǔ)音信號(hào)的處理方法。
背景技術(shù):
1、基于大語(yǔ)言模型的語(yǔ)音合成技術(shù)能夠合成出自然、流暢、富有表現(xiàn)力的語(yǔ)音,在智能語(yǔ)音助手、有聲讀物、虛擬主播等領(lǐng)域具有廣泛的應(yīng)用前景。其中,語(yǔ)音合成技術(shù)的核心在于能否準(zhǔn)確地提取出反映語(yǔ)音信號(hào)特征的語(yǔ)音離散表征。也即語(yǔ)音離散表征的準(zhǔn)確性和有效性直接影響到合成語(yǔ)音的自然度和準(zhǔn)確性。
2、目前,一種常見的語(yǔ)音離散特征的提取方式是通過自監(jiān)督學(xué)習(xí)的方式提取語(yǔ)音特征,然后通過聚類的方式得到語(yǔ)音離散表征。
3、然而,上述方式所提取的語(yǔ)音離散特征會(huì)損失較多信息,例如說(shuō)話人信息、韻律信息等,會(huì)導(dǎo)致下游語(yǔ)音合成任務(wù)產(chǎn)生咬字不清、自然度下降等各種問題。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供一種語(yǔ)音離散表征模型的訓(xùn)練方法、語(yǔ)音信號(hào)的處理方法。該方法相較于聚類提取語(yǔ)音離散特征的方案,顯著提高了語(yǔ)音離散表征的準(zhǔn)確性和有效性,使得語(yǔ)音離散特征能夠顯著提升下游任務(wù),如語(yǔ)音合成、語(yǔ)音識(shí)別等任務(wù)的性能。
2、根據(jù)本公開實(shí)施例的一方面,提供了一種語(yǔ)音離散表征模型的訓(xùn)練方法,所述方法包括:
3、獲取樣本語(yǔ)音信號(hào)、參考語(yǔ)音文本以及參考基頻信息,所述參考語(yǔ)音文本為與所述樣本語(yǔ)音信號(hào)對(duì)應(yīng)的正確文本內(nèi)容,所述參考基頻信息包括所述樣本語(yǔ)音信號(hào)實(shí)際的基頻特征;
4、將所述樣本語(yǔ)音信號(hào)輸入語(yǔ)音離散表征模型,得到語(yǔ)義連續(xù)向量和基頻連續(xù)向量;
5、基于所述語(yǔ)義連續(xù)向量、所述基頻連續(xù)向量、所述參考語(yǔ)音文本以及所述參考基頻信息,訓(xùn)練所述語(yǔ)音離散表征模型。
6、根據(jù)本公開實(shí)施例的另一方面,提供了一種語(yǔ)音信號(hào)的處理方法,所述方法包括:
7、將待處理的語(yǔ)音信號(hào)輸入語(yǔ)音離散表征模型,所述語(yǔ)音離散表征模型通過上述語(yǔ)音離散表征模型的訓(xùn)練方法訓(xùn)練得到;
8、基于所述語(yǔ)音離散表征模型中的深度神經(jīng)網(wǎng)絡(luò),將所述語(yǔ)音信號(hào)轉(zhuǎn)換為連續(xù)空間中的隱層特征;
9、基于所述語(yǔ)音離散表征模型中的深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)所述隱層特征進(jìn)行特征提取,得到所述語(yǔ)音信號(hào)在連續(xù)空間中的語(yǔ)音特征;
10、對(duì)所述語(yǔ)音特征進(jìn)行矢量量化編碼,得到所述語(yǔ)音信號(hào)的語(yǔ)音離散表征。
11、根據(jù)本公開實(shí)施例的另一方面,提供了一種語(yǔ)音離散表征模型的訓(xùn)練裝置,所述裝置包括:
12、獲取單元,被配置為獲取樣本語(yǔ)音信號(hào)、參考語(yǔ)音文本以及參考基頻信息,所述參考語(yǔ)音文本為與所述樣本語(yǔ)音信號(hào)對(duì)應(yīng)的正確文本內(nèi)容,所述參考基頻信息包括所述樣本語(yǔ)音信號(hào)實(shí)際的基頻特征;
13、特征提取單元,被配置為將所述樣本語(yǔ)音信號(hào)輸入語(yǔ)音離散表征模型,得到語(yǔ)義連續(xù)向量和基頻連續(xù)向量;
14、訓(xùn)練單元,被配置為基于所述語(yǔ)義連續(xù)向量、所述基頻連續(xù)向量、所述語(yǔ)音文本以及所述參考基頻信息,訓(xùn)練所述語(yǔ)音離散表征模型。
15、在一些實(shí)施例中,所述特征提取單元,包括:
16、第一提取子單元,被配置為對(duì)輸入所述語(yǔ)音離散表征模型的所述樣本語(yǔ)音信號(hào)進(jìn)行特征提取,得到所述樣本語(yǔ)音信號(hào)在連續(xù)空間中的語(yǔ)音特征;
17、矢量化子單元,被配置為對(duì)所述語(yǔ)音特征進(jìn)行矢量量化編碼,得到量化特征向量;
18、第二提取子單元,被配置為從所述量化特征向量中提取所述語(yǔ)義連續(xù)向量和所述基頻連續(xù)向量。
19、在一些實(shí)施例中,所述第一提取子單元,被配置為基于所述語(yǔ)音離散表征模型中的深度神經(jīng)網(wǎng)絡(luò),將輸入所述語(yǔ)音離散表征模型的樣本語(yǔ)音信號(hào)轉(zhuǎn)換為所述連續(xù)空間中的隱層特征;基于所述語(yǔ)音離散表征模型中的深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)所述隱層特征進(jìn)行特征提取,得到所述樣本語(yǔ)音信號(hào)在連續(xù)空間中的語(yǔ)音特征。
20、在一些實(shí)施例中,所述第二提取子單元,被配置為基于語(yǔ)義解碼模塊,對(duì)所述量化特征向量進(jìn)行語(yǔ)義解碼,得到所述語(yǔ)義連續(xù)向量;基于基頻解碼模塊,對(duì)所述量化特征向量進(jìn)行基頻解碼,得到所述基頻連續(xù)向量。
21、在一些實(shí)施例中,所述訓(xùn)練單元,被配置為基于所述語(yǔ)義連續(xù)向量和所述樣本語(yǔ)音信號(hào)對(duì)應(yīng)的參考語(yǔ)音文本,確定第一損失,所述第一損失用于指示所述語(yǔ)義連續(xù)向量與所述參考語(yǔ)義文本之間的連續(xù)時(shí)序分類損失;基于所述基頻連續(xù)向量和所述參考基頻信息,確定第二損失,所述第二損失用于指示所述基頻連續(xù)向量與所述參考基頻信息之間的均方差損失;基于所述語(yǔ)義連續(xù)向量和所述樣本語(yǔ)音信號(hào)在連續(xù)空間中的隱層特征,確定第三損失,所述第三損失用于指示所述語(yǔ)義連續(xù)向量與所述隱層特征之間的均方差損失;基于所述第一損失、所述第二損失以及所述第三損失,訓(xùn)練所述語(yǔ)音離散表征模型。
22、在一些實(shí)施例中,所述裝置還包括:
23、所述特征提取單元,還被配置為對(duì)所述樣本語(yǔ)音信號(hào)對(duì)應(yīng)的參考語(yǔ)音文本進(jìn)行特征提取,得到第一文本特征;
24、特征對(duì)齊單元,被配置為基于強(qiáng)制對(duì)齊模塊對(duì)所述第一文本特征進(jìn)行強(qiáng)制對(duì)齊,得到第二文本特征;
25、所述訓(xùn)練單元,還被配置為基于所述第二文本特征和所述語(yǔ)音特征,確定第四損失,所述第四損失用于表示所述第二文本特征和所述語(yǔ)音特征之間的相對(duì)熵?fù)p失;
26、所述訓(xùn)練單元,還被配置為基于所述四損失,訓(xùn)練所述語(yǔ)音離散表征模型。
27、根據(jù)本公開實(shí)施例的另一方面,提供了一種語(yǔ)音信號(hào)的處理裝置,所述裝置包括:
28、輸入單元,被配置為將待處理的語(yǔ)音信號(hào)輸入語(yǔ)音離散表征模型,所述語(yǔ)音離散表征模型通過上述語(yǔ)音離散表征模型的訓(xùn)練方法訓(xùn)練得到;
29、第一處理單元,被配置為基于所述語(yǔ)音離散表征模型中的深度神經(jīng)網(wǎng)絡(luò),將所述語(yǔ)音信號(hào)轉(zhuǎn)換為連續(xù)空間中的隱層特征;
30、第二處理單元,被配置為基于所述語(yǔ)音離散表征模型中的深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)所述隱層特征進(jìn)行特征提取,得到所述語(yǔ)音信號(hào)在連續(xù)空間中的語(yǔ)音特征;
31、矢量化單元,被配置為對(duì)所述語(yǔ)音特征進(jìn)行矢量量化編碼,得到所述語(yǔ)音信號(hào)的語(yǔ)音離散表征。
32、根據(jù)本公開實(shí)施例的另一方面,提供一種電子設(shè)備,該電子設(shè)備包括:
33、一個(gè)或多個(gè)處理器;
34、用于存儲(chǔ)該處理器可執(zhí)行程序代碼的存儲(chǔ)器;
35、其中,該處理器被配置為執(zhí)行該程序代碼,以實(shí)現(xiàn)上述語(yǔ)音離散表征模型的訓(xùn)練方法,或者實(shí)現(xiàn)上述語(yǔ)音信號(hào)的處理方法。
36、根據(jù)本公開實(shí)施例的另一方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行上述語(yǔ)音離散表征模型的訓(xùn)練方法,或者執(zhí)行上述語(yǔ)音信號(hào)的處理方法。
37、根據(jù)本公開實(shí)施例的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述語(yǔ)音離散表征模型的訓(xùn)練方法,或者實(shí)現(xiàn)上述語(yǔ)音信號(hào)的處理方法。
38、本公開實(shí)施例提供了一種語(yǔ)音離散表征模型的訓(xùn)練方案,通過在訓(xùn)練語(yǔ)音離散表征模型時(shí)引入樣本語(yǔ)音信號(hào)對(duì)應(yīng)的參考語(yǔ)音文本和參考基頻信息作為監(jiān)督信息來(lái)進(jìn)行訓(xùn)練,使得訓(xùn)練得到的語(yǔ)音離散表征模型能夠高效準(zhǔn)確地提取語(yǔ)音信號(hào)的語(yǔ)音離散表征,且該語(yǔ)音離散表征能夠充分地反映原始的語(yǔ)音信號(hào)中所包含的語(yǔ)義內(nèi)容和基頻信息,不會(huì)損失說(shuō)話人信息和韻律信息等。相較于聚類提取語(yǔ)音離散特征的方案,顯著提高了語(yǔ)音離散表征的準(zhǔn)確性和有效性,使得語(yǔ)音離散特征能夠顯著提升下游任務(wù),如語(yǔ)音合成、語(yǔ)音識(shí)別等任務(wù)的性能。
39、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。