本公開涉及音頻處理,具體涉及一種音頻生成方法、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、目前,在一些應(yīng)用場(chǎng)景中,需要將語言模型輸出的文本轉(zhuǎn)換為音頻進(jìn)行播放。由于語言模型是逐字符或逐詞組輸出文本的,因此,在對(duì)語言模型輸出的文本進(jìn)行音頻轉(zhuǎn)換時(shí),通常需要先進(jìn)行文本積累。在積累的文本數(shù)量滿足要求時(shí),可以對(duì)積累的文本進(jìn)行切分,并將切分的句子轉(zhuǎn)換為音頻。
2、在一些技術(shù)中,一方面,出于語言模型自身的性能原因,文本生成的速度不穩(wěn)定;另一方面,出于網(wǎng)絡(luò)傳輸?shù)脑?,語言模型輸出的文本可能需要經(jīng)過較長(zhǎng)時(shí)間才能被傳輸?shù)揭纛l轉(zhuǎn)換的服務(wù)器,這使得音頻播報(bào)常常出現(xiàn)延遲的問題。即前一句音頻已經(jīng)播報(bào)結(jié)束很久,后一句音頻還沒接上的問題。
3、鑒于此,亟需一種可以解決音頻播放延遲的方法。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本公開實(shí)施方式提供了一種音頻生成方法、音頻生成系統(tǒng)、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),可以解決音頻播放延遲的問題。
2、本公開一方面提供了一種音頻生成方法,所述方法包括:
3、接收第一流式文本,并將所述第一流式文本轉(zhuǎn)換為第一音頻;
4、接收位于所述第一流式文本之后的第二流式文本,并基于已接收到的所述第二流式文本的字符數(shù)量或接收到相鄰字符的間隔時(shí)長(zhǎng),確定所述第二流式文本接收過程中的目標(biāo)時(shí)間點(diǎn);
5、獲取所述第一音頻的在所述目標(biāo)時(shí)間點(diǎn)之后的音頻時(shí)長(zhǎng),作為所述第一音頻的未播放時(shí)長(zhǎng);
6、從所述目標(biāo)時(shí)間點(diǎn)開始,在所述未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi),將所述第二流式文本轉(zhuǎn)換為第二音頻,其中,所述播放間隔時(shí)長(zhǎng)表征所述第一音頻的結(jié)束時(shí)間點(diǎn)與所述第二音頻的起始時(shí)間點(diǎn)之間的最大時(shí)間間隔。
7、本公開另一方面還提供了音頻生成系統(tǒng),所述系統(tǒng)包括:
8、第一接收模塊,用于接收第一流式文本,并將所述第一流式文本轉(zhuǎn)換為第一音頻;
9、第二接收模塊,用于接收位于所述第一流式文本之后的第二流式文本,并基于已接收到的所述第二流式文本的字符數(shù)量或相鄰字符的間隔時(shí)長(zhǎng),確定所述第二流式文本接收過程中的目標(biāo)時(shí)間點(diǎn);
10、時(shí)長(zhǎng)獲取模塊,用于獲取所述第一音頻的在所述目標(biāo)時(shí)間點(diǎn)之后的未播放時(shí)長(zhǎng);
11、轉(zhuǎn)換模塊,用于從所述目標(biāo)時(shí)間點(diǎn)開始,在所述未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi),將所述第二流式文本轉(zhuǎn)換為第二音頻,其中,所述播放間隔時(shí)長(zhǎng)表征所述第一音頻的結(jié)束時(shí)間點(diǎn)與所述第二音頻的起始時(shí)間點(diǎn)之間的最大時(shí)間間隔。
12、本公開另一方面還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如上所述的方法。
13、本公開另一方面還提供了一種電子設(shè)備,所述電子設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如上所述的方法。
14、在本申請(qǐng)一些實(shí)施例的技術(shù)方案中,將接收到的第一流式文本轉(zhuǎn)換為第一音頻后,在接收第二流式文本過程中,獲取第一音頻的在目標(biāo)時(shí)間點(diǎn)之后的未播放時(shí)長(zhǎng),并在未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi),將第二流式文本轉(zhuǎn)換為第二音頻。如此,可以在第一音頻播放結(jié)束后,最遲不超過播放間隔時(shí)長(zhǎng),便可以繼續(xù)播放第二音頻,有效解決了音頻播放延遲的問題。
1.一種音頻生成方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,基于接收到相鄰字符的間隔時(shí)長(zhǎng)確定所述目標(biāo)時(shí)間點(diǎn),包括:
3.如權(quán)利要求1所述的方法,其特征在于,基于已接收到的所述第二流式文本的字符數(shù)量確定所述目標(biāo)時(shí)間點(diǎn),包括:
4.如權(quán)利要求1所述的方法,其特征在于,所述從所述目標(biāo)時(shí)間點(diǎn)開始,在所述未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi),將所述第二流式文本轉(zhuǎn)換為第二音頻,包括:
5.如權(quán)利要求4所述的方法,其特征在于,在獲取到所述最大等待時(shí)長(zhǎng)后,所述方法還包括:
6.如權(quán)利要求1或4所述的方法,其特征在于,所述第一音頻包括k個(gè)子音頻;基于如下方法確定所述未播放時(shí)長(zhǎng):
7.如權(quán)利要求6所述的方法,其特征在于,基于如下方法確定所述k個(gè)子音頻之間的所述總卡頓時(shí)長(zhǎng):
8.如權(quán)利要求7所述的方法,其特征在于,所述將所述前n-1個(gè)子音頻的播放時(shí)長(zhǎng)與所述前n-1個(gè)子音頻的總音頻時(shí)長(zhǎng)的差值,作為第n個(gè)子音頻和第n-1個(gè)子音頻之間的卡頓時(shí)長(zhǎng),包括:
9.一種音頻生成系統(tǒng),其特征在于,所述系統(tǒng)包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1至8中任一所述的方法。
11.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1至8中任一所述的方法。