音頻生成方法、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：41957058發(fā)布日期：2025-05-20 16:51閱讀：6來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

音頻生成方法、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)與流程

本公開涉及音頻處理，具體涉及一種音頻生成方法、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、目前，在一些應(yīng)用場(chǎng)景中，需要將語言模型輸出的文本轉(zhuǎn)換為音頻進(jìn)行播放。由于語言模型是逐字符或逐詞組輸出文本的，因此，在對(duì)語言模型輸出的文本進(jìn)行音頻轉(zhuǎn)換時(shí)，通常需要先進(jìn)行文本積累。在積累的文本數(shù)量滿足要求時(shí)，可以對(duì)積累的文本進(jìn)行切分，并將切分的句子轉(zhuǎn)換為音頻。

2、在一些技術(shù)中，一方面，出于語言模型自身的性能原因，文本生成的速度不穩(wěn)定；另一方面，出于網(wǎng)絡(luò)傳輸?shù)脑?，語言模型輸出的文本可能需要經(jīng)過較長(zhǎng)時(shí)間才能被傳輸?shù)揭纛l轉(zhuǎn)換的服務(wù)器，這使得音頻播報(bào)常常出現(xiàn)延遲的問題。即前一句音頻已經(jīng)播報(bào)結(jié)束很久，后一句音頻還沒接上的問題。

3、鑒于此，亟需一種可以解決音頻播放延遲的方法。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本公開實(shí)施方式提供了一種音頻生成方法、音頻生成系統(tǒng)、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，可以解決音頻播放延遲的問題。

2、本公開一方面提供了一種音頻生成方法，所述方法包括：

3、接收第一流式文本，并將所述第一流式文本轉(zhuǎn)換為第一音頻；

4、接收位于所述第一流式文本之后的第二流式文本，并基于已接收到的所述第二流式文本的字符數(shù)量或接收到相鄰字符的間隔時(shí)長(zhǎng)，確定所述第二流式文本接收過程中的目標(biāo)時(shí)間點(diǎn)；

5、獲取所述第一音頻的在所述目標(biāo)時(shí)間點(diǎn)之后的音頻時(shí)長(zhǎng)，作為所述第一音頻的未播放時(shí)長(zhǎng)；

6、從所述目標(biāo)時(shí)間點(diǎn)開始，在所述未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi)，將所述第二流式文本轉(zhuǎn)換為第二音頻，其中，所述播放間隔時(shí)長(zhǎng)表征所述第一音頻的結(jié)束時(shí)間點(diǎn)與所述第二音頻的起始時(shí)間點(diǎn)之間的最大時(shí)間間隔。

7、本公開另一方面還提供了音頻生成系統(tǒng)，所述系統(tǒng)包括：

8、第一接收模塊，用于接收第一流式文本，并將所述第一流式文本轉(zhuǎn)換為第一音頻；

9、第二接收模塊，用于接收位于所述第一流式文本之后的第二流式文本，并基于已接收到的所述第二流式文本的字符數(shù)量或相鄰字符的間隔時(shí)長(zhǎng)，確定所述第二流式文本接收過程中的目標(biāo)時(shí)間點(diǎn)；

10、時(shí)長(zhǎng)獲取模塊，用于獲取所述第一音頻的在所述目標(biāo)時(shí)間點(diǎn)之后的未播放時(shí)長(zhǎng)；

11、轉(zhuǎn)換模塊，用于從所述目標(biāo)時(shí)間點(diǎn)開始，在所述未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi)，將所述第二流式文本轉(zhuǎn)換為第二音頻，其中，所述播放間隔時(shí)長(zhǎng)表征所述第一音頻的結(jié)束時(shí)間點(diǎn)與所述第二音頻的起始時(shí)間點(diǎn)之間的最大時(shí)間間隔。

12、本公開另一方面還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)如上所述的方法。

13、本公開另一方面還提供了一種電子設(shè)備，所述電子設(shè)備包括處理器和存儲(chǔ)器，所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)，實(shí)現(xiàn)如上所述的方法。

14、在本申請(qǐng)一些實(shí)施例的技術(shù)方案中，將接收到的第一流式文本轉(zhuǎn)換為第一音頻后，在接收第二流式文本過程中，獲取第一音頻的在目標(biāo)時(shí)間點(diǎn)之后的未播放時(shí)長(zhǎng)，并在未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi)，將第二流式文本轉(zhuǎn)換為第二音頻。如此，可以在第一音頻播放結(jié)束后，最遲不超過播放間隔時(shí)長(zhǎng)，便可以繼續(xù)播放第二音頻，有效解決了音頻播放延遲的問題。

技術(shù)特征：

1.一種音頻生成方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的方法，其特征在于，基于接收到相鄰字符的間隔時(shí)長(zhǎng)確定所述目標(biāo)時(shí)間點(diǎn)，包括：

3.如權(quán)利要求1所述的方法，其特征在于，基于已接收到的所述第二流式文本的字符數(shù)量確定所述目標(biāo)時(shí)間點(diǎn)，包括：

4.如權(quán)利要求1所述的方法，其特征在于，所述從所述目標(biāo)時(shí)間點(diǎn)開始，在所述未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi)，將所述第二流式文本轉(zhuǎn)換為第二音頻，包括：

5.如權(quán)利要求4所述的方法，其特征在于，在獲取到所述最大等待時(shí)長(zhǎng)后，所述方法還包括：

6.如權(quán)利要求1或4所述的方法，其特征在于，所述第一音頻包括k個(gè)子音頻；基于如下方法確定所述未播放時(shí)長(zhǎng)：

7.如權(quán)利要求6所述的方法，其特征在于，基于如下方法確定所述k個(gè)子音頻之間的所述總卡頓時(shí)長(zhǎng)：

8.如權(quán)利要求7所述的方法，其特征在于，所述將所述前n-1個(gè)子音頻的播放時(shí)長(zhǎng)與所述前n-1個(gè)子音頻的總音頻時(shí)長(zhǎng)的差值，作為第n個(gè)子音頻和第n-1個(gè)子音頻之間的卡頓時(shí)長(zhǎng)，包括：

9.一種音頻生成系統(tǒng)，其特征在于，所述系統(tǒng)包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)如權(quán)利要求1至8中任一所述的方法。

11.一種電子設(shè)備，其特征在于，所述電子設(shè)備包括處理器和存儲(chǔ)器，所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)，實(shí)現(xiàn)如權(quán)利要求1至8中任一所述的方法。

技術(shù)總結(jié)
本公開涉及音頻處理技術(shù)領(lǐng)域，公開了一種音頻生成方法、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)，音頻生成方法包括接收第一流式文本，并將第一流式文本轉(zhuǎn)換為第一音頻；接收位于第一流式文本之后的第二流式文本，并基于已接收到的第二流式文本的字符數(shù)量或接收到相鄰字符的間隔時(shí)長(zhǎng)，確定第二流式文本接收過程中的目標(biāo)時(shí)間點(diǎn)；獲取第一音頻的在目標(biāo)時(shí)間點(diǎn)之后的音頻時(shí)長(zhǎng)，作為第一音頻的未播放時(shí)長(zhǎng)；從目標(biāo)時(shí)間點(diǎn)開始，在未播放時(shí)長(zhǎng)和播放間隔時(shí)長(zhǎng)限定的時(shí)長(zhǎng)范圍內(nèi)，將第二流式文本轉(zhuǎn)換為第二音頻，其中，播放間隔時(shí)長(zhǎng)表征第一音頻的結(jié)束時(shí)間點(diǎn)與第二音頻的起始時(shí)間點(diǎn)之間的最大時(shí)間間隔。

技術(shù)研發(fā)人員：許宏旭,楊兵
受保護(hù)的技術(shù)使用者：北京字跳網(wǎng)絡(luò)技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許宏旭,楊兵
技術(shù)所有人：北京字跳網(wǎng)絡(luò)技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種帶擋風(fēng)板的線路板及功放的制作方法
上一篇：一種頸部理療帶的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

音頻生成方法、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)與流程

音頻生成方法、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)與流程