最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

音頻處理方法、音頻處理裝置及存儲介質(zhì)與流程

文檔序號:41956953發(fā)布日期:2025-05-20 16:51閱讀:來源:國知局

技術(shù)特征:

1.一種音頻處理方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取第一特征信息,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述文本描述信息和所述第一特征信息,通過擴散模型得到第二特征信息,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述待提取音頻的識別類型包括已知類型和未知類型,已知類型的音頻與擴散模型訓(xùn)練數(shù)據(jù)中音頻的音頻類型相同,未知類型的音頻與擴散模型訓(xùn)練數(shù)據(jù)中音頻的音頻類型不同,所述待提取音頻的數(shù)量包括單個或多個;

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取零樣本特征信息,包括:

6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述噪聲補償信息為逐次更新的信息,

7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述噪聲補償信息為逐次更新的信息,

8.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行擴散處理,得到第二特征信息,包括:

9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述方法還包括:

10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述相位信息對所述第二特征信息進行音頻恢復(fù)處理,將所述音頻恢復(fù)處理得到的音頻,確定為所述目標(biāo)音頻,包括:

11.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述噪聲補償信息采用如下方式獲取:

12.一種音頻處理裝置,其特征在于,包括:

13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述獲取單元采用如下方式獲取第一特征信息:

14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述處理單元采用如下方式根據(jù)所述文本描述信息和所述第一特征信息,通過擴散模型得到第二特征信息:

15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述待提取音頻的識別類型包括已知類型和未知類型,已知類型的音頻與擴散模型訓(xùn)練數(shù)據(jù)中音頻的音頻類型相同,未知類型的音頻與擴散模型訓(xùn)練數(shù)據(jù)中音頻的音頻類型不同,所述待提取音頻的數(shù)量包括單個或多個;

16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述處理單元采用如下方式獲取零樣本特征信息:

17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述噪聲補償信息為逐次更新的信息,

18.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述噪聲補償信息為逐次更新的信息,

19.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述處理單元采用如下方式根據(jù)所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行擴散處理,得到第二特征信息:

20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述處理單元還用于:

21.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述確定單元采用如下方式根據(jù)所述相位信息對所述第二特征信息進行音頻恢復(fù)處理,將所述音頻恢復(fù)處理得到的音頻,確定為所述目標(biāo)音頻:

22.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述噪聲補償信息通過所述處理單元采用如下方式獲?。?/p>

23.一種音頻處理裝置,其特征在于,包括:

24.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)中存儲有指令,當(dāng)所述存儲介質(zhì)中的指令由處理器執(zhí)行時,使得處理器能夠執(zhí)行權(quán)利要求1至11中任一項所述的音頻處理方法。


技術(shù)總結(jié)
本公開是關(guān)于一種音頻處理方法、音頻處理裝置及存儲介質(zhì)。音頻處理方法包括:獲取待處理音頻,并獲取待提取音頻的文本描述信息;獲取第一特征信息,并獲取所述待處理音頻的相位信息,所述第一特征信息為所述待處理音頻的音頻特征信息;根據(jù)所述文本描述信息和所述第一特征信息,通過擴散模型得到第二特征信息,所述第二特征信息為所述待提取音頻的音頻特征信息;根據(jù)所述相位信息對所述第二特征信息進行音頻恢復(fù)處理,將所述音頻恢復(fù)處理得到的音頻,確定為所述目標(biāo)音頻。通過本公開,基于文本信息的指導(dǎo)通過擴散模型進行聲源分離,保證分離效果的穩(wěn)定性,使獲取得到的音頻來自于目標(biāo)聲源,不存在其他聲源的干擾。

技術(shù)研發(fā)人員:梁蕓浩,張琪
受保護的技術(shù)使用者:北京小米移動軟件有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/19
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1