音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號：41956644發(fā)布日期：2025-05-20 16:50閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本技術(shù)涉及計算機，具體涉及一種音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、音頻分類是指根據(jù)音頻的特征，確定音頻所屬于的預(yù)定類別。對音頻分類時，不同的分類維度可以產(chǎn)生不同的分類結(jié)果，由于不同分類維度下的預(yù)設(shè)類型不同，若要得到音頻在不同分類維度下的分類結(jié)果，則需要在各個分類維度下對音頻進行針對性的處理。

2、然而，隨著分類維度的增加，需要多次對同一音頻進行推理，才可以確定出音頻在多個分類維度下的類型。這種方式需要對同一音頻進行重復(fù)推理，增加了分類的數(shù)據(jù)處理量，導(dǎo)致音頻分類的效率低下。

技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供一種音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品，可以一次性推理出音頻在多個分類維度下的分類結(jié)果，提升音頻分類效率。

2、本技術(shù)實施例提供一種音頻分類方法，該方法包括：

3、從待分類音頻中提取至少一個分段音頻；

4、基于特征提取參數(shù)，確定每個所述分段音頻對應(yīng)的分段音頻特征；

5、根據(jù)多個分類維度對應(yīng)的維度參數(shù)以及每個所述分段音頻特征，預(yù)測每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率，其中，每個所述分類維度對應(yīng)有多個預(yù)設(shè)類型，所述預(yù)測概率與所述預(yù)設(shè)類型一一對應(yīng)；

6、針對每個所述分類維度，利用每個所述分段音頻在所述分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率，確定每個分類維度對應(yīng)的目標類型；

7、基于每個分類維度對應(yīng)的目標類型，確定所述待分類音頻的分類結(jié)果。

8、本技術(shù)實施例還提供一種音頻分類裝置，該裝置包括：

9、分段單元，用于從待分類音頻中提取至少一個分段音頻；

10、特征提取單元，用于基于特征提取參數(shù)，確定每個所述分段音頻對應(yīng)的分段音頻特征；

11、概率預(yù)測單元，用于根據(jù)多個分類維度對應(yīng)的維度參數(shù)以及每個所述分段音頻特征，預(yù)測每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率，其中，每個所述分類維度對應(yīng)有多個預(yù)設(shè)類型，所述預(yù)測概率與所述預(yù)設(shè)類型一一對應(yīng)；

12、類型確定單元，用于針對每個所述分類維度，利用每個所述分段音頻在所述分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率，確定每個分類維度對應(yīng)的目標類型；

13、分類單元，用于基于每個分類維度對應(yīng)的目標類型，確定所述待分類音頻的分類結(jié)果。

14、在一些實施例中，特征提取參數(shù)包括深度卷積參數(shù)和逐點卷積參數(shù)，特征提取單元還包括：

15、深度卷積子單元，用于針對每個所述分段音頻，利用所述深度卷積參數(shù)，對所述分段音頻進行深度卷積處理，得到所述分段音頻對應(yīng)的深度音頻特征；

16、逐點卷積子單元，用于利用所述逐點卷積參數(shù)，對所述深度音頻特征進行逐點卷積處理，得到所述分段音頻對應(yīng)的分段音頻特征。

17、在一些實施例中，概率預(yù)測單元還包括：

18、獲取子單元，用于獲取每個所述分類維度對應(yīng)的多個預(yù)設(shè)類型；

19、線性變換子單元，用于利用多個分類維度對應(yīng)的維度參數(shù)，對每個所述分段音頻特征進行線性變換，得到每個所述分類維度對應(yīng)的維度特征；

20、歸一化子單元，用于對每個分類維度對應(yīng)的維度特征進行歸一化處理，得到每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率。

21、在一些實施例中，類型確定單元還包括：

22、概率獲取子單元，用于針對每個所述分類維度，獲取每個所述預(yù)設(shè)類型對應(yīng)的多個預(yù)測概率，其中，一個預(yù)測概率和一個分段音頻對應(yīng)；

23、均值計算子單元，用于對每個所述預(yù)設(shè)類型對應(yīng)的多個預(yù)測概率進行均值計算，得到每個所述預(yù)設(shè)類型對應(yīng)的均值概率；

24、確定子單元，用于將最大的均值概率對應(yīng)的所述預(yù)設(shè)類型，確定為所述分類維度對應(yīng)的目標類型。

25、在一些實施例中，分段單元還包括：

26、切分子單元，用于基于預(yù)設(shè)時長對所述待分類音頻進行切分處理，得到至少一個子音頻，所述子音頻的時長為所述預(yù)設(shè)時長；

27、第一確定子單元，用于若所述子音頻的數(shù)量大于預(yù)設(shè)數(shù)量，從所述至少一個子音頻中確定所述預(yù)設(shè)數(shù)量個分段音頻；

28、第二確定子單元，用于若所述子音頻的數(shù)量小于或等于所述預(yù)設(shè)數(shù)量，將每個所述子音頻確定為分段音頻。

29、在一些實施例中，音頻分類裝置還包括訓(xùn)練單元，用于：

30、獲取訓(xùn)練樣本集，所述訓(xùn)練樣本集包括多個樣本音頻，以及每個所述樣本音頻對應(yīng)的樣本類型，其中，所述樣本類型為所述多個分類維度下的預(yù)設(shè)類型中的一個；

31、從所述訓(xùn)練樣本集中，確定每個所述分類維度對應(yīng)的待使用樣本音頻；

32、基于初始特征提取參數(shù)，對所述待使用樣本音頻進行特征提取，得到分類維度對應(yīng)的樣本音頻特征；

33、基于所述分類維度對應(yīng)的初始維度參數(shù)，以及分類維度對應(yīng)的樣本音頻特征，計算所述待使用樣本音頻在所述分類維度下的預(yù)測類型；

34、根據(jù)所述待使用樣本音頻的預(yù)測類型，以及所述待使用樣本音頻對應(yīng)的樣本類型，調(diào)整所述初始特征提取參數(shù)和所述初始維度參數(shù)，得到特征提取參數(shù)和維度參數(shù)。

35、在一些實施例中，訓(xùn)練單元還用于：

36、針對每個分類維度，利用所述待使用樣本音頻的預(yù)測類型，以及所述待使用樣本音頻對應(yīng)的樣本類型，構(gòu)建維度損失函數(shù)；

37、基于分類維度對應(yīng)的維度權(quán)重，以及分類維度對應(yīng)的維度損失函數(shù)，構(gòu)建目標損失函數(shù)；

38、根據(jù)所述目標損失函數(shù)，調(diào)整所述初始特征提取參數(shù)以及所述初始維度參數(shù)，直到所述目標損失函數(shù)滿足預(yù)設(shè)條件時，得到所述特征提取參數(shù)和所述維度參數(shù)。

39、在一些實施例中，訓(xùn)練單元還用于：

40、根據(jù)預(yù)設(shè)多媒體對應(yīng)的多媒體信息，獲取初始樣本音頻；

41、在時域上對所述初始樣本音頻進行增強處理，得到時域增強樣本音頻；

42、在頻域上對所述初始樣本音頻進行增強處理，得到頻域增強樣本音頻；

43、將所述初始樣本音頻、所述時域增強樣本音頻、所述頻域增強樣本音頻，確定為所述訓(xùn)練樣本集的樣本音頻；

44、根據(jù)多個分類維度對應(yīng)的預(yù)設(shè)類型，確定所述樣本音頻對應(yīng)的樣本類型。

45、在一些實施例中，多媒體信息包括多媒體內(nèi)容和多媒體描述信息，訓(xùn)練單元還用于：

46、對所述多媒體描述信息進行實體識別，以提取所述多媒體內(nèi)容中的音頻實體；

47、對所述多媒體內(nèi)容進行音頻內(nèi)容識別，以提取所述多媒體內(nèi)容中的音頻內(nèi)容特征；

48、利用所述音頻實體以及所述音頻內(nèi)容特征，從預(yù)設(shè)音頻庫的多個預(yù)設(shè)音頻中，確定所述初始樣本音頻。

49、在一些實施例中，訓(xùn)練單元還用于：

50、提取所述初始樣本音頻在時域上的時域特征；

51、對所述時域特征進行變換處理，得到變換后的時域特征；

52、基于所述變換后的時域特征，得到時域增強樣本音頻。

53、在一些實施例中，訓(xùn)練單元還用于：

54、將所述初始樣本音頻轉(zhuǎn)變換為頻譜特征圖；

55、根據(jù)掩碼矩陣對所述頻譜特征圖進行擾動處理，得到擾動特征圖；

56、對不同的初始樣本音頻對應(yīng)的頻譜特征圖進行線性插值處理，得到插值特征圖；

57、根據(jù)所述擾動特征圖以及所述插值特征圖，生成所述頻域增強樣本音頻。

58、本技術(shù)實施例還提供一種電子設(shè)備，包括存儲器存儲有多條指令；所述處理器從所述存儲器中加載指令，以執(zhí)行本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。

59、本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)存儲有多條指令，所述指令適于處理器進行加載，以執(zhí)行本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。

60、本技術(shù)實施例還提供一種計算機程序產(chǎn)品，包括計算機程序/指令，所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。

61、本技術(shù)實施例可以從待分類音頻中提取至少一個分段音頻，利用特征提取參數(shù)，確定每個分段音頻對應(yīng)的分段音頻特征；根據(jù)多個分類維度的維度參數(shù)和每個分段音頻特征，預(yù)測每個分段音頻在每個分類維度下的多個預(yù)測概率；針對每個分類維度，利用每個分段音頻在分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率，確定每個分類維度對應(yīng)的目標類型；根據(jù)所有目標類型，確定所述待分類音頻的分類結(jié)果?；谙嗤奶卣魈崛?shù)對分段音頻進行特征提取，再利用不同的維度參數(shù)計算預(yù)測概率，可實現(xiàn)一次推理即可確定出待分類音頻的在多個分類維度下的目標類型，避免重復(fù)推理，以降低分類的數(shù)據(jù)處理量，進而提升了音頻分類的效率。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許靳昌
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種橡膠管加工裝置的制作方法
上一篇：一種輕鋼龍骨型材的連接處防護結(jié)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程