最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號:41956644發(fā)布日期:2025-05-20 16:50閱讀:3來源:國知局
音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本技術(shù)涉及計算機,具體涉及一種音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。


背景技術(shù):

1、音頻分類是指根據(jù)音頻的特征,確定音頻所屬于的預(yù)定類別。對音頻分類時,不同的分類維度可以產(chǎn)生不同的分類結(jié)果,由于不同分類維度下的預(yù)設(shè)類型不同,若要得到音頻在不同分類維度下的分類結(jié)果,則需要在各個分類維度下對音頻進行針對性的處理。

2、然而,隨著分類維度的增加,需要多次對同一音頻進行推理,才可以確定出音頻在多個分類維度下的類型。這種方式需要對同一音頻進行重復(fù)推理,增加了分類的數(shù)據(jù)處理量,導(dǎo)致音頻分類的效率低下。


技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供一種音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,可以一次性推理出音頻在多個分類維度下的分類結(jié)果,提升音頻分類效率。

2、本技術(shù)實施例提供一種音頻分類方法,該方法包括:

3、從待分類音頻中提取至少一個分段音頻;

4、基于特征提取參數(shù),確定每個所述分段音頻對應(yīng)的分段音頻特征;

5、根據(jù)多個分類維度對應(yīng)的維度參數(shù)以及每個所述分段音頻特征,預(yù)測每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率,其中,每個所述分類維度對應(yīng)有多個預(yù)設(shè)類型,所述預(yù)測概率與所述預(yù)設(shè)類型一一對應(yīng);

6、針對每個所述分類維度,利用每個所述分段音頻在所述分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率,確定每個分類維度對應(yīng)的目標類型;

7、基于每個分類維度對應(yīng)的目標類型,確定所述待分類音頻的分類結(jié)果。

8、本技術(shù)實施例還提供一種音頻分類裝置,該裝置包括:

9、分段單元,用于從待分類音頻中提取至少一個分段音頻;

10、特征提取單元,用于基于特征提取參數(shù),確定每個所述分段音頻對應(yīng)的分段音頻特征;

11、概率預(yù)測單元,用于根據(jù)多個分類維度對應(yīng)的維度參數(shù)以及每個所述分段音頻特征,預(yù)測每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率,其中,每個所述分類維度對應(yīng)有多個預(yù)設(shè)類型,所述預(yù)測概率與所述預(yù)設(shè)類型一一對應(yīng);

12、類型確定單元,用于針對每個所述分類維度,利用每個所述分段音頻在所述分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率,確定每個分類維度對應(yīng)的目標類型;

13、分類單元,用于基于每個分類維度對應(yīng)的目標類型,確定所述待分類音頻的分類結(jié)果。

14、在一些實施例中,特征提取參數(shù)包括深度卷積參數(shù)和逐點卷積參數(shù),特征提取單元還包括:

15、深度卷積子單元,用于針對每個所述分段音頻,利用所述深度卷積參數(shù),對所述分段音頻進行深度卷積處理,得到所述分段音頻對應(yīng)的深度音頻特征;

16、逐點卷積子單元,用于利用所述逐點卷積參數(shù),對所述深度音頻特征進行逐點卷積處理,得到所述分段音頻對應(yīng)的分段音頻特征。

17、在一些實施例中,概率預(yù)測單元還包括:

18、獲取子單元,用于獲取每個所述分類維度對應(yīng)的多個預(yù)設(shè)類型;

19、線性變換子單元,用于利用多個分類維度對應(yīng)的維度參數(shù),對每個所述分段音頻特征進行線性變換,得到每個所述分類維度對應(yīng)的維度特征;

20、歸一化子單元,用于對每個分類維度對應(yīng)的維度特征進行歸一化處理,得到每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率。

21、在一些實施例中,類型確定單元還包括:

22、概率獲取子單元,用于針對每個所述分類維度,獲取每個所述預(yù)設(shè)類型對應(yīng)的多個預(yù)測概率,其中,一個預(yù)測概率和一個分段音頻對應(yīng);

23、均值計算子單元,用于對每個所述預(yù)設(shè)類型對應(yīng)的多個預(yù)測概率進行均值計算,得到每個所述預(yù)設(shè)類型對應(yīng)的均值概率;

24、確定子單元,用于將最大的均值概率對應(yīng)的所述預(yù)設(shè)類型,確定為所述分類維度對應(yīng)的目標類型。

25、在一些實施例中,分段單元還包括:

26、切分子單元,用于基于預(yù)設(shè)時長對所述待分類音頻進行切分處理,得到至少一個子音頻,所述子音頻的時長為所述預(yù)設(shè)時長;

27、第一確定子單元,用于若所述子音頻的數(shù)量大于預(yù)設(shè)數(shù)量,從所述至少一個子音頻中確定所述預(yù)設(shè)數(shù)量個分段音頻;

28、第二確定子單元,用于若所述子音頻的數(shù)量小于或等于所述預(yù)設(shè)數(shù)量,將每個所述子音頻確定為分段音頻。

29、在一些實施例中,音頻分類裝置還包括訓(xùn)練單元,用于:

30、獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括多個樣本音頻,以及每個所述樣本音頻對應(yīng)的樣本類型,其中,所述樣本類型為所述多個分類維度下的預(yù)設(shè)類型中的一個;

31、從所述訓(xùn)練樣本集中,確定每個所述分類維度對應(yīng)的待使用樣本音頻;

32、基于初始特征提取參數(shù),對所述待使用樣本音頻進行特征提取,得到分類維度對應(yīng)的樣本音頻特征;

33、基于所述分類維度對應(yīng)的初始維度參數(shù),以及分類維度對應(yīng)的樣本音頻特征,計算所述待使用樣本音頻在所述分類維度下的預(yù)測類型;

34、根據(jù)所述待使用樣本音頻的預(yù)測類型,以及所述待使用樣本音頻對應(yīng)的樣本類型,調(diào)整所述初始特征提取參數(shù)和所述初始維度參數(shù),得到特征提取參數(shù)和維度參數(shù)。

35、在一些實施例中,訓(xùn)練單元還用于:

36、針對每個分類維度,利用所述待使用樣本音頻的預(yù)測類型,以及所述待使用樣本音頻對應(yīng)的樣本類型,構(gòu)建維度損失函數(shù);

37、基于分類維度對應(yīng)的維度權(quán)重,以及分類維度對應(yīng)的維度損失函數(shù),構(gòu)建目標損失函數(shù);

38、根據(jù)所述目標損失函數(shù),調(diào)整所述初始特征提取參數(shù)以及所述初始維度參數(shù),直到所述目標損失函數(shù)滿足預(yù)設(shè)條件時,得到所述特征提取參數(shù)和所述維度參數(shù)。

39、在一些實施例中,訓(xùn)練單元還用于:

40、根據(jù)預(yù)設(shè)多媒體對應(yīng)的多媒體信息,獲取初始樣本音頻;

41、在時域上對所述初始樣本音頻進行增強處理,得到時域增強樣本音頻;

42、在頻域上對所述初始樣本音頻進行增強處理,得到頻域增強樣本音頻;

43、將所述初始樣本音頻、所述時域增強樣本音頻、所述頻域增強樣本音頻,確定為所述訓(xùn)練樣本集的樣本音頻;

44、根據(jù)多個分類維度對應(yīng)的預(yù)設(shè)類型,確定所述樣本音頻對應(yīng)的樣本類型。

45、在一些實施例中,多媒體信息包括多媒體內(nèi)容和多媒體描述信息,訓(xùn)練單元還用于:

46、對所述多媒體描述信息進行實體識別,以提取所述多媒體內(nèi)容中的音頻實體;

47、對所述多媒體內(nèi)容進行音頻內(nèi)容識別,以提取所述多媒體內(nèi)容中的音頻內(nèi)容特征;

48、利用所述音頻實體以及所述音頻內(nèi)容特征,從預(yù)設(shè)音頻庫的多個預(yù)設(shè)音頻中,確定所述初始樣本音頻。

49、在一些實施例中,訓(xùn)練單元還用于:

50、提取所述初始樣本音頻在時域上的時域特征;

51、對所述時域特征進行變換處理,得到變換后的時域特征;

52、基于所述變換后的時域特征,得到時域增強樣本音頻。

53、在一些實施例中,訓(xùn)練單元還用于:

54、將所述初始樣本音頻轉(zhuǎn)變換為頻譜特征圖;

55、根據(jù)掩碼矩陣對所述頻譜特征圖進行擾動處理,得到擾動特征圖;

56、對不同的初始樣本音頻對應(yīng)的頻譜特征圖進行線性插值處理,得到插值特征圖;

57、根據(jù)所述擾動特征圖以及所述插值特征圖,生成所述頻域增強樣本音頻。

58、本技術(shù)實施例還提供一種電子設(shè)備,包括存儲器存儲有多條指令;所述處理器從所述存儲器中加載指令,以執(zhí)行本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。

59、本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有多條指令,所述指令適于處理器進行加載,以執(zhí)行本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。

60、本技術(shù)實施例還提供一種計算機程序產(chǎn)品,包括計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。

61、本技術(shù)實施例可以從待分類音頻中提取至少一個分段音頻,利用特征提取參數(shù),確定每個分段音頻對應(yīng)的分段音頻特征;根據(jù)多個分類維度的維度參數(shù)和每個分段音頻特征,預(yù)測每個分段音頻在每個分類維度下的多個預(yù)測概率;針對每個分類維度,利用每個分段音頻在分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率,確定每個分類維度對應(yīng)的目標類型;根據(jù)所有目標類型,確定所述待分類音頻的分類結(jié)果?;谙嗤奶卣魈崛?shù)對分段音頻進行特征提取,再利用不同的維度參數(shù)計算預(yù)測概率,可實現(xiàn)一次推理即可確定出待分類音頻的在多個分類維度下的目標類型,避免重復(fù)推理,以降低分類的數(shù)據(jù)處理量,進而提升了音頻分類的效率。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1