本技術(shù)涉及計算機,具體涉及一種音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、音頻分類是指根據(jù)音頻的特征,確定音頻所屬于的預(yù)定類別。對音頻分類時,不同的分類維度可以產(chǎn)生不同的分類結(jié)果,由于不同分類維度下的預(yù)設(shè)類型不同,若要得到音頻在不同分類維度下的分類結(jié)果,則需要在各個分類維度下對音頻進行針對性的處理。
2、然而,隨著分類維度的增加,需要多次對同一音頻進行推理,才可以確定出音頻在多個分類維度下的類型。這種方式需要對同一音頻進行重復(fù)推理,增加了分類的數(shù)據(jù)處理量,導(dǎo)致音頻分類的效率低下。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種音頻分類方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,可以一次性推理出音頻在多個分類維度下的分類結(jié)果,提升音頻分類效率。
2、本技術(shù)實施例提供一種音頻分類方法,該方法包括:
3、從待分類音頻中提取至少一個分段音頻;
4、基于特征提取參數(shù),確定每個所述分段音頻對應(yīng)的分段音頻特征;
5、根據(jù)多個分類維度對應(yīng)的維度參數(shù)以及每個所述分段音頻特征,預(yù)測每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率,其中,每個所述分類維度對應(yīng)有多個預(yù)設(shè)類型,所述預(yù)測概率與所述預(yù)設(shè)類型一一對應(yīng);
6、針對每個所述分類維度,利用每個所述分段音頻在所述分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率,確定每個分類維度對應(yīng)的目標類型;
7、基于每個分類維度對應(yīng)的目標類型,確定所述待分類音頻的分類結(jié)果。
8、本技術(shù)實施例還提供一種音頻分類裝置,該裝置包括:
9、分段單元,用于從待分類音頻中提取至少一個分段音頻;
10、特征提取單元,用于基于特征提取參數(shù),確定每個所述分段音頻對應(yīng)的分段音頻特征;
11、概率預(yù)測單元,用于根據(jù)多個分類維度對應(yīng)的維度參數(shù)以及每個所述分段音頻特征,預(yù)測每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率,其中,每個所述分類維度對應(yīng)有多個預(yù)設(shè)類型,所述預(yù)測概率與所述預(yù)設(shè)類型一一對應(yīng);
12、類型確定單元,用于針對每個所述分類維度,利用每個所述分段音頻在所述分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率,確定每個分類維度對應(yīng)的目標類型;
13、分類單元,用于基于每個分類維度對應(yīng)的目標類型,確定所述待分類音頻的分類結(jié)果。
14、在一些實施例中,特征提取參數(shù)包括深度卷積參數(shù)和逐點卷積參數(shù),特征提取單元還包括:
15、深度卷積子單元,用于針對每個所述分段音頻,利用所述深度卷積參數(shù),對所述分段音頻進行深度卷積處理,得到所述分段音頻對應(yīng)的深度音頻特征;
16、逐點卷積子單元,用于利用所述逐點卷積參數(shù),對所述深度音頻特征進行逐點卷積處理,得到所述分段音頻對應(yīng)的分段音頻特征。
17、在一些實施例中,概率預(yù)測單元還包括:
18、獲取子單元,用于獲取每個所述分類維度對應(yīng)的多個預(yù)設(shè)類型;
19、線性變換子單元,用于利用多個分類維度對應(yīng)的維度參數(shù),對每個所述分段音頻特征進行線性變換,得到每個所述分類維度對應(yīng)的維度特征;
20、歸一化子單元,用于對每個分類維度對應(yīng)的維度特征進行歸一化處理,得到每個所述分段音頻在每個所述分類維度下的多個預(yù)測概率。
21、在一些實施例中,類型確定單元還包括:
22、概率獲取子單元,用于針對每個所述分類維度,獲取每個所述預(yù)設(shè)類型對應(yīng)的多個預(yù)測概率,其中,一個預(yù)測概率和一個分段音頻對應(yīng);
23、均值計算子單元,用于對每個所述預(yù)設(shè)類型對應(yīng)的多個預(yù)測概率進行均值計算,得到每個所述預(yù)設(shè)類型對應(yīng)的均值概率;
24、確定子單元,用于將最大的均值概率對應(yīng)的所述預(yù)設(shè)類型,確定為所述分類維度對應(yīng)的目標類型。
25、在一些實施例中,分段單元還包括:
26、切分子單元,用于基于預(yù)設(shè)時長對所述待分類音頻進行切分處理,得到至少一個子音頻,所述子音頻的時長為所述預(yù)設(shè)時長;
27、第一確定子單元,用于若所述子音頻的數(shù)量大于預(yù)設(shè)數(shù)量,從所述至少一個子音頻中確定所述預(yù)設(shè)數(shù)量個分段音頻;
28、第二確定子單元,用于若所述子音頻的數(shù)量小于或等于所述預(yù)設(shè)數(shù)量,將每個所述子音頻確定為分段音頻。
29、在一些實施例中,音頻分類裝置還包括訓(xùn)練單元,用于:
30、獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括多個樣本音頻,以及每個所述樣本音頻對應(yīng)的樣本類型,其中,所述樣本類型為所述多個分類維度下的預(yù)設(shè)類型中的一個;
31、從所述訓(xùn)練樣本集中,確定每個所述分類維度對應(yīng)的待使用樣本音頻;
32、基于初始特征提取參數(shù),對所述待使用樣本音頻進行特征提取,得到分類維度對應(yīng)的樣本音頻特征;
33、基于所述分類維度對應(yīng)的初始維度參數(shù),以及分類維度對應(yīng)的樣本音頻特征,計算所述待使用樣本音頻在所述分類維度下的預(yù)測類型;
34、根據(jù)所述待使用樣本音頻的預(yù)測類型,以及所述待使用樣本音頻對應(yīng)的樣本類型,調(diào)整所述初始特征提取參數(shù)和所述初始維度參數(shù),得到特征提取參數(shù)和維度參數(shù)。
35、在一些實施例中,訓(xùn)練單元還用于:
36、針對每個分類維度,利用所述待使用樣本音頻的預(yù)測類型,以及所述待使用樣本音頻對應(yīng)的樣本類型,構(gòu)建維度損失函數(shù);
37、基于分類維度對應(yīng)的維度權(quán)重,以及分類維度對應(yīng)的維度損失函數(shù),構(gòu)建目標損失函數(shù);
38、根據(jù)所述目標損失函數(shù),調(diào)整所述初始特征提取參數(shù)以及所述初始維度參數(shù),直到所述目標損失函數(shù)滿足預(yù)設(shè)條件時,得到所述特征提取參數(shù)和所述維度參數(shù)。
39、在一些實施例中,訓(xùn)練單元還用于:
40、根據(jù)預(yù)設(shè)多媒體對應(yīng)的多媒體信息,獲取初始樣本音頻;
41、在時域上對所述初始樣本音頻進行增強處理,得到時域增強樣本音頻;
42、在頻域上對所述初始樣本音頻進行增強處理,得到頻域增強樣本音頻;
43、將所述初始樣本音頻、所述時域增強樣本音頻、所述頻域增強樣本音頻,確定為所述訓(xùn)練樣本集的樣本音頻;
44、根據(jù)多個分類維度對應(yīng)的預(yù)設(shè)類型,確定所述樣本音頻對應(yīng)的樣本類型。
45、在一些實施例中,多媒體信息包括多媒體內(nèi)容和多媒體描述信息,訓(xùn)練單元還用于:
46、對所述多媒體描述信息進行實體識別,以提取所述多媒體內(nèi)容中的音頻實體;
47、對所述多媒體內(nèi)容進行音頻內(nèi)容識別,以提取所述多媒體內(nèi)容中的音頻內(nèi)容特征;
48、利用所述音頻實體以及所述音頻內(nèi)容特征,從預(yù)設(shè)音頻庫的多個預(yù)設(shè)音頻中,確定所述初始樣本音頻。
49、在一些實施例中,訓(xùn)練單元還用于:
50、提取所述初始樣本音頻在時域上的時域特征;
51、對所述時域特征進行變換處理,得到變換后的時域特征;
52、基于所述變換后的時域特征,得到時域增強樣本音頻。
53、在一些實施例中,訓(xùn)練單元還用于:
54、將所述初始樣本音頻轉(zhuǎn)變換為頻譜特征圖;
55、根據(jù)掩碼矩陣對所述頻譜特征圖進行擾動處理,得到擾動特征圖;
56、對不同的初始樣本音頻對應(yīng)的頻譜特征圖進行線性插值處理,得到插值特征圖;
57、根據(jù)所述擾動特征圖以及所述插值特征圖,生成所述頻域增強樣本音頻。
58、本技術(shù)實施例還提供一種電子設(shè)備,包括存儲器存儲有多條指令;所述處理器從所述存儲器中加載指令,以執(zhí)行本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。
59、本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有多條指令,所述指令適于處理器進行加載,以執(zhí)行本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。
60、本技術(shù)實施例還提供一種計算機程序產(chǎn)品,包括計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)本技術(shù)實施例所提供的任一種音頻分類方法中的步驟。
61、本技術(shù)實施例可以從待分類音頻中提取至少一個分段音頻,利用特征提取參數(shù),確定每個分段音頻對應(yīng)的分段音頻特征;根據(jù)多個分類維度的維度參數(shù)和每個分段音頻特征,預(yù)測每個分段音頻在每個分類維度下的多個預(yù)測概率;針對每個分類維度,利用每個分段音頻在分類維度對應(yīng)的預(yù)設(shè)類型下的預(yù)測概率,確定每個分類維度對應(yīng)的目標類型;根據(jù)所有目標類型,確定所述待分類音頻的分類結(jié)果?;谙嗤奶卣魈崛?shù)對分段音頻進行特征提取,再利用不同的維度參數(shù)計算預(yù)測概率,可實現(xiàn)一次推理即可確定出待分類音頻的在多個分類維度下的目標類型,避免重復(fù)推理,以降低分類的數(shù)據(jù)處理量,進而提升了音頻分類的效率。