本發(fā)明涉及機(jī)器聲音檢測,具體涉及一種基于雙通道特征融合vae的機(jī)器聲音異常檢測方法及系統(tǒng)。
背景技術(shù):
1、隨著最新一輪工業(yè)革命的推進(jìn),智能工廠成為全球主要經(jīng)濟(jì)體推動高質(zhì)量經(jīng)濟(jì)發(fā)展的重要選擇。在這些智能工廠中,設(shè)備異常檢測技術(shù)是至關(guān)重要的技術(shù)之一。智能工廠中的各種機(jī)械設(shè)備通常需要長期不間斷地運(yùn)行,一旦發(fā)生故障,未能及時處理將顯著影響這些設(shè)施的安全性和生產(chǎn)力。然而,由于智能工廠中設(shè)備種類繁多且人員有限,僅依靠人工監(jiān)控設(shè)備運(yùn)行顯然不足以應(yīng)對。因此,開發(fā)智能化的檢測和診斷方法來實(shí)現(xiàn)設(shè)備健康狀況的自動化監(jiān)測,成為當(dāng)前研究的重點(diǎn)。
2、異常檢測算法可以利用多種信號源,在工業(yè)設(shè)備異常檢測的背景下,常用的信號源包括圖像數(shù)據(jù)、聲音數(shù)據(jù)和振動數(shù)據(jù)。其中,聲音數(shù)據(jù)具有非侵入性、實(shí)時性和廣泛的適用性等優(yōu)勢,使其成為智能工廠中設(shè)備異常檢測信號源的理想選擇。
3、許多傳統(tǒng)的機(jī)器學(xué)習(xí)算法,包括支持向量機(jī)(svm)和隨機(jī)森林等,在基于聲音數(shù)據(jù)的異常檢測領(lǐng)域取得了初步成功。但傳統(tǒng)方法仍然高度依賴數(shù)據(jù)質(zhì)量,并且在處理更復(fù)雜的聲音數(shù)據(jù)時存在困難。這一局限性突顯了需要更加復(fù)雜的技術(shù),以有效應(yīng)對聲音異常檢測中的復(fù)雜性,為深度學(xué)習(xí)方法和先進(jìn)信號處理方法的應(yīng)用提供了空間。
4、隨著gpu性能的不斷提升和深度學(xué)習(xí)方法的進(jìn)步,聲音異常檢測算法取得了顯著進(jìn)展。自編碼器(ae)、變分自編碼器(vae)和生成對抗網(wǎng)絡(luò)(gan)等技術(shù)便是其中的代表。但是這些方法雖然通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)提高了異常檢測的能力,迫使模型更好地重建輸入特征,但它們通常僅依賴卷積神經(jīng)網(wǎng)絡(luò)(cnn)進(jìn)行特征提取。這種方法可能未能充分利用正常和異常聲音特征之間的差異。生成對抗網(wǎng)絡(luò)(gan)通常面臨訓(xùn)練時間長且訓(xùn)練結(jié)果不穩(wěn)定的問題。因此,盡管深度學(xué)習(xí)方法相比傳統(tǒng)技術(shù)取得了進(jìn)展,但聲譜圖中蘊(yùn)含的豐富信息仍然未得到充分利用。
技術(shù)實(shí)現(xiàn)思路
1、針對上述現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種基于雙通道特征融合vae的機(jī)器聲音異常檢測方法及系統(tǒng),有效地提升了模型的重建能力,幫助模型更好地學(xué)習(xí)正常聲音特征。本發(fā)明的技術(shù)方案如下:
2、第一方面,提供了一種基于雙通道特征融合vae的機(jī)器聲音異常檢測方法,該方法包括:
3、獲取正常的機(jī)器聲音樣本集,基于樣本集訓(xùn)練預(yù)先構(gòu)建的雙通道特征融合vae模型,用于基于vae模型的編碼器進(jìn)行聲音特征編碼、基于vae模型的解碼器進(jìn)行聲音特征重構(gòu),獲取正常機(jī)器聲音的聲音特征,所述訓(xùn)練過程基于解碼器輸出的重構(gòu)聲音特征與模型輸入特征的誤差損失訓(xùn)練模型參數(shù);
4、獲取待測的機(jī)器聲音,提取待測機(jī)器聲音的特征并輸入到訓(xùn)練完成的雙通道特征融合vae模型獲取輸出的機(jī)器聲音特征,基于模型輸出的機(jī)器聲音特征與正常的機(jī)器聲音樣本集的機(jī)器聲音特征的馬哈拉諾比斯距離作為待測機(jī)器聲音的異常分?jǐn)?shù);
5、基于待測機(jī)器聲音的異常分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值的大小確定機(jī)器聲音異常檢測結(jié)果。
6、在一些實(shí)施方式中,所述機(jī)器聲音在輸入雙通道特征融合vae模型之前,包括:
7、將機(jī)器聲音轉(zhuǎn)化為對數(shù)梅爾頻譜圖,將對數(shù)梅爾頻譜圖輸入雙通道特征融合vae模型。
8、在一些實(shí)施方式中,所述雙通道特征融合vae模型包括編碼器和解碼器,
9、基于編碼器對輸入的聲音數(shù)據(jù)進(jìn)行編碼,所述編碼器中包括三個并行的雙通道特征融合模塊,雙通道特征融合模塊包括一維卷積單元和雙向門控循環(huán)單元,所述一維卷積單元接收輸入的聲音數(shù)據(jù)并輸出第一特征,將一維卷積單元輸出的第一特征輸入到雙向門控循環(huán)單元中,利用雙向門控循環(huán)單元輸出第二特征;將所述第一特征和第二特征進(jìn)行拼接后輸出;所述編碼器中的每個雙通道特征融合模塊均不設(shè)置任何池化層;
10、基于解碼器接收編碼器的輸出,經(jīng)過解碼器進(jìn)行輸入數(shù)據(jù)重構(gòu),輸出重構(gòu)聲音數(shù)據(jù)即重構(gòu)的機(jī)器聲音特征。
11、在一些實(shí)施方式中,所述解碼器,包括:分組反卷積層。
12、在一些實(shí)施方式中,雙通道特征融合vae模型的訓(xùn)練過程中,所述訓(xùn)練過程基于解碼器輸出的重構(gòu)聲音特征與模型輸入特征的誤差損失訓(xùn)練模型參數(shù),包括:
13、采用的損失函數(shù)為ldcff-vae=lre+αlkl,
14、其中,lre表示模型的重構(gòu)誤差,lkl表示kl散度,α表示kl散度的權(quán)重;
15、其中,重構(gòu)損失通過輸入的對數(shù)梅爾頻譜圖與重構(gòu)的頻譜圖之間的均方差來計算:xk表示模型的輸入,表示模型在重構(gòu)x后獲得的輸出;kl散度
16、在一些實(shí)施方式中,雙通道特征融合vae模型的訓(xùn)練過程中,所述訓(xùn)練過程采用的正常的機(jī)器聲音樣本集包括源域聲音樣本集和目標(biāo)域聲音樣本集。
17、在一些實(shí)施方式中,訓(xùn)練樣本集中,訓(xùn)練集包含99%來自源域的聲音數(shù)據(jù),而測試集則包含50%來自目標(biāo)域的聲音數(shù)據(jù)。
18、在一些實(shí)施方式中,所述針對待測機(jī)器聲音進(jìn)行檢測時,所述基于模型輸出的機(jī)器聲音特征與正常的機(jī)器聲音樣本集的機(jī)器聲音特征的馬哈拉諾比斯距離作為待測機(jī)器聲音的異常分?jǐn)?shù),包括:
19、基于源域聲音樣本集輸入訓(xùn)練完成的雙通道特征融合vae模型,得到源域重構(gòu)聲音樣本集;計算源域聲音樣本集和源域重構(gòu)聲音樣本集的協(xié)方差矩陣記為第一協(xié)方差矩陣;
20、基于目標(biāo)域聲音樣本集輸入訓(xùn)練完成的雙通道特征融合vae模型,得到目標(biāo)域重構(gòu)聲音樣本集;計算目標(biāo)域聲音樣本集和目標(biāo)域重構(gòu)聲音樣本集的協(xié)方差矩陣記為第二協(xié)方差矩陣;
21、針對待測機(jī)器聲音進(jìn)行檢測時,基于輸入雙通道特征融合vae模型的待測聲音特征、輸入雙通道特征融合vae模型之后模型輸出的待測聲音重構(gòu)特征和第一協(xié)方差矩陣,采用馬哈拉諾比斯距離公式,計算得到第一距離;基于輸入雙通道特征融合vae模型的待測聲音特征、輸入雙通道特征融合vae模型之后模型輸出的待測聲音重構(gòu)特征和第二協(xié)方差矩陣,采用馬哈拉諾比斯距離公式,計算得到第二距離;
22、基于第一距離和第二距離的較小值作為待測機(jī)器聲音的異常分?jǐn)?shù)。
23、在一些實(shí)施方式中,所述基于待測機(jī)器聲音的異常分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值的大小確定機(jī)器聲音異常檢測結(jié)果,包括:
24、所述預(yù)設(shè)分?jǐn)?shù)閾值的獲取方法,包括:將訓(xùn)練樣本集中所有音頻文件的異常分?jǐn)?shù)擬合到伽馬分布,并使用伽馬分布的第90百分位作為閾值。
25、第二方面,提供了一種基于雙通道特征融合vae的機(jī)器聲音異常檢測系統(tǒng),該系統(tǒng)包括:
26、模型訓(xùn)練單元,用于獲取正常的機(jī)器聲音樣本集,基于樣本集訓(xùn)練預(yù)先構(gòu)建的雙通道特征融合vae模型,用于基于vae模型的編碼器進(jìn)行聲音特征編碼、基于vae模型的解碼器進(jìn)行聲音特征重構(gòu),獲取正常機(jī)器聲音的聲音特征,所述訓(xùn)練過程基于解碼器輸出的重構(gòu)聲音特征與模型輸入特征的誤差損失訓(xùn)練模型參數(shù);
27、機(jī)器聲音檢測單元,用于獲取待測的機(jī)器聲音,將待測機(jī)器聲音通過訓(xùn)練完成的雙通道特征融合vae模型獲取輸出的機(jī)器聲音特征,基于模型輸出的機(jī)器聲音特征與正常的機(jī)器聲音樣本集的機(jī)器聲音特征的馬哈拉諾比斯距離作為待測機(jī)器聲音的異常分?jǐn)?shù);
28、檢測結(jié)果獲取單元,用于基于待測機(jī)器聲音的異常分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值的大小確定機(jī)器聲音異常檢測結(jié)果。
29、本發(fā)明的一種基于雙通道特征融合vae的機(jī)器聲音異常檢測方法及系統(tǒng),具備如下有益效果:
30、1.本發(fā)明提出了雙通道特征融合變分自編碼器,有效地提升了模型的重建能力,幫助模型更好地學(xué)習(xí)正常聲音特征。在異常檢測階段,基于馬氏距離計算異常分?jǐn)?shù),更好地捕捉正常聲音與異常聲音之間的差異。
31、2.本發(fā)明的變分自編碼器將卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的局部特征與bi-gru提取的全局特征相結(jié)合,該特征融合被映射到潛在空間中,增強(qiáng)了編碼器對時間序列數(shù)據(jù)的壓縮和編碼能力。
32、3.本發(fā)明的變分自編碼器在解碼器部分采用分組反卷積層,降低模型復(fù)雜性,促進(jìn)了不同通道組內(nèi)多尺度特征表示的學(xué)習(xí),使得網(wǎng)絡(luò)能夠獲取更為多樣和豐富的特征。