本發(fā)明涉及語音識(shí)別系統(tǒng),具體是一種基于人工智能算法的語音識(shí)別系統(tǒng)。
背景技術(shù):
1、語音識(shí)別系統(tǒng)是一種將人類語言轉(zhuǎn)換為文本的技術(shù),廣泛應(yīng)用于智能助手、電話客服系統(tǒng)、語音輸入法等領(lǐng)域。
2、但是,傳統(tǒng)的語音識(shí)別系統(tǒng)在數(shù)據(jù)采集階段容易受到環(huán)境噪聲、錄音設(shè)備質(zhì)量差異等因素的影響,導(dǎo)致原始數(shù)據(jù)質(zhì)量參差不齊,影響模型訓(xùn)練效果,且傳統(tǒng)模型對復(fù)雜環(huán)境下的語音識(shí)別能力有限,容易受到背景噪聲、口音變化等因素的影響,導(dǎo)致識(shí)別精度下降,同時(shí)現(xiàn)有系統(tǒng)缺乏有效的實(shí)時(shí)性能監(jiān)控機(jī)制,無法及時(shí)發(fā)現(xiàn)和響應(yīng)系統(tǒng)異常,導(dǎo)致服務(wù)中斷或用戶體驗(yàn)受損。
技術(shù)實(shí)現(xiàn)思路
1、本部分的目的在于概述本發(fā)明的實(shí)施例的一些方面以及簡要介紹一些較佳實(shí)施例。在本部分以及本技術(shù)的說明書摘要和發(fā)明名稱中可能會(huì)做些簡化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊,而這種簡化或省略不能用于限制本發(fā)明的范圍。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于人工智能算法的語音識(shí)別系統(tǒng),包括:
4、數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、對抗訓(xùn)練模塊、模型構(gòu)建模塊、監(jiān)控模塊以及安全模塊;
5、所述數(shù)據(jù)采集模塊,用于通過采用音頻錄制設(shè)備對語音樣本進(jìn)行采集,得到原始語音數(shù)據(jù)集;
6、所述數(shù)據(jù)處理模塊,用于通過采用自動(dòng)化腳本方法對原始語音數(shù)據(jù)集進(jìn)行預(yù)處理,得到高質(zhì)量訓(xùn)練數(shù)據(jù)集;
7、所述對抗訓(xùn)練模塊,用于通過采用生成對抗網(wǎng)絡(luò)方法對高質(zhì)量訓(xùn)練數(shù)據(jù)進(jìn)行對抗樣本生成,得到測試數(shù)據(jù);
8、所述模型構(gòu)建模塊,用于基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)構(gòu)建語音識(shí)別模型,通過將測試數(shù)據(jù)輸入至模型中,采用前向傳播算法計(jì)算每一層的激活值,并輸出語音識(shí)別結(jié)果;
9、所述監(jiān)控模塊,用于設(shè)置綜合閾值,與語音識(shí)別結(jié)果進(jìn)行比對,比對后判斷是否超出正常范圍,得到比對結(jié)果;
10、所述安全模塊,基于比對結(jié)果,設(shè)定策略進(jìn)行調(diào)整,并生成性能報(bào)告。
11、作為本發(fā)明再進(jìn)一步的方案:所述通過采用音頻錄制設(shè)備對語音樣本進(jìn)行采集,得到原始語音數(shù)據(jù)集,具體步驟為:
12、通過采用usb麥克風(fēng)blue?yeti對語音樣本進(jìn)行采集;
13、錄音過程需在相對安靜、無明顯背景噪聲的環(huán)境下進(jìn)行,錄音時(shí)長設(shè)定為每段15秒至60秒之間;
14、得到原始語音數(shù)據(jù)集。
15、作為本發(fā)明再進(jìn)一步的方案:所述通過采用自動(dòng)化腳本方法對原始語音數(shù)據(jù)集進(jìn)行預(yù)處理,得到高質(zhì)量訓(xùn)練數(shù)據(jù)集,具體步驟為:
16、利用python腳本和開源音頻處理庫pydub批量導(dǎo)入所有原始語音數(shù)據(jù)集;
17、將所有非wav格式的音頻文件轉(zhuǎn)換成標(biāo)準(zhǔn)的單聲道16位pcm編碼的wav格式,并將所有音頻文件的采樣率調(diào)整至統(tǒng)一的標(biāo)準(zhǔn)值;
18、通過檢測連續(xù)低于設(shè)定閾值的音頻能量水平來移除靜音或低音量的片段;
19、應(yīng)用自適應(yīng)濾波器對音頻中的背景噪聲進(jìn)行抑制,并保留人聲部分,并使用峰值歸一化方法調(diào)整每個(gè)音頻片段的音量,使其在一定范圍內(nèi)保持一致;
20、按照預(yù)定時(shí)間間隔自動(dòng)分割長音頻文件,并通過調(diào)用自動(dòng)語音識(shí)別asr服務(wù)為每個(gè)片段添加對應(yīng)的文本標(biāo)簽,形成同步字幕文件。
21、作為本發(fā)明再進(jìn)一步的方案:所述通過采用生成對抗網(wǎng)絡(luò)方法對高質(zhì)量訓(xùn)練數(shù)據(jù)進(jìn)行對抗樣本生成,得到測試數(shù)據(jù),具體步驟為:
22、構(gòu)建生成對抗網(wǎng)絡(luò)框架,包括生成器和判別器兩部分,并從高質(zhì)量訓(xùn)練數(shù)據(jù)中生成對抗樣本,表達(dá)式為:
23、;
24、其中,表示第個(gè)對抗樣本,是索引集合,包含所有被選入的對抗樣本的索引,表示從原始高質(zhì)量訓(xùn)練數(shù)據(jù)中隨機(jī)抽取的正常樣本,是索引集合,包含所有被選入的原始訓(xùn)練樣本的索引,為測試數(shù)據(jù)。
25、作為本發(fā)明再進(jìn)一步的方案:所述基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)構(gòu)建語音識(shí)別模型,通過將測試數(shù)據(jù)輸入至模型中,采用前向傳播算法計(jì)算每一層的激活值,并輸出語音識(shí)別結(jié)果,具體步驟為:
26、基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)wavenet構(gòu)建語音識(shí)別模型;
27、經(jīng)過對抗樣本生成和篩選得到的測試數(shù)據(jù)轉(zhuǎn)換為模型可接受的格式;
28、采用前向傳播算法計(jì)算每一層的激活值,依次通過每一層的神經(jīng)元,使用激活函數(shù)relu計(jì)算激活值;
29、對于每一個(gè)測試音頻片段∈,將它作為輸入傳遞給模型,通過前向傳播算法計(jì)算每一層的激活值,直到得到最終的輸出概率分布,表達(dá)式為:
30、;
31、其中,表示第個(gè)測試樣本的最終識(shí)別結(jié)果,是所有可能字符的集合,是給定輸入后,字符出現(xiàn)的概率;
32、將所有測試樣本的結(jié)果進(jìn)行組合,表達(dá)式為:
33、;
34、其中,是一個(gè)包含所有測試樣本識(shí)別結(jié)果的集合。
35、作為本發(fā)明再進(jìn)一步的方案:所述設(shè)置綜合閾值,與語音識(shí)別結(jié)果進(jìn)行比對,比對后判斷是否超出正常范圍,得到比對結(jié)果,具體步驟為:
36、基于歷史數(shù)據(jù)設(shè)置綜合閾值,表達(dá)式為:
37、;
38、其中,,,是各性能指標(biāo)的權(quán)重系數(shù);
39、通過采用日志記錄工具方法,監(jiān)控每次請求的處理時(shí)間和資源消耗情況,得到性能統(tǒng)計(jì)數(shù)據(jù);
40、將語音識(shí)別系統(tǒng)的輸出結(jié)果與實(shí)際標(biāo)簽或用戶反饋進(jìn)行比較,計(jì)算每個(gè)樣本的綜合評分,表達(dá)式為:
41、;
42、將當(dāng)前語音識(shí)別結(jié)果所對應(yīng)的綜合評分與預(yù)先設(shè)定的綜合閾值進(jìn)行比對,判斷是否超出正常范圍。
43、作為本發(fā)明再進(jìn)一步的方案:所述基于比對結(jié)果,設(shè)定策略進(jìn)行調(diào)整,并生成性能報(bào)告,具體步驟為:
44、基于比對結(jié)果;
45、當(dāng)大于時(shí),立即觸發(fā)報(bào)警通知,向管理員發(fā)送警報(bào)信息,提示存在潛在問題需要關(guān)注和解決,報(bào)警方式可以通過電子郵件、短信以及系統(tǒng)內(nèi)部的通知消息,并將所有異常情況及其發(fā)生時(shí)間、涉及的具體測試樣本和相關(guān)性能指標(biāo)詳細(xì)記錄在案;
46、當(dāng)小于等于時(shí),若當(dāng)前綜合評分在正常范圍內(nèi),則維持現(xiàn)有系統(tǒng)配置不變,繼續(xù)監(jiān)測系統(tǒng)的實(shí)時(shí)性能;
47、定期匯總性能監(jiān)測數(shù)據(jù),包括詞錯(cuò)誤率、句子錯(cuò)誤率、響應(yīng)時(shí)間以及系統(tǒng)資源使用情況。
48、作為本發(fā)明再進(jìn)一步的方案:所述采用前向傳播算法計(jì)算每一層的激活值,依次通過每一層的神經(jīng)元,使用激活函數(shù)relu計(jì)算激活值,表達(dá)式為:
49、;
50、;
51、其中是第層的權(quán)重矩陣,是第層的偏置向量,是激活函數(shù),是第層的激活值,是對應(yīng)于字符的未歸一化的預(yù)測分?jǐn)?shù)。
52、本發(fā)明提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其中:所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的基于人工智能算法的語音識(shí)別系統(tǒng)的任一步驟。
53、本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中:所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的基于人工智能算法的語音識(shí)別系統(tǒng)的任一步驟。
54、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
55、通過使用usb麥克風(fēng)blue?yeti在相對安靜的環(huán)境中進(jìn)行錄音,實(shí)現(xiàn)了高質(zhì)量語音數(shù)據(jù)的采集,確保了數(shù)據(jù)的一致性和可靠性,通過python腳本和開源音頻處理庫pydub批量導(dǎo)入并標(biāo)準(zhǔn)化所有原始語音數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)格式統(tǒng)一化和質(zhì)量優(yōu)化,減少了無效數(shù)據(jù)占用存儲(chǔ)空間的問題,同時(shí)也大大降低了人工干預(yù)的需求,提高了數(shù)據(jù)準(zhǔn)備的效率和準(zhǔn)確性,為構(gòu)建高效的語音識(shí)別模型提供了可靠的數(shù)據(jù)支持,通過構(gòu)建生成對抗網(wǎng)絡(luò)框架,從高質(zhì)量訓(xùn)練數(shù)據(jù)中生成對抗樣本,實(shí)現(xiàn)了模型魯棒性的增強(qiáng),不僅挑戰(zhàn)了現(xiàn)有模型的識(shí)別能力,促進(jìn)了模型泛化能力的提高,還提供了一種有效的手段來驗(yàn)證和改進(jìn)模型的表現(xiàn),從而增強(qiáng)了系統(tǒng)應(yīng)對復(fù)雜環(huán)境的能力。