本發(fā)明涉及語(yǔ)音分類領(lǐng)域,具體涉及一種基于喉部振動(dòng)與腦電電刺激的語(yǔ)音信號(hào)測(cè)試方法與系統(tǒng)。
背景技術(shù):
1、聾啞人想要與健全人進(jìn)行交流有兩種方式,一種是通過(guò)學(xué)習(xí)手語(yǔ)進(jìn)行交流,另一種是使用聾啞人交互設(shè)備進(jìn)行交流。但是手語(yǔ)學(xué)習(xí)難度大,健全人使用手語(yǔ)場(chǎng)合較少,導(dǎo)致容易遺忘。同時(shí)手語(yǔ)不僅對(duì)于健全人的學(xué)習(xí)難度大,對(duì)于聾啞人學(xué)習(xí)手語(yǔ)的難度也較高。
2、在聾啞人交互設(shè)備中,可穿戴設(shè)備的發(fā)展迅速,尺寸也變的越來(lái)越小,方便用戶攜帶,所以在聾啞人交互設(shè)備中可穿戴設(shè)備受到了人們的廣泛關(guān)注。并且由于機(jī)器學(xué)習(xí)的發(fā)展,人機(jī)交互的地位變得舉足輕重。但目前現(xiàn)有的可穿戴設(shè)備大多依賴于單一的喉部傳感器,用于捕捉喉部振動(dòng)信號(hào),這在語(yǔ)句或詞語(yǔ)的區(qū)分上面臨挑戰(zhàn),難以有效解決聾啞人發(fā)音過(guò)程中同音不同義的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的在于針對(duì)上述提到的技術(shù)問(wèn)題提出一種基于喉部振動(dòng)與腦電電刺激的語(yǔ)音信號(hào)測(cè)試方法與系統(tǒng)。
2、第一方面,本發(fā)明提供了一種基于喉部振動(dòng)與腦電電刺激的語(yǔ)音信號(hào)測(cè)試方法,包括以下步驟:
3、獲取采集到用戶的基礎(chǔ)腦電信號(hào),根據(jù)基礎(chǔ)腦電信號(hào)判斷是否在語(yǔ)音準(zhǔn)備階段生成電刺激控制信號(hào),并根據(jù)電刺激控制信號(hào)對(duì)用戶施加腦電電刺激;
4、獲取語(yǔ)音執(zhí)行階段同步采集到用戶的喉部振動(dòng)信號(hào)和腦電信號(hào)并分別進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理后的喉部振動(dòng)信號(hào)和預(yù)處理后的腦電信號(hào);對(duì)預(yù)處理后的腦電信號(hào)采用pagerank算法進(jìn)行通道選擇,得到通道選擇后的腦電信號(hào);
5、分別對(duì)預(yù)處理后的喉部振動(dòng)信號(hào)和通道選擇后的腦電信號(hào)進(jìn)行特征提取和降維處理,得到降維后的喉部振動(dòng)特征和降維后的腦電特征,將降維后的喉部振動(dòng)特征和降維后的腦電特征輸入到施加l1正則化的雙模態(tài)spca,得到稀疏特征;
6、構(gòu)建基于svm的語(yǔ)音信號(hào)分類模型并訓(xùn)練,得到經(jīng)訓(xùn)練的語(yǔ)音信號(hào)分類模型,將稀疏特征輸入到經(jīng)訓(xùn)練的語(yǔ)音信號(hào)分類模型,得到語(yǔ)音分類識(shí)別結(jié)果。
7、作為優(yōu)選,根據(jù)基礎(chǔ)腦電信號(hào)判斷是否在語(yǔ)音準(zhǔn)備階段生成電刺激控制信號(hào),具體包括:
8、采用時(shí)頻分析技術(shù)對(duì)基礎(chǔ)腦電信號(hào)進(jìn)行分析,得到基礎(chǔ)腦電信號(hào)的平均幅值和頻譜能量,時(shí)頻分析技術(shù)包括短時(shí)傅里葉變換和小波變換;
9、響應(yīng)于確定基礎(chǔ)腦電信號(hào)在與語(yǔ)言處理相關(guān)的θ-β頻段內(nèi)的平均幅值小于幅值閾值,且頻譜能量小于正常參考值與能量百分比閾值的乘積,則在語(yǔ)音準(zhǔn)備階段生成電刺激控制信號(hào),電刺激控制信號(hào)所對(duì)應(yīng)的腦電電刺激的頻率范圍為20~40hz,強(qiáng)度范圍為0.5~3ma;
10、響應(yīng)于確定基礎(chǔ)腦電信號(hào)在與語(yǔ)言處理相關(guān)的θ-β頻段內(nèi)的平均幅值大于或等于幅值閾值或者頻譜能量大于或等于正常參考值與能量百分比閾值的乘積,則在語(yǔ)音準(zhǔn)備階段不生成電刺激控制信號(hào)。
11、作為優(yōu)選,基礎(chǔ)腦電數(shù)據(jù)在用戶未產(chǎn)生喉部振動(dòng)信號(hào)且用戶未受到腦電電刺激的情況下進(jìn)行采集,在語(yǔ)音準(zhǔn)備階段為用戶產(chǎn)生喉部振動(dòng)信號(hào)前的時(shí)間閾值范圍所對(duì)應(yīng)的時(shí)間段,在語(yǔ)音執(zhí)行階段為用戶產(chǎn)生喉部振動(dòng)信號(hào)且用戶未受到腦電電刺激所對(duì)應(yīng)的時(shí)間段。
12、作為優(yōu)選,喉部振動(dòng)信號(hào)的數(shù)據(jù)預(yù)處理的方式包括預(yù)加重處理、漸進(jìn)進(jìn)出處理和平滑處理;腦電信號(hào)的數(shù)據(jù)預(yù)處理的方式包括帶通濾波處理、采用動(dòng)態(tài)陷波濾波器進(jìn)行處理和偽跡去除,其中偽跡需滿足:相鄰采樣點(diǎn)之間的瞬時(shí)波動(dòng)超過(guò)±50μv、相鄰峰之間的差異超過(guò)200μv且時(shí)間跨度在200ms以內(nèi)、最大幅值與最小幅值之差超過(guò)±100μv、在連續(xù)100毫秒的時(shí)間間隔內(nèi)波動(dòng)低于0.5μv或者在腦電電刺激頻率帶寬內(nèi)功率譜密度超過(guò)基線值的3倍標(biāo)準(zhǔn)差。
13、作為優(yōu)選,對(duì)預(yù)處理后的腦電信號(hào)采用pagerank算法進(jìn)行通道選擇,得到通道選擇后的腦電信號(hào),具體包括:
14、對(duì)預(yù)處理后的腦電信號(hào)進(jìn)行維度變換,得到變換后的腦電信號(hào);
15、計(jì)算變換后的腦電信號(hào)的每?jī)蓚€(gè)通道之間的皮爾遜相關(guān)系數(shù),并構(gòu)成相關(guān)矩陣,基于相關(guān)矩陣的百分位數(shù),將通道?和?之間的皮爾遜相關(guān)系數(shù)映射為鄰接矩陣中的第i行第j列的元素,如下式所示:
16、;
17、其中,、和分別表示所有皮爾森相關(guān)系數(shù)中的25百分位數(shù)、50百分位數(shù)和75百分位數(shù);
18、將變換后的腦電信號(hào)的32個(gè)通道中的每個(gè)通道作為圖結(jié)構(gòu)中的節(jié)點(diǎn),節(jié)點(diǎn)之間的鏈接以圖結(jié)構(gòu)中的有向邊的形式存在,采用pagerank算法計(jì)算圖結(jié)構(gòu)中的節(jié)點(diǎn)之間的鏈接關(guān)系來(lái)確定每個(gè)節(jié)點(diǎn)的重要性得分;在重要性得分的計(jì)算過(guò)程中,若采用聚類算法,則采用下式計(jì)算每個(gè)節(jié)點(diǎn)的聚類系數(shù):
19、;
20、其中,表示第個(gè)節(jié)點(diǎn),表示經(jīng)過(guò)第個(gè)節(jié)點(diǎn)和它的鄰居節(jié)點(diǎn)所形成的三角形個(gè)數(shù),表示第個(gè)節(jié)點(diǎn)的度,第個(gè)節(jié)點(diǎn)的度等于第個(gè)節(jié)點(diǎn)的入度和第個(gè)節(jié)點(diǎn)的出度之和;
21、若采用度算法,則采用下式計(jì)算度中心性:
22、;
23、其中,表示第個(gè)節(jié)點(diǎn)的度中心性,表示第個(gè)節(jié)點(diǎn)的入度,第個(gè)節(jié)點(diǎn)的入度為鄰接矩陣中的第列的元素之和,表示第個(gè)節(jié)點(diǎn)的出度,第個(gè)節(jié)點(diǎn)的出度為鄰接矩陣中的第行的元素之和;
24、第個(gè)節(jié)點(diǎn)的重要性得分的計(jì)算公式如下:
25、;
26、其中,表示第個(gè)節(jié)點(diǎn)的重要性得分,表示歸一化函數(shù),表示算法權(quán)重,n表示節(jié)點(diǎn)的總數(shù);
27、根據(jù)所有節(jié)點(diǎn)的重要性得分計(jì)算得到自適應(yīng)閾值,如下式所示:
28、;
29、其中,表示自適應(yīng)閾值,表示相似性參數(shù);
30、篩選出重要性得分大于或等于自適應(yīng)閾值的節(jié)點(diǎn)并將其對(duì)應(yīng)的通道作為重要通道,重要通道對(duì)應(yīng)的腦電信號(hào)作為通道選擇后的腦電信號(hào)。
31、作為優(yōu)選,預(yù)處理后的喉部振動(dòng)信號(hào)所提取的喉部振動(dòng)特征包括梅爾頻率倒譜系數(shù)、均方根能量和色度特征;通道選擇后的腦電信號(hào)所提取的腦電特征包括均方根能量、多個(gè)頻段的能量與平均頻譜熵,其中多個(gè)頻段包括delta、theta、alpha、beta、gamma五個(gè)頻段;喉部振動(dòng)特征和腦電特征的降維方式采用主成分分析法;
32、施加l1正則化的雙模態(tài)spca的目標(biāo)函數(shù)如下式所示:
33、;
34、其中,表示取目標(biāo)函數(shù)為最大值時(shí)的第一投影矩陣和第二投影矩陣,并且滿足=i和=i,i?表示單位矩陣,t表示轉(zhuǎn)置,()表示矩陣的跡,和分別表示和?的l1范數(shù),c表示降維后的喉部振動(dòng)特征和降維后的腦電特征的協(xié)方差矩陣,表示正則化系數(shù);
35、通過(guò)優(yōu)化施加l1正則化的雙模態(tài)spca的目標(biāo)函數(shù),得到第一投影矩陣和第二投影矩陣,使用第一投影矩陣和第二投影矩陣分別對(duì)降維后的喉部振動(dòng)特征和降維后的腦電特征進(jìn)行投影,得到投影后的喉部振動(dòng)特征和投影后的腦電特征,將投影后的喉部振動(dòng)特征和投影后的腦電特征拼接得到稀疏特征。
36、第二方面,本發(fā)明提供了一種基于喉部振動(dòng)與腦電電刺激的語(yǔ)音信號(hào)測(cè)試系統(tǒng),包括:
37、電刺激控制信號(hào)生成模塊,被配置為獲取采集到用戶的基礎(chǔ)腦電信號(hào),根據(jù)基礎(chǔ)腦電信號(hào)判斷是否在語(yǔ)音準(zhǔn)備階段生成電刺激控制信號(hào),并根據(jù)電刺激控制信號(hào)對(duì)用戶施加腦電電刺激;
38、數(shù)據(jù)處理模塊,被配置為獲取語(yǔ)音執(zhí)行階段同步采集到用戶的喉部振動(dòng)信號(hào)和腦電信號(hào)并分別進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理后的喉部振動(dòng)信號(hào)和預(yù)處理后的腦電信號(hào);對(duì)預(yù)處理后的腦電信號(hào)采用pagerank算法進(jìn)行通道選擇,得到通道選擇后的腦電信號(hào);
39、特征提取及降維模塊,被配置為分別對(duì)預(yù)處理后的喉部振動(dòng)信號(hào)和通道選擇后的腦電信號(hào)進(jìn)行特征提取和降維處理,得到降維后的喉部振動(dòng)特征和降維后的腦電特征,將降維后的喉部振動(dòng)特征和降維后的腦電特征輸入到施加l1正則化的雙模態(tài)spca,得到稀疏特征;
40、分類識(shí)別模塊,被配置為構(gòu)建基于svm的語(yǔ)音信號(hào)分類模型并訓(xùn)練,得到經(jīng)訓(xùn)練的語(yǔ)音信號(hào)分類模型,將稀疏特征輸入到經(jīng)訓(xùn)練的語(yǔ)音信號(hào)分類模型,得到語(yǔ)音分類識(shí)別結(jié)果。
41、第三方面,本發(fā)明提供了一種電子設(shè)備,包括一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
42、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
43、第五方面,本發(fā)明提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
44、相比于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
45、(1)本發(fā)明提出的基于喉部振動(dòng)與腦電電刺激的語(yǔ)音信號(hào)測(cè)試方法基于pagerank算法的腦電信號(hào)的通道選擇方法挑選出的腦電通道能更好地代表語(yǔ)音特異性特征。在后續(xù)數(shù)據(jù)處理和特征提取過(guò)程中,基于這些關(guān)鍵通道提取的特征能夠更精準(zhǔn)地反映聾啞人與語(yǔ)音相關(guān)的腦電模式,使特征更具代表性和區(qū)分性,有力提升對(duì)聾啞人語(yǔ)音信息的識(shí)別精度。
46、(2)本發(fā)明提出的基于喉部振動(dòng)與腦電電刺激的語(yǔ)音信號(hào)測(cè)試方法經(jīng)過(guò)施加l1正則化的雙模態(tài)spca處理得到的稀疏特征具有更好的抗干擾能力,能夠突出關(guān)鍵特征,抑制環(huán)境干擾帶來(lái)的噪聲特征,從而在復(fù)雜環(huán)境下仍能保持較高的識(shí)別準(zhǔn)確率,提升了泛化能力。借助雙模態(tài)spca等技術(shù),深度挖掘喉部振動(dòng)信號(hào)和腦電信號(hào)的內(nèi)在聯(lián)系,全面提取語(yǔ)音特征,確保對(duì)各類語(yǔ)音信息的準(zhǔn)確把握。
47、(3)本發(fā)明提出的基于喉部振動(dòng)與腦電電刺激的語(yǔ)音信號(hào)測(cè)試方法能夠有效的實(shí)現(xiàn)對(duì)聾啞人講話時(shí)的喉部振動(dòng)信號(hào)和腦電信號(hào)的同時(shí)采集,通過(guò)腦電信號(hào)對(duì)喉部振動(dòng)信號(hào)的補(bǔ)充,有效的解決了同音不同義的問(wèn)題,輸出直觀結(jié)果用于翻譯聾啞人所表達(dá)的語(yǔ)音信息,實(shí)現(xiàn)對(duì)傳感信號(hào)更加準(zhǔn)確的識(shí)別。