本發(fā)明屬于全自動(dòng)化產(chǎn)品領(lǐng)域,涉及一種語音識別方法、裝置及動(dòng)車組司機(jī)室語音交互系統(tǒng)。
背景技術(shù):
1、隨著語音交互技術(shù)的不斷更新迭代,語音交互產(chǎn)品在軌道交通領(lǐng)域的應(yīng)用正逐漸增加,語音交互技術(shù)對機(jī)車司機(jī)帶來一系列便利和提升。司機(jī)可以通過語音指令控制車輛的各種非影響行車的輔助功能,如空調(diào)模式設(shè)計(jì)、車燈、雨刮器等設(shè)備的啟動(dòng)或停止等,提高了操作的便捷性,降低工作負(fù)擔(dān);語音播報(bào)可以實(shí)時(shí)提醒司機(jī)行車關(guān)鍵信息、信號變化或潛在的安全隱患,增強(qiáng)駕駛安全;在緊急情況下,司機(jī)可以通過語音快速發(fā)出求助信號或觸發(fā)應(yīng)急措施,提升應(yīng)急反應(yīng)速度;通過語音交互技術(shù),司機(jī)可以減少對物理控制面板的操作,降低因手動(dòng)操作帶來的干擾和注意力分散,將更多精力集中在駕駛和監(jiān)控行車安全上;此外,語音交互可以在司機(jī)培訓(xùn)和使用過程中提供實(shí)時(shí)的操作指導(dǎo)和建議,為司機(jī)應(yīng)急處置提供便捷。
2、根據(jù)復(fù)興號動(dòng)車組司機(jī)室智能化設(shè)計(jì)的需求,新一代動(dòng)力集中動(dòng)車組要求司機(jī)室具備語音交互的功能。為響應(yīng)要求,設(shè)計(jì)適用于動(dòng)車組的語音交互裝置,交互裝置以指令控制和信息播報(bào)為導(dǎo)向,從司機(jī)室控制臺、微機(jī)顯示屏、安全監(jiān)測系統(tǒng)顯示屏中提取出部分交互項(xiàng)點(diǎn),通過語音交互的方式實(shí)現(xiàn),優(yōu)化司機(jī)駕駛體驗(yàn),提升動(dòng)車組智能化、一體化程度。
3、現(xiàn)有技術(shù)的技術(shù)方案:現(xiàn)在普遍的語音識別產(chǎn)品,都是采用在線的方式實(shí)現(xiàn)的,拾音設(shè)備在采集到音頻信息后,會(huì)轉(zhuǎn)換成數(shù)字信息,通過互聯(lián)網(wǎng)傳送到遠(yuǎn)端服務(wù)器上,服務(wù)器進(jìn)行運(yùn)算,并將結(jié)果反饋到語音識別產(chǎn)品中進(jìn)行展示。
4、現(xiàn)有技術(shù)的缺點(diǎn):目前,在運(yùn)營動(dòng)車組車型中尚未裝配可實(shí)現(xiàn)語音識別的裝置;
5、現(xiàn)有的在線語音識別產(chǎn)品,無法滿足動(dòng)車組網(wǎng)絡(luò)安全的要求,而離線版語音識別產(chǎn)品,需要根據(jù)動(dòng)車組實(shí)際情況進(jìn)行功能定制。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本發(fā)明采用的技術(shù)方案是:一種語音識別方法,包括以下步驟:
2、獲取待識別的人聲信號;
3、將待識別的人聲信號轉(zhuǎn)換為文本字符串;
4、文本字符串與語音命令詞進(jìn)行匹配,基于命令詞字典規(guī)則采用編輯距離算法,將文本字符串與命令詞數(shù)據(jù)字典中的詞條附屬集合進(jìn)行逐一計(jì)算,得到相似度列表,
5、再將相似度列表中的最大值,與設(shè)定匹配閾值進(jìn)行比較,當(dāng)比較結(jié)果大于匹配閾值時(shí),則判斷識別到有效動(dòng)作指令信息。
6、進(jìn)一步地:所述待識別的人聲信號轉(zhuǎn)換為文本字符串的過程為:采用語音識別解碼器,基于定制化離線聲學(xué)模型和語言模型,通過深度神經(jīng)網(wǎng)絡(luò)運(yùn)算得到。
7、進(jìn)一步地:還包括在所述語音識別方法之前設(shè)置有語音喚醒過程,所述語音喚醒過程如下:通過喚醒引擎判斷音頻輸入與資源文件喚醒詞匹配成功后,激活語音識別引擎。
8、進(jìn)一步地:還包括在所述語音識別過程之后設(shè)置有語音播報(bào)過程,所述語音播報(bào)過程通過語音合成引擎依托線性預(yù)測編碼模型將識別到有效動(dòng)作指令信息的轉(zhuǎn)換為文字。
9、一種語音識別裝置,包括:
10、語音喚醒模塊:用于通過喚醒引擎判斷音頻輸入與資源文件喚醒詞匹配成功后,激活語音識別引擎;
11、語音識別模塊:用于取待識別的人聲信號;
12、將待識別的人聲信號轉(zhuǎn)換為文本字符串;
13、文本字符串與語音命令詞進(jìn)行匹配,基于命令詞字典規(guī)則采用編輯距離算法,將文本字符串與命令詞數(shù)據(jù)字典中的詞條附屬集合進(jìn)行逐一計(jì)算,得到相似度列表,
14、再將相似度列表中的最大值,與設(shè)定匹配閾值進(jìn)行比較,當(dāng)比較結(jié)果大于匹配閾值時(shí),則判斷識別到有效動(dòng)作指令信息;
15、語音播報(bào)模塊,用于通過語音合成引擎依托線性預(yù)測編碼模型將識別到有效動(dòng)作指令信息的轉(zhuǎn)換為聲音。
16、一種動(dòng)車組司機(jī)室語音識別方法的交互方法,包括以下步驟:
17、獲取識別到的有效動(dòng)作指令信息的id;
18、判斷有效動(dòng)作指令信息的id攜帶的類別屬性;
19、當(dāng)類別屬性為控制指令,將id中的指令內(nèi)容,以trdp協(xié)議的方式發(fā)送到動(dòng)車組網(wǎng)絡(luò)控制總線上去,動(dòng)車組執(zhí)行機(jī)構(gòu)根據(jù)指令進(jìn)行動(dòng)作;當(dāng)類別屬性為界面交互,將id中的目的界面信息傳送到界面跳轉(zhuǎn)模塊,然后驅(qū)動(dòng)跳轉(zhuǎn)到對應(yīng)界面;
20、當(dāng)類別屬性為狀態(tài)查詢,將id中所包含的查詢項(xiàng)點(diǎn)傳送到數(shù)據(jù)層,經(jīng)過輪詢后從數(shù)據(jù)層找到查詢內(nèi)容,并將結(jié)果語音或文字方式反饋到界面上。
21、一種動(dòng)車組司機(jī)室語音交互裝置,包括:
22、獲取模塊:用于獲取識別到的有效動(dòng)作指令信息的id;
23、判斷模塊:用于判斷有效動(dòng)作指令信息的id攜帶的類別屬性;
24、當(dāng)類別屬性為控制指令,將id中的指令內(nèi)容,以trdp協(xié)議的方式發(fā)送到動(dòng)車組網(wǎng)絡(luò)控制總線上去,動(dòng)車組執(zhí)行機(jī)構(gòu)根據(jù)指令進(jìn)行動(dòng)作;當(dāng)類別屬性為界面交互,將目的界面id傳送到界面跳轉(zhuǎn)模塊,然后驅(qū)動(dòng)跳轉(zhuǎn)到對應(yīng)界面;
25、當(dāng)類別屬性為狀態(tài)查詢,將查詢id傳送到數(shù)據(jù)層,經(jīng)過輪詢后將查詢結(jié)果以語音或文字方式反饋到界面上。
26、一種動(dòng)車組司機(jī)室語音交互系統(tǒng),包括:
27、拾音器:用于對動(dòng)車組司機(jī)室的司機(jī)的聲音進(jìn)行采集,設(shè)置在所述動(dòng)車組司機(jī)室司機(jī)座位正前方;
28、語音識別裝置:用于對所述采集的動(dòng)車組司機(jī)室的司機(jī)的聲音,進(jìn)行識別,并將識別到的語音命令,對語音命令的類型進(jìn)行判斷,并基于判斷的語音命令反饋到相應(yīng)的交互界面上,
29、揚(yáng)聲器,用于所述語音識別裝置識別出的語音命令進(jìn)行播報(bào)。
30、進(jìn)一步地,所述拾音器采用間隔20cm的麥克風(fēng)陣列。
31、本發(fā)明提供的一種動(dòng)車組司機(jī)室語音交互裝置,提高動(dòng)車組司機(jī)室智能化程度;降低司機(jī)操作復(fù)雜性,減少物理操作的需要,提升駕駛專注度,提供一種緊急情況下應(yīng)急處置的途徑,語音操作指導(dǎo)和建議,為司機(jī)處置各類情況提供便捷,大幅提升司機(jī)駕車體驗(yàn)。
32、語音裝置內(nèi)置于智能綜合顯示屏中,節(jié)省設(shè)備與布線成本,節(jié)省協(xié)議解析、數(shù)據(jù)轉(zhuǎn)發(fā)等軟件開發(fā)成本。
1.一種語音識別方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種語音識別方法,其特征在于:所述待識別的人聲信號轉(zhuǎn)換為文本字符串的過程為:采用語音識別解碼器,基于定制化離線聲學(xué)模型和語言模型,通過深度神經(jīng)網(wǎng)絡(luò)運(yùn)算得到。
3.根據(jù)權(quán)利要求1所述的一種語音識別方法,其特征在于:還包括在所述語音識別方法之前設(shè)置有語音喚醒過程,所述語音喚醒過程如下:通過喚醒引擎判斷音頻輸入與資源文件喚醒詞匹配成功后,激活語音識別引擎。
4.根據(jù)權(quán)利要求1所述的一種語音識別方法,其特征在于:還包括在所述語音識別過程之后設(shè)置有語音播報(bào)過程,所述語音播報(bào)過程通過語音合成引擎依托線性預(yù)測編碼模型將識別到有效動(dòng)作指令信息的轉(zhuǎn)換為文字。
5.一種語音識別裝置,其特征在于:包括:
6.根據(jù)權(quán)利要求1-4其中任一所述的一種動(dòng)車組司機(jī)室語音識別方法的交互方法,包括以下步驟:
7.一種動(dòng)車組司機(jī)室語音交互裝置,其特征在于:包括:
8.一種動(dòng)車組司機(jī)室語音交互系統(tǒng),其特征在于:包括:
9.根據(jù)權(quán)利要求1所述的一種動(dòng)車組司機(jī)室語音交互系統(tǒng),其特征在于:所述拾音器采用間隔20cm的麥克風(fēng)陣列。