本技術(shù)涉及語(yǔ)音處理,尤其涉及一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置。
背景技術(shù):
1、在智能家居、車載系統(tǒng)、手機(jī)語(yǔ)音助手、機(jī)器人控制、會(huì)議系統(tǒng)等應(yīng)用場(chǎng)景中,用戶通過與智能化設(shè)備交互來控制智能化設(shè)備變得越來越普遍,語(yǔ)音意圖識(shí)別技術(shù)則用于對(duì)用戶與智能化設(shè)備的交互語(yǔ)音進(jìn)行語(yǔ)音識(shí)別與意圖理解,以便使智能化設(shè)備進(jìn)行準(zhǔn)確響應(yīng)。
2、但是,傳統(tǒng)的語(yǔ)音意圖識(shí)別技術(shù)無法準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別。
3、因此,如何提供一種語(yǔ)音意圖識(shí)別方法,能夠準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別,成為本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本技術(shù)提供了一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置,以實(shí)現(xiàn)準(zhǔn)確地、快速地對(duì)多通道語(yǔ)音信號(hào)進(jìn)行意圖識(shí)別的目的。具體方案如下:
2、本技術(shù)第一方面提供一種語(yǔ)音意圖識(shí)別方法,包括:
3、獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征;
4、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本;所述多通道語(yǔ)音識(shí)別模型是以多通道語(yǔ)音信號(hào)樣本的聲學(xué)特征為訓(xùn)練樣本,以多通道語(yǔ)音信號(hào)樣本對(duì)應(yīng)的多個(gè)通道的文本標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的;
5、針對(duì)每個(gè)通道的語(yǔ)音識(shí)別文本,基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別,得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果,所述預(yù)設(shè)高頻交互文本庫(kù)中包括至少一個(gè)高頻交互文本的信息,所述意圖識(shí)別模型是以文本樣本為訓(xùn)練樣本,以文本樣本的意圖標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的。
6、在一種可能的實(shí)現(xiàn)中,所述基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別,得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果,包括:
7、將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配,得到匹配結(jié)果;所述匹配結(jié)果用于指示所述預(yù)設(shè)高頻交互文本庫(kù)中是否存在目標(biāo)交互文本與所述通道的語(yǔ)音識(shí)別文本匹配;
8、將所述通道的語(yǔ)音識(shí)別文本輸入所述意圖識(shí)別模型,得到所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果;
9、基于所述匹配結(jié)果,確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。
10、在一種可能的實(shí)現(xiàn)中,所述將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配,得到匹配結(jié)果,包括:
11、獲取所述通道的語(yǔ)音識(shí)別文本的向量;
12、將所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量進(jìn)行相似度計(jì)算,得到所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度;
13、基于所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度,得到匹配結(jié)果。
14、在一種可能的實(shí)現(xiàn)中,所述基于所述匹配結(jié)果,確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果,包括:
15、如果所述匹配結(jié)果用于指示存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配,則確定所述目標(biāo)高頻交互文本對(duì)應(yīng)的意圖為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果;
16、如果所述匹配結(jié)果用于指示不存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配,則確定所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。
17、在一種可能的實(shí)現(xiàn)中,所述獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征,包括:
18、獲取待識(shí)別多通道語(yǔ)音信號(hào);
19、對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行預(yù)處理,得到預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào);
20、對(duì)所述預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行特征提取,得到所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征。
21、在一種可能的實(shí)現(xiàn)中,所述多通道語(yǔ)音識(shí)別模型包括音頻編碼器和音頻解碼器,則所述將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本,包括:
22、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,所述音頻編碼器對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征進(jìn)行編碼,得到各個(gè)通道語(yǔ)音信號(hào)的編碼特征表示;
23、針對(duì)每個(gè)通道語(yǔ)音信號(hào)的編碼特征表示,對(duì)所述通道語(yǔ)音信號(hào)的編碼特征表示進(jìn)行解碼,得到所述通道的語(yǔ)音識(shí)別文本。
24、在一種可能的實(shí)現(xiàn)中,所述預(yù)設(shè)高頻交互文本庫(kù)的構(gòu)建方式,包括:
25、收集高頻交互文本;
26、將所述高頻交互文本進(jìn)行預(yù)處理,得到預(yù)處理后的高頻交互文本;
27、將預(yù)處理后的高頻交互文本進(jìn)行向量化處理,得到預(yù)處理后的高頻交互文本的向量;
28、基于各個(gè)所述預(yù)處理后的高頻交互文本的向量以及對(duì)應(yīng)的意圖,構(gòu)建得到所述高頻交互文本庫(kù)。
29、本技術(shù)第二方面提供一種語(yǔ)音意圖識(shí)別裝置,包括:
30、獲取單元,用于獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征;
31、語(yǔ)音識(shí)別單元,用于將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本;所述多通道語(yǔ)音識(shí)別模型是以多通道語(yǔ)音信號(hào)樣本的聲學(xué)特征為訓(xùn)練樣本,以多通道語(yǔ)音信號(hào)樣本對(duì)應(yīng)的多個(gè)通道的文本標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的;
32、意圖識(shí)別單元,用于針對(duì)每個(gè)通道的語(yǔ)音識(shí)別文本,基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別,得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果,所述預(yù)設(shè)高頻交互文本庫(kù)中包括至少一個(gè)高頻交互文本的信息,所述意圖識(shí)別模型是以文本樣本為訓(xùn)練樣本,以文本樣本的意圖標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的。
33、在一種可能的實(shí)現(xiàn)中,所述意圖識(shí)別單元,包括:
34、匹配單元,用于將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配,得到匹配結(jié)果;所述匹配結(jié)果用于指示所述預(yù)設(shè)高頻交互文本庫(kù)中是否存在目標(biāo)交互文本與所述通道的語(yǔ)音識(shí)別文本匹配;
35、識(shí)別單元,用于將所述通道的語(yǔ)音識(shí)別文本輸入所述意圖識(shí)別模型,得到所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果;
36、結(jié)果確定單元,用于基于所述匹配結(jié)果,確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。
37、在一種可能的實(shí)現(xiàn)中,所述匹配單元,具體用于:
38、獲取所述通道的語(yǔ)音識(shí)別文本的向量;
39、將所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量進(jìn)行相似度計(jì)算,得到所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度;
40、基于所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度,得到匹配結(jié)果。
41、在一種可能的實(shí)現(xiàn)中,所述結(jié)果確定單元,具體用于:
42、如果所述匹配結(jié)果用于指示存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配,則確定所述目標(biāo)高頻交互文本對(duì)應(yīng)的意圖為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果;
43、如果所述匹配結(jié)果用于指示不存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配,則確定所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。
44、在一種可能的實(shí)現(xiàn)中,所述獲取單元,具體用于:
45、獲取待識(shí)別多通道語(yǔ)音信號(hào);
46、對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行預(yù)處理,得到預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào);
47、對(duì)所述預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行特征提取,得到所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征。
48、在一種可能的實(shí)現(xiàn)中,所述多通道語(yǔ)音識(shí)別模型包括音頻編碼器和音頻解碼器,則所述語(yǔ)音識(shí)別單元,具體用于:
49、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,所述音頻編碼器對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征進(jìn)行編碼,得到各個(gè)通道語(yǔ)音信號(hào)的編碼特征表示;
50、針對(duì)每個(gè)通道語(yǔ)音信號(hào)的編碼特征表示,對(duì)所述通道語(yǔ)音信號(hào)的編碼特征表示進(jìn)行解碼,得到所述通道的語(yǔ)音識(shí)別文本。
51、在一種可能的實(shí)現(xiàn)中,所述裝置包括高頻交互文本庫(kù)構(gòu)建單元;
52、所述高頻交互文本庫(kù)構(gòu)建單元,具體用于:
53、收集高頻交互文本;
54、將所述高頻交互文本進(jìn)行預(yù)處理,得到預(yù)處理后的高頻交互文本;
55、將預(yù)處理后的高頻交互文本進(jìn)行向量化處理,得到預(yù)處理后的高頻交互文本的向量;
56、基于各個(gè)所述預(yù)處理后的高頻交互文本的向量以及對(duì)應(yīng)的意圖,構(gòu)建得到所述高頻交互文本庫(kù)。
57、本技術(shù)第三方面提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀指令,當(dāng)所述計(jì)算機(jī)可讀指令在電子設(shè)備上運(yùn)行時(shí),使得所述電子設(shè)備實(shí)現(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。
58、本技術(shù)第四方面提供一種電子設(shè)備,包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器,其中:
59、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;
60、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序,以使所述電子設(shè)備能夠?qū)崿F(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。
61、本技術(shù)第五方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí),能夠使所述電子設(shè)備上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。
62、借由上述技術(shù)方案,本技術(shù)提供的一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置,本方案中,利用多通道語(yǔ)音識(shí)別模型可以提升多通道語(yǔ)音信號(hào)的識(shí)別效果。另外,一方面基于預(yù)設(shè)高頻交互文本庫(kù)對(duì)各個(gè)通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別能保證高頻意圖被快速識(shí)別出來,另一方面基于訓(xùn)練后的意圖識(shí)別模型對(duì)各個(gè)通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別又能保證非高頻意圖的識(shí)別效率和準(zhǔn)確率。因此,本方案能夠準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別。