一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置與流程

文檔序號(hào)：41941870發(fā)布日期：2025-05-16 13:58閱讀：5來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及語(yǔ)音處理，尤其涉及一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置。

背景技術(shù)：

1、在智能家居、車載系統(tǒng)、手機(jī)語(yǔ)音助手、機(jī)器人控制、會(huì)議系統(tǒng)等應(yīng)用場(chǎng)景中，用戶通過與智能化設(shè)備交互來控制智能化設(shè)備變得越來越普遍，語(yǔ)音意圖識(shí)別技術(shù)則用于對(duì)用戶與智能化設(shè)備的交互語(yǔ)音進(jìn)行語(yǔ)音識(shí)別與意圖理解，以便使智能化設(shè)備進(jìn)行準(zhǔn)確響應(yīng)。

2、但是，傳統(tǒng)的語(yǔ)音意圖識(shí)別技術(shù)無法準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別。

3、因此，如何提供一種語(yǔ)音意圖識(shí)別方法，能夠準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別，成為本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、鑒于上述問題，本技術(shù)提供了一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置，以實(shí)現(xiàn)準(zhǔn)確地、快速地對(duì)多通道語(yǔ)音信號(hào)進(jìn)行意圖識(shí)別的目的。具體方案如下：

2、本技術(shù)第一方面提供一種語(yǔ)音意圖識(shí)別方法，包括：

3、獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征；

4、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型，得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本；所述多通道語(yǔ)音識(shí)別模型是以多通道語(yǔ)音信號(hào)樣本的聲學(xué)特征為訓(xùn)練樣本，以多通道語(yǔ)音信號(hào)樣本對(duì)應(yīng)的多個(gè)通道的文本標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的；

5、針對(duì)每個(gè)通道的語(yǔ)音識(shí)別文本，基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別，得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果，所述預(yù)設(shè)高頻交互文本庫(kù)中包括至少一個(gè)高頻交互文本的信息，所述意圖識(shí)別模型是以文本樣本為訓(xùn)練樣本，以文本樣本的意圖標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的。

6、在一種可能的實(shí)現(xiàn)中，所述基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別，得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果，包括：

7、將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配，得到匹配結(jié)果；所述匹配結(jié)果用于指示所述預(yù)設(shè)高頻交互文本庫(kù)中是否存在目標(biāo)交互文本與所述通道的語(yǔ)音識(shí)別文本匹配；

8、將所述通道的語(yǔ)音識(shí)別文本輸入所述意圖識(shí)別模型，得到所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果；

9、基于所述匹配結(jié)果，確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。

10、在一種可能的實(shí)現(xiàn)中，所述將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配，得到匹配結(jié)果，包括：

11、獲取所述通道的語(yǔ)音識(shí)別文本的向量；

12、將所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量進(jìn)行相似度計(jì)算，得到所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度；

13、基于所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度，得到匹配結(jié)果。

14、在一種可能的實(shí)現(xiàn)中，所述基于所述匹配結(jié)果，確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果，包括：

15、如果所述匹配結(jié)果用于指示存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配，則確定所述目標(biāo)高頻交互文本對(duì)應(yīng)的意圖為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果；

16、如果所述匹配結(jié)果用于指示不存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配，則確定所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。

17、在一種可能的實(shí)現(xiàn)中，所述獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征，包括：

18、獲取待識(shí)別多通道語(yǔ)音信號(hào)；

19、對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行預(yù)處理，得到預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào)；

20、對(duì)所述預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行特征提取，得到所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征。

21、在一種可能的實(shí)現(xiàn)中，所述多通道語(yǔ)音識(shí)別模型包括音頻編碼器和音頻解碼器，則所述將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型，得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本，包括：

22、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型，所述音頻編碼器對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征進(jìn)行編碼，得到各個(gè)通道語(yǔ)音信號(hào)的編碼特征表示；

23、針對(duì)每個(gè)通道語(yǔ)音信號(hào)的編碼特征表示，對(duì)所述通道語(yǔ)音信號(hào)的編碼特征表示進(jìn)行解碼，得到所述通道的語(yǔ)音識(shí)別文本。

24、在一種可能的實(shí)現(xiàn)中，所述預(yù)設(shè)高頻交互文本庫(kù)的構(gòu)建方式，包括：

25、收集高頻交互文本；

26、將所述高頻交互文本進(jìn)行預(yù)處理，得到預(yù)處理后的高頻交互文本；

27、將預(yù)處理后的高頻交互文本進(jìn)行向量化處理，得到預(yù)處理后的高頻交互文本的向量；

28、基于各個(gè)所述預(yù)處理后的高頻交互文本的向量以及對(duì)應(yīng)的意圖，構(gòu)建得到所述高頻交互文本庫(kù)。

29、本技術(shù)第二方面提供一種語(yǔ)音意圖識(shí)別裝置，包括：

30、獲取單元，用于獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征；

31、語(yǔ)音識(shí)別單元，用于將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型，得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本；所述多通道語(yǔ)音識(shí)別模型是以多通道語(yǔ)音信號(hào)樣本的聲學(xué)特征為訓(xùn)練樣本，以多通道語(yǔ)音信號(hào)樣本對(duì)應(yīng)的多個(gè)通道的文本標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的；

32、意圖識(shí)別單元，用于針對(duì)每個(gè)通道的語(yǔ)音識(shí)別文本，基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別，得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果，所述預(yù)設(shè)高頻交互文本庫(kù)中包括至少一個(gè)高頻交互文本的信息，所述意圖識(shí)別模型是以文本樣本為訓(xùn)練樣本，以文本樣本的意圖標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的。

33、在一種可能的實(shí)現(xiàn)中，所述意圖識(shí)別單元，包括：

34、匹配單元，用于將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配，得到匹配結(jié)果；所述匹配結(jié)果用于指示所述預(yù)設(shè)高頻交互文本庫(kù)中是否存在目標(biāo)交互文本與所述通道的語(yǔ)音識(shí)別文本匹配；

35、識(shí)別單元，用于將所述通道的語(yǔ)音識(shí)別文本輸入所述意圖識(shí)別模型，得到所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果；

36、結(jié)果確定單元，用于基于所述匹配結(jié)果，確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。

37、在一種可能的實(shí)現(xiàn)中，所述匹配單元，具體用于：

38、獲取所述通道的語(yǔ)音識(shí)別文本的向量；

39、將所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量進(jìn)行相似度計(jì)算，得到所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度；

40、基于所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度，得到匹配結(jié)果。

41、在一種可能的實(shí)現(xiàn)中，所述結(jié)果確定單元，具體用于：

42、如果所述匹配結(jié)果用于指示存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配，則確定所述目標(biāo)高頻交互文本對(duì)應(yīng)的意圖為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果；

43、如果所述匹配結(jié)果用于指示不存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配，則確定所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。

44、在一種可能的實(shí)現(xiàn)中，所述獲取單元，具體用于：

45、獲取待識(shí)別多通道語(yǔ)音信號(hào)；

46、對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行預(yù)處理，得到預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào)；

47、對(duì)所述預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行特征提取，得到所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征。

48、在一種可能的實(shí)現(xiàn)中，所述多通道語(yǔ)音識(shí)別模型包括音頻編碼器和音頻解碼器，則所述語(yǔ)音識(shí)別單元，具體用于：

49、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型，所述音頻編碼器對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征進(jìn)行編碼，得到各個(gè)通道語(yǔ)音信號(hào)的編碼特征表示；

50、針對(duì)每個(gè)通道語(yǔ)音信號(hào)的編碼特征表示，對(duì)所述通道語(yǔ)音信號(hào)的編碼特征表示進(jìn)行解碼，得到所述通道的語(yǔ)音識(shí)別文本。

51、在一種可能的實(shí)現(xiàn)中，所述裝置包括高頻交互文本庫(kù)構(gòu)建單元；

52、所述高頻交互文本庫(kù)構(gòu)建單元，具體用于：

53、收集高頻交互文本；

54、將所述高頻交互文本進(jìn)行預(yù)處理，得到預(yù)處理后的高頻交互文本；

55、將預(yù)處理后的高頻交互文本進(jìn)行向量化處理，得到預(yù)處理后的高頻交互文本的向量；

56、基于各個(gè)所述預(yù)處理后的高頻交互文本的向量以及對(duì)應(yīng)的意圖，構(gòu)建得到所述高頻交互文本庫(kù)。

57、本技術(shù)第三方面提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)可讀指令，當(dāng)所述計(jì)算機(jī)可讀指令在電子設(shè)備上運(yùn)行時(shí)，使得所述電子設(shè)備實(shí)現(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。

58、本技術(shù)第四方面提供一種電子設(shè)備，包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器，其中：

59、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序；

60、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序，以使所述電子設(shè)備能夠?qū)崿F(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。

61、本技術(shù)第五方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序，當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí)，能夠使所述電子設(shè)備上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。

62、借由上述技術(shù)方案，本技術(shù)提供的一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置，本方案中，利用多通道語(yǔ)音識(shí)別模型可以提升多通道語(yǔ)音信號(hào)的識(shí)別效果。另外，一方面基于預(yù)設(shè)高頻交互文本庫(kù)對(duì)各個(gè)通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別能保證高頻意圖被快速識(shí)別出來，另一方面基于訓(xùn)練后的意圖識(shí)別模型對(duì)各個(gè)通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別又能保證非高頻意圖的識(shí)別效率和準(zhǔn)確率。因此，本方案能夠準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高欣建,許麗,戚婷,熊世富,殷兵
技術(shù)所有人：科大訊飛股份有限公司
我是此專利的發(fā)明人

上一篇：一種包裝盒盒口密封機(jī)構(gòu)及飲品包裝盒的制作方法
上一篇：一種用于燈具的散熱結(jié)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置與流程