最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置與流程

文檔序號(hào):41941870發(fā)布日期:2025-05-16 13:58閱讀:5來源:國(guó)知局
一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置與流程

本技術(shù)涉及語(yǔ)音處理,尤其涉及一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置。


背景技術(shù):

1、在智能家居、車載系統(tǒng)、手機(jī)語(yǔ)音助手、機(jī)器人控制、會(huì)議系統(tǒng)等應(yīng)用場(chǎng)景中,用戶通過與智能化設(shè)備交互來控制智能化設(shè)備變得越來越普遍,語(yǔ)音意圖識(shí)別技術(shù)則用于對(duì)用戶與智能化設(shè)備的交互語(yǔ)音進(jìn)行語(yǔ)音識(shí)別與意圖理解,以便使智能化設(shè)備進(jìn)行準(zhǔn)確響應(yīng)。

2、但是,傳統(tǒng)的語(yǔ)音意圖識(shí)別技術(shù)無法準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別。

3、因此,如何提供一種語(yǔ)音意圖識(shí)別方法,能夠準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別,成為本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。


技術(shù)實(shí)現(xiàn)思路

1、鑒于上述問題,本技術(shù)提供了一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置,以實(shí)現(xiàn)準(zhǔn)確地、快速地對(duì)多通道語(yǔ)音信號(hào)進(jìn)行意圖識(shí)別的目的。具體方案如下:

2、本技術(shù)第一方面提供一種語(yǔ)音意圖識(shí)別方法,包括:

3、獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征;

4、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本;所述多通道語(yǔ)音識(shí)別模型是以多通道語(yǔ)音信號(hào)樣本的聲學(xué)特征為訓(xùn)練樣本,以多通道語(yǔ)音信號(hào)樣本對(duì)應(yīng)的多個(gè)通道的文本標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的;

5、針對(duì)每個(gè)通道的語(yǔ)音識(shí)別文本,基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別,得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果,所述預(yù)設(shè)高頻交互文本庫(kù)中包括至少一個(gè)高頻交互文本的信息,所述意圖識(shí)別模型是以文本樣本為訓(xùn)練樣本,以文本樣本的意圖標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的。

6、在一種可能的實(shí)現(xiàn)中,所述基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別,得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果,包括:

7、將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配,得到匹配結(jié)果;所述匹配結(jié)果用于指示所述預(yù)設(shè)高頻交互文本庫(kù)中是否存在目標(biāo)交互文本與所述通道的語(yǔ)音識(shí)別文本匹配;

8、將所述通道的語(yǔ)音識(shí)別文本輸入所述意圖識(shí)別模型,得到所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果;

9、基于所述匹配結(jié)果,確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。

10、在一種可能的實(shí)現(xiàn)中,所述將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配,得到匹配結(jié)果,包括:

11、獲取所述通道的語(yǔ)音識(shí)別文本的向量;

12、將所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量進(jìn)行相似度計(jì)算,得到所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度;

13、基于所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度,得到匹配結(jié)果。

14、在一種可能的實(shí)現(xiàn)中,所述基于所述匹配結(jié)果,確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果,包括:

15、如果所述匹配結(jié)果用于指示存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配,則確定所述目標(biāo)高頻交互文本對(duì)應(yīng)的意圖為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果;

16、如果所述匹配結(jié)果用于指示不存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配,則確定所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。

17、在一種可能的實(shí)現(xiàn)中,所述獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征,包括:

18、獲取待識(shí)別多通道語(yǔ)音信號(hào);

19、對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行預(yù)處理,得到預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào);

20、對(duì)所述預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行特征提取,得到所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征。

21、在一種可能的實(shí)現(xiàn)中,所述多通道語(yǔ)音識(shí)別模型包括音頻編碼器和音頻解碼器,則所述將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本,包括:

22、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,所述音頻編碼器對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征進(jìn)行編碼,得到各個(gè)通道語(yǔ)音信號(hào)的編碼特征表示;

23、針對(duì)每個(gè)通道語(yǔ)音信號(hào)的編碼特征表示,對(duì)所述通道語(yǔ)音信號(hào)的編碼特征表示進(jìn)行解碼,得到所述通道的語(yǔ)音識(shí)別文本。

24、在一種可能的實(shí)現(xiàn)中,所述預(yù)設(shè)高頻交互文本庫(kù)的構(gòu)建方式,包括:

25、收集高頻交互文本;

26、將所述高頻交互文本進(jìn)行預(yù)處理,得到預(yù)處理后的高頻交互文本;

27、將預(yù)處理后的高頻交互文本進(jìn)行向量化處理,得到預(yù)處理后的高頻交互文本的向量;

28、基于各個(gè)所述預(yù)處理后的高頻交互文本的向量以及對(duì)應(yīng)的意圖,構(gòu)建得到所述高頻交互文本庫(kù)。

29、本技術(shù)第二方面提供一種語(yǔ)音意圖識(shí)別裝置,包括:

30、獲取單元,用于獲取待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征;

31、語(yǔ)音識(shí)別單元,用于將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,得到模型輸出的多個(gè)通道的語(yǔ)音識(shí)別文本;所述多通道語(yǔ)音識(shí)別模型是以多通道語(yǔ)音信號(hào)樣本的聲學(xué)特征為訓(xùn)練樣本,以多通道語(yǔ)音信號(hào)樣本對(duì)應(yīng)的多個(gè)通道的文本標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的;

32、意圖識(shí)別單元,用于針對(duì)每個(gè)通道的語(yǔ)音識(shí)別文本,基于預(yù)設(shè)高頻交互文本庫(kù)以及訓(xùn)練后的意圖識(shí)別模型對(duì)所述通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別,得到所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果,所述預(yù)設(shè)高頻交互文本庫(kù)中包括至少一個(gè)高頻交互文本的信息,所述意圖識(shí)別模型是以文本樣本為訓(xùn)練樣本,以文本樣本的意圖標(biāo)簽為樣本標(biāo)簽訓(xùn)練得到的。

33、在一種可能的實(shí)現(xiàn)中,所述意圖識(shí)別單元,包括:

34、匹配單元,用于將所述通道的語(yǔ)音識(shí)別文本與所述預(yù)設(shè)高頻交互文本庫(kù)進(jìn)行匹配,得到匹配結(jié)果;所述匹配結(jié)果用于指示所述預(yù)設(shè)高頻交互文本庫(kù)中是否存在目標(biāo)交互文本與所述通道的語(yǔ)音識(shí)別文本匹配;

35、識(shí)別單元,用于將所述通道的語(yǔ)音識(shí)別文本輸入所述意圖識(shí)別模型,得到所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果;

36、結(jié)果確定單元,用于基于所述匹配結(jié)果,確定所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。

37、在一種可能的實(shí)現(xiàn)中,所述匹配單元,具體用于:

38、獲取所述通道的語(yǔ)音識(shí)別文本的向量;

39、將所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量進(jìn)行相似度計(jì)算,得到所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度;

40、基于所述通道的語(yǔ)音識(shí)別文本的向量與所述預(yù)設(shè)高頻交互文本庫(kù)中各個(gè)交互文本的向量之間的相似度,得到匹配結(jié)果。

41、在一種可能的實(shí)現(xiàn)中,所述結(jié)果確定單元,具體用于:

42、如果所述匹配結(jié)果用于指示存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配,則確定所述目標(biāo)高頻交互文本對(duì)應(yīng)的意圖為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果;

43、如果所述匹配結(jié)果用于指示不存在目標(biāo)高頻交互文本與所述通道的語(yǔ)音識(shí)別文本匹配,則確定所述意圖識(shí)別模型輸出的意圖識(shí)別結(jié)果為所述通道的語(yǔ)音信號(hào)的意圖識(shí)別結(jié)果。

44、在一種可能的實(shí)現(xiàn)中,所述獲取單元,具體用于:

45、獲取待識(shí)別多通道語(yǔ)音信號(hào);

46、對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行預(yù)處理,得到預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào);

47、對(duì)所述預(yù)處理后的待識(shí)別多通道語(yǔ)音信號(hào)進(jìn)行特征提取,得到所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征。

48、在一種可能的實(shí)現(xiàn)中,所述多通道語(yǔ)音識(shí)別模型包括音頻編碼器和音頻解碼器,則所述語(yǔ)音識(shí)別單元,具體用于:

49、將所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征輸入訓(xùn)練后的多通道語(yǔ)音識(shí)別模型,所述音頻編碼器對(duì)所述待識(shí)別多通道語(yǔ)音信號(hào)的聲學(xué)特征進(jìn)行編碼,得到各個(gè)通道語(yǔ)音信號(hào)的編碼特征表示;

50、針對(duì)每個(gè)通道語(yǔ)音信號(hào)的編碼特征表示,對(duì)所述通道語(yǔ)音信號(hào)的編碼特征表示進(jìn)行解碼,得到所述通道的語(yǔ)音識(shí)別文本。

51、在一種可能的實(shí)現(xiàn)中,所述裝置包括高頻交互文本庫(kù)構(gòu)建單元;

52、所述高頻交互文本庫(kù)構(gòu)建單元,具體用于:

53、收集高頻交互文本;

54、將所述高頻交互文本進(jìn)行預(yù)處理,得到預(yù)處理后的高頻交互文本;

55、將預(yù)處理后的高頻交互文本進(jìn)行向量化處理,得到預(yù)處理后的高頻交互文本的向量;

56、基于各個(gè)所述預(yù)處理后的高頻交互文本的向量以及對(duì)應(yīng)的意圖,構(gòu)建得到所述高頻交互文本庫(kù)。

57、本技術(shù)第三方面提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀指令,當(dāng)所述計(jì)算機(jī)可讀指令在電子設(shè)備上運(yùn)行時(shí),使得所述電子設(shè)備實(shí)現(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。

58、本技術(shù)第四方面提供一種電子設(shè)備,包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器,其中:

59、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;

60、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序,以使所述電子設(shè)備能夠?qū)崿F(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。

61、本技術(shù)第五方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí),能夠使所述電子設(shè)備上述第一方面或第一方面任一實(shí)現(xiàn)方式的語(yǔ)音意圖識(shí)別方法。

62、借由上述技術(shù)方案,本技術(shù)提供的一種語(yǔ)音意圖識(shí)別方法及相關(guān)裝置,本方案中,利用多通道語(yǔ)音識(shí)別模型可以提升多通道語(yǔ)音信號(hào)的識(shí)別效果。另外,一方面基于預(yù)設(shè)高頻交互文本庫(kù)對(duì)各個(gè)通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別能保證高頻意圖被快速識(shí)別出來,另一方面基于訓(xùn)練后的意圖識(shí)別模型對(duì)各個(gè)通道的語(yǔ)音識(shí)別文本進(jìn)行意圖識(shí)別又能保證非高頻意圖的識(shí)別效率和準(zhǔn)確率。因此,本方案能夠準(zhǔn)確地、快速地實(shí)現(xiàn)對(duì)多通道語(yǔ)音信號(hào)的意圖識(shí)別。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1