最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種語音識別的校正方法及裝置與流程

文檔序號:12724104閱讀:490來源:國知局
一種語音識別的校正方法及裝置與流程

本發(fā)明涉及語音處理技術(shù),尤其涉及一種語音識別的校正方法及裝置。



背景技術(shù):

隨著科技的發(fā)展,人類已進入人工智能時代,人工智能用于延展人類的智慧和能力,模擬人類的思維過程和智能行為,使機器能夠勝任通常需要人類智能才能完成的復雜工作。人工智能的其中一個重要分支包括語音識別、文字翻譯以及語音合成,語音識別技術(shù)是機器通過識別和理解過程把輸入的語音信號轉(zhuǎn)變成相應的文本,實現(xiàn)人與機器的交流;文字翻譯技術(shù)是將語音識別到的詞語按照正確的語法翻譯為語句;語音合成技術(shù)(Text to Speech,簡稱TTS)是將機器產(chǎn)生或外部輸入的文字信息轉(zhuǎn)變?yōu)轭愃迫祟惐磉_方式的語音并輸出。

目前,科大訊飛、微軟、谷歌等公司研制出的語音識別技術(shù)是基于具有龐大的云數(shù)據(jù)處理能力的大數(shù)據(jù)平臺計算而來,數(shù)據(jù)量具有大而廣的特點,可以基本實現(xiàn)人機語言交互,但是,針對特定應用場景下的特定應用語句的識別和翻譯往往是不夠準確的。

現(xiàn)有技術(shù)的校正方法中,通常采用統(tǒng)計學或機器學習的方法,逐步過濾獲取校正集合。但是這種方法由于缺乏針對性,對每個用戶的輸入進行校正的過程基本是相同的,因此校正的準確性不高。例如,接收到不同用戶的語音“l(fā)ihua”,通過初始識別獲取的對應文本為“李華”,可能通通校正為“梨花”、“理化”或者“禮花”,即沒有根據(jù)不同的應用場景更具有針對性的獲取校正結(jié)果。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提供一種語音識別的校正方法及裝置,以解決現(xiàn)有技術(shù)中對語音識別結(jié)果校正不準確的問題。

第一方面,本發(fā)明實施例提供了一種語音識別的校正方法,包括:

根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景;

在所述當前應用場景下對檢測到的聲音進行語音識別;

基于所述當前應用場景對應的深度學習模型對語音識別得到的語料進行深度學習,獲取學習結(jié)果;

根據(jù)所述學習結(jié)果對語音識別的結(jié)果進行校正。

進一步地,所述根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景,包括以下的至少一種:

對檢測到的聲音進行語音識別,判斷語音識別得到語料所屬的語料集對應的應用場景;

通過定位模塊檢測移動終端所在的位置,獲取用戶所處的當前應用場景;

通過藍牙數(shù)字信號處理設備檢測應用場景的特征,根據(jù)所述特征確定當前應用場景。

進一步地,所述根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景之前,還包括:

使用聚類算法對各個應用場景下的語料庫進行分組,根據(jù)所述分組的結(jié)果提取語料特征;

對所述語料特征進行訓練,創(chuàng)建對應各個應用場景的深度學習模型。

進一步地,所述根據(jù)所述學習結(jié)果對語音識別的結(jié)果進行校正,包括:

如果所述學習結(jié)果為所述語音識別的結(jié)果與當前應用場景不匹配,將所述語音識別的結(jié)果校正為當前應用場景下對應的結(jié)果。

進一步地,所述語料庫包括:已存儲的用戶輸入的語料、經(jīng)過篩選的語料和/或校正語音識別的結(jié)果得到的語料。

第二方面,本發(fā)明實施例還提供了一種語音識別的校正裝置,包括:

場景確定模塊,用于根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景;

語音識別模塊,用于在所述當前應用場景下對檢測到的聲音進行語音識別;

深度學習模塊,用于基于所述當前應用場景對應的深度學習模型對語音識別得到的語料進行深度學習,獲取學習結(jié)果;

校正模塊,用于根據(jù)所述學習結(jié)果對語音識別的結(jié)果進行校正。

進一步地,所述場景確定模塊包括:

第一確定單元,用于對檢測到的聲音進行語音識別,判斷語音識別得到語料所屬的語料集對應的應用場景;

第二確定單元,用于通過定位模塊檢測移動終端所在的位置,獲取用戶所處的當前應用場景;

第三確定單元,用于通過藍牙數(shù)字信號處理設備檢測應用場景的特征,根據(jù)所述特征確定當前應用場景。

進一步地,所述裝置還包括:

特征提取單元,用于使用聚類算法對各個應用場景下的語料庫進行分組,根據(jù)所述分組的結(jié)果提取語料特征;

模型創(chuàng)建單元,用于對所述語料特征進行訓練,創(chuàng)建對應各個應用場景的深度學習模型。

進一步地,所述校正模塊包括:

校正單元,用于如果所述學習結(jié)果為所述語音識別的結(jié)果與當前應用場景不匹配,將所述語音識別的結(jié)果校正為當前應用場景下對應的結(jié)果。

進一步地,所述語料庫包括:

已存儲的用戶輸入的語料、經(jīng)過篩選的語料和/或校正語音識別的結(jié)果得到的語料。

本發(fā)明實施例提供了一種語音識別的校正方法及裝置,通過獲取檢測數(shù)據(jù)來確定當前應用場景,將語音識別得到的語料在當前應用場景對應的深度學習模型中進行深度學習,對與當前應用場景不匹配的語音識別的結(jié)果進行校正,替換為正確的文字翻譯結(jié)果,能夠滿足特定應用場景語音識別的要求,具有針對性的對各個應用場景進行語音識別,大大提升了語音識別的準確性,進而促進了人機交互,使人與機器能夠有效的溝通交流,提升了用戶體驗感,可應用范圍廣泛。

附圖說明

圖1是本發(fā)明實施例一中的一種語音識別的校正方法的流程圖;

圖2是本發(fā)明實施例二中的一種語音識別的校正方法的流程圖;

圖3a是本發(fā)明實施例三中的一種語音識別的校正方法的流程圖;

圖3b是本發(fā)明實施例三中的一種語音識別的校正方法的示意圖;

圖4是本發(fā)明實施例四中的一種語音識別的校正方法的流程圖;

圖5是本發(fā)明實施例五中的一種語音識別的校正裝置的結(jié)構(gòu)示意圖。

具體實施方式

下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部結(jié)構(gòu)。

實施例一

圖1為本發(fā)明實施例一提供的一種語音識別的校正方法的流程圖,本實施例可適用于根據(jù)當前應用場景來進行校正語音識別的結(jié)果的情況,該方法可以由一種語音識別的校正裝置來執(zhí)行,該裝置可以采用軟件和/或硬件的方式實現(xiàn),一般集成于具有語音識別功能的設備中。

本發(fā)明實施例一的方法具體包括:

S101、根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景。

中國的語言博大精深,對漢語進行語音識別是具有一定難度的,哪怕僅僅是一個語音音調(diào)的不同,甚至說即使是語音的音調(diào)完全相同,所要表達的意義就是截然不同的,所以,需要檢測用戶所處于的當前應用場景,根據(jù)不同的應用場景來對用戶使用的特定應用場景下的語料進行識別和判斷,使語音識別的最終結(jié)果更加準確。使用設定檢測設備能夠檢測出當前的應用環(huán)境,從而確定用戶所處于的當前應用場景。

S102、在所述當前應用場景下對檢測到的聲音進行語音識別。

具體的,在確定了用戶所處于的當前應用場景之后,對檢測到的聲音進行語音識別,獲取語音識別的結(jié)果,即獲取通過語音識別得到的語料。

S103、基于所述當前應用場景對應的深度學習模型對語音識別得到的語料進行深度學習,獲取學習結(jié)果。

具體的,首先創(chuàng)建對應各個應用場景的深度學習模型,建立模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,對語音識別得到的語料進行深度的學習和分析,包括語義、語音、語調(diào)、語境以及語法等,判斷語音識別的初步結(jié)果和當前的應用場景是否是匹配的,判斷語音識別得到的語料是否是準確的。

S104、根據(jù)所述學習結(jié)果對語音識別的結(jié)果進行校正。

具體的,經(jīng)過深度學習后,如果語音識別得到的語料是不準確的,則對語音識別的結(jié)果進行校正,將語音識別結(jié)果翻譯為正確的文字,替換之前的語音識別結(jié)果。

本實施例中,首先確定用戶所處于的當前應用場景,結(jié)合當前應用場景,對語音識別得到的語料進行深度學習,如果語音識別得到的語料是不準確的,則根據(jù)深度學習的結(jié)果,依據(jù)當前應用場景,對語音識別的結(jié)果進行校正。例如:用戶輸入的語料為“程序員在電腦前寫代碼”,可能由于用戶發(fā)出的口音不標準、語速過快等原因,大數(shù)據(jù)語音引擎的識別結(jié)果為“程序員在電腦前寫大媽”,根據(jù)“程序員”、“電腦”等詞匯可以確定當前的應用場景為程序員的工作場景,通過在深度學習模型中對大數(shù)據(jù)語音引擎的識別結(jié)果進行深度學習,將“寫大媽”校正為“寫代碼”,獲取正確的語音識別結(jié)果。

本發(fā)明實施例一提供的一種語音識別的校正方法,能夠滿足特定應用場景語音識別的要求,具有針對性的對各個應用場景進行語音識別,大大提升了語音識別的準確性,進而促進了人機交互,使人與機器能夠有效的溝通交流,提升了用戶體驗感,可應用范圍廣泛。

實施例二

圖2為本發(fā)明實施例二提供的一種語音識別的校正方法的流程圖,本發(fā)明實施例二以實施例一為基礎進行了優(yōu)化,具體是對根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景的操作進一步優(yōu)化,如圖2所示,本發(fā)明實施例二的具體包括:

S201、對檢測到的聲音進行語音識別,判斷語音識別得到語料所屬的語料集對應的應用場景。

具體的,收集并存儲與各個應用場景具有映射關系的語料集,語料集即所有收集到的語料的集合,根據(jù)用戶輸入的語料,對檢測到的聲音進行語音識別,并與語料集的內(nèi)容進行比對,查找并判斷出語音識別得到語料所屬于的語料集對應的當前應用場景??梢酝ㄟ^收集特定應用場景的關鍵詞,建立該關鍵詞與其應用場景的映射關系。例如,收集餐廳場景的所有常用語、菜譜名等語料,建立該語料與餐廳應用場景的映射關系。

S202、通過定位模塊檢測移動終端所在的位置,獲取用戶所處的當前應用場景。

具體的,可以通過用戶使用的移動終端中帶有定位功能的模塊檢測用戶所在的位置,根據(jù)檢測結(jié)果確定用戶所處于的當前應用場景。帶有定位功能的模塊可以采用全球定位系統(tǒng)(Global Positioning System,簡稱GPS)、藍牙定位技術(shù)以及連接移動數(shù)據(jù)流量或無線局域網(wǎng)通過地圖軟件定位等定位方法進行當前應用場景的定位。

S203、通過藍牙數(shù)字信號處理設備檢測應用場景的特征,根據(jù)所述特征確定當前應用場景。

具體的,使用藍牙數(shù)字信號處理設備中的傳感器進行當前應用場景信號的采集,根據(jù)采集信號檢測應用場景的特征,例如,可以通過溫度傳感器檢測環(huán)境的溫度來判斷是室內(nèi)環(huán)境或者室外環(huán)境,以此來確定用戶處于的當前應用場景。

本實施例中,可以采用全球定位系統(tǒng)定位用戶所處于的位置,例如:定位到用戶位于某一個餐廳,那么可以判定當前應用場景為餐廳,則語音識別的結(jié)果應該與餐廳場景有關。

值得說明的是,上述三個方法用于確定當前應用場景,可以根據(jù)實際應用情況,選擇其中的任意一種或任意兩種或全部的方法來進行當前應用場景的確定。

S204、在所述當前應用場景下對檢測到的聲音進行語音識別。

S205、基于所述當前應用場景對應的深度學習模型對語音識別得到的語料進行深度學習,獲取學習結(jié)果。

S206、根據(jù)所述學習結(jié)果對語音識別的結(jié)果進行校正。

本發(fā)明實施例二提供的一種語音識別的校正方法,能夠準確的獲取用戶所處于的當前應用場景,根據(jù)當前應用場景針對性的進行語音識別,提升了語音識別的準確性,提升了用戶與產(chǎn)品的實際交互體驗。

實施例三

圖3a為本發(fā)明實施例三提供的一種語音識別的校正方法的流程圖,本發(fā)明實施例三以上述各實施例為基礎進行了優(yōu)化改進,對根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景之前的操作進行了進一步說明,如圖3a所示,本發(fā)明實施例三的方法具體包括:

S301、使用聚類算法對各個應用場景下的語料庫進行分組,根據(jù)所述分組的結(jié)果提取語料特征。

優(yōu)選的,所述語料庫包括:已存儲的用戶輸入的語料、經(jīng)過篩選的語料和/或校正語音識別的結(jié)果得到的語料。

具體的,語料庫作為深度學習模型中的基礎數(shù)據(jù),可以為已經(jīng)存儲的用戶輸入的語料,和/或?qū)I(yè)的語音技術(shù)商根據(jù)通過各類話題篩選出來的語料,和/或?qū)φZ音識別結(jié)果進行語音合成,分析和校正語音合成結(jié)果得到的語料。使用劃分法或?qū)哟畏ǖ染垲愃惴▽φZ料庫進行分組,提取每組語料的特征。

S302、對所述語料特征進行訓練,創(chuàng)建對應各個應用場景的深度學習模型。

具體的,在模型中輸入語料庫,通過神經(jīng)網(wǎng)絡對語料的特征進行訓練,模擬人腦的思維方式,創(chuàng)建針對各個應用場景的深度學習模型。對于每一個語料,結(jié)合其應用場景,判斷其語音識別的結(jié)果的準確性。

S303、根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景。

S304、在所述當前應用場景下對檢測到的聲音進行語音識別。

S305、基于所述當前應用場景對應的深度學習模型對語音識別得到的語料進行深度學習,獲取學習結(jié)果。

S306、根據(jù)所述學習結(jié)果對語音識別的結(jié)果進行校正。

本實施例中,圖3b為本發(fā)明實施例三提供的一種語音識別的校正方法的示意圖,參考圖3b,可以通過用戶使用的移動終端的定位功能、藍牙數(shù)字信號處理設備以及查找輸入語料的匹配應用場景共同獲取用戶的當前地理位置,確定用戶所處于的當前應用場景。將已存儲的用戶語料、語音技術(shù)商提供的分類語料以及對語音合成結(jié)果進行校正后的語料輸入至模型進行訓練,創(chuàng)建對應各個應用場景的深度學習模型。將大數(shù)據(jù)語音引擎的語音識別的結(jié)果輸入至深度學習模型,根據(jù)當前應用場景,對語音識別的結(jié)果進行糾錯,并且對易錯點進行預測,對錯誤的語音識別的結(jié)果進行校正,用正確的翻譯結(jié)果替換原有錯誤的翻譯結(jié)果。

本發(fā)明實施例三提供的一種語音識別的校正方法,通過創(chuàng)建深度學習模型使當前應用場景識別更加準確,從而對語音識別的結(jié)果進行準確性的判斷,校正不準確的語音識別結(jié)果,提升了語音識別的準確性。

實施例四

圖4為本發(fā)明實施例四提供的一種語音識別的校正方法的流程圖,本發(fā)明實施例四以上述各實施例為基礎進行了優(yōu)化改進,對根據(jù)所述學習結(jié)果對語音識別的結(jié)果進行校正的操作進行了進一步說明,如圖4所示,本發(fā)明實施例四的方法具體包括:

S401、根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景。

S402、在所述當前應用場景下對檢測到的聲音進行語音識別。

S403、基于所述當前應用場景對應的深度學習模型對語音識別得到的語料進行深度學習,獲取學習結(jié)果。

S404、如果所述學習結(jié)果為所述語音識別的結(jié)果與當前應用場景不匹配,將所述語音識別的結(jié)果校正為當前應用場景下對應的結(jié)果。

具體的,驗證大數(shù)據(jù)語音引擎輸出的語音識別的結(jié)果與當前的應用場景是否匹配,如果不匹配,對語音識別的結(jié)果進行校正,校正為與當前應用場景相匹配的結(jié)果,并翻譯為正確的文字,替換原有錯誤的結(jié)果。

本發(fā)明實施例四提供的一種語音識別的校正方法,對與應用場景不匹配的語音識別結(jié)果進行校正,提高了特定應用場景下語音識別和翻譯的準確性,優(yōu)化了系統(tǒng)邏輯。

實施例五

圖5是本發(fā)明實施例五中的一種語音識別的校正裝置的結(jié)構(gòu)示意圖,該裝置應用于校正與應用場景不匹配的語音識別結(jié)果。如圖5所示,裝置包括:場景確定模塊501、語音識別模塊502、深度學習模塊503以及校正模塊504。

場景確定模塊501,用于根據(jù)設定檢測設備的檢測數(shù)據(jù)確定用戶所處的當前應用場景;

語音識別模塊502,用于在所述當前應用場景下對檢測到的聲音進行語音識別;

深度學習模塊503,用于基于所述當前應用場景對應的深度學習模型對語音識別得到的語料進行深度學習,獲取學習結(jié)果;

校正模塊504,用于根據(jù)所述學習結(jié)果對語音識別的結(jié)果進行校正。

本發(fā)明實施例五通過獲取檢測數(shù)據(jù)來確定當前應用場景,將語音識別得到的語料在當前應用場景對應的深度學習模型中進行深度學習,對與當前應用場景不匹配的語音識別的結(jié)果進行校正,替換為正確的文字翻譯結(jié)果,能夠滿足特定應用場景語音識別的要求,具有針對性的對各個應用場景進行語音識別,大大提升了語音識別的準確性,進而促進了人機交互,使人與機器能夠有效的溝通交流,提升了用戶體驗感,可應用范圍廣泛。

在上述各實施例的基礎上,所述場景確定模塊501可以包括:

第一確定單元,用于對檢測到的聲音進行語音識別,判斷語音識別得到語料所屬的語料集對應的應用場景;

第二確定單元,用于通過定位模塊檢測移動終端所在的位置,獲取用戶所處的當前應用場景;

第三確定單元,用于通過藍牙數(shù)字信號處理設備檢測應用場景的特征,根據(jù)所述特征確定當前應用場景。

在上述各實施例的基礎上,所述裝置還可以包括:

特征提取單元,用于使用聚類算法對各個應用場景下的語料庫進行分組,根據(jù)所述分組的結(jié)果提取語料特征;

模型創(chuàng)建單元,用于對所述語料特征進行訓練,創(chuàng)建對應各個應用場景的深度學習模型。

在上述各實施例的基礎上,所述校正模塊504可以包括:

校正單元,用于如果所述學習結(jié)果為所述語音識別的結(jié)果與當前應用場景不匹配,將所述語音識別的結(jié)果校正為當前應用場景下對應的結(jié)果。

在上述各實施例的基礎上,所述語料庫可以包括:

已存儲的用戶輸入的語料、經(jīng)過篩選的語料和/或校正語音識別的結(jié)果得到的語料。

本實施例中,通過第一確定單元查找與輸入語料匹配的應用場景、第二確定單元定位用戶的地理位置以及第三確定單元檢測應用場景特征的方法在場景確定模塊中確定用戶處于的當前應用場景,在語音識別模塊中,對當前應用場景下檢測到的聲音進行識別,得到識別結(jié)果。將已經(jīng)存儲的用戶輸入的語料,和/或?qū)I(yè)的語音技術(shù)商根據(jù)通過各類話題篩選出來的語料,和/或?qū)φZ音識別結(jié)果進行語音合成,分析和校正語音合成結(jié)果得到的語料作為語料庫的基礎數(shù)據(jù)輸入至模型進行訓練,創(chuàng)建各個應用場景對應的深度學習模型,在深度學習模塊中,基于當前應用場景對應的深度學習模型對語音識別得到的語料進行深度學習,如果學習結(jié)果為語音識別的結(jié)果與當前應用場景不匹配,則在校正模塊的校正單元對語音識別的結(jié)果進行校正,并翻譯為正確的文字,替換原有的翻譯結(jié)果。

本發(fā)明實施例五提供的一種語音識別的校正裝置,提升了語音識別的準確性,促進了人機交互的有效溝通,同時,提升了語音識別系統(tǒng)的邏輯,可應用范圍廣泛。

本發(fā)明實施例提供的語音識別的校正裝置可執(zhí)行本發(fā)明任意實施例提供語音識別的校正的方法,具備執(zhí)行方法相應的功能模塊和有益效果。

注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1