本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語音喚醒方法和裝置。
背景技術(shù):
語音喚醒技術(shù)是語音識(shí)別技術(shù)中的重要分支,語音喚醒技術(shù)通過監(jiān)聽用戶語音來判斷用戶是否說出了指定喚醒詞來啟動(dòng)設(shè)備。目前在車載、導(dǎo)航,以及智能家居等方面有著重要的應(yīng)用,用于用聲音啟動(dòng)程序或者服務(wù)。人工智能(Artificial Intelligence,AI),是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。
相關(guān)技術(shù)中,通過在終端的后臺(tái)運(yùn)行一個(gè)喚醒模塊,喚醒模塊可以在離線狀態(tài)下不斷循環(huán)判斷用戶是否輸入語音,當(dāng)確定用戶輸入匹配的語音時(shí),則開始啟動(dòng)語音識(shí)別,然后持續(xù)進(jìn)行檢測(cè),在用戶停止錄入語音后,將識(shí)別到的語音的數(shù)據(jù)幀發(fā)送至服務(wù)器以啟動(dòng)程序或者服務(wù)。
這種方式下,在通過匹配的語音進(jìn)行喚醒的過程中,需要兩次問答才能夠啟動(dòng)程序或者服務(wù),語音喚醒識(shí)別效率不佳。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個(gè)目的在于提出一種基于人工智能的語音喚醒方法,能夠優(yōu)化語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
本發(fā)明的另一個(gè)目的在于提出一種基于人工智能的語音喚醒裝置。
本發(fā)明的又一個(gè)目的在于提出一種基于人工智能的語音喚醒裝置。
本發(fā)明的另一個(gè)目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
本發(fā)明的另一個(gè)目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。
為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的基于人工智能的語音喚醒方法,包括:獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將所述終端喚醒的時(shí)間點(diǎn);獲取所述時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)所述語音的數(shù)據(jù)幀的識(shí)別文本;從所述識(shí)別文本中提取目標(biāo)文本,并通過所述目標(biāo)文本對(duì)所述用戶輸入的語音進(jìn)行處理。
本發(fā)明第一方面實(shí)施例提出的基于人工智能的語音喚醒方法,通過本實(shí)施例中,通過獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn),獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,以及從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,由于是從識(shí)別文本中提取目標(biāo)文本,而不是二次接收用戶輸入的語音,優(yōu)化了語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的基于人工智能的語音喚醒裝置,包括:第一獲取模塊,用于獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將所述終端喚醒的時(shí)間點(diǎn);第二獲取模塊,用于獲取所述時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)所述語音的數(shù)據(jù)幀的識(shí)別文本;識(shí)別處理模塊,用于從所述識(shí)別文本中提取目標(biāo)文本,并通過所述目標(biāo)文本對(duì)所述用戶輸入的語音進(jìn)行處理。
本發(fā)明第二方面實(shí)施例提出的基于人工智能的語音喚醒裝置,通過獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn),獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,以及從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,由于是從識(shí)別文本中提取目標(biāo)文本,而不是二次接收用戶輸入的語音,優(yōu)化了語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
為達(dá)到上述目的,本發(fā)明第三方面實(shí)施例提出的基于人工智能的語音喚醒裝置,其特征在于,包括:
處理器;
用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
其中,所述處理器被配置為:
獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將所述終端喚醒的時(shí)間點(diǎn);
獲取所述時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)所述語音的數(shù)據(jù)幀的識(shí)別文本;
從所述識(shí)別文本中提取目標(biāo)文本,并通過所述目標(biāo)文本對(duì)所述用戶輸入的語音進(jìn)行處理。
本發(fā)明第三方面實(shí)施例提出的基于人工智能的語音喚醒裝置,通過獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn),獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,以及從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,由于是從識(shí)別文本中提取目標(biāo)文本,而不是二次接收用戶輸入的語音,優(yōu)化了語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
為達(dá)到上述目的,本發(fā)明第四方面實(shí)施例提出的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由移動(dòng)終端的處理器被執(zhí)行時(shí),使得移動(dòng)終端能夠執(zhí)行一種基于人工智能的語音喚醒方法,所述方法包括:
獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將所述終端喚醒的時(shí)間點(diǎn);
獲取所述時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)所述語音的數(shù)據(jù)幀的識(shí)別文本;
從所述識(shí)別文本中提取目標(biāo)文本,并通過所述目標(biāo)文本對(duì)所述用戶輸入的語音進(jìn)行處理。
本發(fā)明第四方面實(shí)施例提出的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),通過獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn),獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,以及從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,由于是從識(shí)別文本中提取目標(biāo)文本,而不是二次接收用戶輸入的語音,優(yōu)化了語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
為達(dá)到上述目的,本發(fā)明第五方面實(shí)施例提出的計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品中的指令處理器執(zhí)行時(shí),執(zhí)行一種基于人工智能的語音喚醒方法,所述方法包括:
獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將所述終端喚醒的時(shí)間點(diǎn);
獲取所述時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)所述語音的數(shù)據(jù)幀的識(shí)別文本;
從所述識(shí)別文本中提取目標(biāo)文本,并通過所述目標(biāo)文本對(duì)所述用戶輸入的語音進(jìn)行處理。
本發(fā)明第五方面實(shí)施例提出的計(jì)算機(jī)程序產(chǎn)品,通過獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn),獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,以及從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,由于是從識(shí)別文本中提取目標(biāo)文本,而不是二次接收用戶輸入的語音,優(yōu)化了語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1是本發(fā)明一實(shí)施例提出的基于人工智能的語音喚醒方法的流程示意圖;
圖2是本發(fā)明另一實(shí)施例提出的基于人工智能的語音喚醒方法的流程示意圖;
圖3是本發(fā)明另一實(shí)施例提出的基于人工智能的語音喚醒裝置的結(jié)構(gòu)示意圖;
圖4是本發(fā)明另一實(shí)施例提出的基于人工智能的語音喚醒裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
圖1是本發(fā)明一實(shí)施例提出的基于人工智能的語音喚醒方法的流程示意圖。
應(yīng)用在具有語音識(shí)別喚醒功能的終端中。
其中,終端可以是智能手機(jī)、平板電腦、個(gè)人數(shù)字助理、電子書等具有各種操作系統(tǒng)的硬件設(shè)備。
參見圖1,該方法包括:
S11:獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn)。
其中,用戶可以在終端的麥克風(fēng)處錄入一段語音,終端中的語音采集模塊采集到該語音后,可以觸發(fā)用聲音啟動(dòng)終端中的程序或者服務(wù),例如,用戶在終端處錄入“你好小度”,語音采集模塊采集到“你好小度”的語音,將該語音發(fā)送至語音識(shí)別模塊,語音識(shí)別模塊對(duì)其進(jìn)行識(shí)別后得到識(shí)別結(jié)果,將識(shí)別結(jié)果發(fā)送至后臺(tái)服務(wù)器,以觸發(fā)終端提供查詢天氣的程序或者服務(wù)。
可選地,可以由終端中的語音識(shí)別模塊在識(shí)別出用戶錄入的語音后,判斷該語音是否為匹配的喚醒詞,并在該語音為匹配的喚醒詞之后,觸發(fā)喚醒模塊對(duì)終端的程序或者服務(wù)進(jìn)行喚醒處理,進(jìn)而在喚醒成功時(shí),對(duì)喚醒成功的時(shí)間點(diǎn)進(jìn)行記錄。
S12:獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本。
可選地,可以將終端切換至連續(xù)喚醒模式之后,獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本。
其中,將終端切換至連續(xù)喚醒模式的方法流程可以參見后續(xù)實(shí)施例。
可選地,第一預(yù)設(shè)時(shí)間范圍例如為0s~2s,第一預(yù)設(shè)時(shí)間范圍可以由終端的出廠程序預(yù)先設(shè)定,或者,也可以由提供程序或者服務(wù)的應(yīng)用開發(fā)商預(yù)先設(shè)定,其設(shè)定過程可以參照多數(shù)的用戶語音錄入的習(xí)慣,對(duì)此不作限制。
在本發(fā)明的實(shí)施例中,以用戶錄入的語音不僅包含喚醒詞,還包含喚醒詞之外的語音示例,用戶錄入的語音具體如“你好小度,幫我查下今天的天氣”,喚醒詞具體如“你好小度”。
S13:從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理。
其中,目標(biāo)文本為從識(shí)別文本中將喚醒詞刪除后的識(shí)別文本,喚醒詞即通過語音對(duì)終端的程序或者服務(wù)進(jìn)行喚醒觸發(fā)的預(yù)設(shè)的語音文本。
可選地,從識(shí)別文本中提取目標(biāo)文本,包括:從識(shí)別文本中識(shí)別出喚醒詞;將喚醒詞從識(shí)別文本中刪除,并將刪除后的識(shí)別文本作為目標(biāo)文本。
在本發(fā)明的實(shí)施例中,可以由終端從識(shí)別文本中識(shí)別出喚醒詞;將喚醒詞從識(shí)別文本中刪除,并將刪除后的識(shí)別文本作為目標(biāo)文本,實(shí)現(xiàn)該過程中終端與服務(wù)器的解耦和,避免終端多次向服務(wù)器發(fā)網(wǎng)絡(luò)請(qǐng)求,提升識(shí)別效率。
相關(guān)技術(shù)中,終端通過將“你好小度,幫我查下今天的天氣”發(fā)送至后臺(tái)服務(wù)器,由后臺(tái)服務(wù)器進(jìn)行識(shí)別,終端與服務(wù)器的耦合性較高,觸發(fā)較多次數(shù)的網(wǎng)絡(luò)請(qǐng)求,識(shí)別效率低,用戶體驗(yàn)不佳。
而本發(fā)明的實(shí)施例中,通過在終端側(cè)獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,并采用語音識(shí)別模塊對(duì)“你好小度,幫我查下今天的天氣”進(jìn)行識(shí)別,從識(shí)別得到的識(shí)別文本中提取目標(biāo)文本,其中,目標(biāo)文本中不包含喚醒詞,可以實(shí)現(xiàn)直接通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,避免了兩次錄入語音數(shù)據(jù)才能夠觸發(fā)終端提供查詢天氣的程序或者服務(wù)。
進(jìn)一步地,通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,包括:根據(jù)目標(biāo)文本生成處理請(qǐng)求;將處理請(qǐng)求發(fā)送至語音服務(wù)器,以使語音服務(wù)器根據(jù)處理請(qǐng)求對(duì)用戶輸入的語音進(jìn)行處理。
通過直接根據(jù)目標(biāo)文本生成處理請(qǐng)求,其中,該處理請(qǐng)求用于觸發(fā)終端中程序或者服務(wù)從語音服務(wù)器獲取與用戶錄入的語音對(duì)應(yīng)的處理結(jié)果,直接通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,有效提升語音喚醒識(shí)別效率。
本實(shí)施例中,通過獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn),獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,以及從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,由于是從識(shí)別文本中提取目標(biāo)文本,而不是二次接收用戶輸入的語音,優(yōu)化了語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
圖2是本發(fā)明另一實(shí)施例提出的基于人工智能的語音喚醒方法的流程示意圖。
參見圖2,該方法包括:
S201:獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn)。
S201的執(zhí)行過程可以參見上述實(shí)施例,在此不再贅述。
S202:對(duì)終端的麥克風(fēng)持續(xù)進(jìn)行語音信號(hào)檢測(cè)。
可選地,可以在終端中設(shè)置語音檢測(cè)模塊,語音檢測(cè)模塊可以采用語音活動(dòng)檢測(cè)技術(shù)(Voice activity detection,VAD)檢測(cè)終端麥克風(fēng)處用戶輸入的語音。
相關(guān)技術(shù)中,由終端向后臺(tái)服務(wù)器發(fā)起網(wǎng)絡(luò)請(qǐng)求,由后臺(tái)服務(wù)器根據(jù)該網(wǎng)絡(luò)請(qǐng)求檢測(cè)語音信號(hào),終端與服務(wù)器的耦合性較高,觸發(fā)較多次數(shù)的網(wǎng)絡(luò)請(qǐng)求,識(shí)別效率低。
而本發(fā)明的實(shí)施例中,通過由終端側(cè)的語音檢測(cè)模塊對(duì)終端的麥克風(fēng)持續(xù)進(jìn)行語音信號(hào)檢測(cè),實(shí)現(xiàn)簡(jiǎn)單,實(shí)現(xiàn)終端與服務(wù)器解耦合。
S203:判斷在時(shí)間點(diǎn)之后的第二預(yù)設(shè)時(shí)間范圍之內(nèi)是否檢測(cè)到語音信號(hào),若是,執(zhí)行S206,否則,執(zhí)行S204。
其中,第二預(yù)設(shè)時(shí)間范圍例如為0s~2s,第二預(yù)設(shè)時(shí)間范圍可以由終端的出廠程序預(yù)先設(shè)定,或者,也可以由提供程序或者服務(wù)的應(yīng)用開發(fā)商預(yù)先設(shè)定,其設(shè)定過程可以參照多數(shù)的用戶語音錄入的習(xí)慣,對(duì)此不作限制。
在本發(fā)明的實(shí)施例中,通過判斷在時(shí)間點(diǎn)之后的第二預(yù)設(shè)時(shí)間范圍之內(nèi)是否檢測(cè)到語音信號(hào),來確定用戶是否輸入完畢語音,根據(jù)不同的判斷結(jié)果觸發(fā)終端實(shí)現(xiàn)不同的功能,切換靈活,滿足用戶不同的語音錄入需求,提升用戶體驗(yàn)。
S204:將終端切換至非連續(xù)喚醒模式。
可以理解的是,用戶輸入的語音的識(shí)別文本只包含喚醒詞,或者,也可能不僅包含喚醒詞,還包含用于交互的目標(biāo)文本,相對(duì)應(yīng)的,在一些應(yīng)用場(chǎng)景下,若用戶輸入的語音僅僅包含喚醒詞,則可以在終端處于非連續(xù)喚醒模式下對(duì)用戶輸入的語音進(jìn)行喚醒識(shí)別處理。
例如,用戶輸入的語音的識(shí)別文本為“你好小度”,該語音對(duì)終端喚醒成功之后,在喚醒時(shí)間點(diǎn)之后的2s之內(nèi)未檢測(cè)到語音信號(hào),則表明用戶僅僅觸發(fā)了喚醒事件,此時(shí),可以將終端切換為非連續(xù)喚醒模式,并在該模式下對(duì)“你好小度”進(jìn)行識(shí)別處理。
S205:生成用于提示用戶終端已被喚醒的信息,并根據(jù)信息對(duì)用戶進(jìn)行提示。
可選地,終端已被喚醒的信息例如為,“你好主人”的提示語音,可以通過終端的麥克風(fēng)播放“你好主人”,以對(duì)用戶進(jìn)行喚醒提示。
通過生成用于提示用戶終端已被喚醒的信息,并根據(jù)信息對(duì)用戶進(jìn)行提示,進(jìn)一步提升用戶體驗(yàn)。
S206:將終端切換至連續(xù)喚醒模式。
例如,用戶輸入的語音的識(shí)別文本為“你好小度”,該語音對(duì)終端喚醒成功之后,在喚醒時(shí)間點(diǎn)之后的2s之內(nèi)檢測(cè)到語音信號(hào),則表明用戶不僅僅觸發(fā)了喚醒事件,還觸發(fā)了后續(xù)程序或者服務(wù),此時(shí),可以將終端切換為連續(xù)喚醒模式,并在該模式下對(duì)“你好小度”以及后續(xù)連續(xù)的語音(即“你好小度,幫我查下今天的天氣”)進(jìn)行識(shí)別處理。
S207:獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本。
S208:從識(shí)別文本中識(shí)別出喚醒詞。
S209:將喚醒詞從識(shí)別文本中刪除,并將刪除后的識(shí)別文本作為目標(biāo)文本。
S210:根據(jù)目標(biāo)文本生成處理請(qǐng)求。
S211:將處理請(qǐng)求發(fā)送至語音服務(wù)器,以使語音服務(wù)器根據(jù)處理請(qǐng)求對(duì)用戶輸入的語音進(jìn)行處理。
S207-S211的執(zhí)行過程可以參見上述實(shí)施例,在此不再贅述。
本實(shí)施例中,通過由終端的語音檢測(cè)模塊對(duì)終端的麥克風(fēng)持續(xù)進(jìn)行語音信號(hào)檢測(cè),實(shí)現(xiàn)簡(jiǎn)單,實(shí)現(xiàn)終端與服務(wù)器解耦合。通過判斷在時(shí)間點(diǎn)之后的第二預(yù)設(shè)時(shí)間范圍之內(nèi)是否檢測(cè)到語音信號(hào),來確定用戶是否輸入完畢語音,根據(jù)不同的判斷結(jié)果觸發(fā)終端實(shí)現(xiàn)不同的功能,切換靈活,滿足用戶不同的語音錄入需求,提升用戶體驗(yàn)。通過生成用于提示用戶終端已被喚醒的信息,并根據(jù)信息對(duì)用戶進(jìn)行提示,進(jìn)一步提升用戶體驗(yàn)。通過獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn),獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,以及從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,由于是從識(shí)別文本中提取目標(biāo)文本,而不是二次接收用戶輸入的語音,優(yōu)化了語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
圖3是本發(fā)明另一實(shí)施例提出的基于人工智能的語音喚醒裝置的結(jié)構(gòu)示意圖。該基于人工智能的語音喚醒裝置30可以通過軟件、硬件或者兩者的結(jié)合來實(shí)現(xiàn)。
參見圖3,該基于人工智能的語音喚醒裝置30包括:第一獲取模塊301、第二獲取模塊302,以及識(shí)別處理模塊303。其中,
第一獲取模塊301,用于獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn)。
第二獲取模塊302,用于獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本。
識(shí)別處理模塊303,用于從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理。
一些實(shí)施例中,參見圖4,該基于人工智能的語音喚醒裝置30還包括:
可選地,第二獲取模塊302包括:
切換子模塊3021,用于將終端切換至連續(xù)喚醒模式;
獲取子模塊3022,用于在將終端切換至連續(xù)喚醒模式之后,獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本。
可選地,切換子模塊3022具體用于:
在獲取將終端喚醒的時(shí)間點(diǎn)之后,對(duì)終端的麥克風(fēng)持續(xù)進(jìn)行語音信號(hào)檢測(cè);
判斷在時(shí)間點(diǎn)之后的第二預(yù)設(shè)時(shí)間范圍之內(nèi)是否檢測(cè)到語音信號(hào);
在檢測(cè)到語音信號(hào)時(shí),將終端切換至連續(xù)喚醒模式。
可選地,切換子模塊3022還用于:
在未檢測(cè)到語音信號(hào)時(shí),將終端切換至非連續(xù)喚醒模式。
可選地,識(shí)別處理模塊303具體用于:
從識(shí)別文本中識(shí)別出喚醒詞;
將喚醒詞從識(shí)別文本中刪除,并將刪除后的識(shí)別文本作為目標(biāo)文本。
生成模塊304,用于生成用于提示用戶終端已被喚醒的信息,并根據(jù)信息對(duì)用戶進(jìn)行提示。
可選地,識(shí)別處理模塊303具體用于:
根據(jù)目標(biāo)文本生成處理請(qǐng)求;
將處理請(qǐng)求發(fā)送至語音服務(wù)器,以使語音服務(wù)器根據(jù)處理請(qǐng)求對(duì)用戶輸入的語音進(jìn)行處理。
需要說明的是,前述圖1-圖2實(shí)施例中對(duì)基于人工智能的語音喚醒方法實(shí)施例的解釋說明也適合用于該實(shí)施例的基于人工智能的語音喚醒裝置30,其實(shí)現(xiàn)原理類似,此處不再贅述。
本實(shí)施例中,通過獲取用戶輸入的語音,并在判定對(duì)終端喚醒成功之后,獲取將終端喚醒的時(shí)間點(diǎn),獲取時(shí)間點(diǎn)前后第一預(yù)設(shè)時(shí)間范圍之內(nèi)語音的數(shù)據(jù)幀的識(shí)別文本,以及從識(shí)別文本中提取目標(biāo)文本,并通過目標(biāo)文本對(duì)用戶輸入的語音進(jìn)行處理,由于是從識(shí)別文本中提取目標(biāo)文本,而不是二次接收用戶輸入的語音,優(yōu)化了語音喚醒處理過程,實(shí)現(xiàn)連續(xù)地語音喚醒識(shí)別,有效提升語音喚醒識(shí)別效率。
需要說明的是,在本發(fā)明的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。此外,在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
此外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。