本技術(shù)涉及人工智能,特別是涉及一種機(jī)器人喚醒方法、裝置、機(jī)器人、計(jì)算機(jī)可讀存儲介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,越來越多的電子設(shè)備可以支持人機(jī)交互功能,其中,人機(jī)交互功能支持用戶喚醒語音助手,對電子設(shè)備發(fā)送語音指令,與電子設(shè)備進(jìn)行對話和問答等,從而使用戶快捷獲取知識和控制設(shè)備。
2、傳統(tǒng)技術(shù)中,一般是針對用戶輸入的語音信號,識別喚醒詞,將發(fā)出喚醒詞的用戶鎖定為目標(biāo)發(fā)聲對象。由于在環(huán)境場景中可能存在噪聲、電子人聲和其他非目標(biāo)人聲等干擾,因此在識別到喚醒詞時(shí),將發(fā)出喚醒詞的目標(biāo)人聲進(jìn)行增強(qiáng),使目標(biāo)人聲在語音信號中更為突出顯著,從而抑制其他干擾聲音,通過對目標(biāo)人聲進(jìn)行聲紋識別,準(zhǔn)確鎖定目標(biāo)發(fā)聲對象的身份,這樣電子設(shè)備可以從語音信號中提取出該目標(biāo)發(fā)聲對象的語音指令并響應(yīng)。
3、然而,應(yīng)用傳統(tǒng)技術(shù)和機(jī)器人問答時(shí),需要先通過特定喚醒詞喚醒機(jī)器人,若用戶對機(jī)器人說的喚醒詞不清楚,則無法開展對話。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠進(jìn)行實(shí)時(shí)語義識別,無需喚醒詞即可喚醒機(jī)器人展開對話,提升機(jī)器人問答效率的機(jī)器人喚醒方法、裝置、機(jī)器人、計(jì)算機(jī)可讀存儲介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
2、第一方面,本技術(shù)提供了一種機(jī)器人喚醒方法,包括:
3、在滿足預(yù)設(shè)的觸發(fā)條件時(shí),采集語音數(shù)據(jù);
4、基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù);
5、通過訓(xùn)練好的大語言模型對所述文本數(shù)據(jù)進(jìn)行解析,確定所述文本數(shù)據(jù)是否為完整的語句;
6、若所述文本數(shù)據(jù)為完整的語句,則喚醒機(jī)器人,并根據(jù)所述文本數(shù)據(jù)生成對應(yīng)的回答;
7、由機(jī)器人語音播報(bào)生成的回答。
8、在其中一個(gè)實(shí)施例中,所述預(yù)設(shè)的觸發(fā)條件包括以下至少一項(xiàng):
9、在機(jī)器人周圍環(huán)境中采集到的音頻數(shù)據(jù)的分貝大于預(yù)設(shè)值;
10、機(jī)器人的感知系統(tǒng)判斷有人進(jìn)入到預(yù)設(shè)的范圍內(nèi);其中,所述機(jī)器人的感知系統(tǒng)包括:超聲波傳感器,紅外線傳感器,激光傳感器,雷達(dá)傳感器,視覺傳感器中的至少一種。
11、在其中一個(gè)實(shí)施例中,所述基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù),包括:
12、按照預(yù)設(shè)的遞增規(guī)則采集不同長度的語音數(shù)據(jù);其中,所述預(yù)設(shè)的遞增規(guī)則包括:確定語音數(shù)據(jù)采集的起始時(shí)間,以所述起始時(shí)間作為統(tǒng)一的起始點(diǎn),采集時(shí)間長度遞增的若干段語音數(shù)據(jù);
13、基于自動語音識別技術(shù)對采集的若干段語音數(shù)據(jù)進(jìn)行文字識別,得到若干個(gè)文本數(shù)據(jù)。
14、在其中一個(gè)實(shí)施例中,所述通過訓(xùn)練好的大語言模型對所述文本數(shù)據(jù)進(jìn)行解析,確定所述文本數(shù)據(jù)是否為完整的語句,包括:
15、將所述若干個(gè)文本數(shù)據(jù),按照生成的時(shí)間順序依次輸入到所述訓(xùn)練好的大語言模型中,由所述訓(xùn)練好的大語言模型對文本數(shù)據(jù)進(jìn)行解析,輸出所述文本數(shù)據(jù)所處的置信區(qū)間;
16、若所述文本數(shù)據(jù)在目標(biāo)置信區(qū)間內(nèi),則輸出所述文本數(shù)據(jù)的解析結(jié)果為完整語句;
17、若所述文本數(shù)據(jù)不在目標(biāo)置信區(qū)間內(nèi),則輸出所述文本數(shù)據(jù)的解析結(jié)果為不完整語句。
18、在其中一個(gè)實(shí)施例中,所述基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù),包括:
19、確定語音采集的結(jié)束時(shí)間;其中,所述確定語音采集的結(jié)束時(shí)間包括:當(dāng)檢測到語音數(shù)據(jù)出現(xiàn)中斷,且中斷的時(shí)長大于設(shè)置的閾值時(shí),則確定語音采集已經(jīng)結(jié)束,并將中斷出現(xiàn)的起始時(shí)間作為結(jié)束時(shí)間;
20、獲取語音采集的起始時(shí)間至結(jié)束時(shí)間的音頻數(shù)據(jù),并基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù)。
21、在其中一個(gè)實(shí)施例中,在通過訓(xùn)練好的大語言模型對所述文本數(shù)據(jù)進(jìn)行解析之前,所述方法還包括:
22、以開源數(shù)據(jù)集作為語音來源,選取原始語音數(shù)據(jù);
23、通過語音活動檢測模型對所述原始語音數(shù)據(jù)進(jìn)行篩選,得到篩選后的語音數(shù)據(jù);
24、對所述篩選后的語音數(shù)據(jù)進(jìn)行標(biāo)注,得到樣本語音數(shù)據(jù);其中,標(biāo)注的內(nèi)容包括:完整語句,不完整語句;
25、基于所述樣本語音數(shù)據(jù)構(gòu)建訓(xùn)練數(shù)據(jù)集;
26、通過所述訓(xùn)練數(shù)據(jù)集訓(xùn)練大語言模型,直到訓(xùn)練的大語言模型滿足測試要求,得到訓(xùn)練好的大語言模型。
27、在其中一個(gè)實(shí)施例中,在由機(jī)器人語音播報(bào)生成的回答之前,所述方法還包括:
28、判斷采集的語音數(shù)據(jù)是否已經(jīng)結(jié)束;
29、若采集的語音數(shù)據(jù)還未結(jié)束,則將生成的回答添加至待播報(bào)的隊(duì)列中;
30、若采集的語音數(shù)據(jù)已經(jīng)結(jié)束,則從待播報(bào)的隊(duì)列中依次讀取回答。
31、第二方面,本技術(shù)還提供了一種機(jī)器人喚醒裝置,包括:
32、采集模塊,用于在滿足預(yù)設(shè)的觸發(fā)條件時(shí),采集語音數(shù)據(jù);
33、文字識別模塊,用于基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù);
34、解析模塊,用于通過訓(xùn)練好的大語言模型對所述文本數(shù)據(jù)進(jìn)行解析,確定所述文本數(shù)據(jù)是否為完整的語句;
35、喚醒模塊,用于在所述文本數(shù)據(jù)為完整的語句時(shí),喚醒機(jī)器人,并根據(jù)所述文本數(shù)據(jù)生成對應(yīng)的回答;
36、語音播報(bào)模塊,用于語音播報(bào)生成的回答。
37、第三方面,本技術(shù)還提供了一種機(jī)器人,包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:
38、在滿足預(yù)設(shè)的觸發(fā)條件時(shí),采集語音數(shù)據(jù);
39、基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù);
40、通過訓(xùn)練好的大語言模型對所述文本數(shù)據(jù)進(jìn)行解析,確定所述文本數(shù)據(jù)是否為完整的語句;
41、若所述文本數(shù)據(jù)為完整的語句,則喚醒機(jī)器人,并根據(jù)所述文本數(shù)據(jù)生成對應(yīng)的回答;
42、由機(jī)器人語音播報(bào)生成的回答。
43、第四方面,本技術(shù)還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:
44、在滿足預(yù)設(shè)的觸發(fā)條件時(shí),采集語音數(shù)據(jù);
45、基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù);
46、通過訓(xùn)練好的大語言模型對所述文本數(shù)據(jù)進(jìn)行解析,確定所述文本數(shù)據(jù)是否為完整的語句;
47、若所述文本數(shù)據(jù)為完整的語句,則喚醒機(jī)器人,并根據(jù)所述文本數(shù)據(jù)生成對應(yīng)的回答;
48、由機(jī)器人語音播報(bào)生成的回答。
49、第五方面,本技術(shù)還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:
50、在滿足預(yù)設(shè)的觸發(fā)條件時(shí),采集語音數(shù)據(jù);
51、基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù);
52、通過訓(xùn)練好的大語言模型對所述文本數(shù)據(jù)進(jìn)行解析,確定所述文本數(shù)據(jù)是否為完整的語句;
53、若所述文本數(shù)據(jù)為完整的語句,則喚醒機(jī)器人,并根據(jù)所述文本數(shù)據(jù)生成對應(yīng)的回答;
54、由機(jī)器人語音播報(bào)生成的回答。
55、上述機(jī)器人喚醒方法、裝置、機(jī)器人、計(jì)算機(jī)可讀存儲介質(zhì)和計(jì)算機(jī)程序產(chǎn)品,通過在滿足預(yù)設(shè)的觸發(fā)條件時(shí),采集語音數(shù)據(jù);基于自動語音識別技術(shù)對采集的語音數(shù)據(jù)進(jìn)行文字識別,得到文本數(shù)據(jù);從而可以自動進(jìn)行語音數(shù)據(jù)的采集和識別,便于后續(xù)直接進(jìn)行機(jī)器人的喚醒。通過訓(xùn)練好的大語言模型對所述文本數(shù)據(jù)進(jìn)行解析,確定所述文本數(shù)據(jù)是否為完整的語句;從而可以基于語句的完整性,判斷是否喚醒機(jī)器人進(jìn)行回答。若所述文本數(shù)據(jù)為完整的語句,則喚醒機(jī)器人,并根據(jù)所述文本數(shù)據(jù)生成對應(yīng)的回答;由機(jī)器人語音播報(bào)生成的回答。從而能夠主動識別語音數(shù)據(jù),無需預(yù)先設(shè)置和錄入喚醒詞,無需特定喚醒詞即可與機(jī)器人開始對話,提升機(jī)器人的智能化和交互性。此外,還可以使得機(jī)器人與用戶進(jìn)行連續(xù)對話,不需要在對話中頻繁插入喚醒詞,提升機(jī)器問答效率。