本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域,特別是涉及基于正視的人機(jī)交互方法與系統(tǒng)。
背景技術(shù):
人機(jī)交互是指人與設(shè)備之間使用某種對(duì)話語(yǔ)言,以一定的交互方式,為完成確定任務(wù)的人與設(shè)備之間的信息交換過(guò)程。
隨著科學(xué)技術(shù)的發(fā)展,人機(jī)交互技術(shù)的應(yīng)用領(lǐng)域越來(lái)越寬廣,小如收音機(jī)的播放按鍵,大至飛機(jī)上的儀表板、或是發(fā)電廠的控制室,用戶都可以通過(guò)人機(jī)交互界面與系統(tǒng)交流,并進(jìn)行操作。目前在人機(jī)交互技術(shù)中,主流的人機(jī)交互方式主要包括3種,第一種是傳統(tǒng)按鍵方式;第二種是特定語(yǔ)音詞激活方式,如:在對(duì)話前先說(shuō)“小冰你好”,設(shè)備才識(shí)別后面所聽(tīng)到的語(yǔ)音;第三種是“舉手發(fā)言”,即先用一個(gè)特定手勢(shì)動(dòng)作來(lái)讓設(shè)備啟動(dòng)語(yǔ)音識(shí)別。
上述人機(jī)交互方式,雖然在一定程度上可以實(shí)現(xiàn)人機(jī)交互功能,但是由于交互方式單一,需要預(yù)先設(shè)定一定特定手勢(shì)動(dòng)作,交互過(guò)程并不十分自然,在一定程度上給用戶操作帶來(lái)不便。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對(duì)一般人機(jī)交互方式單一且不自然給用戶帶來(lái)不便操作的問(wèn)題,提供一種人機(jī)交互方式多樣,且交互過(guò)程自然,給用戶帶來(lái)便捷操作的基于正視的人機(jī)交互方法與系統(tǒng)。
一種基于正視的人機(jī)交互方法,包括步驟:
獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù);
通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù),將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較;
當(dāng)當(dāng)前采集的圖像數(shù)據(jù)和正視圖像數(shù)據(jù)一致時(shí),判定用戶與設(shè)備處于相對(duì)正視狀態(tài);
當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作,所述計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)包括人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義理解、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、人臉跟蹤、瞳孔識(shí)別以及虹膜識(shí)別。
一種基于正視的人機(jī)交互系統(tǒng),包括:
獲取模塊,用于獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù);
比較模塊,用于通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù),將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較;
判定模塊,用于當(dāng)當(dāng)前采集的圖像數(shù)據(jù)和正視圖像數(shù)據(jù)一致時(shí),判定用戶與設(shè)備處于相對(duì)正視狀態(tài);
控制模塊,用于當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作,所述計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)包括人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義理解、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、人臉跟蹤、瞳孔識(shí)別以及虹膜識(shí)別。
本發(fā)明基于正視的人機(jī)交互方法與系統(tǒng),獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù),采集用戶當(dāng)前圖像數(shù)據(jù),將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較,當(dāng)一致時(shí),判定用戶與設(shè)備處于相對(duì)正視狀態(tài),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。整個(gè)過(guò)程中,基于圖像采集設(shè)備采集的圖像數(shù)據(jù)進(jìn)行正視判定,并以用戶與設(shè)備的正視狀態(tài)判定作為人機(jī)交互前提條件,確保當(dāng)前用戶確實(shí)有人機(jī)交互需求,整個(gè)人機(jī)交互過(guò)程自然,另外采用包括人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別的多種動(dòng)作識(shí)別方式識(shí)別用戶下一步動(dòng)作,能夠?qū)崿F(xiàn)多樣式人機(jī)交互,給用戶帶來(lái)便捷操作。
附圖說(shuō)明
圖1為本發(fā)明基于正視的人機(jī)交互方法第一個(gè)實(shí)施例的流程示意圖;
圖2為本發(fā)明基于正視的人機(jī)交互方法第二個(gè)實(shí)施例的流程示意圖;
圖3為本發(fā)明基于正視的人機(jī)交互系統(tǒng)第一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
圖4為本發(fā)明基于正視的人機(jī)交互方法與系統(tǒng)具體應(yīng)用場(chǎng)景示意圖。
具體實(shí)施方式
如圖1所示,一種基于正視的人機(jī)交互方法,包括步驟:
s200:獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)。
設(shè)備具體來(lái)說(shuō)可以為電視機(jī)、空調(diào)、電腦以及機(jī)器人等,另外設(shè)備還可以包括車載設(shè)備等。用戶與設(shè)備處于相對(duì)正視狀態(tài)是指用戶正視設(shè)備,例如當(dāng)設(shè)備為電視機(jī)時(shí),用戶正視電視機(jī)的狀態(tài)即為用戶與電視機(jī)處于相對(duì)正視狀態(tài)。由于圖像采集設(shè)備一般是無(wú)法設(shè)置于設(shè)備正中心的,所以圖像采集設(shè)備采集用戶與設(shè)備處于相對(duì)正視狀態(tài)下圖像時(shí),從圖像采集設(shè)備角度看去用戶眼睛或用戶人臉并不是正對(duì)圖像采集設(shè)備的,一般會(huì)呈現(xiàn)一定的角度。為了有利于后續(xù)精準(zhǔn)判定正視狀態(tài),先獲取圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)。具體來(lái)說(shuō),用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)可以是歷史記錄中采集好的數(shù)據(jù),也可以是當(dāng)場(chǎng)采集的數(shù)據(jù)。圖像采集設(shè)備可以是攝像頭等設(shè)備,在這里,用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)是通過(guò)圖像采集設(shè)備采集的圖像采集設(shè)備可以設(shè)置于設(shè)備上,還可以設(shè)置設(shè)備的輔助設(shè)備或外圍設(shè)備上,例如當(dāng)設(shè)備為電視機(jī)時(shí),圖像采集設(shè)備可以設(shè)置于電視,也可以設(shè)置于與電視配套的機(jī)頂盒上。更具體來(lái)說(shuō),攝像頭拍攝的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù),進(jìn)行圖像處理和圖像目標(biāo)坐標(biāo)換算之后即可確定設(shè)備和用戶人臉相對(duì)位置,即可以獲取用戶與設(shè)備處于相對(duì)正視狀態(tài)下用戶的人臉圖像數(shù)據(jù)。判定用戶與設(shè)備處于相對(duì)正視狀態(tài)可以選擇采用頭部姿態(tài)估計(jì)(headposeestimation)或者視線跟蹤(gazetracking)等技術(shù)來(lái)實(shí)現(xiàn)。
s400:通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù),將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較。
通過(guò)步驟s200中相同的圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù),并且將實(shí)時(shí)采集的圖像數(shù)據(jù)與步驟s200獲取的正視圖像數(shù)據(jù)比較,以判斷當(dāng)前用戶與設(shè)備是否處于相對(duì)正視狀態(tài)。
s600:當(dāng)當(dāng)前采集的圖像數(shù)據(jù)和正視圖像數(shù)據(jù)一致時(shí),判定用戶與設(shè)備處于相對(duì)正視狀態(tài)。
當(dāng)步驟s200獲取的正視圖像數(shù)據(jù)與步驟s400實(shí)時(shí)采集的圖像數(shù)據(jù)一致時(shí),即表明當(dāng)前用戶與設(shè)備處于相對(duì)正視狀態(tài)。
s800:當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作,所述計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)包括人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義理解、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、人臉跟蹤、瞳孔識(shí)別以及虹膜識(shí)別。
用戶與設(shè)備處于相對(duì)正視狀態(tài)的前提下,通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。即只有判定用戶與設(shè)備處于相對(duì)正視狀態(tài)的前提下,設(shè)備才會(huì)啟動(dòng)響應(yīng)用戶操作,這樣,一方面避免誤操作,例如可以避免電視機(jī)錯(cuò)誤啟動(dòng)、錯(cuò)誤切換電視機(jī)節(jié)目等;另一方面,由于用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí),即有極大可能性用戶對(duì)設(shè)備進(jìn)行操作,給用戶帶來(lái)便利。具體來(lái)說(shuō),計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)主要可以包括人臉識(shí)別、人臉檢測(cè)、人臉跟蹤、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別等。采用上述豐富的計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)能夠從人臉、語(yǔ)音、瞳孔、手勢(shì)等方面實(shí)現(xiàn)人機(jī)交互,更進(jìn)一步豐富用戶生活,給用戶帶來(lái)便捷操作。
本發(fā)明基于正視的人機(jī)交互方法,獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù),采集用戶當(dāng)前圖像數(shù)據(jù),將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較,當(dāng)一致時(shí),判定用戶與設(shè)備處于相對(duì)正視狀態(tài),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。整個(gè)過(guò)程中,基于圖像采集設(shè)備采集的圖像數(shù)據(jù)進(jìn)行正視判定,并以用戶與設(shè)備的正視狀態(tài)判定作為人機(jī)交互前提條件,確保當(dāng)前用戶確實(shí)有人機(jī)交互需求,整個(gè)人機(jī)交互過(guò)程自然,另外采用包括人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別的多種動(dòng)作識(shí)別方式識(shí)別用戶下一步動(dòng)作,能夠?qū)崿F(xiàn)多樣式人機(jī)交互,給用戶帶來(lái)便捷操作。
如圖2所示,在其中一個(gè)實(shí)施例中,步驟s800包括:
s820:對(duì)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間進(jìn)行計(jì)時(shí)。
s840:當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間大于預(yù)設(shè)時(shí)間時(shí),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。
預(yù)設(shè)時(shí)間是事先設(shè)定的好的時(shí)間閾值,具體可以根據(jù)實(shí)際情況的需要進(jìn)行設(shè)定,例如可以設(shè)定為2秒、3秒、5秒等。當(dāng)步驟s600判定用戶與設(shè)備處于相對(duì)正視狀態(tài)下時(shí),開(kāi)始對(duì)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間進(jìn)行計(jì)時(shí),當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間大于預(yù)設(shè)時(shí)間時(shí),表明很大概率用戶當(dāng)前需要對(duì)顯示設(shè)定進(jìn)行下一步操作,此時(shí),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作,例如啟動(dòng)設(shè)備??梢圆捎萌四樧R(shí)別、瞳孔識(shí)別以及虹膜識(shí)別等技術(shù)確定用戶與設(shè)備保持著相對(duì)正視狀態(tài),即保持正視狀態(tài)也屬于用戶動(dòng)作的一種。非必要的,在啟動(dòng)設(shè)備之后,采用人臉識(shí)別技術(shù),識(shí)別用戶身份,查找與用戶身份匹配的視頻圖像數(shù)據(jù),控制設(shè)備顯示查找到的視頻圖像數(shù)據(jù)。在實(shí)際應(yīng)用中,當(dāng)設(shè)備為電視機(jī)時(shí),計(jì)時(shí)用戶與電視機(jī)保持相對(duì)正視狀態(tài)的時(shí)間,即計(jì)時(shí)用戶正視電視機(jī)屏幕的時(shí)間,當(dāng)用戶正視電視機(jī)的時(shí)間大于預(yù)設(shè)時(shí)間(例如2秒)時(shí),啟動(dòng)電視機(jī),并識(shí)別用戶身份,查找與當(dāng)前用戶喜好的電視機(jī)節(jié)目,控制電視機(jī)切換至該電視節(jié)目播放。
具體來(lái)說(shuō),在實(shí)際應(yīng)用場(chǎng)景中,上述實(shí)施例為:“正視狀態(tài)”+時(shí)間,即用戶“正視”電視機(jī)達(dá)到一定時(shí)間,比如2秒鐘,可以認(rèn)為用戶想看電視節(jié)目,電視機(jī)可以從待機(jī)開(kāi)啟播放節(jié)目;電視機(jī)也可以跟用戶主動(dòng)打招呼交流。還可以是:“正視狀態(tài)”+時(shí)間+“人臉識(shí)別”,即知道這個(gè)用戶是誰(shuí),可以播放這個(gè)用戶喜歡的節(jié)目;電視機(jī)還可以主動(dòng)呼叫用戶,主動(dòng)跟用戶交流。
在其中一個(gè)實(shí)施例中,通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作的步驟包括:
步驟一:對(duì)用戶進(jìn)行語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別。
步驟二:當(dāng)語(yǔ)音識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果一致時(shí),控制設(shè)備響應(yīng)用戶的語(yǔ)音操作。
對(duì)設(shè)備前處于“正視狀態(tài)”的用戶進(jìn)行唇語(yǔ)識(shí)別,同時(shí)對(duì)檢測(cè)到的語(yǔ)音信息進(jìn)行語(yǔ)音識(shí)別。將唇語(yǔ)識(shí)別結(jié)果與語(yǔ)音識(shí)別結(jié)果比對(duì),如果結(jié)果一致,可以判定該正視狀態(tài)用戶是在跟設(shè)備(電視機(jī))對(duì)話,控制設(shè)備作出相應(yīng)的響應(yīng),如果結(jié)果不一致,則設(shè)備不響應(yīng)。
通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作的步驟包括:
步驟一:對(duì)所述用戶進(jìn)行語(yǔ)音識(shí)別和語(yǔ)義理解。
步驟二:當(dāng)語(yǔ)音識(shí)別結(jié)果和語(yǔ)義理解的結(jié)果與設(shè)備當(dāng)前場(chǎng)景相符時(shí),控制設(shè)備響應(yīng)所述用戶的語(yǔ)音操作。
在本實(shí)施例中,還需要對(duì)用戶進(jìn)行語(yǔ)音識(shí)別和語(yǔ)義理解,理解用戶意圖,當(dāng)語(yǔ)音識(shí)別結(jié)果和語(yǔ)義理解的結(jié)果與設(shè)備當(dāng)前場(chǎng)景相符時(shí),控制設(shè)備響應(yīng)所述用戶的語(yǔ)音操作。例如用戶在看電視時(shí),如果說(shuō)的話是:“我明天休息”,顯然不是操作電視機(jī)的,電視機(jī)不響應(yīng)。如果用戶說(shuō)的是“中央一臺(tái)”,則顯然是要切換到中央一臺(tái)。
在實(shí)際應(yīng)用中,以設(shè)備為電視機(jī)為例對(duì)用戶a進(jìn)行語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別,即一方面采集用戶a發(fā)出的語(yǔ)音信息,另一方面基于正視狀態(tài),對(duì)用戶a進(jìn)行唇語(yǔ)識(shí)別,當(dāng)語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別結(jié)果一致時(shí),判定用戶a是在跟電視機(jī)交互,控制電視機(jī)做出相應(yīng)的響應(yīng),例如切換電視節(jié)目,調(diào)節(jié)電視音量等操作。
在其中一個(gè)實(shí)施例中,所述當(dāng)所述當(dāng)前采集的圖像數(shù)據(jù)和所述正視圖像數(shù)據(jù)一致時(shí),判定用戶與設(shè)備處于相對(duì)正視狀態(tài)的步驟之前還包括:
步驟一:當(dāng)偵測(cè)到用戶時(shí),定位所述用戶的面部位置為音源位置;
步驟二:將聲音采集設(shè)備正對(duì)所述音源位置;
所述通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作的步驟包括:
通過(guò)所述聲音采集設(shè)備采集用戶聲音數(shù)據(jù),當(dāng)采集的用戶聲音數(shù)據(jù)中攜帶有語(yǔ)音操作指令時(shí),提取所述語(yǔ)音操作指令,控制設(shè)備執(zhí)行與所述語(yǔ)音操作指令對(duì)應(yīng)操作。
當(dāng)偵測(cè)到用戶時(shí),將用戶面部位置定位為聲源位置,讓聲音采集設(shè)備正對(duì)該聲源位置,準(zhǔn)備采集用戶聲音數(shù)據(jù)。具體來(lái)說(shuō),這個(gè)過(guò)程具體可以是基于人臉檢測(cè)和跟蹤技術(shù)檢測(cè)到用戶人臉的位置,定位該位置為音源位置。在后續(xù)操作中,在判定當(dāng)前用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí),采集用戶語(yǔ)音數(shù)據(jù),進(jìn)行語(yǔ)音識(shí)別,當(dāng)采集的用戶語(yǔ)音數(shù)據(jù)中攜帶有語(yǔ)音操作指令時(shí),提取語(yǔ)音操作指令,控制設(shè)備執(zhí)行與語(yǔ)音操作指令對(duì)應(yīng)操作。另外,偵測(cè)用戶可以通過(guò)人臉檢測(cè)、人臉跟蹤、人體檢測(cè)等偵測(cè)方法偵測(cè),當(dāng)偵測(cè)到人臉位置時(shí),將用戶的面部位置設(shè)定為聲源位置。在實(shí)際應(yīng)用中,聲音采集設(shè)備可以為陣列麥克風(fēng),將陣列麥克風(fēng)正對(duì)音源位置,采集用戶語(yǔ)音數(shù)據(jù),當(dāng)采集的用戶語(yǔ)音數(shù)據(jù)中攜帶有語(yǔ)音操作指令(例如“下一頻道”)時(shí),提取語(yǔ)音操作指令,控制設(shè)備執(zhí)行與語(yǔ)音操作指令對(duì)應(yīng)操作。更具體來(lái)說(shuō),在實(shí)際應(yīng)用場(chǎng)景中,比如有幾個(gè)人看電視時(shí),幾個(gè)人都是正視電視,如果幾個(gè)人同時(shí)說(shuō)話,將來(lái)的陣列麥克風(fēng)(像雷達(dá)一樣可以跟蹤多個(gè)目標(biāo))可以對(duì)多個(gè)音源錄音。通過(guò)人臉檢測(cè)等方式偵測(cè)用戶數(shù)量和位置,即為目標(biāo)音源的數(shù)量和位置,給陣列麥克風(fēng)提供目標(biāo)音源的位置信息,結(jié)合人臉身份識(shí)別,可以實(shí)現(xiàn)同時(shí)采集多人的聲音,并區(qū)分是誰(shuí)說(shuō)的內(nèi)容,當(dāng)有用戶發(fā)出的聲音數(shù)據(jù)中攜帶有“下一頻道”的操作指令時(shí),控制電視機(jī)切換至下一頻道。另外,還可以結(jié)合人臉身份識(shí)別針對(duì)用戶身份合法性進(jìn)行識(shí)別,只有合法(擁有控制權(quán)的)用戶發(fā)出的聲音數(shù)據(jù)才會(huì)被采集,并進(jìn)行后續(xù)操作。
本發(fā)明基于正視的人機(jī)交互方法,以正視狀態(tài)作為后續(xù)處理的“開(kāi)關(guān)”,只有判定用戶與設(shè)備處于相對(duì)正視狀態(tài),才會(huì)進(jìn)行后續(xù)包括開(kāi)啟錄音、或者開(kāi)啟語(yǔ)音識(shí)別、或開(kāi)啟語(yǔ)音識(shí)別結(jié)果在內(nèi)的操作。
另外,在其中一個(gè)實(shí)施例中,所述當(dāng)所述當(dāng)前采集的圖像數(shù)據(jù)和所述正視圖像數(shù)據(jù)一致時(shí),判定用戶與設(shè)備處于相對(duì)正視狀態(tài)的步驟之后還包括:
步驟一:接收用戶輸入的操作指令,所述操作指令包括非正視狀態(tài)操作指令和正視狀態(tài)操作指令。
步驟二:當(dāng)偵測(cè)到用戶不再處于所述正視狀態(tài)時(shí),響應(yīng)用戶輸入的非正視狀態(tài)操作指令。
步驟三:當(dāng)偵測(cè)到用戶再次進(jìn)入所述正視狀態(tài)時(shí),響應(yīng)用戶輸入的正視狀態(tài)操作指令。
在實(shí)際應(yīng)用中電視機(jī)接收用戶輸入的操作指令,具體可以是用戶通過(guò)遙控器或直接觸碰按鍵又或是點(diǎn)擊電視機(jī)上設(shè)置的觸摸顯示區(qū)域輸入操作指令,該操作指令分為非正視狀態(tài)操作指令和正視狀態(tài)操作指令,當(dāng)偵測(cè)到用戶不再處于所述正視狀態(tài)時(shí),響應(yīng)用戶輸入的非正視狀態(tài)操作指令;當(dāng)偵測(cè)到用戶再次進(jìn)入所述正視狀態(tài)時(shí),響應(yīng)用戶輸入的正視狀態(tài)操作指令。例如通過(guò)語(yǔ)音指令或其它方式,讓電視機(jī)進(jìn)入“錄背影”狀態(tài),人從正視電視機(jī)轉(zhuǎn)為側(cè)視,電視機(jī)自動(dòng)開(kāi)啟錄像模式,人旋轉(zhuǎn)一圈,再正視電視機(jī)時(shí)停止錄像,并開(kāi)啟視頻播放模式,播放剛才所錄視頻。
在其中一個(gè)實(shí)施例中,通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù)的步驟之后還包括:
步驟一:獲取用戶正視設(shè)備時(shí)的圖像數(shù)據(jù)。
步驟二:比較用戶正視設(shè)備時(shí)的圖像數(shù)據(jù)和當(dāng)前采集的圖像數(shù)據(jù)。
步驟三:當(dāng)用戶正視設(shè)備時(shí)的圖像數(shù)據(jù)和當(dāng)前采集的圖像數(shù)據(jù)一致時(shí),啟動(dòng)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)、和/或預(yù)設(shè)操作。
具體來(lái)說(shuō),只有當(dāng)檢測(cè)到用戶正視設(shè)備時(shí),才啟動(dòng)預(yù)設(shè)對(duì)應(yīng)的計(jì)算機(jī)的視覺(jué)識(shí)別和語(yǔ)音識(shí)別技術(shù)功能。檢測(cè)用戶是否正視設(shè)備可以采用比較用戶正視設(shè)備時(shí)的圖像數(shù)據(jù)和當(dāng)前采集的圖像數(shù)據(jù)的方式進(jìn)行,當(dāng)一致時(shí),表明當(dāng)前用戶正視設(shè)備,啟動(dòng)計(jì)算機(jī)的視覺(jué)識(shí)別和語(yǔ)音識(shí)別技術(shù)功能(例如手勢(shì)識(shí)別、人臉識(shí)別以及語(yǔ)音識(shí)別等);當(dāng)不一致時(shí),表明當(dāng)前用戶尚未正視設(shè)備,不啟動(dòng)計(jì)算機(jī)的視覺(jué)識(shí)別和語(yǔ)音識(shí)別技術(shù)功能。在實(shí)際應(yīng)用中,以設(shè)備為空調(diào)為例,通過(guò)攝像頭實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù),獲取用戶正視空調(diào)時(shí)的圖像數(shù)據(jù);比較用戶正視空調(diào)時(shí)的圖像數(shù)據(jù)和當(dāng)前采集的圖像數(shù)據(jù),當(dāng)兩者一致時(shí),表明當(dāng)前用戶正視于空調(diào),啟動(dòng)語(yǔ)音識(shí)別技術(shù)和人臉識(shí)別技術(shù)、手勢(shì)識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)用于識(shí)別用戶語(yǔ)音指令,人臉識(shí)別技術(shù)用于識(shí)別用戶身份,手勢(shì)識(shí)別技術(shù)用于識(shí)別用戶手勢(shì)指令。
如圖3所示,一種基于正視的人機(jī)交互系統(tǒng),包括:
獲取模塊200,用于獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)。
比較模塊400,用于通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù),將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較。
判定模塊600,用于當(dāng)當(dāng)前采集的圖像數(shù)據(jù)和正視圖像數(shù)據(jù)一致時(shí),判定用戶與設(shè)備處于相對(duì)正視狀態(tài)。
控制模塊800,用于當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作,計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)包括人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別。
本發(fā)明基于正視的人機(jī)交互系統(tǒng),獲取模塊200獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù),比較模塊400采集用戶當(dāng)前圖像數(shù)據(jù),將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較,當(dāng)一致時(shí),判定模塊600判定用戶與設(shè)備處于相對(duì)正視狀態(tài),控制模塊800通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。整個(gè)過(guò)程中,基于圖像采集設(shè)備采集的圖像數(shù)據(jù)進(jìn)行正視判定,并以用戶與設(shè)備的正視狀態(tài)判定作為人機(jī)交互前提條件,確保當(dāng)前用戶確實(shí)有人機(jī)交互需求,整個(gè)人機(jī)交互過(guò)程自然,另外采用包括人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別的多種動(dòng)作識(shí)別方式識(shí)別用戶下一步動(dòng)作,能夠?qū)崿F(xiàn)多樣式人機(jī)交互,給用戶帶來(lái)便捷操作。
在其中一個(gè)實(shí)施例中,控制模塊800包括:
計(jì)時(shí)單元,用于對(duì)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間進(jìn)行計(jì)時(shí),當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間大于預(yù)設(shè)時(shí)間時(shí),通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖,根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系,控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。
在其中一個(gè)實(shí)施例中,控制模塊800還包括:
查找控制單元,用于查找預(yù)設(shè)與用戶身份匹配的視頻圖像數(shù)據(jù),控制設(shè)備顯示查找到的視頻圖像數(shù)據(jù)。
在其中一個(gè)實(shí)施例中,控制模塊800包括:
識(shí)別單元,用于對(duì)用戶進(jìn)行語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別;
控制單元,用于當(dāng)語(yǔ)音識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果一致時(shí),控制設(shè)備響應(yīng)用戶的語(yǔ)音操作。
在其中一個(gè)實(shí)施例中,控制模塊800包括:
定位單元,用于當(dāng)偵測(cè)到用戶時(shí),定位用戶的面部位置為音源位置;
調(diào)節(jié)單元,用于將聲音采集設(shè)備正對(duì)音源位置,采集用戶聲音數(shù)據(jù);
提取控制單元,用于當(dāng)采集的用戶聲音數(shù)據(jù)中攜帶有語(yǔ)音操作指令時(shí),提取語(yǔ)音操作指令,控制設(shè)備執(zhí)行與語(yǔ)音操作指令對(duì)應(yīng)操作。
為了更進(jìn)一步詳細(xì)解釋本發(fā)明基于正視的人機(jī)交互方法與系統(tǒng)的技術(shù)方案,下面將采用多個(gè)具體應(yīng)用實(shí)例,模擬不同實(shí)際應(yīng)用場(chǎng)景,并結(jié)合圖4進(jìn)行說(shuō)明,在下述應(yīng)用實(shí)例中設(shè)備均為電視機(jī)。
獲取通過(guò)如圖4所示的攝像頭采集的用戶與電視機(jī)處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)。
通過(guò)如圖4所示的攝像頭實(shí)時(shí)采集當(dāng)前圖像數(shù)據(jù),將實(shí)時(shí)采集的數(shù)據(jù)與用戶與電視機(jī)處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)比較。
當(dāng)一致時(shí),判定用戶與電視機(jī)處于相對(duì)正視狀態(tài)。
應(yīng)用實(shí)例一、正視狀態(tài)+時(shí)間
用戶正視電視機(jī)達(dá)到一定時(shí)間,比如2秒鐘,可以認(rèn)為用戶想看電視節(jié)目,電視機(jī)可以從待機(jī)開(kāi)啟播放節(jié)目,也可以跟用戶主動(dòng)打招呼交流。
應(yīng)用實(shí)例二、正視狀態(tài)+時(shí)間+人臉識(shí)別
知道這個(gè)用戶是誰(shuí),可以播放這個(gè)用戶喜歡的節(jié)目;電視機(jī)還可以主動(dòng)呼叫用戶,主動(dòng)跟用戶交流。
應(yīng)用實(shí)例三、正視狀態(tài)+人臉身份識(shí)別+表情識(shí)別
顯然,知道用戶是誰(shuí),而且知道他的表情,可以主動(dòng)跟該用戶交流,甚至提供相應(yīng)的服務(wù)。如果是一個(gè)小孩對(duì)著電視機(jī)哭,電視機(jī)可以自動(dòng)撥打媽媽的視頻電話,電視機(jī)上很快就可以出現(xiàn)媽媽的視頻,讓寶寶跟媽媽視頻交流。
應(yīng)用實(shí)例四、正視狀態(tài)+人臉識(shí)別+語(yǔ)音識(shí)別
人臉識(shí)別確認(rèn)現(xiàn)場(chǎng)只有一個(gè)用戶時(shí),電視機(jī)可以把語(yǔ)音識(shí)別的結(jié)果視為該用戶對(duì)電視機(jī)所說(shuō),電視機(jī)作出相應(yīng)回復(fù)和反饋。
應(yīng)用實(shí)例五、正視狀態(tài)+人臉識(shí)別+唇語(yǔ)識(shí)別+語(yǔ)音識(shí)別
人臉識(shí)別確認(rèn)現(xiàn)場(chǎng)有多個(gè)用戶時(shí),判斷用戶是否“正視狀態(tài)”,檢測(cè)“正視”用戶的嘴唇變化,對(duì)正視用戶進(jìn)行唇語(yǔ)識(shí)別;同時(shí)對(duì)檢測(cè)到的語(yǔ)音信息進(jìn)行語(yǔ)音識(shí)別。將唇語(yǔ)識(shí)別結(jié)果與語(yǔ)音識(shí)別結(jié)果比對(duì),如果結(jié)果一致,可以判定該正視用戶是在跟電視機(jī)對(duì)話,電視機(jī)作出相應(yīng)的回應(yīng);如果結(jié)果不一致,則電視機(jī)不回應(yīng)。
應(yīng)用實(shí)例六、正視狀態(tài)+陣列麥克風(fēng)+人臉識(shí)別(或者聲紋識(shí)別)
比如有幾個(gè)人看電視時(shí),幾個(gè)人都是正視電視。如果幾個(gè)人同時(shí)說(shuō)話,將來(lái)的陣列麥克風(fēng)(像雷達(dá)一樣可以跟蹤多個(gè)目標(biāo))可以對(duì)多個(gè)音源錄音。正視識(shí)別可以確定目標(biāo)有幾個(gè),給陣列麥克風(fēng)提供目標(biāo)音源的位置信息,結(jié)合人臉身份識(shí)別,可以實(shí)現(xiàn)同時(shí)采集多人的聲音,并區(qū)分是誰(shuí)說(shuō)的內(nèi)容。
應(yīng)用實(shí)例七、應(yīng)用于空調(diào)
用戶望著空調(diào),空調(diào)管理系統(tǒng)通過(guò)頭部姿態(tài)估計(jì)確認(rèn)用戶為“正視”狀態(tài),空調(diào)啟動(dòng)人臉識(shí)別——知道用戶是誰(shuí),打開(kāi)并調(diào)節(jié)到用戶喜歡的狀態(tài);空調(diào)啟動(dòng)手勢(shì)識(shí)別——可以接受用戶的手勢(shì)操作;空調(diào)啟動(dòng)錄音和語(yǔ)音識(shí)別--可以接受用戶的語(yǔ)音指令操作。
以上實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。