基于正視的人機(jī)交互方法與系統(tǒng)與流程

文檔序號(hào)：11215678閱讀：968來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域，特別是涉及基于正視的人機(jī)交互方法與系統(tǒng)。

背景技術(shù)：

人機(jī)交互是指人與設(shè)備之間使用某種對(duì)話語(yǔ)言，以一定的交互方式，為完成確定任務(wù)的人與設(shè)備之間的信息交換過(guò)程。

隨著科學(xué)技術(shù)的發(fā)展，人機(jī)交互技術(shù)的應(yīng)用領(lǐng)域越來(lái)越寬廣，小如收音機(jī)的播放按鍵，大至飛機(jī)上的儀表板、或是發(fā)電廠的控制室，用戶都可以通過(guò)人機(jī)交互界面與系統(tǒng)交流，并進(jìn)行操作。目前在人機(jī)交互技術(shù)中，主流的人機(jī)交互方式主要包括3種，第一種是傳統(tǒng)按鍵方式；第二種是特定語(yǔ)音詞激活方式，如：在對(duì)話前先說(shuō)“小冰你好”，設(shè)備才識(shí)別后面所聽(tīng)到的語(yǔ)音；第三種是“舉手發(fā)言”，即先用一個(gè)特定手勢(shì)動(dòng)作來(lái)讓設(shè)備啟動(dòng)語(yǔ)音識(shí)別。

上述人機(jī)交互方式，雖然在一定程度上可以實(shí)現(xiàn)人機(jī)交互功能，但是由于交互方式單一，需要預(yù)先設(shè)定一定特定手勢(shì)動(dòng)作，交互過(guò)程并不十分自然，在一定程度上給用戶操作帶來(lái)不便。

技術(shù)實(shí)現(xiàn)要素：

基于此，有必要針對(duì)一般人機(jī)交互方式單一且不自然給用戶帶來(lái)不便操作的問(wèn)題，提供一種人機(jī)交互方式多樣，且交互過(guò)程自然，給用戶帶來(lái)便捷操作的基于正視的人機(jī)交互方法與系統(tǒng)。

一種基于正視的人機(jī)交互方法，包括步驟：

獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)；

通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù)，將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較；

當(dāng)當(dāng)前采集的圖像數(shù)據(jù)和正視圖像數(shù)據(jù)一致時(shí)，判定用戶與設(shè)備處于相對(duì)正視狀態(tài)；

當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作，所述計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)包括人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義理解、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、人臉跟蹤、瞳孔識(shí)別以及虹膜識(shí)別。

一種基于正視的人機(jī)交互系統(tǒng)，包括：

獲取模塊，用于獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)；

比較模塊，用于通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù)，將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較；

判定模塊，用于當(dāng)當(dāng)前采集的圖像數(shù)據(jù)和正視圖像數(shù)據(jù)一致時(shí)，判定用戶與設(shè)備處于相對(duì)正視狀態(tài)；

控制模塊，用于當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作，所述計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)包括人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義理解、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、人臉跟蹤、瞳孔識(shí)別以及虹膜識(shí)別。

本發(fā)明基于正視的人機(jī)交互方法與系統(tǒng)，獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)，采集用戶當(dāng)前圖像數(shù)據(jù)，將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較，當(dāng)一致時(shí)，判定用戶與設(shè)備處于相對(duì)正視狀態(tài)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。整個(gè)過(guò)程中，基于圖像采集設(shè)備采集的圖像數(shù)據(jù)進(jìn)行正視判定，并以用戶與設(shè)備的正視狀態(tài)判定作為人機(jī)交互前提條件，確保當(dāng)前用戶確實(shí)有人機(jī)交互需求，整個(gè)人機(jī)交互過(guò)程自然，另外采用包括人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別的多種動(dòng)作識(shí)別方式識(shí)別用戶下一步動(dòng)作，能夠?qū)崿F(xiàn)多樣式人機(jī)交互，給用戶帶來(lái)便捷操作。

附圖說(shuō)明

圖1為本發(fā)明基于正視的人機(jī)交互方法第一個(gè)實(shí)施例的流程示意圖；

圖2為本發(fā)明基于正視的人機(jī)交互方法第二個(gè)實(shí)施例的流程示意圖；

圖3為本發(fā)明基于正視的人機(jī)交互系統(tǒng)第一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；

圖4為本發(fā)明基于正視的人機(jī)交互方法與系統(tǒng)具體應(yīng)用場(chǎng)景示意圖。

具體實(shí)施方式

如圖1所示，一種基于正視的人機(jī)交互方法，包括步驟：

s200：獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)。

設(shè)備具體來(lái)說(shuō)可以為電視機(jī)、空調(diào)、電腦以及機(jī)器人等，另外設(shè)備還可以包括車載設(shè)備等。用戶與設(shè)備處于相對(duì)正視狀態(tài)是指用戶正視設(shè)備，例如當(dāng)設(shè)備為電視機(jī)時(shí)，用戶正視電視機(jī)的狀態(tài)即為用戶與電視機(jī)處于相對(duì)正視狀態(tài)。由于圖像采集設(shè)備一般是無(wú)法設(shè)置于設(shè)備正中心的，所以圖像采集設(shè)備采集用戶與設(shè)備處于相對(duì)正視狀態(tài)下圖像時(shí)，從圖像采集設(shè)備角度看去用戶眼睛或用戶人臉并不是正對(duì)圖像采集設(shè)備的，一般會(huì)呈現(xiàn)一定的角度。為了有利于后續(xù)精準(zhǔn)判定正視狀態(tài)，先獲取圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)。具體來(lái)說(shuō)，用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)可以是歷史記錄中采集好的數(shù)據(jù)，也可以是當(dāng)場(chǎng)采集的數(shù)據(jù)。圖像采集設(shè)備可以是攝像頭等設(shè)備，在這里，用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)是通過(guò)圖像采集設(shè)備采集的圖像采集設(shè)備可以設(shè)置于設(shè)備上，還可以設(shè)置設(shè)備的輔助設(shè)備或外圍設(shè)備上，例如當(dāng)設(shè)備為電視機(jī)時(shí)，圖像采集設(shè)備可以設(shè)置于電視，也可以設(shè)置于與電視配套的機(jī)頂盒上。更具體來(lái)說(shuō)，攝像頭拍攝的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)，進(jìn)行圖像處理和圖像目標(biāo)坐標(biāo)換算之后即可確定設(shè)備和用戶人臉相對(duì)位置，即可以獲取用戶與設(shè)備處于相對(duì)正視狀態(tài)下用戶的人臉圖像數(shù)據(jù)。判定用戶與設(shè)備處于相對(duì)正視狀態(tài)可以選擇采用頭部姿態(tài)估計(jì)(headposeestimation)或者視線跟蹤(gazetracking)等技術(shù)來(lái)實(shí)現(xiàn)。

s400：通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù)，將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較。

通過(guò)步驟s200中相同的圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù)，并且將實(shí)時(shí)采集的圖像數(shù)據(jù)與步驟s200獲取的正視圖像數(shù)據(jù)比較，以判斷當(dāng)前用戶與設(shè)備是否處于相對(duì)正視狀態(tài)。

s600：當(dāng)當(dāng)前采集的圖像數(shù)據(jù)和正視圖像數(shù)據(jù)一致時(shí)，判定用戶與設(shè)備處于相對(duì)正視狀態(tài)。

當(dāng)步驟s200獲取的正視圖像數(shù)據(jù)與步驟s400實(shí)時(shí)采集的圖像數(shù)據(jù)一致時(shí)，即表明當(dāng)前用戶與設(shè)備處于相對(duì)正視狀態(tài)。

s800：當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作，所述計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)包括人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義理解、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、人臉跟蹤、瞳孔識(shí)別以及虹膜識(shí)別。

用戶與設(shè)備處于相對(duì)正視狀態(tài)的前提下，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。即只有判定用戶與設(shè)備處于相對(duì)正視狀態(tài)的前提下，設(shè)備才會(huì)啟動(dòng)響應(yīng)用戶操作，這樣，一方面避免誤操作，例如可以避免電視機(jī)錯(cuò)誤啟動(dòng)、錯(cuò)誤切換電視機(jī)節(jié)目等；另一方面，由于用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí)，即有極大可能性用戶對(duì)設(shè)備進(jìn)行操作，給用戶帶來(lái)便利。具體來(lái)說(shuō)，計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)主要可以包括人臉識(shí)別、人臉檢測(cè)、人臉跟蹤、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別等。采用上述豐富的計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)能夠從人臉、語(yǔ)音、瞳孔、手勢(shì)等方面實(shí)現(xiàn)人機(jī)交互，更進(jìn)一步豐富用戶生活，給用戶帶來(lái)便捷操作。

本發(fā)明基于正視的人機(jī)交互方法，獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)，采集用戶當(dāng)前圖像數(shù)據(jù)，將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較，當(dāng)一致時(shí)，判定用戶與設(shè)備處于相對(duì)正視狀態(tài)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。整個(gè)過(guò)程中，基于圖像采集設(shè)備采集的圖像數(shù)據(jù)進(jìn)行正視判定，并以用戶與設(shè)備的正視狀態(tài)判定作為人機(jī)交互前提條件，確保當(dāng)前用戶確實(shí)有人機(jī)交互需求，整個(gè)人機(jī)交互過(guò)程自然，另外采用包括人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別的多種動(dòng)作識(shí)別方式識(shí)別用戶下一步動(dòng)作，能夠?qū)崿F(xiàn)多樣式人機(jī)交互，給用戶帶來(lái)便捷操作。

如圖2所示，在其中一個(gè)實(shí)施例中，步驟s800包括：

s820：對(duì)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間進(jìn)行計(jì)時(shí)。

s840：當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間大于預(yù)設(shè)時(shí)間時(shí)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。

預(yù)設(shè)時(shí)間是事先設(shè)定的好的時(shí)間閾值，具體可以根據(jù)實(shí)際情況的需要進(jìn)行設(shè)定，例如可以設(shè)定為2秒、3秒、5秒等。當(dāng)步驟s600判定用戶與設(shè)備處于相對(duì)正視狀態(tài)下時(shí)，開(kāi)始對(duì)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間進(jìn)行計(jì)時(shí)，當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間大于預(yù)設(shè)時(shí)間時(shí)，表明很大概率用戶當(dāng)前需要對(duì)顯示設(shè)定進(jìn)行下一步操作，此時(shí)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作，例如啟動(dòng)設(shè)備?？梢圆捎萌四樧R(shí)別、瞳孔識(shí)別以及虹膜識(shí)別等技術(shù)確定用戶與設(shè)備保持著相對(duì)正視狀態(tài)，即保持正視狀態(tài)也屬于用戶動(dòng)作的一種。非必要的，在啟動(dòng)設(shè)備之后，采用人臉識(shí)別技術(shù)，識(shí)別用戶身份，查找與用戶身份匹配的視頻圖像數(shù)據(jù)，控制設(shè)備顯示查找到的視頻圖像數(shù)據(jù)。在實(shí)際應(yīng)用中，當(dāng)設(shè)備為電視機(jī)時(shí)，計(jì)時(shí)用戶與電視機(jī)保持相對(duì)正視狀態(tài)的時(shí)間，即計(jì)時(shí)用戶正視電視機(jī)屏幕的時(shí)間，當(dāng)用戶正視電視機(jī)的時(shí)間大于預(yù)設(shè)時(shí)間(例如2秒)時(shí)，啟動(dòng)電視機(jī)，并識(shí)別用戶身份，查找與當(dāng)前用戶喜好的電視機(jī)節(jié)目，控制電視機(jī)切換至該電視節(jié)目播放。

具體來(lái)說(shuō)，在實(shí)際應(yīng)用場(chǎng)景中，上述實(shí)施例為：“正視狀態(tài)”+時(shí)間，即用戶“正視”電視機(jī)達(dá)到一定時(shí)間，比如2秒鐘，可以認(rèn)為用戶想看電視節(jié)目，電視機(jī)可以從待機(jī)開(kāi)啟播放節(jié)目；電視機(jī)也可以跟用戶主動(dòng)打招呼交流。還可以是：“正視狀態(tài)”+時(shí)間+“人臉識(shí)別”，即知道這個(gè)用戶是誰(shuí)，可以播放這個(gè)用戶喜歡的節(jié)目；電視機(jī)還可以主動(dòng)呼叫用戶，主動(dòng)跟用戶交流。

在其中一個(gè)實(shí)施例中，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作的步驟包括：

步驟一：對(duì)用戶進(jìn)行語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別。

步驟二：當(dāng)語(yǔ)音識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果一致時(shí)，控制設(shè)備響應(yīng)用戶的語(yǔ)音操作。

對(duì)設(shè)備前處于“正視狀態(tài)”的用戶進(jìn)行唇語(yǔ)識(shí)別，同時(shí)對(duì)檢測(cè)到的語(yǔ)音信息進(jìn)行語(yǔ)音識(shí)別。將唇語(yǔ)識(shí)別結(jié)果與語(yǔ)音識(shí)別結(jié)果比對(duì)，如果結(jié)果一致，可以判定該正視狀態(tài)用戶是在跟設(shè)備(電視機(jī))對(duì)話，控制設(shè)備作出相應(yīng)的響應(yīng)，如果結(jié)果不一致，則設(shè)備不響應(yīng)。

通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作的步驟包括：

步驟一：對(duì)所述用戶進(jìn)行語(yǔ)音識(shí)別和語(yǔ)義理解。

步驟二：當(dāng)語(yǔ)音識(shí)別結(jié)果和語(yǔ)義理解的結(jié)果與設(shè)備當(dāng)前場(chǎng)景相符時(shí)，控制設(shè)備響應(yīng)所述用戶的語(yǔ)音操作。

在本實(shí)施例中，還需要對(duì)用戶進(jìn)行語(yǔ)音識(shí)別和語(yǔ)義理解，理解用戶意圖，當(dāng)語(yǔ)音識(shí)別結(jié)果和語(yǔ)義理解的結(jié)果與設(shè)備當(dāng)前場(chǎng)景相符時(shí)，控制設(shè)備響應(yīng)所述用戶的語(yǔ)音操作。例如用戶在看電視時(shí)，如果說(shuō)的話是：“我明天休息”，顯然不是操作電視機(jī)的，電視機(jī)不響應(yīng)。如果用戶說(shuō)的是“中央一臺(tái)”，則顯然是要切換到中央一臺(tái)。

在實(shí)際應(yīng)用中，以設(shè)備為電視機(jī)為例對(duì)用戶a進(jìn)行語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別，即一方面采集用戶a發(fā)出的語(yǔ)音信息，另一方面基于正視狀態(tài)，對(duì)用戶a進(jìn)行唇語(yǔ)識(shí)別，當(dāng)語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別結(jié)果一致時(shí)，判定用戶a是在跟電視機(jī)交互，控制電視機(jī)做出相應(yīng)的響應(yīng)，例如切換電視節(jié)目，調(diào)節(jié)電視音量等操作。

在其中一個(gè)實(shí)施例中，所述當(dāng)所述當(dāng)前采集的圖像數(shù)據(jù)和所述正視圖像數(shù)據(jù)一致時(shí)，判定用戶與設(shè)備處于相對(duì)正視狀態(tài)的步驟之前還包括：

步驟一：當(dāng)偵測(cè)到用戶時(shí)，定位所述用戶的面部位置為音源位置；

步驟二：將聲音采集設(shè)備正對(duì)所述音源位置；

所述通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作的步驟包括：

通過(guò)所述聲音采集設(shè)備采集用戶聲音數(shù)據(jù)，當(dāng)采集的用戶聲音數(shù)據(jù)中攜帶有語(yǔ)音操作指令時(shí)，提取所述語(yǔ)音操作指令，控制設(shè)備執(zhí)行與所述語(yǔ)音操作指令對(duì)應(yīng)操作。

當(dāng)偵測(cè)到用戶時(shí)，將用戶面部位置定位為聲源位置，讓聲音采集設(shè)備正對(duì)該聲源位置，準(zhǔn)備采集用戶聲音數(shù)據(jù)。具體來(lái)說(shuō)，這個(gè)過(guò)程具體可以是基于人臉檢測(cè)和跟蹤技術(shù)檢測(cè)到用戶人臉的位置，定位該位置為音源位置。在后續(xù)操作中，在判定當(dāng)前用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí)，采集用戶語(yǔ)音數(shù)據(jù)，進(jìn)行語(yǔ)音識(shí)別，當(dāng)采集的用戶語(yǔ)音數(shù)據(jù)中攜帶有語(yǔ)音操作指令時(shí)，提取語(yǔ)音操作指令，控制設(shè)備執(zhí)行與語(yǔ)音操作指令對(duì)應(yīng)操作。另外，偵測(cè)用戶可以通過(guò)人臉檢測(cè)、人臉跟蹤、人體檢測(cè)等偵測(cè)方法偵測(cè)，當(dāng)偵測(cè)到人臉位置時(shí)，將用戶的面部位置設(shè)定為聲源位置。在實(shí)際應(yīng)用中，聲音采集設(shè)備可以為陣列麥克風(fēng)，將陣列麥克風(fēng)正對(duì)音源位置，采集用戶語(yǔ)音數(shù)據(jù)，當(dāng)采集的用戶語(yǔ)音數(shù)據(jù)中攜帶有語(yǔ)音操作指令(例如“下一頻道”)時(shí)，提取語(yǔ)音操作指令，控制設(shè)備執(zhí)行與語(yǔ)音操作指令對(duì)應(yīng)操作。更具體來(lái)說(shuō)，在實(shí)際應(yīng)用場(chǎng)景中，比如有幾個(gè)人看電視時(shí)，幾個(gè)人都是正視電視，如果幾個(gè)人同時(shí)說(shuō)話，將來(lái)的陣列麥克風(fēng)(像雷達(dá)一樣可以跟蹤多個(gè)目標(biāo))可以對(duì)多個(gè)音源錄音。通過(guò)人臉檢測(cè)等方式偵測(cè)用戶數(shù)量和位置，即為目標(biāo)音源的數(shù)量和位置，給陣列麥克風(fēng)提供目標(biāo)音源的位置信息，結(jié)合人臉身份識(shí)別，可以實(shí)現(xiàn)同時(shí)采集多人的聲音，并區(qū)分是誰(shuí)說(shuō)的內(nèi)容，當(dāng)有用戶發(fā)出的聲音數(shù)據(jù)中攜帶有“下一頻道”的操作指令時(shí)，控制電視機(jī)切換至下一頻道。另外，還可以結(jié)合人臉身份識(shí)別針對(duì)用戶身份合法性進(jìn)行識(shí)別，只有合法(擁有控制權(quán)的)用戶發(fā)出的聲音數(shù)據(jù)才會(huì)被采集，并進(jìn)行后續(xù)操作。

本發(fā)明基于正視的人機(jī)交互方法，以正視狀態(tài)作為后續(xù)處理的“開(kāi)關(guān)”，只有判定用戶與設(shè)備處于相對(duì)正視狀態(tài)，才會(huì)進(jìn)行后續(xù)包括開(kāi)啟錄音、或者開(kāi)啟語(yǔ)音識(shí)別、或開(kāi)啟語(yǔ)音識(shí)別結(jié)果在內(nèi)的操作。

另外，在其中一個(gè)實(shí)施例中，所述當(dāng)所述當(dāng)前采集的圖像數(shù)據(jù)和所述正視圖像數(shù)據(jù)一致時(shí)，判定用戶與設(shè)備處于相對(duì)正視狀態(tài)的步驟之后還包括：

步驟一：接收用戶輸入的操作指令，所述操作指令包括非正視狀態(tài)操作指令和正視狀態(tài)操作指令。

步驟二：當(dāng)偵測(cè)到用戶不再處于所述正視狀態(tài)時(shí)，響應(yīng)用戶輸入的非正視狀態(tài)操作指令。

步驟三：當(dāng)偵測(cè)到用戶再次進(jìn)入所述正視狀態(tài)時(shí)，響應(yīng)用戶輸入的正視狀態(tài)操作指令。

在實(shí)際應(yīng)用中電視機(jī)接收用戶輸入的操作指令，具體可以是用戶通過(guò)遙控器或直接觸碰按鍵又或是點(diǎn)擊電視機(jī)上設(shè)置的觸摸顯示區(qū)域輸入操作指令，該操作指令分為非正視狀態(tài)操作指令和正視狀態(tài)操作指令，當(dāng)偵測(cè)到用戶不再處于所述正視狀態(tài)時(shí)，響應(yīng)用戶輸入的非正視狀態(tài)操作指令；當(dāng)偵測(cè)到用戶再次進(jìn)入所述正視狀態(tài)時(shí)，響應(yīng)用戶輸入的正視狀態(tài)操作指令。例如通過(guò)語(yǔ)音指令或其它方式，讓電視機(jī)進(jìn)入“錄背影”狀態(tài)，人從正視電視機(jī)轉(zhuǎn)為側(cè)視，電視機(jī)自動(dòng)開(kāi)啟錄像模式，人旋轉(zhuǎn)一圈，再正視電視機(jī)時(shí)停止錄像，并開(kāi)啟視頻播放模式，播放剛才所錄視頻。

在其中一個(gè)實(shí)施例中，通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù)的步驟之后還包括：

步驟一：獲取用戶正視設(shè)備時(shí)的圖像數(shù)據(jù)。

步驟二：比較用戶正視設(shè)備時(shí)的圖像數(shù)據(jù)和當(dāng)前采集的圖像數(shù)據(jù)。

步驟三：當(dāng)用戶正視設(shè)備時(shí)的圖像數(shù)據(jù)和當(dāng)前采集的圖像數(shù)據(jù)一致時(shí)，啟動(dòng)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)、和/或預(yù)設(shè)操作。

具體來(lái)說(shuō)，只有當(dāng)檢測(cè)到用戶正視設(shè)備時(shí)，才啟動(dòng)預(yù)設(shè)對(duì)應(yīng)的計(jì)算機(jī)的視覺(jué)識(shí)別和語(yǔ)音識(shí)別技術(shù)功能。檢測(cè)用戶是否正視設(shè)備可以采用比較用戶正視設(shè)備時(shí)的圖像數(shù)據(jù)和當(dāng)前采集的圖像數(shù)據(jù)的方式進(jìn)行，當(dāng)一致時(shí)，表明當(dāng)前用戶正視設(shè)備，啟動(dòng)計(jì)算機(jī)的視覺(jué)識(shí)別和語(yǔ)音識(shí)別技術(shù)功能(例如手勢(shì)識(shí)別、人臉識(shí)別以及語(yǔ)音識(shí)別等)；當(dāng)不一致時(shí)，表明當(dāng)前用戶尚未正視設(shè)備，不啟動(dòng)計(jì)算機(jī)的視覺(jué)識(shí)別和語(yǔ)音識(shí)別技術(shù)功能。在實(shí)際應(yīng)用中，以設(shè)備為空調(diào)為例，通過(guò)攝像頭實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù)，獲取用戶正視空調(diào)時(shí)的圖像數(shù)據(jù)；比較用戶正視空調(diào)時(shí)的圖像數(shù)據(jù)和當(dāng)前采集的圖像數(shù)據(jù)，當(dāng)兩者一致時(shí)，表明當(dāng)前用戶正視于空調(diào)，啟動(dòng)語(yǔ)音識(shí)別技術(shù)和人臉識(shí)別技術(shù)、手勢(shì)識(shí)別技術(shù)，語(yǔ)音識(shí)別技術(shù)用于識(shí)別用戶語(yǔ)音指令，人臉識(shí)別技術(shù)用于識(shí)別用戶身份，手勢(shì)識(shí)別技術(shù)用于識(shí)別用戶手勢(shì)指令。

如圖3所示，一種基于正視的人機(jī)交互系統(tǒng)，包括：

獲取模塊200，用于獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)。

比較模塊400，用于通過(guò)圖像采集設(shè)備實(shí)時(shí)采集用戶當(dāng)前圖像數(shù)據(jù)，將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較。

判定模塊600，用于當(dāng)當(dāng)前采集的圖像數(shù)據(jù)和正視圖像數(shù)據(jù)一致時(shí)，判定用戶與設(shè)備處于相對(duì)正視狀態(tài)。

控制模塊800，用于當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)時(shí)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作，計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)包括人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、聲紋識(shí)別、表情識(shí)別、年齡識(shí)別、卡片識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別。

本發(fā)明基于正視的人機(jī)交互系統(tǒng)，獲取模塊200獲取通過(guò)圖像采集設(shè)備采集的用戶與設(shè)備處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)，比較模塊400采集用戶當(dāng)前圖像數(shù)據(jù)，將當(dāng)前采集的圖像數(shù)據(jù)與正視圖像數(shù)據(jù)比較，當(dāng)一致時(shí)，判定模塊600判定用戶與設(shè)備處于相對(duì)正視狀態(tài)，控制模塊800通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。整個(gè)過(guò)程中，基于圖像采集設(shè)備采集的圖像數(shù)據(jù)進(jìn)行正視判定，并以用戶與設(shè)備的正視狀態(tài)判定作為人機(jī)交互前提條件，確保當(dāng)前用戶確實(shí)有人機(jī)交互需求，整個(gè)人機(jī)交互過(guò)程自然，另外采用包括人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、唇語(yǔ)識(shí)別、瞳孔識(shí)別以及虹膜識(shí)別的多種動(dòng)作識(shí)別方式識(shí)別用戶下一步動(dòng)作，能夠?qū)崿F(xiàn)多樣式人機(jī)交互，給用戶帶來(lái)便捷操作。

在其中一個(gè)實(shí)施例中，控制模塊800包括：

計(jì)時(shí)單元，用于對(duì)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間進(jìn)行計(jì)時(shí)，當(dāng)用戶與設(shè)備處于相對(duì)正視狀態(tài)的時(shí)間大于預(yù)設(shè)時(shí)間時(shí)，通過(guò)計(jì)算機(jī)的視覺(jué)識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)識(shí)別用戶行為和意圖，根據(jù)預(yù)設(shè)用戶的行為與意圖與操作對(duì)應(yīng)關(guān)系，控制設(shè)備執(zhí)行與用戶當(dāng)前的行為與意圖對(duì)應(yīng)的操作。

在其中一個(gè)實(shí)施例中，控制模塊800還包括：

查找控制單元，用于查找預(yù)設(shè)與用戶身份匹配的視頻圖像數(shù)據(jù)，控制設(shè)備顯示查找到的視頻圖像數(shù)據(jù)。

在其中一個(gè)實(shí)施例中，控制模塊800包括：

識(shí)別單元，用于對(duì)用戶進(jìn)行語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別；

控制單元，用于當(dāng)語(yǔ)音識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果一致時(shí)，控制設(shè)備響應(yīng)用戶的語(yǔ)音操作。

在其中一個(gè)實(shí)施例中，控制模塊800包括：

定位單元，用于當(dāng)偵測(cè)到用戶時(shí)，定位用戶的面部位置為音源位置；

調(diào)節(jié)單元，用于將聲音采集設(shè)備正對(duì)音源位置，采集用戶聲音數(shù)據(jù)；

提取控制單元，用于當(dāng)采集的用戶聲音數(shù)據(jù)中攜帶有語(yǔ)音操作指令時(shí)，提取語(yǔ)音操作指令，控制設(shè)備執(zhí)行與語(yǔ)音操作指令對(duì)應(yīng)操作。

為了更進(jìn)一步詳細(xì)解釋本發(fā)明基于正視的人機(jī)交互方法與系統(tǒng)的技術(shù)方案，下面將采用多個(gè)具體應(yīng)用實(shí)例，模擬不同實(shí)際應(yīng)用場(chǎng)景，并結(jié)合圖4進(jìn)行說(shuō)明，在下述應(yīng)用實(shí)例中設(shè)備均為電視機(jī)。

獲取通過(guò)如圖4所示的攝像頭采集的用戶與電視機(jī)處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)。

通過(guò)如圖4所示的攝像頭實(shí)時(shí)采集當(dāng)前圖像數(shù)據(jù)，將實(shí)時(shí)采集的數(shù)據(jù)與用戶與電視機(jī)處于相對(duì)正視狀態(tài)下的正視圖像數(shù)據(jù)比較。

當(dāng)一致時(shí)，判定用戶與電視機(jī)處于相對(duì)正視狀態(tài)。

應(yīng)用實(shí)例一、正視狀態(tài)+時(shí)間

用戶正視電視機(jī)達(dá)到一定時(shí)間，比如2秒鐘，可以認(rèn)為用戶想看電視節(jié)目，電視機(jī)可以從待機(jī)開(kāi)啟播放節(jié)目，也可以跟用戶主動(dòng)打招呼交流。

應(yīng)用實(shí)例二、正視狀態(tài)+時(shí)間+人臉識(shí)別

知道這個(gè)用戶是誰(shuí)，可以播放這個(gè)用戶喜歡的節(jié)目；電視機(jī)還可以主動(dòng)呼叫用戶，主動(dòng)跟用戶交流。

應(yīng)用實(shí)例三、正視狀態(tài)+人臉身份識(shí)別+表情識(shí)別

顯然，知道用戶是誰(shuí)，而且知道他的表情，可以主動(dòng)跟該用戶交流，甚至提供相應(yīng)的服務(wù)。如果是一個(gè)小孩對(duì)著電視機(jī)哭，電視機(jī)可以自動(dòng)撥打媽媽的視頻電話，電視機(jī)上很快就可以出現(xiàn)媽媽的視頻，讓寶寶跟媽媽視頻交流。

應(yīng)用實(shí)例四、正視狀態(tài)+人臉識(shí)別+語(yǔ)音識(shí)別

人臉識(shí)別確認(rèn)現(xiàn)場(chǎng)只有一個(gè)用戶時(shí)，電視機(jī)可以把語(yǔ)音識(shí)別的結(jié)果視為該用戶對(duì)電視機(jī)所說(shuō)，電視機(jī)作出相應(yīng)回復(fù)和反饋。

應(yīng)用實(shí)例五、正視狀態(tài)+人臉識(shí)別+唇語(yǔ)識(shí)別+語(yǔ)音識(shí)別

人臉識(shí)別確認(rèn)現(xiàn)場(chǎng)有多個(gè)用戶時(shí)，判斷用戶是否“正視狀態(tài)”，檢測(cè)“正視”用戶的嘴唇變化，對(duì)正視用戶進(jìn)行唇語(yǔ)識(shí)別；同時(shí)對(duì)檢測(cè)到的語(yǔ)音信息進(jìn)行語(yǔ)音識(shí)別。將唇語(yǔ)識(shí)別結(jié)果與語(yǔ)音識(shí)別結(jié)果比對(duì)，如果結(jié)果一致，可以判定該正視用戶是在跟電視機(jī)對(duì)話，電視機(jī)作出相應(yīng)的回應(yīng)；如果結(jié)果不一致，則電視機(jī)不回應(yīng)。

應(yīng)用實(shí)例六、正視狀態(tài)+陣列麥克風(fēng)+人臉識(shí)別(或者聲紋識(shí)別)

比如有幾個(gè)人看電視時(shí)，幾個(gè)人都是正視電視。如果幾個(gè)人同時(shí)說(shuō)話，將來(lái)的陣列麥克風(fēng)(像雷達(dá)一樣可以跟蹤多個(gè)目標(biāo))可以對(duì)多個(gè)音源錄音。正視識(shí)別可以確定目標(biāo)有幾個(gè)，給陣列麥克風(fēng)提供目標(biāo)音源的位置信息，結(jié)合人臉身份識(shí)別，可以實(shí)現(xiàn)同時(shí)采集多人的聲音，并區(qū)分是誰(shuí)說(shuō)的內(nèi)容。

應(yīng)用實(shí)例七、應(yīng)用于空調(diào)

用戶望著空調(diào)，空調(diào)管理系統(tǒng)通過(guò)頭部姿態(tài)估計(jì)確認(rèn)用戶為“正視”狀態(tài)，空調(diào)啟動(dòng)人臉識(shí)別——知道用戶是誰(shuí)，打開(kāi)并調(diào)節(jié)到用戶喜歡的狀態(tài)；空調(diào)啟動(dòng)手勢(shì)識(shí)別——可以接受用戶的手勢(shì)操作；空調(diào)啟動(dòng)錄音和語(yǔ)音識(shí)別--可以接受用戶的語(yǔ)音指令操作。

以上實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是，對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護(hù)范圍。因此，本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉國(guó)華
技術(shù)所有人：劉國(guó)華
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

電視人機(jī)交互相關(guān)技術(shù)

智能電視人機(jī)交互相關(guān)技術(shù)

人機(jī)交互系統(tǒng)相關(guān)技術(shù)

汽車人機(jī)交互系統(tǒng)相關(guān)技術(shù)

別克人機(jī)交互系統(tǒng)相關(guān)技術(shù)

博越人機(jī)交互系統(tǒng)相關(guān)技術(shù)

寶馬人機(jī)交互系統(tǒng)相關(guān)技術(shù)

奔馳人機(jī)交互系統(tǒng)相關(guān)技術(shù)

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于正視的人機(jī)交互方法與系統(tǒng)與流程