混合交互方法、裝置、電子設(shè)備及可讀介質(zhì)與流程

文檔序號(hào)：41984543發(fā)布日期：2025-05-23 16:40閱讀：9來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)處理，特別是涉及一種混合交互方法、一種混合交互裝置、一種電子設(shè)備以及一種計(jì)算機(jī)可讀介質(zhì)。

背景技術(shù)：

1、人機(jī)交互技術(shù)(human-computer?interaction,hci)是指通過設(shè)計(jì)、評(píng)估和實(shí)現(xiàn)交互式計(jì)算系統(tǒng)，以提高人類與計(jì)算機(jī)之間的交互體驗(yàn)和效率。一般來說，人機(jī)交互通?？梢酝ㄟ^向用戶提供一圖形用戶界面(gui)，用戶可以通過圖形元素(如按鈕、菜單)與系統(tǒng)交互。

2、但是，在一些特定的場(chǎng)景下，如在需要駕駛員全神貫注的駕駛環(huán)境中，或是用戶雙手被占用、無法操作傳統(tǒng)設(shè)備的情況下，用戶較難與傳統(tǒng)的圖形用戶界面進(jìn)行交互，導(dǎo)致交互過程并不十分方便。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例是提供一種混合交互方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，以解決用戶與系統(tǒng)之間交互存在困難的問題。

2、本發(fā)明實(shí)施例公開了一種混合交互方法，所述方法包括：

3、采集用戶的多模態(tài)交互數(shù)據(jù)，所述多模態(tài)交互數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)、觸摸數(shù)據(jù)、手勢(shì)數(shù)據(jù)、眼動(dòng)數(shù)據(jù)、面部表情數(shù)據(jù)中的至少兩種交互數(shù)據(jù)；

4、通過所述交互識(shí)別模型提取所述多模態(tài)交互數(shù)據(jù)中的特征編碼信息，基于所述特征編碼信息，確定交互識(shí)別信息；

5、基于所述交互識(shí)別信息，生成交互反饋信息向用戶反饋。

6、可選地，所述通過所述交互識(shí)別模型提取所述多模態(tài)交互數(shù)據(jù)中的特征編碼信息，基于所述特征編碼信息，確定交互識(shí)別信息的步驟，包括：

7、通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息；

8、分別對(duì)所述特征信息進(jìn)行特征編碼處理，得到至少兩種特征編碼信息；基于預(yù)設(shè)的注意力權(quán)重矩陣對(duì)所述至少兩種特征編碼進(jìn)行融合，得到融合特征信息；

9、基于所述融合特征信息，確定交互識(shí)別信息。

10、可選地，所述特征信息包括語(yǔ)言數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征信息；

11、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟，包括：

12、提取語(yǔ)音數(shù)據(jù)中的梅爾頻率倒譜系數(shù)；

13、基于預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)提取所述梅爾頻率倒譜系數(shù)中的卷積特征信息；

14、將所述卷積特征信息輸入預(yù)設(shè)的循環(huán)神經(jīng)網(wǎng)絡(luò)中，獲取所述循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的語(yǔ)音識(shí)別結(jié)果作為語(yǔ)音特征信息。

15、可選地，所述特征信息包括觸摸數(shù)據(jù)對(duì)應(yīng)的觸摸特征信息；

16、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟，包括：

17、對(duì)所述觸摸數(shù)據(jù)進(jìn)行平滑處理，得到平滑軌跡數(shù)據(jù)；

18、在所述平滑軌跡數(shù)據(jù)中提取速度特征、曲率特征、方向特征、以及形狀特征中的至少一種作為觸摸特征信息。

19、可選地，所述特征信息包括手勢(shì)數(shù)據(jù)對(duì)應(yīng)的手勢(shì)特征信息；

20、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟，包括：

21、采用預(yù)設(shè)的圖像識(shí)別模型，確定所述手勢(shì)數(shù)據(jù)對(duì)應(yīng)的手勢(shì)關(guān)鍵點(diǎn)作為手勢(shì)特征信息。

22、可選地，所述特征信息包括眼動(dòng)數(shù)據(jù)對(duì)應(yīng)的眼動(dòng)特征信息；

23、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟，包括：

24、基于所述眼動(dòng)數(shù)據(jù)，確定眼球位置和瞳孔位置；

25、基于所述眼球位置和瞳孔位置，確定用戶的視線方向作為眼動(dòng)特征信息。

26、可選地，所述特征信息包括面部表情數(shù)據(jù)對(duì)應(yīng)的表情特征信息：

27、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟，包括：

28、在所述面部表情數(shù)據(jù)中提取表情關(guān)鍵信息；

29、基于所述表情關(guān)鍵信息，確定表情識(shí)別結(jié)果作為所述表情特征信息。

30、本發(fā)明實(shí)施例還提供一種混合交互裝置，所述裝置包括：

31、數(shù)據(jù)采集模塊，用于采集用戶的多模態(tài)交互數(shù)據(jù)，所述多模態(tài)交互數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)、觸摸數(shù)據(jù)、手勢(shì)數(shù)據(jù)、眼動(dòng)數(shù)據(jù)、面部表情數(shù)據(jù)中的至少兩種交互數(shù)據(jù)；

32、交互識(shí)別模塊，用于通過所述交互識(shí)別模型提取所述多模態(tài)交互數(shù)據(jù)中的特征編碼信息，基于所述特征編碼信息，確定交互識(shí)別信息；

33、反饋模塊，用于基于所述交互識(shí)別信息，生成交互反饋信息向用戶反饋。

34、可選地，所述交互識(shí)別模塊包括：

35、特征信息提取子模塊，用于通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息；

36、編碼子模塊，用于分別對(duì)所述特征信息進(jìn)行特征編碼處理，得到至少兩種特征編碼信息；

37、融合子模塊，用于基于預(yù)設(shè)的注意力權(quán)重矩陣對(duì)所述至少兩種特征編碼進(jìn)行融合，得到融合特征信息；

38、交互識(shí)別子模塊，用于基于所述融合特征信息，確定交互識(shí)別信息。

39、可選地，所述特征信息包括語(yǔ)言數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征信息；

40、所述特征信息提取子模塊包括：

41、梅爾頻率倒譜系數(shù)提取單元，用于提取語(yǔ)音數(shù)據(jù)中的梅爾頻率倒譜系數(shù)；

42、卷積特征提取單元，用于基于預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)提取所述梅爾頻率倒譜系數(shù)中的卷積特征信息；

43、語(yǔ)音特征提取單元，用于將所述卷積特征信息輸入預(yù)設(shè)的循環(huán)神經(jīng)網(wǎng)絡(luò)中，獲取所述循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的語(yǔ)音識(shí)別結(jié)果作為語(yǔ)音特征信息。

44、可選地，所述特征信息包括觸摸數(shù)據(jù)對(duì)應(yīng)的觸摸特征信息；

45、所述特征信息提取子模塊包括：

46、平滑軌跡獲取單元，用于對(duì)所述觸摸數(shù)據(jù)進(jìn)行平滑處理，得到平滑軌跡數(shù)據(jù)；

47、觸摸特征提取單元，用于在所述平滑軌跡數(shù)據(jù)中提取速度特征、曲率特征、方向特征、以及形狀特征中的至少一種作為觸摸特征信息。

48、可選地，所述特征信息包括手勢(shì)數(shù)據(jù)對(duì)應(yīng)的手勢(shì)特征信息；

49、所述特征信息提取子模塊包括：

50、手勢(shì)特征提取單元，用于采用預(yù)設(shè)的圖像識(shí)別模型，確定所述手勢(shì)數(shù)據(jù)對(duì)應(yīng)的手勢(shì)關(guān)鍵點(diǎn)作為手勢(shì)特征信息。

51、可選地，所述特征信息包括眼動(dòng)數(shù)據(jù)對(duì)應(yīng)的眼動(dòng)特征信息；

52、所述特征信息提取子模塊包括：

53、眼動(dòng)位置確定單元，用于基于所述眼動(dòng)數(shù)據(jù)，確定眼球位置和瞳孔位置；

54、眼動(dòng)特征提取單元，用于基于所述眼球位置和瞳孔位置，確定用戶的視線方向作為眼動(dòng)特征信息。

55、可選地，所述特征信息包括面部表情數(shù)據(jù)對(duì)應(yīng)的表情特征信息：

56、所述特征信息提取子模塊包括：

57、表情關(guān)鍵信息提取單元，用于在所述面部表情數(shù)據(jù)中提取表情關(guān)鍵信息；

58、表情特征提取單元，用于基于所述表情關(guān)鍵信息，確定表情識(shí)別結(jié)果作為所述表情特征信息。

59、本發(fā)明實(shí)施例還公開了一種電子設(shè)備，包括處理器、通信接口、存儲(chǔ)器和通信總線，其中，所述處理器、所述通信接口以及所述存儲(chǔ)器通過所述通信總線完成相互間的通信；

60、所述存儲(chǔ)器，用于存放計(jì)算機(jī)程序；

61、所述處理器，用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí)，實(shí)現(xiàn)如本發(fā)明實(shí)施例所述的方法。

62、本發(fā)明實(shí)施例還公開了一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)，其上存儲(chǔ)有指令，當(dāng)由一個(gè)或多個(gè)處理器執(zhí)行時(shí)，使得所述處理器執(zhí)行如本發(fā)明實(shí)施例所述的方法。

63、本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn)：

64、通過本發(fā)明實(shí)施例提供的混合交互方法，采集用戶的多模態(tài)交互數(shù)據(jù)，所述多模態(tài)交互數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)、觸摸數(shù)據(jù)、手勢(shì)數(shù)據(jù)、眼動(dòng)數(shù)據(jù)、面部表情數(shù)據(jù)中的至少兩種交互數(shù)據(jù)；通過所述交互識(shí)別模型提取所述多模態(tài)交互數(shù)據(jù)中的特征編碼信息，基于所述特征編碼信息，確定交互識(shí)別信息；基于所述交互識(shí)別信息，生成交互反饋信息向用戶反饋。由此，可以通過采集多種不同模態(tài)的用戶輸入與系統(tǒng)進(jìn)行交互，從而提高了交互的便捷性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王陳雄,黃定江,葛騰飛,湯益飛
技術(shù)所有人：中電信人工智能科技（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

混合交互方法、裝置、電子設(shè)備及可讀介質(zhì)與流程

混合交互方法、裝置、電子設(shè)備及可讀介質(zhì)與流程