本發(fā)明涉及數(shù)據(jù)處理,特別是涉及一種混合交互方法、一種混合交互裝置、一種電子設(shè)備以及一種計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù):
1、人機(jī)交互技術(shù)(human-computer?interaction,hci)是指通過設(shè)計(jì)、評(píng)估和實(shí)現(xiàn)交互式計(jì)算系統(tǒng),以提高人類與計(jì)算機(jī)之間的交互體驗(yàn)和效率。一般來說,人機(jī)交互通??梢酝ㄟ^向用戶提供一圖形用戶界面(gui),用戶可以通過圖形元素(如按鈕、菜單)與系統(tǒng)交互。
2、但是,在一些特定的場(chǎng)景下,如在需要駕駛員全神貫注的駕駛環(huán)境中,或是用戶雙手被占用、無法操作傳統(tǒng)設(shè)備的情況下,用戶較難與傳統(tǒng)的圖形用戶界面進(jìn)行交互,導(dǎo)致交互過程并不十分方便。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例是提供一種混合交互方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),以解決用戶與系統(tǒng)之間交互存在困難的問題。
2、本發(fā)明實(shí)施例公開了一種混合交互方法,所述方法包括:
3、采集用戶的多模態(tài)交互數(shù)據(jù),所述多模態(tài)交互數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)、觸摸數(shù)據(jù)、手勢(shì)數(shù)據(jù)、眼動(dòng)數(shù)據(jù)、面部表情數(shù)據(jù)中的至少兩種交互數(shù)據(jù);
4、通過所述交互識(shí)別模型提取所述多模態(tài)交互數(shù)據(jù)中的特征編碼信息,基于所述特征編碼信息,確定交互識(shí)別信息;
5、基于所述交互識(shí)別信息,生成交互反饋信息向用戶反饋。
6、可選地,所述通過所述交互識(shí)別模型提取所述多模態(tài)交互數(shù)據(jù)中的特征編碼信息,基于所述特征編碼信息,確定交互識(shí)別信息的步驟,包括:
7、通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息;
8、分別對(duì)所述特征信息進(jìn)行特征編碼處理,得到至少兩種特征編碼信息;基于預(yù)設(shè)的注意力權(quán)重矩陣對(duì)所述至少兩種特征編碼進(jìn)行融合,得到融合特征信息;
9、基于所述融合特征信息,確定交互識(shí)別信息。
10、可選地,所述特征信息包括語(yǔ)言數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征信息;
11、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟,包括:
12、提取語(yǔ)音數(shù)據(jù)中的梅爾頻率倒譜系數(shù);
13、基于預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)提取所述梅爾頻率倒譜系數(shù)中的卷積特征信息;
14、將所述卷積特征信息輸入預(yù)設(shè)的循環(huán)神經(jīng)網(wǎng)絡(luò)中,獲取所述循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的語(yǔ)音識(shí)別結(jié)果作為語(yǔ)音特征信息。
15、可選地,所述特征信息包括觸摸數(shù)據(jù)對(duì)應(yīng)的觸摸特征信息;
16、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟,包括:
17、對(duì)所述觸摸數(shù)據(jù)進(jìn)行平滑處理,得到平滑軌跡數(shù)據(jù);
18、在所述平滑軌跡數(shù)據(jù)中提取速度特征、曲率特征、方向特征、以及形狀特征中的至少一種作為觸摸特征信息。
19、可選地,所述特征信息包括手勢(shì)數(shù)據(jù)對(duì)應(yīng)的手勢(shì)特征信息;
20、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟,包括:
21、采用預(yù)設(shè)的圖像識(shí)別模型,確定所述手勢(shì)數(shù)據(jù)對(duì)應(yīng)的手勢(shì)關(guān)鍵點(diǎn)作為手勢(shì)特征信息。
22、可選地,所述特征信息包括眼動(dòng)數(shù)據(jù)對(duì)應(yīng)的眼動(dòng)特征信息;
23、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟,包括:
24、基于所述眼動(dòng)數(shù)據(jù),確定眼球位置和瞳孔位置;
25、基于所述眼球位置和瞳孔位置,確定用戶的視線方向作為眼動(dòng)特征信息。
26、可選地,所述特征信息包括面部表情數(shù)據(jù)對(duì)應(yīng)的表情特征信息:
27、所述通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息的步驟,包括:
28、在所述面部表情數(shù)據(jù)中提取表情關(guān)鍵信息;
29、基于所述表情關(guān)鍵信息,確定表情識(shí)別結(jié)果作為所述表情特征信息。
30、本發(fā)明實(shí)施例還提供一種混合交互裝置,所述裝置包括:
31、數(shù)據(jù)采集模塊,用于采集用戶的多模態(tài)交互數(shù)據(jù),所述多模態(tài)交互數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)、觸摸數(shù)據(jù)、手勢(shì)數(shù)據(jù)、眼動(dòng)數(shù)據(jù)、面部表情數(shù)據(jù)中的至少兩種交互數(shù)據(jù);
32、交互識(shí)別模塊,用于通過所述交互識(shí)別模型提取所述多模態(tài)交互數(shù)據(jù)中的特征編碼信息,基于所述特征編碼信息,確定交互識(shí)別信息;
33、反饋模塊,用于基于所述交互識(shí)別信息,生成交互反饋信息向用戶反饋。
34、可選地,所述交互識(shí)別模塊包括:
35、特征信息提取子模塊,用于通過所述交互識(shí)別模型分別提取交互數(shù)據(jù)對(duì)應(yīng)的特征信息;
36、編碼子模塊,用于分別對(duì)所述特征信息進(jìn)行特征編碼處理,得到至少兩種特征編碼信息;
37、融合子模塊,用于基于預(yù)設(shè)的注意力權(quán)重矩陣對(duì)所述至少兩種特征編碼進(jìn)行融合,得到融合特征信息;
38、交互識(shí)別子模塊,用于基于所述融合特征信息,確定交互識(shí)別信息。
39、可選地,所述特征信息包括語(yǔ)言數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征信息;
40、所述特征信息提取子模塊包括:
41、梅爾頻率倒譜系數(shù)提取單元,用于提取語(yǔ)音數(shù)據(jù)中的梅爾頻率倒譜系數(shù);
42、卷積特征提取單元,用于基于預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)提取所述梅爾頻率倒譜系數(shù)中的卷積特征信息;
43、語(yǔ)音特征提取單元,用于將所述卷積特征信息輸入預(yù)設(shè)的循環(huán)神經(jīng)網(wǎng)絡(luò)中,獲取所述循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的語(yǔ)音識(shí)別結(jié)果作為語(yǔ)音特征信息。
44、可選地,所述特征信息包括觸摸數(shù)據(jù)對(duì)應(yīng)的觸摸特征信息;
45、所述特征信息提取子模塊包括:
46、平滑軌跡獲取單元,用于對(duì)所述觸摸數(shù)據(jù)進(jìn)行平滑處理,得到平滑軌跡數(shù)據(jù);
47、觸摸特征提取單元,用于在所述平滑軌跡數(shù)據(jù)中提取速度特征、曲率特征、方向特征、以及形狀特征中的至少一種作為觸摸特征信息。
48、可選地,所述特征信息包括手勢(shì)數(shù)據(jù)對(duì)應(yīng)的手勢(shì)特征信息;
49、所述特征信息提取子模塊包括:
50、手勢(shì)特征提取單元,用于采用預(yù)設(shè)的圖像識(shí)別模型,確定所述手勢(shì)數(shù)據(jù)對(duì)應(yīng)的手勢(shì)關(guān)鍵點(diǎn)作為手勢(shì)特征信息。
51、可選地,所述特征信息包括眼動(dòng)數(shù)據(jù)對(duì)應(yīng)的眼動(dòng)特征信息;
52、所述特征信息提取子模塊包括:
53、眼動(dòng)位置確定單元,用于基于所述眼動(dòng)數(shù)據(jù),確定眼球位置和瞳孔位置;
54、眼動(dòng)特征提取單元,用于基于所述眼球位置和瞳孔位置,確定用戶的視線方向作為眼動(dòng)特征信息。
55、可選地,所述特征信息包括面部表情數(shù)據(jù)對(duì)應(yīng)的表情特征信息:
56、所述特征信息提取子模塊包括:
57、表情關(guān)鍵信息提取單元,用于在所述面部表情數(shù)據(jù)中提取表情關(guān)鍵信息;
58、表情特征提取單元,用于基于所述表情關(guān)鍵信息,確定表情識(shí)別結(jié)果作為所述表情特征信息。
59、本發(fā)明實(shí)施例還公開了一種電子設(shè)備,包括處理器、通信接口、存儲(chǔ)器和通信總線,其中,所述處理器、所述通信接口以及所述存儲(chǔ)器通過所述通信總線完成相互間的通信;
60、所述存儲(chǔ)器,用于存放計(jì)算機(jī)程序;
61、所述處理器,用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí),實(shí)現(xiàn)如本發(fā)明實(shí)施例所述的方法。
62、本發(fā)明實(shí)施例還公開了一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有指令,當(dāng)由一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如本發(fā)明實(shí)施例所述的方法。
63、本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn):
64、通過本發(fā)明實(shí)施例提供的混合交互方法,采集用戶的多模態(tài)交互數(shù)據(jù),所述多模態(tài)交互數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)、觸摸數(shù)據(jù)、手勢(shì)數(shù)據(jù)、眼動(dòng)數(shù)據(jù)、面部表情數(shù)據(jù)中的至少兩種交互數(shù)據(jù);通過所述交互識(shí)別模型提取所述多模態(tài)交互數(shù)據(jù)中的特征編碼信息,基于所述特征編碼信息,確定交互識(shí)別信息;基于所述交互識(shí)別信息,生成交互反饋信息向用戶反饋。由此,可以通過采集多種不同模態(tài)的用戶輸入與系統(tǒng)進(jìn)行交互,從而提高了交互的便捷性。