本技術(shù)涉及人機(jī)交互領(lǐng)域,并且更具體地,涉及一種人機(jī)交互方法、裝置和電子設(shè)備。
背景技術(shù):
1、當(dāng)前人工智能(artificial?intelligence,ai)在電子設(shè)備上的應(yīng)用越來(lái)越廣泛。用戶(hù)可以在電子設(shè)備上進(jìn)行文本輸入或者語(yǔ)音輸入,從而得到相關(guān)的處理結(jié)果。以電子設(shè)備是車(chē)輛為例,車(chē)輛在接收到用戶(hù)發(fā)出的語(yǔ)音輸入“幫我生成一段與車(chē)外景色相關(guān)的文字”時(shí),車(chē)輛可以輸出相關(guān)的文本內(nèi)容。電子設(shè)備向用戶(hù)呈現(xiàn)的處理結(jié)果的準(zhǔn)確性直接影響用戶(hù)的人機(jī)交互體驗(yàn)。
2、因此,如何提升電子設(shè)備呈現(xiàn)的處理結(jié)果的準(zhǔn)確性成為了一個(gè)亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種人機(jī)交互方法、裝置和電子設(shè)備,有助于提升呈現(xiàn)給用戶(hù)的處理結(jié)果的準(zhǔn)確性,從而有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。
2、第一方面,本技術(shù)提供了一種人機(jī)交互方法,該方法包括:獲取第一圖像以及用戶(hù)的第一輸入;根據(jù)第一輸入,從第一圖像中確定第一感興趣區(qū)域(region?of?interest,roi);獲取第一roi的處理結(jié)果;控制提示裝置向用戶(hù)提示處理結(jié)果。
3、基于上述技術(shù)方案,根據(jù)用戶(hù)的輸入從圖像中確定roi并獲取roi的處理結(jié)果,可以使得該處理結(jié)果更加符合用戶(hù)的期望,從而有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。同時(shí),由于在得到該處理結(jié)果時(shí)僅使用了圖像中的roi而未使用整幅圖像,這樣,可以降低得到該處理結(jié)果所需的計(jì)算開(kāi)銷(xiāo)。
4、此外,由于僅使用了roi而未使用整幅圖像,有助于避免在得到處理結(jié)果的過(guò)程中非必要的隱私泄露,可以實(shí)現(xiàn)保護(hù)自身和/或他人隱私安全的作用。
5、在一些可能的實(shí)現(xiàn)方式中,獲取第一圖像以及用戶(hù)的第一輸入,包括:響應(yīng)于獲取到該第一輸入,獲取該第一圖像。
6、在一些可能的實(shí)現(xiàn)方式中,該第一圖像可以為獲取第一輸入之前的一段時(shí)間或者某個(gè)時(shí)刻的圖像;或者,該第一圖像可以為獲取第一輸入時(shí)的圖像;或者,該第一圖像可以為獲取第一輸入之后的一段時(shí)間或者某個(gè)時(shí)刻的圖像。
7、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入或者第一文本輸入,根據(jù)第一輸入,從第一圖像中確定第一roi,包括:將第一輸入和第一圖像輸入目標(biāo)檢測(cè)模型中,得到第一roi,目標(biāo)檢測(cè)模型的輸出基于第一輸入中第一目標(biāo)語(yǔ)義的變化而變化。
8、基于上述技術(shù)方案,可以通過(guò)目標(biāo)檢測(cè)模型推理得到該第一roi。由于該目標(biāo)檢測(cè)模型的輸入基于目標(biāo)語(yǔ)義的變化而變化,這樣可以提升模型推理結(jié)果的準(zhǔn)確性,進(jìn)而可以提升最終得到的處理結(jié)果的準(zhǔn)確性。
9、在一些可能的實(shí)現(xiàn)方式中,目標(biāo)檢測(cè)模型也可以稱(chēng)之為開(kāi)放詞匯目標(biāo)檢測(cè)模型。
10、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入,根據(jù)第一輸入,從第一圖像中確定第一roi,包括:根據(jù)第一語(yǔ)音輸入,確定第一文本內(nèi)容;根據(jù)第一文本內(nèi)容,從第一圖像中確定第一roi。
11、基于上述技術(shù)方案,通過(guò)對(duì)語(yǔ)音輸入對(duì)應(yīng)的文本內(nèi)容進(jìn)行分析,可以實(shí)現(xiàn)對(duì)圖像中roi的提取,有助于提升提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。
12、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,根據(jù)第一文本內(nèi)容,從第一圖像中確定第一roi,包括:在第一文本內(nèi)容包括與方向相關(guān)的第二文本內(nèi)容時(shí),根據(jù)第二文本內(nèi)容,確定第一roi;或者,在第一文本內(nèi)容包括與第一目標(biāo)的屬性相關(guān)的第三文本內(nèi)容時(shí),根據(jù)第三文本內(nèi)容,確定第一roi,第一roi中包括第一目標(biāo)。
13、基于上述技術(shù)方案,通過(guò)文本內(nèi)容中與方向相關(guān)的目標(biāo)文本內(nèi)容或者與目標(biāo)的屬性相關(guān)的目標(biāo)文本內(nèi)容,可以從圖像中提取到roi。由于目標(biāo)文本內(nèi)容可以指示圖像中用戶(hù)感興趣的區(qū)域,有助于提升從圖像中提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。
14、在一些可能的實(shí)現(xiàn)方式中,該第一目標(biāo)的屬性包括第一目標(biāo)的顏色、尺寸、品牌、類(lèi)型中的一項(xiàng)或者多項(xiàng)。
15、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,根據(jù)第三文本內(nèi)容,確定第一roi,包括:根據(jù)第三文本內(nèi)容,從第一圖像中確定多個(gè)roi;根據(jù)獲取到第一語(yǔ)音輸入時(shí)用戶(hù)的視線(xiàn)方向,從多個(gè)roi中確定第一roi。
16、基于上述技術(shù)方案,在通過(guò)目標(biāo)的屬性確定了多個(gè)roi時(shí),可以結(jié)合用戶(hù)的視線(xiàn)方向從多個(gè)roi中確定第一roi。這樣,通過(guò)結(jié)合用戶(hù)的視線(xiàn)方向作為篩選roi的依據(jù),有助于提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。
17、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,根據(jù)第三文本內(nèi)容,確定第一roi,包括:根據(jù)第三文本內(nèi)容,從第一圖像中確定多個(gè)roi;控制提示裝置提示用戶(hù)從多個(gè)roi中選擇一個(gè)或者多個(gè)roi;響應(yīng)于檢測(cè)到用戶(hù)的第二輸入,確定第一roi,第二輸入指示用戶(hù)選擇第一roi。
18、基于上述技術(shù)方案,在通過(guò)目標(biāo)的屬性確定了多個(gè)roi時(shí),可以提示用戶(hù)選擇某個(gè)roi。這樣,通過(guò)結(jié)合用戶(hù)的選擇可以準(zhǔn)確得到用戶(hù)期望的roi,有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。
19、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,根據(jù)第一文本內(nèi)容,從第一圖像中確定第一roi,包括:在第一文本內(nèi)容中不包括方向相關(guān)的文本內(nèi)容且不包括與目標(biāo)的屬性相關(guān)的文本內(nèi)容時(shí),獲取用戶(hù)的視線(xiàn)方向;根據(jù)視線(xiàn)方向,確定第一roi。
20、基于上述技術(shù)方案,在文本內(nèi)容中不包括目標(biāo)文本內(nèi)容時(shí),可以結(jié)合用戶(hù)的視線(xiàn)方向確定roi,有助于提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。
21、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入,方法包括:獲取用戶(hù)觸發(fā)第一語(yǔ)音輸入時(shí)用戶(hù)的第一手勢(shì);其中,根據(jù)第一輸入,從第一圖像中確定第一roi,包括:根據(jù)第一手勢(shì),確定第一roi。
22、基于上述技術(shù)方案,通過(guò)觸發(fā)語(yǔ)音輸入時(shí)用戶(hù)的手勢(shì)確定roi,有助于提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。
23、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取第一roi的處理結(jié)果,包括:向云端服務(wù)器發(fā)送第一輸入和第一roi;接收云端服務(wù)器基于第一輸入和第一roi確定的處理結(jié)果。
24、基于上述技術(shù)方案,以上述人機(jī)交互方法由電子設(shè)備執(zhí)行為例,電子設(shè)備可以向云端服務(wù)器發(fā)送第一輸入和第一roi,從而由云端服務(wù)器基于第一輸入和第一roi得到處理結(jié)果。這樣,通過(guò)借助云端服務(wù)器的高算力,有助于降低用戶(hù)與電子設(shè)備進(jìn)行交互時(shí)的時(shí)延。同時(shí),由于電子設(shè)備向云端服務(wù)器僅發(fā)送了第一roi而不是第一圖像,有助于避免非必要的隱私泄露,可以實(shí)現(xiàn)保護(hù)自身和/或他人隱私安全的作用。
25、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取第一roi的處理結(jié)果,包括:將第一輸入和第一roi輸入內(nèi)容生成模型中,得到處理結(jié)果。
26、基于上述技術(shù)方案,以上述人機(jī)交互方法由電子設(shè)備執(zhí)行為例,通過(guò)將第一輸入和第一roi輸入內(nèi)容生成模型,可以得到該處理結(jié)果。這樣,可以使得該處理結(jié)果更加符合用戶(hù)的期望,從而有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。同時(shí),由于在得到該處理結(jié)果時(shí)僅使用了圖像中的roi而未使用整幅圖像,這樣,可以降低電子設(shè)備得到該處理結(jié)果時(shí)所需的計(jì)算開(kāi)銷(xiāo),從而有助于降低電子設(shè)備的功耗。
27、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為用戶(hù)的第二手勢(shì),根據(jù)第一輸入,從第一圖像中確定第一roi,包括:根據(jù)第二手勢(shì)中手指的朝向,確定第一roi。
28、基于上述技術(shù)方案,通過(guò)第二手勢(shì)中手指的朝向可以用于從圖像中確定roi。這樣,無(wú)需語(yǔ)音輸入或者文本輸入,僅通過(guò)手勢(shì)輸入就可以確定出roi,從而得到符合用戶(hù)期望的處理結(jié)果。有助于提升電子設(shè)備的智能化程度,避免得到處理結(jié)果之前用戶(hù)繁瑣的輸入,有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。
29、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為用戶(hù)的第三手勢(shì),根據(jù)第一輸入,從第一圖像中確定第一roi,包括:在第三手勢(shì)為預(yù)設(shè)手勢(shì)時(shí),根據(jù)用戶(hù)的視線(xiàn)方向,確定第一roi。
30、基于上述技術(shù)方案,在用戶(hù)的手勢(shì)為預(yù)設(shè)手勢(shì)時(shí),可以基于用戶(hù)的視線(xiàn)方向確定出roi,從而得到符合用戶(hù)期望的處理結(jié)果。這樣,有助于提升電子設(shè)備的智能化程度,避免得到處理結(jié)果之前用戶(hù)繁瑣的輸入,有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。
31、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為針對(duì)第一按鍵的輸入,根據(jù)第一輸入,從第一圖像中確定第一roi,包括:獲取針對(duì)第一按鍵的輸入時(shí)用戶(hù)的視線(xiàn)方向;根據(jù)視線(xiàn)方向,確定第一roi。
32、基于上述技術(shù)方案,通過(guò)按鍵觸發(fā)時(shí)用戶(hù)的視線(xiàn)方向確定roi,進(jìn)而得到處理結(jié)果。這樣,可以提升用戶(hù)得到該處理結(jié)果時(shí)的便捷性,有助于提升電子設(shè)備的智能化程度。
33、在一些可能的實(shí)現(xiàn)方式中,獲取針對(duì)第一按鍵的輸入時(shí)用戶(hù)的視線(xiàn)方向,包括:獲取從第一按鍵的輸入起的預(yù)設(shè)時(shí)長(zhǎng)后用戶(hù)的視線(xiàn)方向。
34、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取第一roi的處理結(jié)果,包括:向云端服務(wù)器發(fā)送第一roi;接收云端服務(wù)器基于第一roi確定的處理結(jié)果。
35、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取第一roi的處理結(jié)果,包括:將第一roi輸入內(nèi)容生成模型中,得到處理結(jié)果。
36、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取roi的處理結(jié)果,包括:根據(jù)第一輸入包括的第二目標(biāo)語(yǔ)義和第一roi,確定處理結(jié)果。
37、基于上述技術(shù)方案,可以根據(jù)第一輸入包括的第二目標(biāo)語(yǔ)義和第一roi,確定該處理結(jié)果。這樣,通過(guò)目標(biāo)語(yǔ)義和roi確定該處理結(jié)果,可以使得該處理結(jié)果更符合用戶(hù)的期望,有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。同時(shí),可以使得確定處理結(jié)果的過(guò)程對(duì)用戶(hù)可不見(jiàn)。
38、在一些可能的實(shí)現(xiàn)方式中,該第一目標(biāo)語(yǔ)義和該第二目標(biāo)語(yǔ)義不同。
39、第二方面,本技術(shù)提供了一種人機(jī)交互裝置,該裝置包括:獲取單元,用于獲取第一圖像以及用戶(hù)的第一輸入;確定單元,用于根據(jù)第一輸入,從第一圖像中確定第一感興趣區(qū)域roi;獲取單元,還用于獲取roi的處理結(jié)果;控制單元,用于控制提示裝置向用戶(hù)提示處理結(jié)果。
40、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入或者第一文本輸入,確定單元,用于:將第一輸入和第一圖像輸入目標(biāo)檢測(cè)模型中,得到第一roi,目標(biāo)檢測(cè)模型的輸出基于第一輸入中第一目標(biāo)語(yǔ)義的變化而變化。
41、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入,確定單元,用于:根據(jù)第一語(yǔ)音輸入,確定第一文本內(nèi)容;根據(jù)第一文本內(nèi)容,從第一圖像中確定第一roi。
42、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,確定單元,用于:在第一文本內(nèi)容包括與方向相關(guān)的第二文本內(nèi)容時(shí),根據(jù)第二文本內(nèi)容,確定第一roi;或者,在第一文本內(nèi)容包括與第一目標(biāo)的屬性相關(guān)的第三文本內(nèi)容時(shí),根據(jù)第三文本內(nèi)容,確定第一roi,第一roi中包括第一目標(biāo)。
43、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,確定單元,用于:根據(jù)第三文本內(nèi)容,從第一圖像中確定多個(gè)roi;根據(jù)獲取到第一語(yǔ)音輸入時(shí)用戶(hù)的視線(xiàn)方向,從多個(gè)roi中確定第一roi。
44、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,確定單元,用于:根據(jù)第三文本內(nèi)容,從第一圖像中確定多個(gè)roi;控制單元,用于控制提示裝置提示用戶(hù)從多個(gè)roi中選擇一個(gè)或者多個(gè)roi;確定單元,用于響應(yīng)于用戶(hù)的第二輸入,確定第一roi,第二輸入指示用戶(hù)選擇第一roi。
45、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,獲取單元,用于在第一文本內(nèi)容中不包括方向相關(guān)的文本內(nèi)容且不包括與目標(biāo)的屬性相關(guān)的文本內(nèi)容時(shí),獲取用戶(hù)的視線(xiàn)方向;確定單元,用于根據(jù)視線(xiàn)方向,確定第一roi。
46、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入,獲取單元,還用于獲取用戶(hù)觸發(fā)第一語(yǔ)音輸入時(shí)用戶(hù)的第一手勢(shì);確定單元,用于根據(jù)第一手勢(shì),確定第一roi。
47、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,裝置還包括發(fā)送單元,發(fā)送單元,用于向云端服務(wù)器發(fā)送第一輸入和第一roi;獲取單元,用于接收云端服務(wù)器基于第一輸入和第一roi確定的處理結(jié)果。
48、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,獲取單元,用于:將第一輸入和第一roi輸入內(nèi)容生成模型中,得到處理結(jié)果。
49、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為用戶(hù)的第二手勢(shì),確定單元,用于:根據(jù)第二手勢(shì)中手指的朝向,確定第一roi。
50、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為用戶(hù)的第三手勢(shì),確定單元,用于:在第三手勢(shì)為預(yù)設(shè)手勢(shì)時(shí),根據(jù)用戶(hù)的視線(xiàn)方向,確定第一roi。
51、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為針對(duì)第一按鍵的輸入,獲取單元,還用于獲取針對(duì)第一按鍵的輸入時(shí)用戶(hù)的視線(xiàn)方向;確定單元,用于根據(jù)視線(xiàn)方向,確定第一roi。
52、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,裝置還包括發(fā)送單元,發(fā)送單元,用于向云端服務(wù)器發(fā)送第一roi;獲取單元,用于接收云端服務(wù)器基于第一roi確定的處理結(jié)果。
53、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,獲取單元,用于:將第一roi輸入內(nèi)容生成模型中,得到處理結(jié)果。
54、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,確定單元,還用于根據(jù)第一輸入包括的第二目標(biāo)語(yǔ)義和第一roi,確定處理結(jié)果。
55、第三方面,本技術(shù)提供了一種人機(jī)交互裝置,該人機(jī)交互裝置包括:存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;處理器,用于執(zhí)行該存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序,以使得該裝置執(zhí)行上述第一方面中任一項(xiàng)所述的方法。
56、第四方面,本技術(shù)提供了一種電子設(shè)備,該電子設(shè)備包括上述第二方面或者第三方面中任一項(xiàng)所述的裝置。
57、第五方面,本技術(shù)提供了一種云端服務(wù)器,該云端服務(wù)器包括上述第二方面或者第三方面中任一項(xiàng)所述的裝置。
58、第六方面,本技術(shù)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述第一方面中任一項(xiàng)所述的方法。
59、第七方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括:計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述第一方面中任一項(xiàng)所述的方法。