最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

人機(jī)交互方法、裝置和電子設(shè)備與流程

文檔序號(hào):41950649發(fā)布日期:2025-05-16 14:10閱讀:3來(lái)源:國(guó)知局
人機(jī)交互方法、裝置和電子設(shè)備與流程

本技術(shù)涉及人機(jī)交互領(lǐng)域,并且更具體地,涉及一種人機(jī)交互方法、裝置和電子設(shè)備。


背景技術(shù):

1、當(dāng)前人工智能(artificial?intelligence,ai)在電子設(shè)備上的應(yīng)用越來(lái)越廣泛。用戶(hù)可以在電子設(shè)備上進(jìn)行文本輸入或者語(yǔ)音輸入,從而得到相關(guān)的處理結(jié)果。以電子設(shè)備是車(chē)輛為例,車(chē)輛在接收到用戶(hù)發(fā)出的語(yǔ)音輸入“幫我生成一段與車(chē)外景色相關(guān)的文字”時(shí),車(chē)輛可以輸出相關(guān)的文本內(nèi)容。電子設(shè)備向用戶(hù)呈現(xiàn)的處理結(jié)果的準(zhǔn)確性直接影響用戶(hù)的人機(jī)交互體驗(yàn)。

2、因此,如何提升電子設(shè)備呈現(xiàn)的處理結(jié)果的準(zhǔn)確性成為了一個(gè)亟待解決的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提供一種人機(jī)交互方法、裝置和電子設(shè)備,有助于提升呈現(xiàn)給用戶(hù)的處理結(jié)果的準(zhǔn)確性,從而有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。

2、第一方面,本技術(shù)提供了一種人機(jī)交互方法,該方法包括:獲取第一圖像以及用戶(hù)的第一輸入;根據(jù)第一輸入,從第一圖像中確定第一感興趣區(qū)域(region?of?interest,roi);獲取第一roi的處理結(jié)果;控制提示裝置向用戶(hù)提示處理結(jié)果。

3、基于上述技術(shù)方案,根據(jù)用戶(hù)的輸入從圖像中確定roi并獲取roi的處理結(jié)果,可以使得該處理結(jié)果更加符合用戶(hù)的期望,從而有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。同時(shí),由于在得到該處理結(jié)果時(shí)僅使用了圖像中的roi而未使用整幅圖像,這樣,可以降低得到該處理結(jié)果所需的計(jì)算開(kāi)銷(xiāo)。

4、此外,由于僅使用了roi而未使用整幅圖像,有助于避免在得到處理結(jié)果的過(guò)程中非必要的隱私泄露,可以實(shí)現(xiàn)保護(hù)自身和/或他人隱私安全的作用。

5、在一些可能的實(shí)現(xiàn)方式中,獲取第一圖像以及用戶(hù)的第一輸入,包括:響應(yīng)于獲取到該第一輸入,獲取該第一圖像。

6、在一些可能的實(shí)現(xiàn)方式中,該第一圖像可以為獲取第一輸入之前的一段時(shí)間或者某個(gè)時(shí)刻的圖像;或者,該第一圖像可以為獲取第一輸入時(shí)的圖像;或者,該第一圖像可以為獲取第一輸入之后的一段時(shí)間或者某個(gè)時(shí)刻的圖像。

7、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入或者第一文本輸入,根據(jù)第一輸入,從第一圖像中確定第一roi,包括:將第一輸入和第一圖像輸入目標(biāo)檢測(cè)模型中,得到第一roi,目標(biāo)檢測(cè)模型的輸出基于第一輸入中第一目標(biāo)語(yǔ)義的變化而變化。

8、基于上述技術(shù)方案,可以通過(guò)目標(biāo)檢測(cè)模型推理得到該第一roi。由于該目標(biāo)檢測(cè)模型的輸入基于目標(biāo)語(yǔ)義的變化而變化,這樣可以提升模型推理結(jié)果的準(zhǔn)確性,進(jìn)而可以提升最終得到的處理結(jié)果的準(zhǔn)確性。

9、在一些可能的實(shí)現(xiàn)方式中,目標(biāo)檢測(cè)模型也可以稱(chēng)之為開(kāi)放詞匯目標(biāo)檢測(cè)模型。

10、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入,根據(jù)第一輸入,從第一圖像中確定第一roi,包括:根據(jù)第一語(yǔ)音輸入,確定第一文本內(nèi)容;根據(jù)第一文本內(nèi)容,從第一圖像中確定第一roi。

11、基于上述技術(shù)方案,通過(guò)對(duì)語(yǔ)音輸入對(duì)應(yīng)的文本內(nèi)容進(jìn)行分析,可以實(shí)現(xiàn)對(duì)圖像中roi的提取,有助于提升提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。

12、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,根據(jù)第一文本內(nèi)容,從第一圖像中確定第一roi,包括:在第一文本內(nèi)容包括與方向相關(guān)的第二文本內(nèi)容時(shí),根據(jù)第二文本內(nèi)容,確定第一roi;或者,在第一文本內(nèi)容包括與第一目標(biāo)的屬性相關(guān)的第三文本內(nèi)容時(shí),根據(jù)第三文本內(nèi)容,確定第一roi,第一roi中包括第一目標(biāo)。

13、基于上述技術(shù)方案,通過(guò)文本內(nèi)容中與方向相關(guān)的目標(biāo)文本內(nèi)容或者與目標(biāo)的屬性相關(guān)的目標(biāo)文本內(nèi)容,可以從圖像中提取到roi。由于目標(biāo)文本內(nèi)容可以指示圖像中用戶(hù)感興趣的區(qū)域,有助于提升從圖像中提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。

14、在一些可能的實(shí)現(xiàn)方式中,該第一目標(biāo)的屬性包括第一目標(biāo)的顏色、尺寸、品牌、類(lèi)型中的一項(xiàng)或者多項(xiàng)。

15、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,根據(jù)第三文本內(nèi)容,確定第一roi,包括:根據(jù)第三文本內(nèi)容,從第一圖像中確定多個(gè)roi;根據(jù)獲取到第一語(yǔ)音輸入時(shí)用戶(hù)的視線(xiàn)方向,從多個(gè)roi中確定第一roi。

16、基于上述技術(shù)方案,在通過(guò)目標(biāo)的屬性確定了多個(gè)roi時(shí),可以結(jié)合用戶(hù)的視線(xiàn)方向從多個(gè)roi中確定第一roi。這樣,通過(guò)結(jié)合用戶(hù)的視線(xiàn)方向作為篩選roi的依據(jù),有助于提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。

17、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,根據(jù)第三文本內(nèi)容,確定第一roi,包括:根據(jù)第三文本內(nèi)容,從第一圖像中確定多個(gè)roi;控制提示裝置提示用戶(hù)從多個(gè)roi中選擇一個(gè)或者多個(gè)roi;響應(yīng)于檢測(cè)到用戶(hù)的第二輸入,確定第一roi,第二輸入指示用戶(hù)選擇第一roi。

18、基于上述技術(shù)方案,在通過(guò)目標(biāo)的屬性確定了多個(gè)roi時(shí),可以提示用戶(hù)選擇某個(gè)roi。這樣,通過(guò)結(jié)合用戶(hù)的選擇可以準(zhǔn)確得到用戶(hù)期望的roi,有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。

19、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,根據(jù)第一文本內(nèi)容,從第一圖像中確定第一roi,包括:在第一文本內(nèi)容中不包括方向相關(guān)的文本內(nèi)容且不包括與目標(biāo)的屬性相關(guān)的文本內(nèi)容時(shí),獲取用戶(hù)的視線(xiàn)方向;根據(jù)視線(xiàn)方向,確定第一roi。

20、基于上述技術(shù)方案,在文本內(nèi)容中不包括目標(biāo)文本內(nèi)容時(shí),可以結(jié)合用戶(hù)的視線(xiàn)方向確定roi,有助于提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。

21、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入,方法包括:獲取用戶(hù)觸發(fā)第一語(yǔ)音輸入時(shí)用戶(hù)的第一手勢(shì);其中,根據(jù)第一輸入,從第一圖像中確定第一roi,包括:根據(jù)第一手勢(shì),確定第一roi。

22、基于上述技術(shù)方案,通過(guò)觸發(fā)語(yǔ)音輸入時(shí)用戶(hù)的手勢(shì)確定roi,有助于提取得到的roi的準(zhǔn)確性,從而給有助于提升最終得到的處理結(jié)果的準(zhǔn)確性。

23、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取第一roi的處理結(jié)果,包括:向云端服務(wù)器發(fā)送第一輸入和第一roi;接收云端服務(wù)器基于第一輸入和第一roi確定的處理結(jié)果。

24、基于上述技術(shù)方案,以上述人機(jī)交互方法由電子設(shè)備執(zhí)行為例,電子設(shè)備可以向云端服務(wù)器發(fā)送第一輸入和第一roi,從而由云端服務(wù)器基于第一輸入和第一roi得到處理結(jié)果。這樣,通過(guò)借助云端服務(wù)器的高算力,有助于降低用戶(hù)與電子設(shè)備進(jìn)行交互時(shí)的時(shí)延。同時(shí),由于電子設(shè)備向云端服務(wù)器僅發(fā)送了第一roi而不是第一圖像,有助于避免非必要的隱私泄露,可以實(shí)現(xiàn)保護(hù)自身和/或他人隱私安全的作用。

25、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取第一roi的處理結(jié)果,包括:將第一輸入和第一roi輸入內(nèi)容生成模型中,得到處理結(jié)果。

26、基于上述技術(shù)方案,以上述人機(jī)交互方法由電子設(shè)備執(zhí)行為例,通過(guò)將第一輸入和第一roi輸入內(nèi)容生成模型,可以得到該處理結(jié)果。這樣,可以使得該處理結(jié)果更加符合用戶(hù)的期望,從而有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。同時(shí),由于在得到該處理結(jié)果時(shí)僅使用了圖像中的roi而未使用整幅圖像,這樣,可以降低電子設(shè)備得到該處理結(jié)果時(shí)所需的計(jì)算開(kāi)銷(xiāo),從而有助于降低電子設(shè)備的功耗。

27、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為用戶(hù)的第二手勢(shì),根據(jù)第一輸入,從第一圖像中確定第一roi,包括:根據(jù)第二手勢(shì)中手指的朝向,確定第一roi。

28、基于上述技術(shù)方案,通過(guò)第二手勢(shì)中手指的朝向可以用于從圖像中確定roi。這樣,無(wú)需語(yǔ)音輸入或者文本輸入,僅通過(guò)手勢(shì)輸入就可以確定出roi,從而得到符合用戶(hù)期望的處理結(jié)果。有助于提升電子設(shè)備的智能化程度,避免得到處理結(jié)果之前用戶(hù)繁瑣的輸入,有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。

29、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為用戶(hù)的第三手勢(shì),根據(jù)第一輸入,從第一圖像中確定第一roi,包括:在第三手勢(shì)為預(yù)設(shè)手勢(shì)時(shí),根據(jù)用戶(hù)的視線(xiàn)方向,確定第一roi。

30、基于上述技術(shù)方案,在用戶(hù)的手勢(shì)為預(yù)設(shè)手勢(shì)時(shí),可以基于用戶(hù)的視線(xiàn)方向確定出roi,從而得到符合用戶(hù)期望的處理結(jié)果。這樣,有助于提升電子設(shè)備的智能化程度,避免得到處理結(jié)果之前用戶(hù)繁瑣的輸入,有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。

31、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,第一輸入為針對(duì)第一按鍵的輸入,根據(jù)第一輸入,從第一圖像中確定第一roi,包括:獲取針對(duì)第一按鍵的輸入時(shí)用戶(hù)的視線(xiàn)方向;根據(jù)視線(xiàn)方向,確定第一roi。

32、基于上述技術(shù)方案,通過(guò)按鍵觸發(fā)時(shí)用戶(hù)的視線(xiàn)方向確定roi,進(jìn)而得到處理結(jié)果。這樣,可以提升用戶(hù)得到該處理結(jié)果時(shí)的便捷性,有助于提升電子設(shè)備的智能化程度。

33、在一些可能的實(shí)現(xiàn)方式中,獲取針對(duì)第一按鍵的輸入時(shí)用戶(hù)的視線(xiàn)方向,包括:獲取從第一按鍵的輸入起的預(yù)設(shè)時(shí)長(zhǎng)后用戶(hù)的視線(xiàn)方向。

34、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取第一roi的處理結(jié)果,包括:向云端服務(wù)器發(fā)送第一roi;接收云端服務(wù)器基于第一roi確定的處理結(jié)果。

35、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取第一roi的處理結(jié)果,包括:將第一roi輸入內(nèi)容生成模型中,得到處理結(jié)果。

36、結(jié)合第一方面,在第一方面某些可能的實(shí)現(xiàn)方式中,獲取roi的處理結(jié)果,包括:根據(jù)第一輸入包括的第二目標(biāo)語(yǔ)義和第一roi,確定處理結(jié)果。

37、基于上述技術(shù)方案,可以根據(jù)第一輸入包括的第二目標(biāo)語(yǔ)義和第一roi,確定該處理結(jié)果。這樣,通過(guò)目標(biāo)語(yǔ)義和roi確定該處理結(jié)果,可以使得該處理結(jié)果更符合用戶(hù)的期望,有助于提升用戶(hù)的人機(jī)交互體驗(yàn)。同時(shí),可以使得確定處理結(jié)果的過(guò)程對(duì)用戶(hù)可不見(jiàn)。

38、在一些可能的實(shí)現(xiàn)方式中,該第一目標(biāo)語(yǔ)義和該第二目標(biāo)語(yǔ)義不同。

39、第二方面,本技術(shù)提供了一種人機(jī)交互裝置,該裝置包括:獲取單元,用于獲取第一圖像以及用戶(hù)的第一輸入;確定單元,用于根據(jù)第一輸入,從第一圖像中確定第一感興趣區(qū)域roi;獲取單元,還用于獲取roi的處理結(jié)果;控制單元,用于控制提示裝置向用戶(hù)提示處理結(jié)果。

40、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入或者第一文本輸入,確定單元,用于:將第一輸入和第一圖像輸入目標(biāo)檢測(cè)模型中,得到第一roi,目標(biāo)檢測(cè)模型的輸出基于第一輸入中第一目標(biāo)語(yǔ)義的變化而變化。

41、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入,確定單元,用于:根據(jù)第一語(yǔ)音輸入,確定第一文本內(nèi)容;根據(jù)第一文本內(nèi)容,從第一圖像中確定第一roi。

42、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,確定單元,用于:在第一文本內(nèi)容包括與方向相關(guān)的第二文本內(nèi)容時(shí),根據(jù)第二文本內(nèi)容,確定第一roi;或者,在第一文本內(nèi)容包括與第一目標(biāo)的屬性相關(guān)的第三文本內(nèi)容時(shí),根據(jù)第三文本內(nèi)容,確定第一roi,第一roi中包括第一目標(biāo)。

43、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,確定單元,用于:根據(jù)第三文本內(nèi)容,從第一圖像中確定多個(gè)roi;根據(jù)獲取到第一語(yǔ)音輸入時(shí)用戶(hù)的視線(xiàn)方向,從多個(gè)roi中確定第一roi。

44、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,確定單元,用于:根據(jù)第三文本內(nèi)容,從第一圖像中確定多個(gè)roi;控制單元,用于控制提示裝置提示用戶(hù)從多個(gè)roi中選擇一個(gè)或者多個(gè)roi;確定單元,用于響應(yīng)于用戶(hù)的第二輸入,確定第一roi,第二輸入指示用戶(hù)選擇第一roi。

45、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,獲取單元,用于在第一文本內(nèi)容中不包括方向相關(guān)的文本內(nèi)容且不包括與目標(biāo)的屬性相關(guān)的文本內(nèi)容時(shí),獲取用戶(hù)的視線(xiàn)方向;確定單元,用于根據(jù)視線(xiàn)方向,確定第一roi。

46、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為第一語(yǔ)音輸入,獲取單元,還用于獲取用戶(hù)觸發(fā)第一語(yǔ)音輸入時(shí)用戶(hù)的第一手勢(shì);確定單元,用于根據(jù)第一手勢(shì),確定第一roi。

47、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,裝置還包括發(fā)送單元,發(fā)送單元,用于向云端服務(wù)器發(fā)送第一輸入和第一roi;獲取單元,用于接收云端服務(wù)器基于第一輸入和第一roi確定的處理結(jié)果。

48、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,獲取單元,用于:將第一輸入和第一roi輸入內(nèi)容生成模型中,得到處理結(jié)果。

49、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為用戶(hù)的第二手勢(shì),確定單元,用于:根據(jù)第二手勢(shì)中手指的朝向,確定第一roi。

50、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為用戶(hù)的第三手勢(shì),確定單元,用于:在第三手勢(shì)為預(yù)設(shè)手勢(shì)時(shí),根據(jù)用戶(hù)的視線(xiàn)方向,確定第一roi。

51、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,第一輸入為針對(duì)第一按鍵的輸入,獲取單元,還用于獲取針對(duì)第一按鍵的輸入時(shí)用戶(hù)的視線(xiàn)方向;確定單元,用于根據(jù)視線(xiàn)方向,確定第一roi。

52、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,裝置還包括發(fā)送單元,發(fā)送單元,用于向云端服務(wù)器發(fā)送第一roi;獲取單元,用于接收云端服務(wù)器基于第一roi確定的處理結(jié)果。

53、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,獲取單元,用于:將第一roi輸入內(nèi)容生成模型中,得到處理結(jié)果。

54、結(jié)合第二方面,在第二方面某些可能的實(shí)現(xiàn)方式中,確定單元,還用于根據(jù)第一輸入包括的第二目標(biāo)語(yǔ)義和第一roi,確定處理結(jié)果。

55、第三方面,本技術(shù)提供了一種人機(jī)交互裝置,該人機(jī)交互裝置包括:存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;處理器,用于執(zhí)行該存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序,以使得該裝置執(zhí)行上述第一方面中任一項(xiàng)所述的方法。

56、第四方面,本技術(shù)提供了一種電子設(shè)備,該電子設(shè)備包括上述第二方面或者第三方面中任一項(xiàng)所述的裝置。

57、第五方面,本技術(shù)提供了一種云端服務(wù)器,該云端服務(wù)器包括上述第二方面或者第三方面中任一項(xiàng)所述的裝置。

58、第六方面,本技術(shù)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述第一方面中任一項(xiàng)所述的方法。

59、第七方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括:計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述第一方面中任一項(xiàng)所述的方法。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1