本公開涉及語音交互,具體涉及一種基于語音交互的媒資獲取方法及裝置。
背景技術(shù):
1、隨著社會(huì)的逐漸進(jìn)步和發(fā)展,越來越多地智能設(shè)備可以通過語音助手應(yīng)用來實(shí)現(xiàn)和用戶的智能互動(dòng)。當(dāng)用戶通過語音向智能設(shè)備發(fā)出語音指令后,智能設(shè)備可通過自然語言理解模塊分析用戶的意圖,以輸出與語音指令對(duì)應(yīng)的結(jié)果。例如,用戶可以通過語音搜索熱播電視劇、歌曲等各種媒資在智能設(shè)備上進(jìn)行播放。
2、目前,在通過語音交互獲取目標(biāo)媒資時(shí),往往是對(duì)用戶語音指令進(jìn)行分析,去與大量的媒資進(jìn)行信息匹配鎖定對(duì)應(yīng)的目標(biāo)媒資,現(xiàn)有技術(shù)在匹配時(shí),是通過用戶語音指令中的文本特征與對(duì)應(yīng)的媒資特征進(jìn)行匹配,是通過用戶語音指令的單模態(tài)特征,去與媒資的單模態(tài)特征進(jìn)行匹配,但是,上述方法在匹配時(shí)只需要用戶語音指令的單模態(tài)特征與媒資的單模態(tài)特征的匹配度滿足要求時(shí),就認(rèn)定該媒資為目標(biāo)媒資,因此,在不同媒資對(duì)應(yīng)的單模態(tài)特征十分相似的情況下,就會(huì)得到大量滿足用戶需求的目標(biāo)媒資,用戶還需要從大量的目標(biāo)媒資中進(jìn)一步挑選,進(jìn)而無法準(zhǔn)確的獲取滿足用戶需求的目標(biāo)媒資,導(dǎo)致用戶體驗(yàn)感不佳。
3、因此,如何提高基于語音交互獲取媒資的準(zhǔn)確率,成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)實(shí)施例提供了一種基于語音交互的媒資獲取方法及裝置,用于提高基于語音交互獲取目標(biāo)媒資的準(zhǔn)確率。
2、第一方面,本技術(shù)實(shí)施例提供了一種基于語音交互的媒資獲取方法,包括:
3、接收用戶語音指令,并提取所述用戶語音指令的用戶文本特征和用戶文本關(guān)鍵詞;所述用戶語音指令為用戶用于獲取目標(biāo)媒資的指令;
4、從媒資數(shù)據(jù)庫中獲取多個(gè)媒資分別對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞;
5、針對(duì)多個(gè)媒資中的每一個(gè)媒資,將所述媒資圖像特征與所述用戶文本特征進(jìn)行匹配,獲取第一相似度,以及將所述媒資文本關(guān)鍵詞與所述用戶文本關(guān)鍵詞進(jìn)行匹配,獲取第二相似度;
6、確定所述第一相似度大于第一閾值,和/或,所述第二相似度大于第二閾值的媒資為所述目標(biāo)媒資,并輸出所述目標(biāo)媒資。
7、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,在接收用戶語音指令之后,所述方法還包括:
8、對(duì)所述用戶語音指令進(jìn)行語義識(shí)別,根據(jù)語義識(shí)別結(jié)果判斷所述用戶語音指令是否符合獲取媒資的場(chǎng)景;
9、若是,則執(zhí)行所述提取所述用戶語音指令的用戶文本特征和用戶文本關(guān)鍵詞的步驟;
10、若否,則對(duì)所述用戶語音指令進(jìn)行語義拒識(shí)。
11、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,在所述從媒資數(shù)據(jù)庫中獲取多個(gè)媒資分別對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞之前,所述方法還包括:
12、對(duì)所述用戶語音指令進(jìn)行意圖識(shí)別,確定所述用戶語音指令對(duì)應(yīng)的用戶意圖;根據(jù)所述用戶意圖確定對(duì)應(yīng)的媒資列表;
13、和/或;
14、獲取當(dāng)前媒資展示頁面對(duì)應(yīng)的頁面標(biāo)識(shí);基于所述媒資展示頁面對(duì)應(yīng)的頁面標(biāo)識(shí),確定對(duì)應(yīng)的媒資列表;
15、所述從媒資數(shù)據(jù)庫中獲取多個(gè)媒資分別對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞,包括:
16、從媒資數(shù)據(jù)庫中獲取所述媒資列表中的各個(gè)媒資對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞。
17、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,所述從媒資數(shù)據(jù)庫中獲取所述媒資列表中的各個(gè)媒資對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞,包括:
18、獲取所述媒資列表中各個(gè)媒資對(duì)應(yīng)的媒資標(biāo)識(shí);
19、基于預(yù)設(shè)對(duì)應(yīng)關(guān)系,從媒資數(shù)據(jù)庫中獲取所述各個(gè)媒資的媒資標(biāo)識(shí)對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞;所述預(yù)設(shè)對(duì)應(yīng)關(guān)系中包括媒資圖像特征和媒資文本關(guān)鍵詞與媒資標(biāo)識(shí)之間的對(duì)應(yīng)關(guān)系。
20、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,建立所述媒資數(shù)據(jù)庫的方法包括:
21、獲取各個(gè)媒資對(duì)應(yīng)的封面圖像以及媒資文本;
22、對(duì)所述各個(gè)媒資對(duì)應(yīng)的封面圖像進(jìn)行特征提取獲取所述媒資圖像特征,以及對(duì)所述媒資文本進(jìn)行關(guān)鍵詞提取獲取所述媒資文本關(guān)鍵詞;
23、將所述各個(gè)媒資對(duì)應(yīng)的媒資圖像特征以及媒資文本關(guān)鍵詞與所述各個(gè)媒資對(duì)應(yīng)的媒資標(biāo)識(shí)進(jìn)行對(duì)應(yīng)保存,獲取媒資數(shù)據(jù)庫。
24、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,在輸出所述目標(biāo)媒資的步驟之后,還包括:
25、當(dāng)所述目標(biāo)媒資的數(shù)量為多個(gè)時(shí),將多個(gè)目標(biāo)媒資反饋給用戶;
26、接收用戶補(bǔ)充語音指令,并返回執(zhí)行所述提取所述用戶語音指令的用戶文本特征和用戶文本關(guān)鍵詞,直至所述確定所述第一相似度大于第一閾值,和/或,所述第二相似度大于第二閾值的媒資為所述目標(biāo)媒資并輸出所述目標(biāo)媒資的步驟,以從所述多個(gè)目標(biāo)媒資中獲取第一目標(biāo)媒資并輸出。
27、第二方面,本技術(shù)實(shí)施例提供了一種基于語音交互的媒資獲取裝置,包括:
28、接收單元,用于接收用戶語音指令,并提取所述用戶語音指令的用戶文本特征和用戶文本關(guān)鍵詞;所述用戶語音指令為用戶用于獲取目標(biāo)媒資的指令;
29、分析單元,用于從媒資數(shù)據(jù)庫中獲取多個(gè)媒資分別對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞;
30、匹配單元,用于針對(duì)多個(gè)媒資中的每一個(gè)媒資,將所述媒資圖像特征與所述用戶文本特征進(jìn)行匹配,獲取第一相似度,以及將所述媒資文本關(guān)鍵詞與所述用戶文本關(guān)鍵詞進(jìn)行匹配,獲取第二相似度;
31、確定單元,用于確定所述第一相似度大于第一閾值,和/或,所述第二相似度大于第二閾值的媒資為所述目標(biāo)媒資,并輸出所述目標(biāo)媒資。
32、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,所述基于語音交互的媒資獲取裝置還包括:識(shí)別單元,具體用于對(duì)所述用戶語音指令進(jìn)行語義識(shí)別,根據(jù)語義識(shí)別結(jié)果判斷所述用戶語音指令是否符合獲取媒資的場(chǎng)景;若是,則執(zhí)行所述提取所述用戶語音指令的用戶文本特征和用戶文本關(guān)鍵詞的步驟;若否,則對(duì)所述用戶語音指令進(jìn)行語義拒識(shí)。
33、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,所述識(shí)別單元,還用于對(duì)所述用戶語音指令進(jìn)行意圖識(shí)別,確定所述用戶語音指令對(duì)應(yīng)的用戶意圖;根據(jù)所述用戶意圖確定對(duì)應(yīng)的媒資列表;和/或;獲取當(dāng)前媒資展示頁面對(duì)應(yīng)的頁面標(biāo)識(shí);基于所述媒資展示頁面對(duì)應(yīng)的頁面標(biāo)識(shí),確定對(duì)應(yīng)的媒資列表;所述從媒資數(shù)據(jù)庫中獲取多個(gè)媒資分別對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞,包括:從媒資數(shù)據(jù)庫中獲取所述媒資列表中的各個(gè)媒資對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞。
34、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,所述基于語音交互的媒資獲取裝置還包括:建立單元,具體用于獲取各個(gè)媒資對(duì)應(yīng)的封面圖像以及媒資文本;對(duì)所述各個(gè)媒資對(duì)應(yīng)的封面圖像進(jìn)行特征提取獲取所述媒資圖像特征,以及對(duì)所述媒資文本進(jìn)行關(guān)鍵詞提取獲取所述媒資文本關(guān)鍵詞;將所述各個(gè)媒資對(duì)應(yīng)的媒資圖像特征以及媒資文本關(guān)鍵詞與所述各個(gè)媒資對(duì)應(yīng)的媒資標(biāo)識(shí)進(jìn)行對(duì)應(yīng)保存,獲取媒資數(shù)據(jù)庫。
35、作為本技術(shù)實(shí)施例一種可選的實(shí)施方式,所述確定單元,還用于當(dāng)所述目標(biāo)媒資的數(shù)量為多個(gè)時(shí),將多個(gè)目標(biāo)媒資反饋給用戶;接收用戶補(bǔ)充語音指令,并返回執(zhí)行所述提取所述用戶語音指令的用戶文本特征和用戶文本關(guān)鍵詞,直至所述確定所述第一相似度大于第一閾值,和/或,所述第二相似度大于第二閾值的媒資為所述目標(biāo)媒資并輸出所述目標(biāo)媒資的步驟,以從所述多個(gè)目標(biāo)媒資中獲取第一目標(biāo)媒資并輸出。
36、第三方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備,包括:存儲(chǔ)器和處理器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;所述處理器用于在執(zhí)行計(jì)算機(jī)程序時(shí),使得所述電子設(shè)備實(shí)現(xiàn)上述任一項(xiàng)實(shí)施例所述的基于語音交互的媒資獲取方法。
37、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被計(jì)算設(shè)備執(zhí)行時(shí),使得所述計(jì)算設(shè)備實(shí)現(xiàn)上述任一項(xiàng)實(shí)施例所述的基于語音交互的媒資獲取方法。
38、第五方面,本技術(shù)實(shí)施例提供了一種車輛,包括:第二方面所述的基于語音交互的媒資獲取裝置或第三方面所述的電子設(shè)備。
39、本技術(shù)實(shí)施例提供的基于語音交互的媒資獲取方法具體為:接收用戶語音指令,并提取所述用戶語音指令的用戶文本特征和用戶文本關(guān)鍵詞;所述用戶語音指令為用戶用于獲取目標(biāo)媒資的指令;從媒資數(shù)據(jù)庫中獲取多個(gè)媒資分別對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞;針對(duì)多個(gè)媒資中的每一個(gè)媒資,將所述媒資圖像特征與所述用戶文本特征進(jìn)行匹配,獲取第一相似度,以及將所述媒資文本關(guān)鍵詞與所述用戶文本關(guān)鍵詞進(jìn)行匹配,獲取第二相似度;確定所述第一相似度大于第一閾值,和/或,所述第二相似度大于第二閾值的媒資為所述目標(biāo)媒資,并輸出所述目標(biāo)媒資。本技術(shù)實(shí)施例通過獲取用戶語音指令的用戶文本特征和用戶文本關(guān)鍵詞,再獲取媒資列表中各個(gè)媒資對(duì)應(yīng)的媒資圖像特征和媒資文本關(guān)鍵詞,從圖像和文本兩種模態(tài)上對(duì)用戶語音指令和媒資進(jìn)行匹配,去獲取目標(biāo)媒資,相較于現(xiàn)有技術(shù)中是對(duì)用戶語音指令和媒資的單模態(tài)特征進(jìn)行匹配,本技術(shù)從多模態(tài)特征的角度出發(fā),對(duì)用戶語音指令和媒資的多模態(tài)特征進(jìn)行匹配,即使是在不同媒資對(duì)應(yīng)的單模態(tài)特征十分相似的情況下,還可以結(jié)合其他模態(tài)的匹配結(jié)果,去獲取目標(biāo)媒資,能夠提高根據(jù)用戶語音獲取目標(biāo)媒資的準(zhǔn)確率,進(jìn)而提升用戶體驗(yàn)。