本發(fā)明涉及多模態(tài)共情對(duì)話生成領(lǐng)域,具體涉及一種融合性格特征的多模態(tài)共情對(duì)話生成方法。
背景技術(shù):
1、在人際交往中,共情的表現(xiàn)與個(gè)人的性格特點(diǎn)緊密相連,而這些性格特點(diǎn)可以通過邁爾斯-布里格斯類型指標(biāo)(mbti)進(jìn)行描述。該工具通過四個(gè)二分維度將個(gè)體劃分為16種不同的性格類型:外向(e)與內(nèi)向(i)、感覺(s)與直覺(n)、思考(t)與情感(f),以及判斷(j)與知覺(p)。在對(duì)話過程中,人們不僅依賴自己習(xí)慣性的共情表達(dá)方式,還會(huì)根據(jù)對(duì)方的性格特點(diǎn)調(diào)整自己的回應(yīng)。例如,一個(gè)傾向于思考型(t)的人可能會(huì)更加邏輯化地回應(yīng)問題,而一個(gè)傾向于情感型(f)的人則可能更注重對(duì)方的感受并作出更具同理心的反應(yīng)。同樣,感知型(p)的人可能會(huì)對(duì)開放性和靈活性表現(xiàn)出更大的興趣,而判斷型(j)的人則可能更重視結(jié)構(gòu)和決策。因此,了解mbti性格類型可以幫助共情對(duì)話系統(tǒng)更好地理解和適應(yīng)他人,促進(jìn)和諧有效的人機(jī)交互過程。
2、多模態(tài)共情對(duì)話生成是一項(xiàng)結(jié)合自然語言處理、計(jì)算機(jī)視覺和語音處理等技術(shù)領(lǐng)域的前沿研究,旨在實(shí)現(xiàn)更具情感理解和人性化的對(duì)話交互?,F(xiàn)有的共情對(duì)話生成方法主要分為三條技術(shù)路線:一是專門針對(duì)對(duì)話文本中的用戶情緒識(shí)別,并將所識(shí)別的情緒特征整合進(jìn)共情回復(fù)的生成流程。然而,鑒于人類情感表達(dá)是一個(gè)多模態(tài)的過程,涵蓋了語言符號(hào)、語音語調(diào)、面部表情以及身體姿態(tài)等多個(gè)方面,單純依賴文本數(shù)據(jù)進(jìn)行情緒識(shí)別可能限制了情緒識(shí)別的精確性。此外,共情本身不僅涉及情感層面的共鳴,即情感共情,還包括理解對(duì)方視角的認(rèn)知過程,即認(rèn)知共情。因此,僅通過融合用戶情緒這一單一途徑,可能導(dǎo)致共情對(duì)話系統(tǒng)在實(shí)現(xiàn)深層次的認(rèn)知共情方面存在不足。
3、二是在基于對(duì)話文本進(jìn)行用戶情緒識(shí)別的基礎(chǔ)上,借助外部知識(shí)圖譜從對(duì)話上下文中推導(dǎo)出常識(shí)性知識(shí),并將這些推理所得的知識(shí)與識(shí)別到的情緒標(biāo)簽共同融入共情回復(fù)的生成過程。然而,這種方法依然未能充分考慮人類交流中的多模態(tài)特性,因而可能在情緒識(shí)別的準(zhǔn)確性上有所欠缺。此外,單純依賴知識(shí)圖譜進(jìn)行文本推理以獲取與用戶相關(guān)的常識(shí)知識(shí),存在一定的局限性,這不僅限制了對(duì)用戶具體情境的全面理解,也因?yàn)橹R(shí)圖譜內(nèi)容可能存在不準(zhǔn)確或不完備的情況,影響了推理結(jié)果的有效性和可靠性。
4、三是采用多模態(tài)大語言模型作為對(duì)話代理,該類模型能夠接收與用戶交互相關(guān)的多模態(tài)數(shù)據(jù)輸入,并據(jù)此生成相應(yīng)的輸出內(nèi)容。然而,值得注意的是,大多數(shù)現(xiàn)有的多模態(tài)大語言模型并非專門為共情對(duì)話生成任務(wù)而設(shè)計(jì)。盡管這些模型在語言推理和理解方面展現(xiàn)出卓越的能力,但在共情理解和表達(dá)上,它們的表現(xiàn)通常不及經(jīng)過專門微調(diào)的小型模型。此外,多模態(tài)大語言模型對(duì)計(jì)算資源的需求相對(duì)較高,這限制了其在端側(cè)設(shè)備上的大規(guī)模部署和應(yīng)用,尤其是在資源受限的環(huán)境中。
5、此外,上述三類方法在生成共情回復(fù)的過程中普遍缺乏對(duì)用戶個(gè)性化信息的充分考慮,導(dǎo)致所產(chǎn)生的共情回復(fù)往往呈現(xiàn)出高度的一致性和泛化性,而未能針對(duì)個(gè)體用戶的性格特點(diǎn)提供個(gè)性化的響應(yīng)。這種缺乏針對(duì)性的共情表達(dá)可能會(huì)削弱人機(jī)交互的有效性,進(jìn)而降低人機(jī)交互體驗(yàn)的滿意度。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明是為了解決上述現(xiàn)有技術(shù)存在的不足之處,提出一種融合性格特征的多模態(tài)共情對(duì)話生成方法,以期能構(gòu)建一個(gè)在多模態(tài)環(huán)境下生成與用戶性格特點(diǎn)和表達(dá)習(xí)慣相契合的共情對(duì)話的深度學(xué)習(xí)網(wǎng)絡(luò),從而能提升多模態(tài)共情對(duì)話系統(tǒng)在情感共鳴表達(dá)方面的能力,同時(shí)增強(qiáng)用戶對(duì)人機(jī)交互體驗(yàn)的滿意度。
2、本發(fā)明為達(dá)到上述發(fā)明目的,采用如下技術(shù)方案:
3、本發(fā)明一種融合性格特征的多模態(tài)共情對(duì)話生成方法的特點(diǎn)在于,是按如下步驟進(jìn)行:
4、步驟1、構(gòu)建包含性格特征標(biāo)簽和情緒標(biāo)簽的多模態(tài)數(shù)據(jù)集合;其中,表示第個(gè)用戶的多模態(tài)信息,表示第個(gè)用戶的視覺模態(tài)數(shù)據(jù),表示第個(gè)用戶分詞后的文本模態(tài)數(shù)據(jù),表示第個(gè)用戶的性格特征標(biāo)簽,表示第個(gè)用戶的情緒標(biāo)簽,為用戶的總數(shù);其中,,表示分詞后的第條文本模態(tài)數(shù)據(jù)中的第個(gè)單詞,表示第條文本模態(tài)數(shù)據(jù)的長度;
5、步驟2、使用詞袋模型生成的特征向量集合;使用特征向量集合生成的似然概率,其中,表示特征向量集合中的向量;從而利用式(1)構(gòu)建性格特征分類器的優(yōu)化目標(biāo),并訓(xùn)練性格特征分類器:
6、????(1)
7、式(1)中,表示的后驗(yàn)概率;表示成正比例;表示的似然概率;表示的先驗(yàn)概率;
8、步驟3、識(shí)別用戶s的性格特征標(biāo)簽及其向量表征;
9、步驟4、構(gòu)建情緒分類器并對(duì)和進(jìn)行處理,預(yù)測第個(gè)用戶的情緒標(biāo)簽;從而利用式(2)構(gòu)建情緒分類器的交叉熵?fù)p失函數(shù):
10、????(2)
11、步驟5、利用語言模型對(duì)第個(gè)用戶的多模態(tài)信息進(jìn)行處理,得到對(duì)第個(gè)用戶的共情回復(fù)的概率分布,從而利用式(3)構(gòu)建語言模型的負(fù)對(duì)數(shù)最大似然損失:
12、????(3)
13、式(3)中,表示求期望;
14、步驟6、利用式(4)構(gòu)建由情緒分類器和語言模型構(gòu)成的融合性格特征的多模態(tài)共情對(duì)話生成模型的總損失函數(shù):
15、????(4)
16、式(4)中,和是2個(gè)超參數(shù);
17、步驟7、基于總損失函數(shù),使用adam優(yōu)化器對(duì)所述融合性格特征的多模態(tài)共情對(duì)話生成模型進(jìn)行訓(xùn)練,并計(jì)算總損失函數(shù),依據(jù)反向傳播和梯度下降法來更新網(wǎng)絡(luò)參數(shù),直到迭代次數(shù)達(dá)到最大值時(shí)或總損失函數(shù)不再繼續(xù)減小時(shí),停止訓(xùn)練步驟,從而得到最優(yōu)融合性格特征的多模態(tài)共情對(duì)話生成模型,用于生成共情對(duì)話。
18、本發(fā)明所述的一種融合性格特征的多模態(tài)共情對(duì)話生成方法的特點(diǎn)也在于,所述步驟3是按如下步驟進(jìn)行:
19、步驟3.1、獲取任一用戶s的文本模態(tài)數(shù)據(jù)并經(jīng)過分詞處理后,輸入訓(xùn)練后的性格特征分類器中進(jìn)行預(yù)測,得到用戶的性格特征標(biāo)簽;
20、步驟3.2、根據(jù),獲取關(guān)于性格特征標(biāo)簽的一段文本描述,在文本描述的開頭添加一個(gè)全局標(biāo)記后,輸入到預(yù)訓(xùn)練語言模型bert中進(jìn)行處理,得到文本描述嵌入向量,并將全局標(biāo)記所在位置處的嵌入作為性格特征標(biāo)簽的向量表征。
21、進(jìn)一步的,所述步驟4是按如下步驟進(jìn)行:
22、步驟4.1、使用預(yù)訓(xùn)練語言模型gpt-2提取的文本模態(tài)特征;使用預(yù)訓(xùn)練視覺語言模型blip提取的視覺模態(tài)特征;其中,表示特征的維度;
23、步驟4.2、情緒分類器將視覺模態(tài)特征通過線性變換映射到查詢和鍵值向量空間,從而利用式(5)計(jì)算的自注意力:
24、????(5)
25、式(5)中,分別表示將視覺模態(tài)特征映射到查詢和鍵值向量空間的待學(xué)習(xí)的3個(gè)參數(shù),是隱藏層的維度;表示softmax函數(shù);
26、步驟4.3、按照步驟4.2的步驟計(jì)算文本模態(tài)特征的自注意力;
27、步驟4.4、情緒分類器將作為查詢向量,將作為鍵和值向量,計(jì)算第個(gè)用戶的跨模態(tài)注意力;再將跨模態(tài)注意力經(jīng)過前饋層和歸一化層處理之后,得到隱藏層的輸出向量;從而利用式(6)得到第個(gè)用戶的情緒預(yù)測標(biāo)簽:
28、????(6)
29、式(6)中,表示線性分類層,是中待學(xué)習(xí)的參數(shù);表示情緒標(biāo)簽的種類數(shù)。
30、進(jìn)一步的,所述步驟5是將第個(gè)用戶的多模態(tài)信息輸入到語言模型中,并利用式(7)預(yù)測對(duì)第個(gè)用戶的共情回復(fù)的概率分布,將通過函數(shù)處理后,得到對(duì)第個(gè)用戶的共情回復(fù):
31、????(7)
32、式(7)中,表示語言模型預(yù)測的下一個(gè)單詞,表示分詞后的第條文本模態(tài)數(shù)據(jù)中的第個(gè)單詞,表示語言模型中的待學(xué)習(xí)的參數(shù)。
33、本發(fā)明一種電子設(shè)備,包括存儲(chǔ)器以及處理器的特點(diǎn)在于,所述存儲(chǔ)器用于存儲(chǔ)支持處理器執(zhí)行所述融合性格特征的多模態(tài)共情對(duì)話生成方法的程序,所述處理器被配置為用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的程序。
34、本發(fā)明一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序的特點(diǎn)在于,所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行所述融合性格特征的多模態(tài)共情對(duì)話生成方法的步驟。
35、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
36、1、本發(fā)明通過結(jié)合圖像和文本兩種模態(tài)數(shù)據(jù),相對(duì)于基于純文本的共情對(duì)話生成方法,不僅大幅提升了情緒識(shí)別準(zhǔn)確率,還提供了更全面的理解用戶實(shí)際處境的視角,從而增強(qiáng)了共情對(duì)話系統(tǒng)對(duì)用戶情感和現(xiàn)實(shí)處境的感知能力。
37、2、本發(fā)明通過將用戶的個(gè)性特征融入對(duì)話生成過程,相較于傳統(tǒng)的共情對(duì)話生成方法,能夠更加精準(zhǔn)地識(shí)別并適應(yīng)用戶的個(gè)性差異。這種個(gè)性化的調(diào)整使得共情對(duì)話系統(tǒng)能夠生成更加符合個(gè)體性格的共情響應(yīng),顯著提升了對(duì)話的個(gè)性化水平。通過考慮用戶的性格特征,共情對(duì)話系統(tǒng)能調(diào)節(jié)共情表達(dá)的深度與風(fēng)格,增強(qiáng)了對(duì)話的貼合度和自然度,從而提高了用戶的滿意度和交互體驗(yàn)。
38、3、本發(fā)明所采用的小語言模型,相較于大語言模型,具有更高的計(jì)算效率和更低的資源消耗。在保持較好性能的同時(shí),系統(tǒng)能夠顯著減少模型的存儲(chǔ)需求和計(jì)算負(fù)擔(dān)?,從而在硬件資源受限的環(huán)境中實(shí)現(xiàn)更為高效的部署。