本發(fā)明涉及人工智能,具體為一種基于交互型人工智能數(shù)字人系統(tǒng)。
背景技術(shù):
1、數(shù)字人是指基于人工智能技術(shù)、計(jì)算機(jī)圖形學(xué)和自然語言處理的虛擬人物角色,通常具有人類的外觀和行為,能夠與用戶進(jìn)行交互,它們可以模擬人類的情感、語言和行為,常用于各種應(yīng)用場景中,數(shù)字人可以用作教學(xué)助手,通過互動(dòng)來幫助學(xué)生學(xué)習(xí),提供個(gè)性化的學(xué)習(xí)體驗(yàn),它們能夠模擬不同的場景,以增強(qiáng)學(xué)習(xí)效果,在視頻游戲和影視制作中,數(shù)字人可以作為角色參與情節(jié),提升用戶的沉浸感和體驗(yàn),數(shù)字人作為未來技術(shù)發(fā)展的一個(gè)重要方向,在各個(gè)領(lǐng)域展現(xiàn)出巨大的潛力和應(yīng)用價(jià)值。
2、盡管現(xiàn)代數(shù)字人可以合成語言和模擬情感,但它們對復(fù)雜情感的理解不足,難以準(zhǔn)確識別用戶的潛在情感狀態(tài),導(dǎo)致降低了用戶與數(shù)字人交互過程中的體驗(yàn)感。
技術(shù)實(shí)現(xiàn)思路
1、(一)解決的技術(shù)問題
2、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于交互型人工智能數(shù)字人系統(tǒng),具備通過用戶接口模塊采集由用戶通過文本框輸入的文字信息與通過麥克風(fēng)進(jìn)行語音輸入的信息,并計(jì)算輸入延遲sryc與語音持續(xù)時(shí)間ycsj,用于評估輸入信息的復(fù)雜性,自然語言處理模塊分析捕捉的文本信息,識別用戶的意圖、關(guān)鍵信息、實(shí)體及上下文,計(jì)算意圖識別準(zhǔn)確度sbzq、實(shí)體解析的成功率sjcg以及上下文保持率sxbc,語音識別合成模塊將語音輸入的信息通過語音識別轉(zhuǎn)化為文本,計(jì)算語音識別的詞錯(cuò)誤率sccw與語音合成的自然度評分hcpf,用于評估輸出語音的流暢性和自然度,情感分析理解模塊根據(jù)用戶輸入的文本與語音數(shù)據(jù)進(jìn)行關(guān)鍵字詞分析,提取用戶的情感特征并做出情感分類,計(jì)算情感識別準(zhǔn)確率qgsb與情感強(qiáng)度評分qqpf,響應(yīng)生成模塊根據(jù)情感分析理解模塊做出的用戶情感分類與情感強(qiáng)度評分,生成對應(yīng)的文本回復(fù),響應(yīng)輸出模塊將系統(tǒng)作出的文本回復(fù)通過用戶接口模塊傳遞給用戶,完成交互,通過對用戶輸入的語音及文本信息進(jìn)行綜合分析,準(zhǔn)確識別用戶的潛在情感狀態(tài),提高了用戶與數(shù)字人交互過程中的體驗(yàn)感等優(yōu)點(diǎn),解決了上述問題。
3、(二)技術(shù)方案
4、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于交互型人工智能數(shù)字人系統(tǒng),包括用戶接口模塊、自然語言處理模塊、語音識別合成模塊、情感分析理解模塊、響應(yīng)生成模塊以及響應(yīng)輸出模塊;
5、所述用戶接口模塊采集由用戶通過文本框輸入的文字信息與通過麥克風(fēng)進(jìn)行語音輸入的信息,并計(jì)算輸入延遲sryc與語音持續(xù)時(shí)間ycsj,用于評估輸入信息的復(fù)雜性,上述采集的文本與語音信息被傳輸至自然語言處理模塊;
6、所述自然語言處理模塊分析捕捉的文本信息,識別用戶的意圖、關(guān)鍵信息、實(shí)體及上下文,計(jì)算意圖識別準(zhǔn)確度sbzq、實(shí)體解析的成功率sjcg以及上下文保持率sxbc;
7、所述語音識別合成模塊將語音輸入的信息通過語音識別轉(zhuǎn)化為文本,計(jì)算語音識別的詞錯(cuò)誤率sccw與語音合成的自然度評分hcpf,用于評估輸出語音的流暢性和自然度;
8、所述情感分析理解模塊根據(jù)用戶輸入的文本與語音數(shù)據(jù)進(jìn)行關(guān)鍵字詞分析,提取用戶的情感特征并做出情感分類,計(jì)算情感識別準(zhǔn)確率qgsb與情感強(qiáng)度評分qqpf;
9、所述響應(yīng)生成模塊根據(jù)情感分析理解模塊做出的用戶情感分類與情感強(qiáng)度評分,生成對應(yīng)的文本回復(fù);
10、所述響應(yīng)輸出模塊將系統(tǒng)作出的文本回復(fù)通過用戶接口模塊傳遞給用戶,完成交互。
11、優(yōu)選的,所述用戶接口模塊計(jì)算輸入延遲sryc的公式如下所示:
12、sryc=kssr-srsj+clsj
13、公式中,sryc表示輸入延遲,kssr表示用戶開始輸入的時(shí)間,srsj表示系統(tǒng)接收到輸入的時(shí)間,clsj表示系統(tǒng)處理輸入所需的時(shí)間,上述數(shù)值通過系統(tǒng)時(shí)間戳獲取。
14、優(yōu)選的,所述用戶接口模塊計(jì)算語音持續(xù)時(shí)間ycsj的公式如下所示:
15、ycsj=y(tǒng)h?js-yh?ks
16、公式中,ycsj表示語音持續(xù)時(shí)間,yh?js表示用戶停止說話的時(shí)間,yhks表示用戶開始說話的時(shí)間,上述數(shù)值通過系統(tǒng)時(shí)間戳獲取。
17、優(yōu)選的,所述自然語言處理模塊計(jì)算意圖識別準(zhǔn)確度sbzq的公式如下所示:
18、
19、公式中,sbzq表示意圖識別準(zhǔn)確度,zqsb表示正確識別的意圖數(shù),zyts表示總意圖數(shù),包括正確和錯(cuò)誤的意圖。
20、優(yōu)選的,所述自然語言處理模塊計(jì)算實(shí)體解析的成功率sjcg的公式如下所示:
21、
22、公式中,sjcg表示實(shí)體解析的成功率,cgjx表示成功解析的實(shí)體數(shù)量,wbzl表示輸入文本中總的實(shí)體數(shù)量。
23、優(yōu)選的,所述自然語言處理模塊計(jì)算上下文保持率sxbc的公式如下所示:
24、
25、公式中,sxbc表示上下文保持率,cgbc表示成功保持的上下文信息數(shù)量,zsxw表示對話中的總上下文信息數(shù)量。
26、優(yōu)選的,所述語音識別合成模塊計(jì)算語音識別的詞錯(cuò)誤率sccw的公式如下所示:
27、
28、公式中,sccw表示語音識別的詞錯(cuò)誤率,cwsb表示錯(cuò)誤識別的單詞數(shù)量,ldsb表示原始文本中存在但沒有被識別的單詞,ccwr表示識別結(jié)果中存在但原始文本中并沒有的單詞,yszc表示原始音頻中的總單詞數(shù)量。
29、優(yōu)選的,所述語音識別合成模塊計(jì)算語音合成的自然度評分hcpf的公式如下所示:
30、
31、公式中,hcpf表示語音合成的自然度評分,n表示評分的總用戶數(shù),rki表示第i個(gè)用戶給予的評分,i表示計(jì)數(shù)下標(biāo)。
32、優(yōu)選的,所述情感分析理解模塊計(jì)算情感識別準(zhǔn)確率qgsb的公式如下所示:
33、
34、公式中,qgsb表示情感識別準(zhǔn)確率,qdsz表示正確識別的情感數(shù)量,zqsl表示總情感數(shù)量。
35、優(yōu)選的,所述情感分析理解模塊計(jì)算情感強(qiáng)度評分qqpf的公式如下所示:
36、
37、公式中,qqpf表示情感強(qiáng)度評分,m表示用于計(jì)算強(qiáng)度評分的樣本總數(shù),qmi表示第i個(gè)樣本的情感強(qiáng)度分?jǐn)?shù)。
38、與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種基于交互型人工智能數(shù)字人系統(tǒng),具備以下有益效果:
39、本發(fā)明通過用戶接口模塊采集由用戶通過文本框輸入的文字信息與通過麥克風(fēng)進(jìn)行語音輸入的信息,并計(jì)算輸入延遲sryc與語音持續(xù)時(shí)間ycsj,用于評估輸入信息的復(fù)雜性,自然語言處理模塊分析捕捉的文本信息,識別用戶的意圖、關(guān)鍵信息、實(shí)體及上下文,計(jì)算意圖識別準(zhǔn)確度sbzq、實(shí)體解析的成功率sjcg以及上下文保持率sxbc,語音識別合成模塊將語音輸入的信息通過語音識別轉(zhuǎn)化為文本,計(jì)算語音識別的詞錯(cuò)誤率sccw與語音合成的自然度評分hcpf,用于評估輸出語音的流暢性和自然度,情感分析理解模塊根據(jù)用戶輸入的文本與語音數(shù)據(jù)進(jìn)行關(guān)鍵字詞分析,提取用戶的情感特征并做出情感分類,計(jì)算情感識別準(zhǔn)確率qgsb與情感強(qiáng)度評分qqpf,響應(yīng)生成模塊根據(jù)情感分析理解模塊做出的用戶情感分類與情感強(qiáng)度評分,生成對應(yīng)的文本回復(fù),響應(yīng)輸出模塊將系統(tǒng)作出的文本回復(fù)通過用戶接口模塊傳遞給用戶,完成交互,通過對用戶輸入的語音及文本信息進(jìn)行綜合分析,準(zhǔn)確識別用戶的潛在情感狀態(tài),提高了用戶與數(shù)字人交互過程中的體驗(yàn)感。