本發(fā)明涉及人工智能,具體為一種基于人工智能的多模態(tài)直播交互系統(tǒng)。
背景技術(shù):
1、近年來,直播行業(yè)呈現(xiàn)出爆發(fā)式增長,成為了一種極具影響力的互聯(lián)網(wǎng)應(yīng)用模式,從娛樂直播到電商直播,從教育直播到企業(yè)會議直播,直播的應(yīng)用場景不斷拓展,用戶規(guī)模持續(xù)擴大,直播已經(jīng)成為人們獲取信息、娛樂消遣、商業(yè)交易以及知識學(xué)習(xí)的重要途徑之一。
2、現(xiàn)有的人工智能直播交互系統(tǒng),大多數(shù)據(jù)維度和交互方式相對鉸單一和有限,不便于進行多樣化和多形式的數(shù)據(jù)采集和處理,難以進行多模態(tài)的直播交互,同時部分人工智能直播交互系統(tǒng),難以對不同的數(shù)據(jù)進行進準(zhǔn)的分析和融合,不便于提供針對性的交互建議,影響用戶的體驗感。
3、為此我們提出了一種基于人工智能的多模態(tài)直播交互系統(tǒng)來解決上述問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于人工智能的多模態(tài)直播交互系統(tǒng),以解決上述背景技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于人工智能的多模態(tài)直播交互系統(tǒng),包括多模態(tài)數(shù)據(jù)采集模塊,
3、所述多模態(tài)數(shù)據(jù)采集模塊用于采集直播過程中的多種模態(tài)數(shù)據(jù),包括視頻圖像數(shù)據(jù)、音頻數(shù)據(jù)以及用戶在直播平臺的交互行為數(shù)據(jù),可以實時采集直播場景中的語音信號、視覺圖像、文本輸入及用戶生物特征數(shù)據(jù);
4、多模態(tài)融合處理模塊,所述多模態(tài)融合處理模塊通過深度學(xué)習(xí)模型對采集數(shù)據(jù)進行特征提取與語義關(guān)聯(lián),生成統(tǒng)一語義表征,可以對采集到的多模態(tài)數(shù)據(jù)進行預(yù)處理、特征提取和分析,以識別直播內(nèi)容中的關(guān)鍵信息和用戶意圖;
5、智能交互響應(yīng)模塊,所述智能交互響應(yīng)模塊基于語義分析結(jié)果動態(tài)生成語音,文字和虛擬形象反饋,根據(jù)分析結(jié)構(gòu)和數(shù)據(jù)處理結(jié)果交互生成相應(yīng)的交互指令,并通過強化學(xué)習(xí)優(yōu)化響應(yīng)策略,向直播平臺向用戶推送交互內(nèi)容,實現(xiàn)與用戶的實時交互;
6、虛擬形象驅(qū)動引擎,所述虛擬形象驅(qū)動引擎根據(jù)交互內(nèi)容實時渲染3d虛擬主播,同步口型、表情及肢體動作;
7、模塊訓(xùn)練與優(yōu)化模塊,所述模塊訓(xùn)練與優(yōu)化模塊用于收集和整理歷史直播數(shù)據(jù),訓(xùn)練并優(yōu)化人工智能模型,以提高系統(tǒng)對不同直播場景和用戶需求的適應(yīng)性和準(zhǔn)確性;
8、存儲模塊,所述存儲模塊用于存儲直播過程中產(chǎn)生的多模態(tài)數(shù)據(jù)、處理后的數(shù)據(jù)以及訓(xùn)練好的人工智能模型。
9、優(yōu)選的,所述多模態(tài)數(shù)據(jù)采集模塊包括:
10、·視頻圖像采集單元,用于從直播流中獲取視頻圖像幀序列;
11、·音頻采集單元,用于錄制直播中的音頻信息,碎玉視頻和音頻同時進行提取和收集。
12、優(yōu)選的,所述多模態(tài)數(shù)據(jù)采集模塊配備環(huán)形陣列麥克風(fēng)的聲學(xué)采集單元,支持聲源定位與噪聲抑制,所述多模態(tài)數(shù)據(jù)采集模塊配備多光譜攝像頭組,集成rgb、深度及紅外傳感器,提高視頻圖像采集單元和音頻采集單元的采集效率。
13、優(yōu)選的,所述多模態(tài)融合處理模塊與所述多模態(tài)數(shù)據(jù)采集模塊連接,所述多模態(tài)融合處理模塊包括:
14、·對采集到的視頻圖像數(shù)據(jù)進行去噪、裁剪、歸一化等預(yù)處理操作,對音頻數(shù)據(jù)進行降噪、特征提取等處理;
15、·多模態(tài)特征融合單元,將經(jīng)過預(yù)處理的視頻圖像特征和音頻特征進行融合,形成綜合特征向量;
16、·意圖識別單元,基于融合后的特征向量,利用預(yù)先訓(xùn)練好的機器學(xué)習(xí)模型識別用戶的意圖,例如提問、尋求建議、表達情感等;
17、·分層決策網(wǎng)絡(luò),分別處理即時交互需求與長期用戶畫像分析,使得多模態(tài)直播交互系統(tǒng)態(tài)更貼合于不同的使用需求,可以針對性和個性化的選擇,比如觀眾可以通過攝像頭展示自己的手勢動作來參與直播互動,系統(tǒng)能夠識別這些手勢并做出相應(yīng)反饋;主播的面部表情變化也能被系統(tǒng)捕捉并進行分析,以更好地調(diào)節(jié)直播氛圍。
18、優(yōu)選的,所述智能交互響應(yīng)模塊與多模態(tài)融合處理模塊連接,智能交互響應(yīng)模塊用于監(jiān)測用戶在直播平臺上的操作行為,如點贊、評論、分享、關(guān)注等,并將這些行為數(shù)據(jù)記錄下來,所述智能交互響應(yīng)模塊包括:
19、·根據(jù)意圖識別結(jié)果和預(yù)設(shè)的交互策略,生成針對性的文本回復(fù)、語音提示或視頻片段作為交互內(nèi)容;
20、·交互推送單元,將生成的交互內(nèi)容通過直播平臺的消息推送接口發(fā)送給對應(yīng)的用戶,確保用戶能夠及時收到交互信息,以提高交互的準(zhǔn)確性和自然性。
21、優(yōu)選的,所述虛擬形象驅(qū)動引擎包括:
22、·參數(shù)化面部綁定系統(tǒng),支持多種基本表情混合控制;
23、·物理模擬骨骼驅(qū)動算法,實現(xiàn)自然肢體運動過渡;
24、·實時語音對口型神經(jīng)網(wǎng)絡(luò),音頻到口型動畫延遲小于80ms。
25、優(yōu)選的,所述模塊訓(xùn)練與優(yōu)化模塊包括:
26、·數(shù)據(jù)標(biāo)注單元,對歷史直播數(shù)據(jù)進行人工標(biāo)注,標(biāo)記出關(guān)鍵信息、用戶意圖以及相應(yīng)的交互結(jié)果;
27、·模型訓(xùn)練單元,使用標(biāo)注好的數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)相結(jié)合的模型;
28、·模型評估與優(yōu)化單元,定期對訓(xùn)練好的模型進行評估,根據(jù)評估指標(biāo)調(diào)整模型參數(shù),以提高模型的性能和準(zhǔn)確性。
29、優(yōu)選的,所述存儲模塊采用分布式存儲架構(gòu),包括多個存儲節(jié)點,用于分別存儲不同類型的數(shù)據(jù),提高數(shù)據(jù)的存儲效率和安全性。
30、本發(fā)明提供了一種基于人工智能的多模態(tài)直播交互系統(tǒng),具備以下有益效果:
31、通過多模態(tài)數(shù)據(jù)采集模塊和多模態(tài)融合處理模塊的配合使用,能夠?qū)崿F(xiàn)進行多模態(tài)智能直播的目的,可以收集和處理多種不同形式的數(shù)據(jù),涵蓋視覺、聽覺、觸覺等多個維度,除了傳統(tǒng)的文本和語音交互外,還能處理圖像、視頻、手勢、表情等信息,同時提供了更為多樣化的交互途徑,除了基本的文字和語音交流,還支持基于圖像的交互,可以實現(xiàn)實時的動作交互,增強觀眾的參與感和沉浸感。
32、通過智能交互響應(yīng)模塊,虛擬形象驅(qū)動引擎和模塊訓(xùn)練與優(yōu)化模塊的配合使用,能夠?qū)崿F(xiàn)對于不同數(shù)據(jù)分析和融合的目的,可以挖掘出更豐富、更準(zhǔn)確的信息,結(jié)合觀眾的語音語調(diào)、面部表情、肢體動作等多方面信息,從而系統(tǒng)可以更精準(zhǔn)地判斷觀眾的情緒、興趣和參與度,判斷后系統(tǒng)可以綜合這些信息,更全面地了解觀眾的狀態(tài),并為主播提供更有針對性的互動建議,通過豐富的交互方式和精準(zhǔn)的智能分析,更適合需要高度互動和沉浸式體驗的場景,提升用戶的參與感和沉浸感,使用戶獲得更加真實、生動的直播體驗,增強用戶與主播之間的情感連接。
1.一種基于人工智能的多模態(tài)直播交互系統(tǒng),包括多模態(tài)數(shù)據(jù)采集模塊(1),其特征在于:
2.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng),其特征在于:所述多模態(tài)數(shù)據(jù)采集模塊(1)包括:
3.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng),其特征在于:所述多模態(tài)數(shù)據(jù)采集模塊(1)配備環(huán)形陣列麥克風(fēng)的聲學(xué)采集單元,支持聲源定位與噪聲抑制,所述多模態(tài)數(shù)據(jù)采集模塊(1)配備多光譜攝像頭組,集成rgb、深度及紅外傳感器。
4.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng),其特征在于:所述多模態(tài)融合處理模塊(2)與多模態(tài)數(shù)據(jù)采集模塊(1)連接,所述多模態(tài)融合處理模塊(2)包括:
5.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng),其特征在于:所述智能交互響應(yīng)模塊(3)與多模態(tài)融合處理模塊(2)連接,所述智能交互響應(yīng)模塊(3)包括:
6.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng),其特征在于:所述虛擬形象驅(qū)動引擎(4)包括:
7.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng),其特征在于:所述模塊訓(xùn)練與優(yōu)化模塊(5)包括:
8.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng),其特征在于:所述存儲模塊(6)采用分布式存儲架構(gòu),包括多個存儲節(jié)點,用于分別存儲不同類型的數(shù)據(jù)。