一種基于人工智能的多模態(tài)直播交互系統(tǒng)的制作方法

文檔序號：41945914發(fā)布日期：2025-05-16 14:03閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人工智能，具體為一種基于人工智能的多模態(tài)直播交互系統(tǒng)。

背景技術(shù)：

1、近年來，直播行業(yè)呈現(xiàn)出爆發(fā)式增長，成為了一種極具影響力的互聯(lián)網(wǎng)應(yīng)用模式，從娛樂直播到電商直播，從教育直播到企業(yè)會議直播，直播的應(yīng)用場景不斷拓展，用戶規(guī)模持續(xù)擴大，直播已經(jīng)成為人們獲取信息、娛樂消遣、商業(yè)交易以及知識學(xué)習(xí)的重要途徑之一。

2、現(xiàn)有的人工智能直播交互系統(tǒng)，大多數(shù)據(jù)維度和交互方式相對鉸單一和有限，不便于進行多樣化和多形式的數(shù)據(jù)采集和處理，難以進行多模態(tài)的直播交互，同時部分人工智能直播交互系統(tǒng)，難以對不同的數(shù)據(jù)進行進準(zhǔn)的分析和融合，不便于提供針對性的交互建議，影響用戶的體驗感。

3、為此我們提出了一種基于人工智能的多模態(tài)直播交互系統(tǒng)來解決上述問題。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于人工智能的多模態(tài)直播交互系統(tǒng)，以解決上述背景技術(shù)中提出的問題。

2、為實現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：一種基于人工智能的多模態(tài)直播交互系統(tǒng)，包括多模態(tài)數(shù)據(jù)采集模塊，

3、所述多模態(tài)數(shù)據(jù)采集模塊用于采集直播過程中的多種模態(tài)數(shù)據(jù)，包括視頻圖像數(shù)據(jù)、音頻數(shù)據(jù)以及用戶在直播平臺的交互行為數(shù)據(jù)，可以實時采集直播場景中的語音信號、視覺圖像、文本輸入及用戶生物特征數(shù)據(jù)；

4、多模態(tài)融合處理模塊，所述多模態(tài)融合處理模塊通過深度學(xué)習(xí)模型對采集數(shù)據(jù)進行特征提取與語義關(guān)聯(lián)，生成統(tǒng)一語義表征，可以對采集到的多模態(tài)數(shù)據(jù)進行預(yù)處理、特征提取和分析，以識別直播內(nèi)容中的關(guān)鍵信息和用戶意圖；

5、智能交互響應(yīng)模塊，所述智能交互響應(yīng)模塊基于語義分析結(jié)果動態(tài)生成語音，文字和虛擬形象反饋，根據(jù)分析結(jié)構(gòu)和數(shù)據(jù)處理結(jié)果交互生成相應(yīng)的交互指令，并通過強化學(xué)習(xí)優(yōu)化響應(yīng)策略，向直播平臺向用戶推送交互內(nèi)容，實現(xiàn)與用戶的實時交互；

6、虛擬形象驅(qū)動引擎，所述虛擬形象驅(qū)動引擎根據(jù)交互內(nèi)容實時渲染3d虛擬主播，同步口型、表情及肢體動作；

7、模塊訓(xùn)練與優(yōu)化模塊，所述模塊訓(xùn)練與優(yōu)化模塊用于收集和整理歷史直播數(shù)據(jù)，訓(xùn)練并優(yōu)化人工智能模型，以提高系統(tǒng)對不同直播場景和用戶需求的適應(yīng)性和準(zhǔn)確性；

8、存儲模塊，所述存儲模塊用于存儲直播過程中產(chǎn)生的多模態(tài)數(shù)據(jù)、處理后的數(shù)據(jù)以及訓(xùn)練好的人工智能模型。

9、優(yōu)選的，所述多模態(tài)數(shù)據(jù)采集模塊包括：

10、·視頻圖像采集單元，用于從直播流中獲取視頻圖像幀序列；

11、·音頻采集單元，用于錄制直播中的音頻信息，碎玉視頻和音頻同時進行提取和收集。

12、優(yōu)選的，所述多模態(tài)數(shù)據(jù)采集模塊配備環(huán)形陣列麥克風(fēng)的聲學(xué)采集單元，支持聲源定位與噪聲抑制，所述多模態(tài)數(shù)據(jù)采集模塊配備多光譜攝像頭組，集成rgb、深度及紅外傳感器，提高視頻圖像采集單元和音頻采集單元的采集效率。

13、優(yōu)選的，所述多模態(tài)融合處理模塊與所述多模態(tài)數(shù)據(jù)采集模塊連接，所述多模態(tài)融合處理模塊包括：

14、·對采集到的視頻圖像數(shù)據(jù)進行去噪、裁剪、歸一化等預(yù)處理操作，對音頻數(shù)據(jù)進行降噪、特征提取等處理；

15、·多模態(tài)特征融合單元，將經(jīng)過預(yù)處理的視頻圖像特征和音頻特征進行融合，形成綜合特征向量；

16、·意圖識別單元，基于融合后的特征向量，利用預(yù)先訓(xùn)練好的機器學(xué)習(xí)模型識別用戶的意圖，例如提問、尋求建議、表達情感等；

17、·分層決策網(wǎng)絡(luò)，分別處理即時交互需求與長期用戶畫像分析，使得多模態(tài)直播交互系統(tǒng)態(tài)更貼合于不同的使用需求，可以針對性和個性化的選擇，比如觀眾可以通過攝像頭展示自己的手勢動作來參與直播互動，系統(tǒng)能夠識別這些手勢并做出相應(yīng)反饋；主播的面部表情變化也能被系統(tǒng)捕捉并進行分析，以更好地調(diào)節(jié)直播氛圍。

18、優(yōu)選的，所述智能交互響應(yīng)模塊與多模態(tài)融合處理模塊連接，智能交互響應(yīng)模塊用于監(jiān)測用戶在直播平臺上的操作行為，如點贊、評論、分享、關(guān)注等，并將這些行為數(shù)據(jù)記錄下來，所述智能交互響應(yīng)模塊包括：

19、·根據(jù)意圖識別結(jié)果和預(yù)設(shè)的交互策略，生成針對性的文本回復(fù)、語音提示或視頻片段作為交互內(nèi)容；

20、·交互推送單元，將生成的交互內(nèi)容通過直播平臺的消息推送接口發(fā)送給對應(yīng)的用戶，確保用戶能夠及時收到交互信息，以提高交互的準(zhǔn)確性和自然性。

21、優(yōu)選的，所述虛擬形象驅(qū)動引擎包括：

22、·參數(shù)化面部綁定系統(tǒng)，支持多種基本表情混合控制；

23、·物理模擬骨骼驅(qū)動算法，實現(xiàn)自然肢體運動過渡；

24、·實時語音對口型神經(jīng)網(wǎng)絡(luò)，音頻到口型動畫延遲小于80ms。

25、優(yōu)選的，所述模塊訓(xùn)練與優(yōu)化模塊包括：

26、·數(shù)據(jù)標(biāo)注單元，對歷史直播數(shù)據(jù)進行人工標(biāo)注，標(biāo)記出關(guān)鍵信息、用戶意圖以及相應(yīng)的交互結(jié)果；

27、·模型訓(xùn)練單元，使用標(biāo)注好的數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)模型，如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)相結(jié)合的模型；

28、·模型評估與優(yōu)化單元，定期對訓(xùn)練好的模型進行評估，根據(jù)評估指標(biāo)調(diào)整模型參數(shù)，以提高模型的性能和準(zhǔn)確性。

29、優(yōu)選的，所述存儲模塊采用分布式存儲架構(gòu)，包括多個存儲節(jié)點，用于分別存儲不同類型的數(shù)據(jù)，提高數(shù)據(jù)的存儲效率和安全性。

30、本發(fā)明提供了一種基于人工智能的多模態(tài)直播交互系統(tǒng)，具備以下有益效果：

31、通過多模態(tài)數(shù)據(jù)采集模塊和多模態(tài)融合處理模塊的配合使用，能夠?qū)崿F(xiàn)進行多模態(tài)智能直播的目的，可以收集和處理多種不同形式的數(shù)據(jù)，涵蓋視覺、聽覺、觸覺等多個維度，除了傳統(tǒng)的文本和語音交互外，還能處理圖像、視頻、手勢、表情等信息，同時提供了更為多樣化的交互途徑，除了基本的文字和語音交流，還支持基于圖像的交互，可以實現(xiàn)實時的動作交互，增強觀眾的參與感和沉浸感。

32、通過智能交互響應(yīng)模塊，虛擬形象驅(qū)動引擎和模塊訓(xùn)練與優(yōu)化模塊的配合使用，能夠?qū)崿F(xiàn)對于不同數(shù)據(jù)分析和融合的目的，可以挖掘出更豐富、更準(zhǔn)確的信息，結(jié)合觀眾的語音語調(diào)、面部表情、肢體動作等多方面信息，從而系統(tǒng)可以更精準(zhǔn)地判斷觀眾的情緒、興趣和參與度，判斷后系統(tǒng)可以綜合這些信息，更全面地了解觀眾的狀態(tài)，并為主播提供更有針對性的互動建議，通過豐富的交互方式和精準(zhǔn)的智能分析，更適合需要高度互動和沉浸式體驗的場景，提升用戶的參與感和沉浸感，使用戶獲得更加真實、生動的直播體驗，增強用戶與主播之間的情感連接。

技術(shù)特征：

1.一種基于人工智能的多模態(tài)直播交互系統(tǒng)，包括多模態(tài)數(shù)據(jù)采集模塊（1），其特征在于：

2.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng)，其特征在于：所述多模態(tài)數(shù)據(jù)采集模塊（1）包括：

3.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng)，其特征在于：所述多模態(tài)數(shù)據(jù)采集模塊（1）配備環(huán)形陣列麥克風(fēng)的聲學(xué)采集單元，支持聲源定位與噪聲抑制，所述多模態(tài)數(shù)據(jù)采集模塊（1）配備多光譜攝像頭組，集成rgb、深度及紅外傳感器。

4.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng)，其特征在于：所述多模態(tài)融合處理模塊（2）與多模態(tài)數(shù)據(jù)采集模塊（1）連接，所述多模態(tài)融合處理模塊（2）包括：

5.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng)，其特征在于：所述智能交互響應(yīng)模塊（3）與多模態(tài)融合處理模塊（2）連接，所述智能交互響應(yīng)模塊（3）包括：

6.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng)，其特征在于：所述虛擬形象驅(qū)動引擎（4）包括：

7.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng)，其特征在于：所述模塊訓(xùn)練與優(yōu)化模塊（5）包括：

8.根據(jù)權(quán)利要求1所述的一種基于人工智能的多模態(tài)直播交互系統(tǒng)，其特征在于：所述存儲模塊（6）采用分布式存儲架構(gòu)，包括多個存儲節(jié)點，用于分別存儲不同類型的數(shù)據(jù)。

技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域，具體為一種基于人工智能的多模態(tài)直播交互系統(tǒng)，包括多模態(tài)數(shù)據(jù)采集模塊；多模態(tài)融合處理模塊；智能交互響應(yīng)模塊；虛擬形象驅(qū)動引擎；模塊訓(xùn)練與優(yōu)化模塊；存儲模塊。本發(fā)明通過多模態(tài)數(shù)據(jù)采集模塊和多模態(tài)融合處理模塊的配合使用，能夠?qū)崿F(xiàn)進行多模態(tài)智能直播；通過智能交互響應(yīng)模塊，虛擬形象驅(qū)動引擎和模塊訓(xùn)練與優(yōu)化模塊的配合使用，能夠?qū)崿F(xiàn)對于不同數(shù)據(jù)分析和融合。

技術(shù)研發(fā)人員：鄭家寶
受保護的技術(shù)使用者：合肥冬葵網(wǎng)絡(luò)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/15

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭家寶
技術(shù)所有人：合肥冬葵網(wǎng)絡(luò)科技有限公司
我是此專利的發(fā)明人

上一篇：一種軸類外圓快速檢測工裝的制作方法
上一篇：一種雞蛋加工用清洗設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于人工智能的多模態(tài)直播交互系統(tǒng)的制作方法