一種基于數(shù)字人的繪制方法、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號：41955584發(fā)布日期：2025-05-16 14:22閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種基于數(shù)字人的繪制方法、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本申請涉及人工智能，尤其涉及一種基于數(shù)字人的繪制方法、設(shè)備、存儲介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、在直播領(lǐng)域，數(shù)字人(digital?human)指的是通過計算機圖形學(xué)、人工智能等技術(shù)創(chuàng)建的虛擬的3d人形模型，它們可以在直播中作為主播或助手出現(xiàn)。這些數(shù)字人不僅具有逼真的外觀，還可以通過語音識別、自然語言處理和情感計算等技術(shù)與觀眾進行互動。

2、然而，當(dāng)下的傳統(tǒng)數(shù)字人主要依賴語音或文本與用戶進行交互，導(dǎo)致交互形式單一。在直播過程中，這種單一的交互模式難以吸引觀眾的注意力，無法滿足觀眾多樣化的需求。

技術(shù)實現(xiàn)思路

1、本申請的多個方面提供一種基于數(shù)字人的繪制方法、設(shè)備、存儲介質(zhì)及程序產(chǎn)品，用以在數(shù)字人與用戶交互中引入繪制模式，進而基于用戶的視頻畫面與用戶進行交互。

2、本申請實施例提供一種基于數(shù)字人的繪制方法，包括：在目標(biāo)數(shù)字人以會話形態(tài)進行直播的過程中，響應(yīng)用戶的視頻連線請求，接收并顯示所述用戶的視頻畫面，并控制所述目標(biāo)數(shù)字人與所述用戶進行會話；在與所述用戶進行會話過程中，確定需要所述目標(biāo)數(shù)字人進行繪制的目標(biāo)對象以及所述目標(biāo)對象所在的目標(biāo)圖像；響應(yīng)圖像繪制事件，將所述目標(biāo)圖像輸入至圖像繪制模型，對所述目標(biāo)圖像進行繪制過程分析，以得到用于描述所述目標(biāo)圖像的繪制過程的目標(biāo)視頻；將所述目標(biāo)數(shù)字人從所述會話形態(tài)轉(zhuǎn)化為繪制形態(tài)，并向所述用戶展示所述目標(biāo)視頻，以供所述用戶對所述繪制過程進行感知。

3、進一步可選地，響應(yīng)用戶的視頻連線請求，接收并顯示所述用戶的視頻畫面，包括：響應(yīng)所述用戶的視頻連線請求，運行預(yù)設(shè)的自動化腳本，所述自動化腳本用于根據(jù)所述視頻連線請求與所述用戶建立音視頻連接，通過所述音視頻連接接收所述用戶的視頻畫面，并顯示所述用戶的視頻畫面。

4、進一步可選地，在與所述用戶進行會話過程中，確定需要所述目標(biāo)數(shù)字人進行繪制的目標(biāo)對象以及所述目標(biāo)對象所在的目標(biāo)圖像，包括：在顯示所述用戶的視頻畫面的情況下，對所述用戶的視頻畫面進行至少一次截圖；利用人體檢測模型檢測截圖得到的每張畫面截圖是否符合預(yù)設(shè)的圖像要求；在檢測到符合所述預(yù)設(shè)的圖像要求的目標(biāo)畫面截圖時停止截圖，并將所述用戶作為所述目標(biāo)對象，將所述目標(biāo)畫面截圖作為所述目標(biāo)圖像。

5、進一步可選地，所述圖像繪制模型包括：繪制過程預(yù)測網(wǎng)絡(luò)、動作預(yù)測網(wǎng)絡(luò)以及視頻生成網(wǎng)絡(luò)；將所述目標(biāo)圖像輸入至圖像繪制模型，對所述目標(biāo)圖像進行繪制過程分析，以得到用于描述所述目標(biāo)圖像的繪制過程的目標(biāo)視頻，包括：將所述目標(biāo)圖像輸入所述繪制過程預(yù)測網(wǎng)絡(luò)，對所述目標(biāo)圖像進行線稿化，得到目標(biāo)線稿，并預(yù)測繪制所述目標(biāo)線稿所需的多個繪制步驟信息；將所述多個繪制步驟信息輸入所述動作預(yù)測網(wǎng)絡(luò)，根據(jù)所述多個繪制步驟信息，預(yù)測所述目標(biāo)數(shù)字人執(zhí)行所述多個繪制步驟各自的動作參數(shù)；將所述動作參數(shù)輸入至所述視頻生成網(wǎng)絡(luò)，根據(jù)所述動作參數(shù)控制所述目標(biāo)數(shù)字人執(zhí)行所述多個繪制步驟，以對所述目標(biāo)圖像的繪制過程進行模擬，得到所述目標(biāo)視頻。

6、進一步可選地，所述繪制過程預(yù)測網(wǎng)絡(luò)包括：第一提取層以及第一預(yù)測層；預(yù)測繪制所述目標(biāo)線稿所需的多個繪制步驟信息，包括：將所述目標(biāo)線稿輸入所述第一提取層，提取所述目標(biāo)線稿的第一特征；將所述第一特征輸入所述第一預(yù)測層，根據(jù)所述第一特征預(yù)測繪制所述目標(biāo)線稿所需的多個繪制步驟信息。

7、進一步可選地，還包括：向所述用戶提供繪制風(fēng)格選擇頁面，并響應(yīng)選擇操作，確定所述用戶選擇的目標(biāo)繪制風(fēng)格；將所述第一特征輸入所述第一預(yù)測層，根據(jù)所述第一特征預(yù)測繪制所述目標(biāo)線稿所需的多個繪制步驟信息，包括：從預(yù)設(shè)的多個繪制風(fēng)格對應(yīng)的多個提示詞中，確定與所述目標(biāo)繪制風(fēng)格對應(yīng)的目標(biāo)提示詞；將目標(biāo)提示詞和所述第一特征輸入所述第一預(yù)測層，在所述目標(biāo)提示詞的引導(dǎo)下，根據(jù)所述第一特征預(yù)測符合所述目標(biāo)繪制風(fēng)格的所述多個繪制步驟信息。

8、進一步可選地，所述動作預(yù)測網(wǎng)絡(luò)包括：第二提取層以及第二預(yù)測層；根據(jù)所述多個繪制步驟信息，預(yù)測所述目標(biāo)數(shù)字人執(zhí)行所述多個繪制步驟各自的動作參數(shù)，包括：將所述多個繪制步驟信息輸入至所述第二提取層，提取所述多個繪制步驟信息各自的第二特征；將所述多個繪制步驟信息各自的第二特征輸入至所述第二預(yù)測層，分別預(yù)測所述目標(biāo)數(shù)字人執(zhí)行所述多個繪制步驟各自的動作參數(shù)；所述動作參數(shù)包括：動作起止位置、動作幅度和/或動作速度。

9、本申請實施例還提供一種終端設(shè)備，包括：存儲器和處理器；其中，所述存儲器用于：存儲一個或多個計算機指令；所述處理器用于執(zhí)行所述一個或多個計算機指令，以用于：執(zhí)行所述基于數(shù)字人的繪制方法中的步驟。

10、本申請實施例還提供一種計算機可讀存儲介質(zhì)，當(dāng)所述計算機程序被處理器執(zhí)行時，致使所述處理器能夠?qū)崿F(xiàn)所述基于數(shù)字人的繪制方法中的步驟。

11、本申請實施例還提供一種計算機程序產(chǎn)品，包括計算機程序/指令，當(dāng)所述計算機程序/指令被處理器執(zhí)行時，致使所述處理器能夠?qū)崿F(xiàn)所述基于數(shù)字人的繪制方法中的步驟。

12、在本實施例中，在目標(biāo)數(shù)字人以會話形態(tài)進行直播的過程中，響應(yīng)用戶的視頻連線請求，接收并顯示用戶的視頻畫面，并控制目標(biāo)數(shù)字人與用戶進行會話；在與用戶進行會話過程中，確定需要目標(biāo)數(shù)字人進行繪制的目標(biāo)對象以及目標(biāo)對象所在的目標(biāo)圖像；響應(yīng)圖像繪制事件，將目標(biāo)圖像輸入至圖像繪制模型，對目標(biāo)圖像進行繪制過程分析，得到目標(biāo)視頻；將目標(biāo)數(shù)字人從會話形態(tài)轉(zhuǎn)化為繪制形態(tài)，并向用戶展示目標(biāo)視頻，以供用戶對繪制過程進行感知。通過這種方式，在數(shù)字人與用戶交互中引入了繪制模式，基于用戶的視頻畫面與用戶進行交互，豐富了交互形式，滿足了觀眾多樣化的交互需求。

技術(shù)特征：

1.一種基于數(shù)字人的繪制方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，響應(yīng)用戶的視頻連線請求，接收并顯示所述用戶的視頻畫面，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，在與所述用戶進行會話過程中，確定需要所述目標(biāo)數(shù)字人進行繪制的目標(biāo)對象以及所述目標(biāo)對象所在的目標(biāo)圖像，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述圖像繪制模型包括：繪制過程預(yù)測網(wǎng)絡(luò)、動作預(yù)測網(wǎng)絡(luò)以及視頻生成網(wǎng)絡(luò)；

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述繪制過程預(yù)測網(wǎng)絡(luò)包括：第一提取層以及第一預(yù)測層；

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，還包括：

7.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述動作預(yù)測網(wǎng)絡(luò)包括：第二提取層以及第二預(yù)測層；

8.一種終端設(shè)備，其特征在于，包括：存儲器和處理器；其中，所述存儲器用于：存儲一個或多個計算機指令；所述處理器用于執(zhí)行所述一個或多個計算機指令，以用于：執(zhí)行權(quán)利要求1-7中任一項所述方法中的步驟。

9.一種計算機可讀存儲介質(zhì)，其特征在于，當(dāng)所述計算機程序被處理器執(zhí)行時，致使所述處理器能夠?qū)崿F(xiàn)權(quán)利要求1-7中任一項所述方法中的步驟。

10.一種計算機程序產(chǎn)品，其特征在于，包括計算機程序/指令，當(dāng)所述計算機程序/指令被處理器執(zhí)行時，致使所述處理器能夠?qū)崿F(xiàn)權(quán)利要求1-7中任一項所述方法中的步驟。

技術(shù)總結(jié)
本申請實施例提供一種基于數(shù)字人的繪制方法、設(shè)備、存儲介質(zhì)及程序產(chǎn)品，在該方法中，在目標(biāo)數(shù)字人以會話形態(tài)進行直播的過程中，響應(yīng)用戶的視頻連線請求，接收并顯示用戶的視頻畫面，并控制目標(biāo)數(shù)字人與用戶進行會話；在與用戶進行會話過程中，確定需要目標(biāo)數(shù)字人進行繪制的目標(biāo)對象以及目標(biāo)對象所在的目標(biāo)圖像；響應(yīng)圖像繪制事件，將目標(biāo)圖像輸入至圖像繪制模型，對目標(biāo)圖像進行繪制過程分析，得到目標(biāo)視頻；將目標(biāo)數(shù)字人從會話形態(tài)轉(zhuǎn)化為繪制形態(tài)，并向用戶展示目標(biāo)視頻，以供用戶對繪制過程進行感知。通過這種方式，在數(shù)字人與用戶交互中引入了繪制模式，基于用戶的視頻畫面與用戶進行交互，豐富了交互形式，滿足了觀眾多樣化的交互需求。

技術(shù)研發(fā)人員：李旭
受保護的技術(shù)使用者：北京五八信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/15

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李旭
技術(shù)所有人：北京五八信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于數(shù)字人的繪制方法、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

一種基于數(shù)字人的繪制方法、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程