數(shù)字人圖像生成方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程

文檔序號：41563180發(fā)布日期：2025-04-08 18:16閱讀：18來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

數(shù)字人圖像生成方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程

本技術(shù)涉及數(shù)據(jù)處理，尤其涉及一種數(shù)字人圖像生成方法、裝置、設(shè)備及可讀存儲介質(zhì)。

背景技術(shù)：

1、在當(dāng)前數(shù)字人模型構(gòu)建與渲染過程中，相關(guān)技術(shù)在生成數(shù)字人的牙齒時(shí)存在牙齒模糊不清、多排牙齒異常、牙齒位置不穩(wěn)定而發(fā)生非自然位移等問題，產(chǎn)生視覺違和感，降低了數(shù)字人的視覺真實(shí)感，影響數(shù)字人的表現(xiàn)力和觀眾沉浸度。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，為解決上述技術(shù)問題，本技術(shù)提供一種數(shù)字人圖像生成方法、裝置、設(shè)備及可讀存儲介質(zhì)。

2、具體地，本技術(shù)是通過如下技術(shù)方案實(shí)現(xiàn)的：

3、根據(jù)本技術(shù)實(shí)施例的第一方面，提供一種數(shù)字人圖像生成方法，所述方法包括：

4、根據(jù)包含數(shù)字人的初始圖像，利用模型驅(qū)動數(shù)字人的面部表情和唇部口型，生成與驅(qū)動語音數(shù)據(jù)匹配的多張中間圖像；

5、針對每張中間圖像，根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建，得到所述中間圖像對應(yīng)的修正圖像；其中，所述中間圖像的牙齒重建依據(jù)該中間圖像之前、已經(jīng)完成牙齒重建得到的前k幀修正圖像；

6、從每幀中間圖像上定位出所述數(shù)字人的牙齒區(qū)域，并構(gòu)造針對所述牙齒區(qū)域的遮罩圖；

7、根據(jù)所述遮罩圖，將中間圖像及其對應(yīng)的修正圖像進(jìn)行融合，得到每幀中間圖像對應(yīng)的數(shù)字人圖像。

8、可選地，所述根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建，包括：

9、通過所述牙齒生成網(wǎng)絡(luò)提取所述中間圖像、以及所述中間圖像之前的前k幀修正圖像中牙齒區(qū)域的特征信息；

10、根據(jù)所述中間圖像與所述前k幀修正圖像之間的牙齒區(qū)域相似性，應(yīng)用時(shí)間一致性注意力機(jī)制對所述特征信息進(jìn)行融合表征，得到融合特征；

11、根據(jù)所述中間圖像對應(yīng)的所述融合特征，得到所述牙齒生成網(wǎng)絡(luò)輸出的修正圖像。

12、可選地，所述根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建，包括：

13、從所述中間圖像上定位出所述數(shù)字人的牙齒區(qū)域，并從中間圖像上裁剪出包含牙齒區(qū)域的局部圖像；

14、根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述局部圖像進(jìn)行牙齒重建。

15、可選地，所述方法還包括牙齒生成網(wǎng)絡(luò)的訓(xùn)練步驟：

16、獲取訓(xùn)練樣本集合，每個(gè)訓(xùn)練樣本包括連續(xù)m幀樣本圖像，所述樣本圖像中對象的牙齒區(qū)域符合預(yù)設(shè)的牙齒質(zhì)量要求；

17、針對所述m幀中后n幀樣本圖像的牙齒區(qū)域進(jìn)行缺陷引入處理，作為待預(yù)測樣本；其中，n為正整數(shù)且小于m；

18、將前(m-n)幀樣本圖像與后n幀待預(yù)測樣本輸入至牙齒生成網(wǎng)絡(luò)進(jìn)行牙齒重建，得到其預(yù)測輸出的n幀預(yù)測圖像；

19、利用所述n幀預(yù)測圖像與對應(yīng)的n幀樣本圖像計(jì)算損失函數(shù)，并調(diào)整所述牙齒生成網(wǎng)絡(luò)的參數(shù)以最小化所述損失函數(shù)；所述損失函數(shù)至少包括像素級別差異損失與圖像時(shí)序連貫性損失。

20、可選地，所述構(gòu)造針對所述牙齒區(qū)域的遮罩圖，包括：

21、創(chuàng)建空白圖像；所述空白圖像的像素點(diǎn)與所述中間圖像上的相應(yīng)位置的像素點(diǎn)一一對應(yīng)；

22、根據(jù)所述中間圖像上的牙齒區(qū)域，確定出所述空白圖像上的牙齒區(qū)域與非牙齒區(qū)域；

23、分別對所述牙齒區(qū)域與非牙齒區(qū)域中的像素點(diǎn)設(shè)置像素值，生成該中間圖像對應(yīng)的遮罩圖。

24、可選地，所述從每幀中間圖像上定位出所述數(shù)字人的牙齒區(qū)域，包括：

25、確定所述中間圖像中數(shù)字人唇部的輪廓關(guān)鍵點(diǎn)；根據(jù)標(biāo)識內(nèi)唇邊界的輪廓關(guān)鍵點(diǎn)確定所述牙齒區(qū)域的邊界；

26、或者，將所述中間圖像輸入至預(yù)先訓(xùn)練的牙齒區(qū)域分割網(wǎng)絡(luò)，得到標(biāo)記牙齒區(qū)域的中間圖像。

27、可選地，所述方法還包括：

28、在得到所述多張中間圖像后，檢測所述中間圖像中數(shù)字人的唇部口型是否處于閉合狀態(tài)；

29、在檢測到所述中間圖像中數(shù)字人的唇部口型處于閉合狀態(tài)的情況下，將所述中間圖像直接作為對應(yīng)的數(shù)字人圖像。

30、可選地，所述方法還包括：

31、獲取針對所述數(shù)字人所預(yù)設(shè)的、符合數(shù)字人形象設(shè)計(jì)的標(biāo)準(zhǔn)牙齒圖像；

32、將所述標(biāo)準(zhǔn)牙齒圖像連同所述中間圖像一同輸入至所述牙齒生成網(wǎng)絡(luò)，以根據(jù)所述牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建。

33、根據(jù)本技術(shù)實(shí)施例的第二方面，提供一種數(shù)字人圖像生成裝置，所述裝置包括：

34、模型驅(qū)動模塊，用于根據(jù)包含數(shù)字人的初始圖像，利用模型驅(qū)動數(shù)字人的面部表情和唇部口型，生成與驅(qū)動語音數(shù)據(jù)匹配的多張中間圖像；

35、牙齒重建模塊，用于針對每張中間圖像，根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建，得到所述中間圖像對應(yīng)的修正圖像；其中，所述中間圖像的牙齒重建依據(jù)該中間圖像之前、已經(jīng)完成牙齒重建得到的前k幀修正圖像；

36、遮罩圖構(gòu)造模塊，用于從每幀中間圖像上定位出所述數(shù)字人的牙齒區(qū)域，并構(gòu)造針對所述牙齒區(qū)域的遮罩圖；

37、融合生成模塊，用于根據(jù)所述遮罩圖，將中間圖像及其對應(yīng)的修正圖像進(jìn)行融合，得到每幀中間圖像對應(yīng)的數(shù)字人圖像。

38、可選地，所述牙齒重建模塊具體用于：

39、通過所述牙齒生成網(wǎng)絡(luò)提取所述中間圖像、以及所述中間圖像之前的前k幀修正圖像中牙齒區(qū)域的特征信息；

40、根據(jù)所述中間圖像與所述前k幀修正圖像之間的牙齒區(qū)域相似性，應(yīng)用時(shí)間一致性注意力機(jī)制對所述特征信息進(jìn)行融合表征，得到融合特征；

41、根據(jù)所述中間圖像對應(yīng)的所述融合特征，得到所述牙齒生成網(wǎng)絡(luò)輸出的修正圖像。

42、可選地，所述裝置還包括牙齒生成網(wǎng)絡(luò)的訓(xùn)練步驟：

43、獲取訓(xùn)練樣本集合，每個(gè)訓(xùn)練樣本包括連續(xù)m幀樣本圖像，所述樣本圖像中對象的牙齒區(qū)域符合預(yù)設(shè)的牙齒質(zhì)量要求；

44、針對所述m幀中后n幀樣本圖像的牙齒區(qū)域進(jìn)行缺陷引入處理，作為待預(yù)測樣本；其中，n為正整數(shù)且小于m；

45、將前(m-n)幀樣本圖像與后n幀待預(yù)測樣本輸入至牙齒生成網(wǎng)絡(luò)進(jìn)行牙齒重建，得到其預(yù)測輸出的n幀預(yù)測圖像；

46、利用所述n幀預(yù)測圖像與對應(yīng)的n幀樣本圖像計(jì)算損失函數(shù)，并調(diào)整所述牙齒生成網(wǎng)絡(luò)的參數(shù)以最小化所述損失函數(shù)；所述損失函數(shù)至少包括像素級別差異損失與圖像時(shí)序連貫性損失。

47、可選地，所述遮罩圖構(gòu)造模塊具體用于：

48、創(chuàng)建空白圖像；所述空白圖像的像素點(diǎn)與所述中間圖像上的相應(yīng)位置的像素點(diǎn)一一對應(yīng)；

49、根據(jù)所述中間圖像上的牙齒區(qū)域，確定出所述空白圖像上的牙齒區(qū)域與非牙齒區(qū)域；

50、分別對所述牙齒區(qū)域與非牙齒區(qū)域中的像素點(diǎn)設(shè)置像素值，生成該中間圖像對應(yīng)的遮罩圖。

51、可選地，所述遮罩圖構(gòu)造模塊具體用于：

52、確定所述中間圖像中數(shù)字人唇部的輪廓關(guān)鍵點(diǎn)；根據(jù)標(biāo)識內(nèi)唇邊界的輪廓關(guān)鍵點(diǎn)確定所述牙齒區(qū)域的邊界；

53、或者，將所述中間圖像輸入至預(yù)先訓(xùn)練的牙齒區(qū)域分割網(wǎng)絡(luò)，得到標(biāo)記牙齒區(qū)域的中間圖像。

54、可選地，所述裝置還包括：

55、在得到所述多張中間圖像后，檢測所述中間圖像中數(shù)字人的唇部口型是否處于閉合狀態(tài)；

56、在檢測到所述中間圖像中數(shù)字人的唇部口型處于閉合狀態(tài)的情況下，將所述中間圖像直接作為對應(yīng)的數(shù)字人圖像。

57、可選地，所述裝置還包括：

58、獲取針對所述數(shù)字人所預(yù)設(shè)的、符合數(shù)字人形象設(shè)計(jì)的標(biāo)準(zhǔn)牙齒圖像；

59、將所述標(biāo)準(zhǔn)牙齒圖像連同所述中間圖像一同輸入至所述牙齒生成網(wǎng)絡(luò)，以根據(jù)所述牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建。

60、根據(jù)本技術(shù)實(shí)施例的第三方面，提供一種電子設(shè)備，所述電子設(shè)備包括：存儲器和處理器；所述存儲器，用于存儲計(jì)算機(jī)程序；所述處理器，用于通過調(diào)用所述計(jì)算機(jī)程序，執(zhí)行上述數(shù)字人圖像生成方法。

61、根據(jù)本技術(shù)實(shí)施例的第四方面，提供一種計(jì)算機(jī)可讀存儲介質(zhì)，其上存儲有計(jì)算機(jī)程序，所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述數(shù)字人圖像生成方法。

62、本技術(shù)實(shí)施例提供的技術(shù)方案可以包括以下有益效果：

63、在上述本技術(shù)提供的技術(shù)方案中，通過模型驅(qū)動生成匹配驅(qū)動語音數(shù)據(jù)的多幀中間圖像，并通過預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)結(jié)合每幀中間圖像之前的前k幀修正圖像，對各幀中間圖像進(jìn)行牙齒重建，能夠針對每幀圖像中的牙齒區(qū)域進(jìn)行精細(xì)處理，并在時(shí)間維度上保持牙齒形態(tài)的連貫性，通過中間圖像上牙齒區(qū)域的遮罩處理，根據(jù)遮罩圖像將中間圖像對應(yīng)的修正圖像與該中間圖像進(jìn)行融合，在保證了中間圖像上面部表情與唇部口型與驅(qū)動語音數(shù)據(jù)的一致性匹配的同時(shí)，實(shí)現(xiàn)了對中間圖像上牙齒區(qū)域的優(yōu)化，通過模型驅(qū)動數(shù)字人與牙齒區(qū)域圖像處理相結(jié)合的方式，使得數(shù)字人的牙齒在視覺上更加清晰、逼真，呈現(xiàn)出自然、合理的排列狀態(tài)，提升了數(shù)字人的整體真實(shí)感，增強(qiáng)了觀眾的沉浸感和數(shù)字人的表現(xiàn)力。

64、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的和解釋性的，并不能限制本技術(shù)。此外，本技術(shù)中的任一實(shí)施例并不需要達(dá)到上述的全部效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：華澤宏,曹逸民,薛峰
技術(shù)所有人：浙江吉利控股集團(tuán)有限公司
我是此專利的發(fā)明人

上一篇：一種3D打印功能蛋白納米復(fù)合材料的制備方法及應(yīng)用與流程
上一篇：一種PCB板布局緊湊型防盜器的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

數(shù)字人圖像生成方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程

數(shù)字人圖像生成方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程