本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種數(shù)字人圖像生成方法、裝置、設(shè)備及可讀存儲介質(zhì)。
背景技術(shù):
1、在當(dāng)前數(shù)字人模型構(gòu)建與渲染過程中,相關(guān)技術(shù)在生成數(shù)字人的牙齒時(shí)存在牙齒模糊不清、多排牙齒異常、牙齒位置不穩(wěn)定而發(fā)生非自然位移等問題,產(chǎn)生視覺違和感,降低了數(shù)字人的視覺真實(shí)感,影響數(shù)字人的表現(xiàn)力和觀眾沉浸度。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,為解決上述技術(shù)問題,本技術(shù)提供一種數(shù)字人圖像生成方法、裝置、設(shè)備及可讀存儲介質(zhì)。
2、具體地,本技術(shù)是通過如下技術(shù)方案實(shí)現(xiàn)的:
3、根據(jù)本技術(shù)實(shí)施例的第一方面,提供一種數(shù)字人圖像生成方法,所述方法包括:
4、根據(jù)包含數(shù)字人的初始圖像,利用模型驅(qū)動數(shù)字人的面部表情和唇部口型,生成與驅(qū)動語音數(shù)據(jù)匹配的多張中間圖像;
5、針對每張中間圖像,根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建,得到所述中間圖像對應(yīng)的修正圖像;其中,所述中間圖像的牙齒重建依據(jù)該中間圖像之前、已經(jīng)完成牙齒重建得到的前k幀修正圖像;
6、從每幀中間圖像上定位出所述數(shù)字人的牙齒區(qū)域,并構(gòu)造針對所述牙齒區(qū)域的遮罩圖;
7、根據(jù)所述遮罩圖,將中間圖像及其對應(yīng)的修正圖像進(jìn)行融合,得到每幀中間圖像對應(yīng)的數(shù)字人圖像。
8、可選地,所述根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建,包括:
9、通過所述牙齒生成網(wǎng)絡(luò)提取所述中間圖像、以及所述中間圖像之前的前k幀修正圖像中牙齒區(qū)域的特征信息;
10、根據(jù)所述中間圖像與所述前k幀修正圖像之間的牙齒區(qū)域相似性,應(yīng)用時(shí)間一致性注意力機(jī)制對所述特征信息進(jìn)行融合表征,得到融合特征;
11、根據(jù)所述中間圖像對應(yīng)的所述融合特征,得到所述牙齒生成網(wǎng)絡(luò)輸出的修正圖像。
12、可選地,所述根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建,包括:
13、從所述中間圖像上定位出所述數(shù)字人的牙齒區(qū)域,并從中間圖像上裁剪出包含牙齒區(qū)域的局部圖像;
14、根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述局部圖像進(jìn)行牙齒重建。
15、可選地,所述方法還包括牙齒生成網(wǎng)絡(luò)的訓(xùn)練步驟:
16、獲取訓(xùn)練樣本集合,每個(gè)訓(xùn)練樣本包括連續(xù)m幀樣本圖像,所述樣本圖像中對象的牙齒區(qū)域符合預(yù)設(shè)的牙齒質(zhì)量要求;
17、針對所述m幀中后n幀樣本圖像的牙齒區(qū)域進(jìn)行缺陷引入處理,作為待預(yù)測樣本;其中,n為正整數(shù)且小于m;
18、將前(m-n)幀樣本圖像與后n幀待預(yù)測樣本輸入至牙齒生成網(wǎng)絡(luò)進(jìn)行牙齒重建,得到其預(yù)測輸出的n幀預(yù)測圖像;
19、利用所述n幀預(yù)測圖像與對應(yīng)的n幀樣本圖像計(jì)算損失函數(shù),并調(diào)整所述牙齒生成網(wǎng)絡(luò)的參數(shù)以最小化所述損失函數(shù);所述損失函數(shù)至少包括像素級別差異損失與圖像時(shí)序連貫性損失。
20、可選地,所述構(gòu)造針對所述牙齒區(qū)域的遮罩圖,包括:
21、創(chuàng)建空白圖像;所述空白圖像的像素點(diǎn)與所述中間圖像上的相應(yīng)位置的像素點(diǎn)一一對應(yīng);
22、根據(jù)所述中間圖像上的牙齒區(qū)域,確定出所述空白圖像上的牙齒區(qū)域與非牙齒區(qū)域;
23、分別對所述牙齒區(qū)域與非牙齒區(qū)域中的像素點(diǎn)設(shè)置像素值,生成該中間圖像對應(yīng)的遮罩圖。
24、可選地,所述從每幀中間圖像上定位出所述數(shù)字人的牙齒區(qū)域,包括:
25、確定所述中間圖像中數(shù)字人唇部的輪廓關(guān)鍵點(diǎn);根據(jù)標(biāo)識內(nèi)唇邊界的輪廓關(guān)鍵點(diǎn)確定所述牙齒區(qū)域的邊界;
26、或者,將所述中間圖像輸入至預(yù)先訓(xùn)練的牙齒區(qū)域分割網(wǎng)絡(luò),得到標(biāo)記牙齒區(qū)域的中間圖像。
27、可選地,所述方法還包括:
28、在得到所述多張中間圖像后,檢測所述中間圖像中數(shù)字人的唇部口型是否處于閉合狀態(tài);
29、在檢測到所述中間圖像中數(shù)字人的唇部口型處于閉合狀態(tài)的情況下,將所述中間圖像直接作為對應(yīng)的數(shù)字人圖像。
30、可選地,所述方法還包括:
31、獲取針對所述數(shù)字人所預(yù)設(shè)的、符合數(shù)字人形象設(shè)計(jì)的標(biāo)準(zhǔn)牙齒圖像;
32、將所述標(biāo)準(zhǔn)牙齒圖像連同所述中間圖像一同輸入至所述牙齒生成網(wǎng)絡(luò),以根據(jù)所述牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建。
33、根據(jù)本技術(shù)實(shí)施例的第二方面,提供一種數(shù)字人圖像生成裝置,所述裝置包括:
34、模型驅(qū)動模塊,用于根據(jù)包含數(shù)字人的初始圖像,利用模型驅(qū)動數(shù)字人的面部表情和唇部口型,生成與驅(qū)動語音數(shù)據(jù)匹配的多張中間圖像;
35、牙齒重建模塊,用于針對每張中間圖像,根據(jù)預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建,得到所述中間圖像對應(yīng)的修正圖像;其中,所述中間圖像的牙齒重建依據(jù)該中間圖像之前、已經(jīng)完成牙齒重建得到的前k幀修正圖像;
36、遮罩圖構(gòu)造模塊,用于從每幀中間圖像上定位出所述數(shù)字人的牙齒區(qū)域,并構(gòu)造針對所述牙齒區(qū)域的遮罩圖;
37、融合生成模塊,用于根據(jù)所述遮罩圖,將中間圖像及其對應(yīng)的修正圖像進(jìn)行融合,得到每幀中間圖像對應(yīng)的數(shù)字人圖像。
38、可選地,所述牙齒重建模塊具體用于:
39、通過所述牙齒生成網(wǎng)絡(luò)提取所述中間圖像、以及所述中間圖像之前的前k幀修正圖像中牙齒區(qū)域的特征信息;
40、根據(jù)所述中間圖像與所述前k幀修正圖像之間的牙齒區(qū)域相似性,應(yīng)用時(shí)間一致性注意力機(jī)制對所述特征信息進(jìn)行融合表征,得到融合特征;
41、根據(jù)所述中間圖像對應(yīng)的所述融合特征,得到所述牙齒生成網(wǎng)絡(luò)輸出的修正圖像。
42、可選地,所述裝置還包括牙齒生成網(wǎng)絡(luò)的訓(xùn)練步驟:
43、獲取訓(xùn)練樣本集合,每個(gè)訓(xùn)練樣本包括連續(xù)m幀樣本圖像,所述樣本圖像中對象的牙齒區(qū)域符合預(yù)設(shè)的牙齒質(zhì)量要求;
44、針對所述m幀中后n幀樣本圖像的牙齒區(qū)域進(jìn)行缺陷引入處理,作為待預(yù)測樣本;其中,n為正整數(shù)且小于m;
45、將前(m-n)幀樣本圖像與后n幀待預(yù)測樣本輸入至牙齒生成網(wǎng)絡(luò)進(jìn)行牙齒重建,得到其預(yù)測輸出的n幀預(yù)測圖像;
46、利用所述n幀預(yù)測圖像與對應(yīng)的n幀樣本圖像計(jì)算損失函數(shù),并調(diào)整所述牙齒生成網(wǎng)絡(luò)的參數(shù)以最小化所述損失函數(shù);所述損失函數(shù)至少包括像素級別差異損失與圖像時(shí)序連貫性損失。
47、可選地,所述遮罩圖構(gòu)造模塊具體用于:
48、創(chuàng)建空白圖像;所述空白圖像的像素點(diǎn)與所述中間圖像上的相應(yīng)位置的像素點(diǎn)一一對應(yīng);
49、根據(jù)所述中間圖像上的牙齒區(qū)域,確定出所述空白圖像上的牙齒區(qū)域與非牙齒區(qū)域;
50、分別對所述牙齒區(qū)域與非牙齒區(qū)域中的像素點(diǎn)設(shè)置像素值,生成該中間圖像對應(yīng)的遮罩圖。
51、可選地,所述遮罩圖構(gòu)造模塊具體用于:
52、確定所述中間圖像中數(shù)字人唇部的輪廓關(guān)鍵點(diǎn);根據(jù)標(biāo)識內(nèi)唇邊界的輪廓關(guān)鍵點(diǎn)確定所述牙齒區(qū)域的邊界;
53、或者,將所述中間圖像輸入至預(yù)先訓(xùn)練的牙齒區(qū)域分割網(wǎng)絡(luò),得到標(biāo)記牙齒區(qū)域的中間圖像。
54、可選地,所述裝置還包括:
55、在得到所述多張中間圖像后,檢測所述中間圖像中數(shù)字人的唇部口型是否處于閉合狀態(tài);
56、在檢測到所述中間圖像中數(shù)字人的唇部口型處于閉合狀態(tài)的情況下,將所述中間圖像直接作為對應(yīng)的數(shù)字人圖像。
57、可選地,所述裝置還包括:
58、獲取針對所述數(shù)字人所預(yù)設(shè)的、符合數(shù)字人形象設(shè)計(jì)的標(biāo)準(zhǔn)牙齒圖像;
59、將所述標(biāo)準(zhǔn)牙齒圖像連同所述中間圖像一同輸入至所述牙齒生成網(wǎng)絡(luò),以根據(jù)所述牙齒生成網(wǎng)絡(luò)對所述中間圖像進(jìn)行牙齒重建。
60、根據(jù)本技術(shù)實(shí)施例的第三方面,提供一種電子設(shè)備,所述電子設(shè)備包括:存儲器和處理器;所述存儲器,用于存儲計(jì)算機(jī)程序;所述處理器,用于通過調(diào)用所述計(jì)算機(jī)程序,執(zhí)行上述數(shù)字人圖像生成方法。
61、根據(jù)本技術(shù)實(shí)施例的第四方面,提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述數(shù)字人圖像生成方法。
62、本技術(shù)實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
63、在上述本技術(shù)提供的技術(shù)方案中,通過模型驅(qū)動生成匹配驅(qū)動語音數(shù)據(jù)的多幀中間圖像,并通過預(yù)先訓(xùn)練的牙齒生成網(wǎng)絡(luò)結(jié)合每幀中間圖像之前的前k幀修正圖像,對各幀中間圖像進(jìn)行牙齒重建,能夠針對每幀圖像中的牙齒區(qū)域進(jìn)行精細(xì)處理,并在時(shí)間維度上保持牙齒形態(tài)的連貫性,通過中間圖像上牙齒區(qū)域的遮罩處理,根據(jù)遮罩圖像將中間圖像對應(yīng)的修正圖像與該中間圖像進(jìn)行融合,在保證了中間圖像上面部表情與唇部口型與驅(qū)動語音數(shù)據(jù)的一致性匹配的同時(shí),實(shí)現(xiàn)了對中間圖像上牙齒區(qū)域的優(yōu)化,通過模型驅(qū)動數(shù)字人與牙齒區(qū)域圖像處理相結(jié)合的方式,使得數(shù)字人的牙齒在視覺上更加清晰、逼真,呈現(xiàn)出自然、合理的排列狀態(tài),提升了數(shù)字人的整體真實(shí)感,增強(qiáng)了觀眾的沉浸感和數(shù)字人的表現(xiàn)力。
64、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的和解釋性的,并不能限制本技術(shù)。此外,本技術(shù)中的任一實(shí)施例并不需要達(dá)到上述的全部效果。