最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種3D虛擬數(shù)字人動作生成方法、裝置、可讀存儲介質(zhì)和設(shè)備

文檔序號:41955150發(fā)布日期:2025-05-16 14:21閱讀:4來源:國知局
一種3D虛擬數(shù)字人動作生成方法、裝置、可讀存儲介質(zhì)和設(shè)備

本技術(shù)涉及3d虛擬數(shù)字人,具體而言,涉及一種3d虛擬數(shù)字人動作生成方法、裝置、可讀存儲介質(zhì)和設(shè)備。


背景技術(shù):

1、虛擬數(shù)字人是指通過建模、動作捕捉和ai等技術(shù)手段,制作出具有人或類人的外貌特征和行為模式,并通過顯示設(shè)備呈現(xiàn)出來的虛擬形象。在早期,虛擬數(shù)字人主要通過2d圖像和簡單的動畫來呈現(xiàn),這種形式的虛擬數(shù)字人制作相對簡單,但交互性和逼真度有限。隨著計算機圖形學(xué)(cg)技術(shù)的發(fā)展,虛擬數(shù)字人開始向3d轉(zhuǎn)變,這使得虛擬形象更加立體和逼真,為用戶帶來了更加沉浸式的體驗。進入3d時代后,虛擬數(shù)字人開始采用三維建模技術(shù),這不僅增加了信息的維度,也提高了所需的計算量。3d虛擬數(shù)字人通過更加精細的建模和渲染技術(shù),能夠展現(xiàn)出更加真實的外貌和行為模式,其中虛擬數(shù)字人動作的逼真與否是衡量生成的數(shù)字人是否自然最重要的一環(huán)。從技術(shù)層面來講,3d虛擬數(shù)字人動作驅(qū)動可分為算法驅(qū)動型(ai實時)和真人驅(qū)動型(動作捕捉)。真人驅(qū)動型目前主流的解決方案是,將3d?照掃擴展為?4d?照掃,加入時序維度,從而能夠采集到演員最精細的面部變化以及肢體動作,之后將采集到的動作數(shù)據(jù)文件應(yīng)用在虛擬形象上。然而這樣的數(shù)據(jù)量十分巨大、后期處理時間及人力開銷過重,并不適合大規(guī)模資產(chǎn)制作。

2、近年來,隨著人工智能技術(shù)的進步,特別是深度學(xué)習(xí)模型的發(fā)展,3d虛擬數(shù)字人的動作生成技術(shù)得到了顯著提升。ai技術(shù)的應(yīng)用使得虛擬數(shù)字人能夠根據(jù)語音、文本和傳感器等多種輸入模態(tài)生成相應(yīng)的動作和表情,大大提高了其交互性和應(yīng)用范圍。而語音和面部表情及說話過程中的肢體動作的關(guān)聯(lián)度非常高,其中口型的變化和語音具有直接聯(lián)系,此外人們在說話的過程中往往伴隨著面部表情的變化和一定的肢體動作。因此,探索如何將語音作為輸入直接生成虛擬形象的口型表情和動作序列變得非常重要。

3、現(xiàn)有的一些關(guān)于虛擬數(shù)字人動作生成的方法中大多關(guān)注于確定性深度學(xué)習(xí)方法,這些方法會存在模式崩潰的問題,導(dǎo)致合成質(zhì)量較低,特別是使用的數(shù)據(jù)在訓(xùn)練數(shù)據(jù)中沒有的情況下,或者就需要在生成質(zhì)量和多樣性之間做權(quán)衡。

4、3d虛擬數(shù)字人協(xié)同語音(co-speech)動作生成是人機交互過程中重要的一環(huán)。協(xié)同語音(co-speech)動作,指的是說話者在說話時所做的手勢、面部表情、身體姿勢等非語言行為。這些非語言行為可以幫助聽眾理解說話者的意思,增強交流效果。然而,目前大多數(shù)關(guān)于協(xié)同語音動作生成的研究都是使用英語數(shù)據(jù)進行訓(xùn)練,而沒有關(guān)注多語種語音的協(xié)同語音動作生成,也沒有研究模型對多語種數(shù)據(jù)的泛化能力。此外,這些方法使用預(yù)訓(xùn)練模型來提取音頻特征,不能很好的處理除英語外其他語種的語音來進行有關(guān)協(xié)同語音的動作生成。


技術(shù)實現(xiàn)思路

1、有鑒于此,本技術(shù)提供一種3d虛擬數(shù)字人動作生成方法、裝置、可讀存儲介質(zhì)和設(shè)備,以克服現(xiàn)有技術(shù)的方法在除英語之外的其他語種語音上表現(xiàn)不佳的問題。

2、為實現(xiàn)上述目的,本技術(shù)采用的技術(shù)方案如下:

3、一種3d虛擬數(shù)字人動作生成方法,包括:

4、步驟1:基于beat數(shù)據(jù)集構(gòu)建多語種數(shù)據(jù)集;

5、步驟2:基于擴散模型的原理構(gòu)建基于擴散模型的深度神經(jīng)網(wǎng)絡(luò);

6、步驟3:使用構(gòu)建的多語種數(shù)據(jù)集對基于擴散模型的深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練;

7、步驟4:基于訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)進行模型推理,生成與相應(yīng)語音匹配的3d虛擬數(shù)字人動畫。

8、進一步的,步驟2中擴散模型的原理包括擴散過程和去噪過程,所述擴散過程具體為:

9、根據(jù)馬爾可夫鏈?zhǔn)椒▌t對所述多語種數(shù)據(jù)集中的運動序列數(shù)據(jù)加入高斯噪聲,逼近后驗,擴散過程完成后,數(shù)據(jù)概率分布等價于各向同性高斯分布:

10、

11、其中,表示擴散過程在時間步的樣本,表示在時間步中添加的噪聲的強度,表示噪聲分布過渡的鏈?zhǔn)竭^程,表示擴散過程的總步數(shù),表示正態(tài)分布,表示均值,表示協(xié)方差矩陣,為單位矩陣;

12、所述去噪過程具體為:

13、

14、其中,表示從噪聲中恢復(fù)樣本的反向過程,表示正態(tài)分布,表示條件分布的均值,表示條件分布的協(xié)方差矩陣;

15、令,,那么在時刻的噪聲動作可以表示為:

16、

17、其中,表示正態(tài)分布,表示均值,表示協(xié)方差矩陣;

18、模型根據(jù)輸入的樣本,去噪步數(shù)以及條件c來預(yù)測原始信號,所述條件c包括種子動作、語音和語言id。

19、進一步的,所述步驟3中使用構(gòu)建的多語種數(shù)據(jù)集對基于擴散模型的深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練的具體方法為:

20、步驟3.1:從所述多語種數(shù)據(jù)集的原始音頻中提取低級語音特征,所述低級語音特征為語音信號中與語種無關(guān)的普遍特征;

21、步驟3.2:將提取出的低級語音特征組合成序列,與經(jīng)過加噪處理的面部參數(shù)序列拼接后送入面部解碼器;將種子手勢動作進行加噪后與低級語音特征拼接,然后拼接語言id來使模型學(xué)習(xí)不同語種語音之間差異,接著送入跨局部注意力層與自注意力層以捕捉低級語音特征與手勢動作之間的關(guān)系;

22、步驟3.3:計算面部解碼器解碼輸出的面部參數(shù)序列與所述多語種數(shù)據(jù)集中的面部參數(shù)序列之間的損失函數(shù)進行訓(xùn)練;計算自注意力層生成的動作序列與多語種數(shù)據(jù)集中的動作序列之間的損失函數(shù)進行訓(xùn)練。

23、進一步的,所述步驟3.3中計算自注意力層生成的動作序列與多語種數(shù)據(jù)集中的動作序列之間的損失函數(shù)具體為:

24、

25、其中,表示生成的動作序列,即模型預(yù)測樣本;表示多語種數(shù)據(jù)集中的動作序列,即原始數(shù)據(jù)樣本;denoise表示訓(xùn)練好的去噪模型;表示損失函數(shù);表示對兩個隨機變量和的聯(lián)合期望;表示數(shù)據(jù)樣本從數(shù)據(jù)分布中采樣;表示時間步從時間范圍中均勻采樣;表示條件c下數(shù)據(jù)樣本的真實概率分布;huberloss表示損失函數(shù)。

26、一種3d虛擬數(shù)字人動作生成裝置,包括:

27、數(shù)據(jù)集構(gòu)建模塊,用于基于beat數(shù)據(jù)集構(gòu)建多語種數(shù)據(jù)集;

28、神經(jīng)網(wǎng)絡(luò)構(gòu)建模塊,用于基于擴散模型的原理構(gòu)建基于擴散模型的深度神經(jīng)網(wǎng)絡(luò);

29、訓(xùn)練模塊,用于使用構(gòu)建的多語種數(shù)據(jù)集對基于擴散模型的深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練;

30、推理模塊,用于基于訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)進行模型推理,生成與相應(yīng)語音匹配的3d虛擬數(shù)字人動畫。

31、進一步的,擴散模型的原理包括擴散過程和去噪過程,所述擴散過程具體為:

32、根據(jù)馬爾可夫鏈?zhǔn)椒▌t對所述多語種數(shù)據(jù)集中的運動序列數(shù)據(jù)加入高斯噪聲,逼近后驗,擴散過程完成后,數(shù)據(jù)概率分布等價于各向同性高斯分布:

33、

34、其中,表示擴散過程在時間步的樣本,表示在時間步中添加的噪聲的強度,表示噪聲分布過渡的鏈?zhǔn)竭^程,表示擴散過程的總步數(shù),表示正態(tài)分布,表示均值,表示協(xié)方差矩陣,為單位矩陣;

35、所述去噪過程具體為:

36、

37、其中,表示從噪聲中恢復(fù)樣本的反向過程,表示正態(tài)分布,表示條件分布的均值,表示條件分布的協(xié)方差矩陣;

38、令,,那么在時刻的噪聲動作可以表示為:

39、

40、其中,表示正態(tài)分布,表示均值,表示協(xié)方差矩陣;

41、模型根據(jù)輸入的樣本,去噪步數(shù)以及條件c來預(yù)測原始信號,所述條件c包括種子動作、語音和語言id。

42、進一步的,所述訓(xùn)練模塊具體用于執(zhí)行以下步驟:

43、步驟3.1:從所述多語種數(shù)據(jù)集的原始音頻中提取低級語音特征,所述低級語音特征為語音信號中與語種無關(guān)的普遍特征;

44、步驟3.2:將提取出的低級語音特征組合成序列,與經(jīng)過加噪處理的面部參數(shù)序列拼接后送入面部解碼器;將種子手勢動作進行加噪后與低級語音特征拼接,然后拼接語言id來使模型學(xué)習(xí)不同語種語音之間差異,接著送入跨局部注意力層與自注意力層以捕捉低級語音特征與手勢動作之間的關(guān)系;

45、步驟3.3:計算面部解碼器解碼輸出的面部參數(shù)序列與所述多語種數(shù)據(jù)集中的面部參數(shù)序列之間的損失函數(shù)進行訓(xùn)練;計算自注意力層生成的動作序列與多語種數(shù)據(jù)集中的動作序列之間的損失函數(shù)進行訓(xùn)練。

46、進一步的,所述步驟3.3中計算自注意力層生成的動作序列與多語種數(shù)據(jù)集中的動作序列之間的損失函數(shù)具體為:

47、

48、其中,表示生成的動作序列,即模型預(yù)測樣本;表示多語種數(shù)據(jù)集中的動作序列,即原始數(shù)據(jù)樣本;denoise表示訓(xùn)練好的去噪模型;表示損失函數(shù);表示對兩個隨機變量和的聯(lián)合期望;表示數(shù)據(jù)樣本從數(shù)據(jù)分布中采樣;表示時間步從時間范圍中均勻采樣;表示條件c下數(shù)據(jù)樣本的真實概率分布;huberloss表示損失函數(shù)。

49、根據(jù)本技術(shù)的另一方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)本技術(shù)的一種3d虛擬數(shù)字人動作生成方法中的步驟。

50、根據(jù)本技術(shù)的又一方面,提供了一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)本技術(shù)的一種3d虛擬數(shù)字人動作生成方法中的步驟。

51、與現(xiàn)有技術(shù)相比,本技術(shù)的有益效果是:

52、1、本技術(shù)結(jié)合擴散模型的理論原理與神經(jīng)網(wǎng)絡(luò)的框架設(shè)計,將擴散模型的前向擴散過程和反向生成過程映射到神經(jīng)網(wǎng)絡(luò)訓(xùn)練與生成中,可以使生成的動作既具有高質(zhì)量又具備多樣性;

53、2、利用構(gòu)建的多語種數(shù)據(jù)集及語言id來幫助模型區(qū)分不同的語言,使模型能夠了解差異和不同語言之間的特點,從而提高它在多語言數(shù)據(jù)上的性能和泛化能力;

54、3、利用提取出的低級語音特征進行訓(xùn)練,解決了現(xiàn)有方法在除英語之外的其他語種語音上表現(xiàn)不佳的問題。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1