本技術涉及計算機視覺領域,特別是涉及一種生成三維模型的方法及裝置。
背景技術:
1、三維重建(3d?reconstruction)在計算機圖形學和虛擬現實中扮演著關鍵角色,廣泛應用于虛擬人物的創(chuàng)建、影視動畫制作以及虛擬試衣等領域。基于單視角圖像實現三維重建則具有十分重要的理論意義與應用價值,如在虛擬現實和增強現實應用中,用戶往往需要通過單視角圖像生成完整的三維模型。為了達到高逼真的效果,目標對象的單視角圖像的精確重建至關重要。然而,由于相關技術的局限性,基于單視角圖像的三維重建結果不是很理想,在三維模型的結構上往往錯亂,缺乏真實感等質量問題,很難直接進行落地應用。
技術實現思路
1、有鑒于此,本技術提供了一種生成三維模型的方法及裝置,用以解決基于單視角圖像重建三維模型存在的不精確的問題。
2、本技術提供了如下方案:
3、第一方面,提供了一種生成三維模型的方法,該生成三維模型的方法包括:
4、獲取目標對象的單視角圖像;
5、利用第一對象生成模型基于目標對象的單視角圖像,預測得到其他視角的圖像;
6、利用其他視角的圖像得到目標對象的三維模型;
7、利用第二對象生成模型基于其他視角的圖像,得到其他視角的優(yōu)化圖像;
8、將其他視角的優(yōu)化圖像作為真值圖像優(yōu)化目標對象的三維模型;
9、其中,第一對象生成模型和第二對象生成模型均基于擴散模型預先訓練得到。
10、可選地,其他視角的圖像包括多個視角的圖像;
11、利用其他視角的圖像得到目標對象的三維模型包括:利用多個視角的圖像針對目標對象進行三維重建,得到目標對象的三維模型。
12、可選地,利用其他視角的圖像得到目標對象的三維模型包括:
13、初始化目標對象的三維模型;
14、將其他視角的圖像作為真值圖像優(yōu)化目標對象的三維模型。
15、可選地,優(yōu)化目標對象的三維模型包括:
16、確定真值圖像所對應的視角;
17、獲取目標對象的三維模型依據真值圖像所對應的視角渲染得到的圖像;
18、利用渲染得到的圖像與真值圖像之間的差異優(yōu)化三維模型。
19、可選地,利用第一對象生成模型基于目標對象的單視角圖像,預測得到其他視角的圖像包括:
20、將單視角圖像進行加噪,將加噪后的單視角圖像和其他視角的信息輸入第一對象生成模型,由第一對象生成模型將其他視角的信息作為指導條件,對加噪后的單視角圖像進行去噪處理,得到其他視角的圖像。
21、可選地,第一對象生成模型利用如下方式訓練得到:
22、獲取第一視角的圖像樣本和第二視角的圖像樣本;
23、將第一視角的圖像樣本進行加噪后,將加噪后的第一視角的圖像樣本和第二視角的信息輸入第一擴散模型中,獲取第一擴散模型基于第二視角的信息對加噪后的第一視角的圖像樣本進行去噪處理,得到第二視角的預測圖像,利用第一訓練目標對應的損失函數更新第一擴散模型的模型參數,其中第一訓練目標包括最小化預測圖像與第二視角的圖像樣本之間的差異,以及第一視角的圖像樣本的特征表示與預測圖像的特征表示之間的距離。
24、可選地,利用第二對象生成模型基于其他視角的圖像,得到其他視角的優(yōu)化圖像包括:
25、將其他視角的圖像和噪聲圖像輸入第二對象生成模型,由第二對象生成模型將其他視角的圖像作為指導條件,對噪聲圖像進行去噪處理,得到其他視角的優(yōu)化圖像。
26、可選地,第二對象生成模型采用如下方式訓練得到:
27、獲取目標對象的紋理清晰度符合預設條件的圖像樣本,對圖像樣本進行加噪處理;
28、將加噪處理后的圖像樣本和噪聲圖像輸入第二擴散模型,獲取第二擴散模型基于加噪處理后的圖像樣本對噪聲圖像進行去噪處理得到的預測圖像,利用第二訓練目標對應的損失函數更新第二擴散模型的模型參數,其中第二訓練目標包括最小化預測圖像與加噪前的圖像樣本之間的差異,以及加噪處理后的圖像樣本的特征表示與預測圖像的特征表示之間的距離。
29、可選地,目標對象為頭發(fā);
30、獲取目標對象的單視角圖像包括:獲取單視角的頭發(fā)圖像和身體模板圖像,將頭發(fā)圖像中的頭發(fā)部分和身體模板圖像中的身體部分進行對齊和合成,得到單視角圖像。
31、可選地,三維模型采用三維高斯表示、隱式場表示或體素表示。
32、第二方面,提供了一種生成三維模型的裝置,該生成三維模型的裝置包括:
33、圖像獲取單元,被配置為獲取目標對象的單視角圖像;
34、第一優(yōu)化單元,被配置為利用第一對象生成模型基于目標對象的單視角圖像,預測得到其他視角的圖像;利用其他視角的圖像得到目標對象的三維模型;
35、第二優(yōu)化單元,被配置為利用第二對象生成模型基于其他視角的圖像,得到其他視角的優(yōu)化圖像;將其他視角的優(yōu)化圖像作為真值圖像優(yōu)化目標對象的三維模型;
36、其中,第一對象生成模型和第二對象生成模型均基于擴散模型預先訓練得到。
37、第三方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現上述第一方面中任一項所述的方法的步驟。
38、第四方面,提供了一種電子設備,包括:
39、一個或多個處理器;以及
40、與所述一個或多個處理器關聯的存儲器,所述存儲器用于存儲程序指令,所述程序指令在被所述一個或多個處理器讀取執(zhí)行時,執(zhí)行上述第一方面中任一項所述的方法的步驟。
41、第五方面,提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現上述第一方面中任一項所述方法的步驟。
42、根據本技術提供的具體實施例,本技術公開了以下技術效果:
43、1)本技術采用了兩階段的三維重建方式:在第一階段利用第一對象生成模型基于目標對象的單視角圖像,預測生成其他視角的圖像,并利用其他視角的圖像得到目標對象的三維模型;在第二階段利用第二對象生成模型優(yōu)化其他視角的圖像,得到其他視角的優(yōu)化圖像,將其他視角的優(yōu)化圖像作為真值圖像優(yōu)化目標對象的三維模型。這種方式能夠在第一階段重建目標對象的三維模型后,進一步利用第二階段對目標對象的三維模型進行優(yōu)化,從而使得基于單視角圖像重建的三維模型更加準確和精細化,為基于單視角圖像的三維重建方案的落地應用提供了條件。
44、2)本技術利用多個視角的圖像針對目標對象進行三維重建,得到目標對象的三維模型,提供了一種基于單視角圖像生成三維模型的方式,基于單視角圖像生成多視角的圖像,實現了初步的三維重建。
45、3)本技術還提供了一種基于單視角圖像生成三維模型的方式,在初始化目標對象的三維模型后,將其他視角的圖像作為真值圖像優(yōu)化目標對象的三維模型。
46、4)本技術先確定真值圖像所對應的視角,在獲取目標對象的三維模型依據真值圖像所對應的視角渲染得到的圖像后,通過比較渲染得到的圖像與真值圖像之間的差異,可以識別出三維模型在形狀、紋理等方面的不足,并針對這些不足進行優(yōu)化,可以使三維模型更加接近真實世界中的目標對象,從而提升其逼真度。
47、5)本技術將單視角圖像進行加噪,并將加噪后的單視角圖像和其他視角的信息輸入第一對象生成模型,由第一對象生成模型將其他視角的信息作為指導條件,對加噪后的單視角圖像進行去噪處理,得到其他視角的圖像,從而能夠從圖像級別對加噪后的單視角圖像進行去噪處理,讓第一對象生成模型輸出高質量的其他視角的圖像。
48、6)本技術將第一視角的圖像樣本和第二視角的圖像樣本作為訓練第一對象生成模型的樣本,并基于第一訓練目標對應的損失函數更新第一擴散模型的模型參數,該第一訓練目標包括最小化預測圖像與第二視角的圖像樣本之間的差異,以及第一視角的圖像樣本的特征表示與預測圖像的特征表示之間的距離,從而能夠訓練得到高精度的第一對象生成模型,進一步提高通過第一對象生成模型預測輸出的其他視角的圖像的質量。
49、7)本技術將其他視角的圖像和噪聲圖像輸入第二對象生成模型,由第二對象生成模型將其他視角的圖像作為指導條件,對噪聲圖像進行去噪處理,得到其他視角的優(yōu)化圖像,從而能夠優(yōu)化其他視角的圖像中的每個像素,得到其他視角的優(yōu)化圖像。
50、8)本技術將加噪處理后的圖像樣本和噪聲圖像作為訓練第二對象生成模型的訓練樣本,并利用第二訓練目標對應的損失函數更新第二擴散模型的模型參數,該第二訓練目標包括最小化預測圖像與加噪前的圖像樣本之間的差異,以及加噪處理后的圖像樣本的特征表示與預測圖像的特征表示之間的距離,從而能夠訓練得到高精度的第二對象生成模型,進一步提高通過第二對象生成模型輸出的其他視角的優(yōu)化圖像的質量。
51、9)本技術中目標對象為頭發(fā);在獲取單視角的頭發(fā)圖像和身體模板圖像后,將頭發(fā)圖像中的頭發(fā)部分和身體模板圖像中的身體部分進行對齊和合成,得到單視角圖像,在這種場景下,能夠基于包含頭發(fā)的單視角圖像進行準確地三維重建,得到頭發(fā)的三維模型。
52、10)本技術可以根據三維模型的具體的使用需求選擇三維模型采用三維高斯表示、隱式場表示或體素表示,從而進一步提升三維建模的靈活性和適應性。
53、當然,實施本技術的任一產品并不一定需要同時達到以上的所有優(yōu)點。