本申請整體涉及利用自然語言快速生成3d頭部。
背景技術(shù):
1、如本文所理解,為計(jì)算機(jī)模擬(諸如計(jì)算機(jī)游戲)創(chuàng)建諸如非玩家角色(npc)的角色及其裝備可能是耗時(shí)的并且需要專業(yè)知識。
技術(shù)實(shí)現(xiàn)思路
1、如本文進(jìn)一步理解,期望使游戲開發(fā)者能夠以簡單、快速和直觀的方式為視頻游戲創(chuàng)建角色和裝備。進(jìn)一步期望使終端用戶能夠使用文本或其語音(或類似的基于文本的界面,如問卷)來創(chuàng)建角色。
2、因此,一種設(shè)備包括至少一個(gè)計(jì)算機(jī)存儲器,該至少一個(gè)計(jì)算機(jī)存儲器不是瞬時(shí)信號并且又包括指令,這些指令可由至少一個(gè)處理器執(zhí)行以從多個(gè)圖像生成神經(jīng)場,諸如基礎(chǔ)三維(3d)神經(jīng)輻射場(nerf)(包括編碼在多分辨率哈希表中的nerf)。這些指令可執(zhí)行以使用對比語言-圖像預(yù)訓(xùn)練(clip)模型的文本輸入以從基礎(chǔ)nerf生成修改的nerf,并且將修改的nerf轉(zhuǎn)換為表示虛擬人頭部的多邊形網(wǎng)格以用于在至少一個(gè)計(jì)算機(jī)模擬中呈現(xiàn)虛擬人頭部。要注意的是,基礎(chǔ)頭部可從真人頭部的3d模型或圖像導(dǎo)出。
3、在一些示例中,clip模型對圖像與文本的匹配進(jìn)行評級,并且可使用余弦相似度在圖像-文本對上訓(xùn)練該clip模型以對匹配優(yōu)度進(jìn)行評分。clip模型對文本-圖像相似度進(jìn)行評級,該文本-圖像相似度用于對文本與頭部的圖像的渲染的匹配程度進(jìn)行評分。
4、在一些實(shí)施方案中,指令可以是可執(zhí)行的以使用機(jī)器學(xué)習(xí)(ml)模型來使匹配文本中的損失指示最小化。這些指令可以是執(zhí)行的以基于從控制對象的頂點(diǎn)的初始圖像參數(shù)到對象在屏幕上渲染的像素的因果關(guān)系鏈來訓(xùn)練ml模型。
5、在示例中,ml模型包括至少一個(gè)全連接(非卷積)深度網(wǎng)絡(luò)。
6、在一些具體實(shí)施中,ml模型的輸入可包括表示三個(gè)空間維度和兩個(gè)視角維度的值,并且ml模型的輸出可包括體積密度和視角相關(guān)的發(fā)射輻射。
7、如果需要,則指令可以是可執(zhí)行的以使用學(xué)習(xí)到的后續(xù)短語從起始短語生成文本。
8、在另一方面,一種裝置包括至少一個(gè)處理器,該至少一個(gè)處理器被編程有指令以接收人的文本描述,并且至少部分地基于該文本描述,在接收到該文本描述之后不到兩分鐘內(nèi)生成虛擬連貫三維(3d)頭部。這些指令是可執(zhí)行的以在顯示器上呈現(xiàn)虛擬連貫3d頭部。
9、在另一方面,一種方法包括:接收文本;以及從基礎(chǔ)模型開始基于該文本來生成神經(jīng)輻射場。
10、參考附圖可最好地理解本申請的關(guān)于其結(jié)構(gòu)和操作兩者的細(xì)節(jié),在附圖中,相同的附圖標(biāo)記表示相同的部件,并且其中:
1.一種設(shè)備,其包括:
2.如權(quán)利要求1所述的設(shè)備,其中所述clip模型對圖像與文本的匹配進(jìn)行評級。
3.如權(quán)利要求2所述的設(shè)備,其中使用余弦相似度在圖像-文本對上訓(xùn)練所述clip模型以對匹配優(yōu)度進(jìn)行評分。
4.如權(quán)利要求1所述的設(shè)備,其中所述指令能夠執(zhí)行以:
5.如權(quán)利要求4所述的設(shè)備,其中所述指令能夠執(zhí)行以基于從控制對象的頂點(diǎn)的初始圖像參數(shù)到所述對象在屏幕上渲染的像素的因果關(guān)系鏈來訓(xùn)練所述ml模型。
6.如權(quán)利要求4所述的設(shè)備,其中所述ml模型包括至少一個(gè)全連接(非卷積)深度網(wǎng)絡(luò)。
7.如權(quán)利要求4所述的設(shè)備,其中所述ml模型的輸入包括表示三個(gè)空間維度和兩個(gè)視角維度的值。
8.如權(quán)利要求7所述的設(shè)備,其中所述ml模型的輸出包括體積密度和視角相關(guān)的發(fā)射輻射。
9.如權(quán)利要求1所述的設(shè)備,其中所述指令能夠執(zhí)行以:
10.如權(quán)利要求1所述的設(shè)備,其包括所述至少一個(gè)處理器。
11.一種裝置,其包括:
12.如權(quán)利要求11所述的裝置,其中所述指令能夠執(zhí)行以:
13.如權(quán)利要求11所述的裝置,其中所述虛擬連貫3d頭部包括修改的神經(jīng)輻射場(nerf)。
14.如權(quán)利要求13所述的裝置,其中所述修改的nerf包括編碼在多分辨率哈希表中的修改的nerf。
15.如權(quán)利要求13所述的裝置,其中所述指令能夠執(zhí)行以:
16.如權(quán)利要求15所述的裝置,其中所述clip模型對圖像與文本的匹配進(jìn)行評級。
17.如權(quán)利要求11所述的裝置,其中所述指令能夠執(zhí)行以:
18.如權(quán)利要求17所述的裝置,其中所述ml模型包括至少一個(gè)全連接深度網(wǎng)絡(luò)。
19.如權(quán)利要求17所述的裝置,其中所述ml模型的輸入包括表示三個(gè)空間維度和兩個(gè)視角維度的值,并且所述ml模型的輸出包括體積密度和視角相關(guān)的發(fā)射輻射。
20.一種方法,其包括: