利用自然語言場快速生成3D頭部的制作方法

文檔序號：41956352發(fā)布日期：2025-05-16 14:24閱讀：16來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請整體涉及利用自然語言快速生成3d頭部。

背景技術(shù)：

1、如本文所理解，為計(jì)算機(jī)模擬(諸如計(jì)算機(jī)游戲)創(chuàng)建諸如非玩家角色(npc)的角色及其裝備可能是耗時(shí)的并且需要專業(yè)知識。

技術(shù)實(shí)現(xiàn)思路

1、如本文進(jìn)一步理解，期望使游戲開發(fā)者能夠以簡單、快速和直觀的方式為視頻游戲創(chuàng)建角色和裝備。進(jìn)一步期望使終端用戶能夠使用文本或其語音(或類似的基于文本的界面，如問卷)來創(chuàng)建角色。

2、因此，一種設(shè)備包括至少一個(gè)計(jì)算機(jī)存儲器，該至少一個(gè)計(jì)算機(jī)存儲器不是瞬時(shí)信號并且又包括指令，這些指令可由至少一個(gè)處理器執(zhí)行以從多個(gè)圖像生成神經(jīng)場，諸如基礎(chǔ)三維(3d)神經(jīng)輻射場(nerf)(包括編碼在多分辨率哈希表中的nerf)。這些指令可執(zhí)行以使用對比語言-圖像預(yù)訓(xùn)練(clip)模型的文本輸入以從基礎(chǔ)nerf生成修改的nerf，并且將修改的nerf轉(zhuǎn)換為表示虛擬人頭部的多邊形網(wǎng)格以用于在至少一個(gè)計(jì)算機(jī)模擬中呈現(xiàn)虛擬人頭部。要注意的是，基礎(chǔ)頭部可從真人頭部的3d模型或圖像導(dǎo)出。

3、在一些示例中，clip模型對圖像與文本的匹配進(jìn)行評級，并且可使用余弦相似度在圖像-文本對上訓(xùn)練該clip模型以對匹配優(yōu)度進(jìn)行評分。clip模型對文本-圖像相似度進(jìn)行評級，該文本-圖像相似度用于對文本與頭部的圖像的渲染的匹配程度進(jìn)行評分。

4、在一些實(shí)施方案中，指令可以是可執(zhí)行的以使用機(jī)器學(xué)習(xí)(ml)模型來使匹配文本中的損失指示最小化。這些指令可以是執(zhí)行的以基于從控制對象的頂點(diǎn)的初始圖像參數(shù)到對象在屏幕上渲染的像素的因果關(guān)系鏈來訓(xùn)練ml模型。

5、在示例中，ml模型包括至少一個(gè)全連接(非卷積)深度網(wǎng)絡(luò)。

6、在一些具體實(shí)施中，ml模型的輸入可包括表示三個(gè)空間維度和兩個(gè)視角維度的值，并且ml模型的輸出可包括體積密度和視角相關(guān)的發(fā)射輻射。

7、如果需要，則指令可以是可執(zhí)行的以使用學(xué)習(xí)到的后續(xù)短語從起始短語生成文本。

8、在另一方面，一種裝置包括至少一個(gè)處理器，該至少一個(gè)處理器被編程有指令以接收人的文本描述，并且至少部分地基于該文本描述，在接收到該文本描述之后不到兩分鐘內(nèi)生成虛擬連貫三維(3d)頭部。這些指令是可執(zhí)行的以在顯示器上呈現(xiàn)虛擬連貫3d頭部。

9、在另一方面，一種方法包括：接收文本；以及從基礎(chǔ)模型開始基于該文本來生成神經(jīng)輻射場。

10、參考附圖可最好地理解本申請的關(guān)于其結(jié)構(gòu)和操作兩者的細(xì)節(jié)，在附圖中，相同的附圖標(biāo)記表示相同的部件，并且其中：

技術(shù)特征：

1.一種設(shè)備，其包括：

2.如權(quán)利要求1所述的設(shè)備，其中所述clip模型對圖像與文本的匹配進(jìn)行評級。

3.如權(quán)利要求2所述的設(shè)備，其中使用余弦相似度在圖像-文本對上訓(xùn)練所述clip模型以對匹配優(yōu)度進(jìn)行評分。

4.如權(quán)利要求1所述的設(shè)備，其中所述指令能夠執(zhí)行以：

5.如權(quán)利要求4所述的設(shè)備，其中所述指令能夠執(zhí)行以基于從控制對象的頂點(diǎn)的初始圖像參數(shù)到所述對象在屏幕上渲染的像素的因果關(guān)系鏈來訓(xùn)練所述ml模型。

6.如權(quán)利要求4所述的設(shè)備，其中所述ml模型包括至少一個(gè)全連接(非卷積)深度網(wǎng)絡(luò)。

7.如權(quán)利要求4所述的設(shè)備，其中所述ml模型的輸入包括表示三個(gè)空間維度和兩個(gè)視角維度的值。

8.如權(quán)利要求7所述的設(shè)備，其中所述ml模型的輸出包括體積密度和視角相關(guān)的發(fā)射輻射。

9.如權(quán)利要求1所述的設(shè)備，其中所述指令能夠執(zhí)行以：

10.如權(quán)利要求1所述的設(shè)備，其包括所述至少一個(gè)處理器。

11.一種裝置，其包括：

12.如權(quán)利要求11所述的裝置，其中所述指令能夠執(zhí)行以：

13.如權(quán)利要求11所述的裝置，其中所述虛擬連貫3d頭部包括修改的神經(jīng)輻射場(nerf)。

14.如權(quán)利要求13所述的裝置，其中所述修改的nerf包括編碼在多分辨率哈希表中的修改的nerf。

15.如權(quán)利要求13所述的裝置，其中所述指令能夠執(zhí)行以：

16.如權(quán)利要求15所述的裝置，其中所述clip模型對圖像與文本的匹配進(jìn)行評級。

17.如權(quán)利要求11所述的裝置，其中所述指令能夠執(zhí)行以：

18.如權(quán)利要求17所述的裝置，其中所述ml模型包括至少一個(gè)全連接深度網(wǎng)絡(luò)。

19.如權(quán)利要求17所述的裝置，其中所述ml模型的輸入包括表示三個(gè)空間維度和兩個(gè)視角維度的值，并且所述ml模型的輸出包括體積密度和視角相關(guān)的發(fā)射輻射。

20.一種方法，其包括：

技術(shù)總結(jié)
二維圖像被轉(zhuǎn)換(302)為3D神經(jīng)輻射場(NeRF)，所述3D神經(jīng)輻射場基于文本輸入被修改(402)為類似于所述文本所需的角色類型。開源“CLIP”模型對圖像與一行文本匹配程度進(jìn)行評分(404)以產(chǎn)生最終3D?NeRF，所述最終3D?NeRF能夠被轉(zhuǎn)換(408)為多邊形網(wǎng)格并且被導(dǎo)入到諸如計(jì)算機(jī)游戲的計(jì)算機(jī)模擬中。

技術(shù)研發(fā)人員：J·L·奧爾森,M·K·阿奎諾,J·雷蒙德
受保護(hù)的技術(shù)使用者：索尼互動娛樂有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/15

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：J·L·奧爾森,M·K·阿奎諾,J·雷蒙德
技術(shù)所有人：索尼互動娛樂有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：低抖動延遲單元的制作方法
上一篇：車輛運(yùn)行裝置和方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

利用自然語言場快速生成3D頭部的制作方法