最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種視頻生成控制方法及計算機可讀存儲介質(zhì)與流程

文檔序號:41954257發(fā)布日期:2025-05-16 14:19閱讀:5來源:國知局
一種視頻生成控制方法及計算機可讀存儲介質(zhì)與流程

本發(fā)明涉及計算機,尤其涉及一種視頻生成控制方法及計算機可讀存儲介質(zhì)。


背景技術(shù):

1、當前,人工智能生成內(nèi)容(artificial?intelligence?generated?content,aigc)技術(shù)已逐步融入影視制作全流程,顯著提升了創(chuàng)作效率。

2、然而,現(xiàn)有aigc技術(shù)在影視領(lǐng)域面臨多重技術(shù)難題:1、分鏡腳本生成缺乏情感邏輯與鏡頭語言適配能力,機械化輸出導致情緒遞進結(jié)構(gòu)缺失;2、靜態(tài)分鏡圖存在角色人臉一致性差、場景風格融合困難等問題;3、語音合成與音效生成技術(shù)無法實現(xiàn)情感化對白與音畫精準同步;4、視頻生成算法可控性不足,表現(xiàn)為嘴型對齊偏差、多主體保真度低等缺陷,制約內(nèi)容質(zhì)量提升。以上技術(shù)難題降低了視頻內(nèi)容制作的效率和質(zhì)量。

3、因此,如何克服aigc技術(shù)在影視領(lǐng)域上應用的技術(shù)難題,成為提升視頻內(nèi)容制作的效率和質(zhì)量的關(guān)鍵所在。


技術(shù)實現(xiàn)思路

1、鑒于上述問題,本發(fā)明提供一種克服上述問題或者至少部分地解決上述問題的一種視頻生成控制方法及計算機可讀存儲介質(zhì),技術(shù)方案如下:

2、一種視頻生成控制方法,包括:

3、獲得視頻創(chuàng)意文本;

4、將所述視頻創(chuàng)意文本輸入至分鏡大模型中,獲得所述分鏡大模型輸出的分鏡腳本和關(guān)聯(lián)提示詞,其中,所述關(guān)聯(lián)提示詞包括分鏡圖提示詞、語音情感提示詞和分鏡視頻提示詞;

5、基于所述分鏡腳本、所述分鏡圖提示詞和參考圖像,通過圖像大模型生成與所述參考圖像的圖像特征一致的分鏡圖;

6、基于所述分鏡腳本、所述語音情感提示詞和參考音頻,通過語音大模型將所述分鏡腳本中的待轉(zhuǎn)換語音文本轉(zhuǎn)換為與所述參考音頻的語音特征一致且包含情感表達的待合成語音;

7、基于所述分鏡圖和所述分鏡視頻提示詞,通過視頻大模型將所述分鏡圖生成為分鏡視頻;

8、將所述待合成語音與所述分鏡視頻中的角色嘴型特征進行動態(tài)關(guān)聯(lián),生成目標視頻。

9、可選的,在所述將所述待合成語音與所述分鏡視頻中的角色嘴型特征進行動態(tài)關(guān)聯(lián),生成目標視頻之后,所述方法還包括:

10、獲得與所述分鏡腳本中的待生成音效文本匹配的音效;

11、識別出所述目標視頻中的關(guān)鍵動態(tài)時間點;

12、利用自注意力算法對所述音效和所述關(guān)鍵動態(tài)時間點進行動態(tài)對齊,獲得合成所述音效后的所述目標視頻。

13、可選的,所述分鏡大模型的訓練過程包括:

14、獲得分鏡腳本數(shù)據(jù)集,其中,所述分鏡腳本數(shù)據(jù)集包括對至少一個視頻逆向解構(gòu)得到的多個分鏡腳本樣本;

15、利用所述分鏡腳本數(shù)據(jù)集中的多個所述分鏡腳本樣本對基礎(chǔ)大模型進行監(jiān)督微調(diào),獲得分鏡大模型。

16、可選的,所述參考圖像包括參考角色圖像和參考場景圖像,所述基于所述分鏡腳本、所述分鏡圖提示詞和參考圖像,通過圖像大模型生成與所述參考圖像的圖像特征一致的分鏡圖,包括:

17、將所述分鏡腳本、所述分鏡圖提示詞、所述參考角色圖像和所述參考場景圖像輸入至圖像大模型中,以使所述圖像大模型基于所述參考角色圖像和所述參考場景圖像,依據(jù)所述分鏡圖提示詞控制所述分鏡腳本中每條分鏡畫面描述生成結(jié)果對應的圖像生成過程和圖像編輯過程,輸出角色外貌特征與所述參考角色圖像一致且背景特征與所述參考場景圖像一致的分鏡圖。

18、可選的,所述分鏡圖提示詞包括圖像生成提示詞和圖像編輯提示詞,所述圖像生成過程包括:提取出所述參考角色圖像的角色外貌特征和所述參考場景圖像的背景特征,再依據(jù)所述圖像生成提示詞將所述角色外貌特征和所述背景特征轉(zhuǎn)化為第一嵌入特征,在使用第一擴散模型對所述第一嵌入特征進行處理后,結(jié)合自注意力視覺模型和第二擴散模型基于所述參考角色圖像對角色服裝區(qū)域進行融合替換,獲得所述角色外貌特征與所述參考角色圖像一致且所述背景特征與所述參考場景圖像一致的待調(diào)整圖像,

19、和/或,所述圖像編輯過程包括:識別出所述待調(diào)整圖像的待編輯區(qū)域,提取出所述待編輯區(qū)域的圖像區(qū)域特征,再依據(jù)所述圖像編輯提示詞將所述圖像區(qū)域特征轉(zhuǎn)化為第二嵌入特征,在使用圖像細節(jié)調(diào)整模型對所述第二嵌入特征進行處理后,生成所述角色外貌特征與所述參考角色圖像一致且所述背景特征與所述參考場景圖像一致的分鏡圖。

20、可選的,所述基于所述分鏡腳本、所述語音情感提示詞和參考音頻,通過語音大模型將所述分鏡腳本中的待轉(zhuǎn)換語音文本轉(zhuǎn)換為與所述參考音頻的語音特征一致且包含情感表達的待合成語音,包括:

21、將所述分鏡腳本、所述語音情感提示詞和參考音頻輸入至語音大模型中,以使所述語音大模型提取出所述分鏡腳本中的所述待轉(zhuǎn)換語音文本的文本特征和所述參考音頻的語音特征,將所述文本特征和所述語音特征輸入自注意力語音模型中生成基礎(chǔ)語音,依據(jù)所述語音情感提示詞,通過第三擴散模型控制所述基礎(chǔ)語音的情感表達,獲得與所述參考音頻的語音特征一致且包含情感表達的待合成語音。

22、可選的,所述基于所述分鏡圖和所述分鏡視頻提示詞,通過視頻大模型將所述分鏡圖生成為分鏡視頻,包括:

23、將所述分鏡圖和所述分鏡視頻提示詞輸入至視頻大模型中,以使所述視頻大模型依據(jù)所述分鏡視頻提示詞,提取所述分鏡圖中預設(shè)動作序列的骨骼序列和三維網(wǎng)格手部特征,通過姿態(tài)編碼器對所述骨骼序列和所述三維網(wǎng)格手部特征進行編碼后輸入去噪網(wǎng)絡(luò),并采用基于三維骨骼長度估計的骨骼縮放策略動態(tài)調(diào)整所述骨骼序列的關(guān)節(jié)間距,以使所述預設(shè)動作序列的骨骼拓撲結(jié)構(gòu)與所述分鏡圖中角色實例的骨骼比例形成空間對應匹配,輸出與所述分鏡圖角色姿態(tài)保持運動一致性的分鏡視頻。

24、可選的,所述基于所述分鏡圖和所述分鏡視頻提示詞,通過視頻大模型將所述分鏡圖生成為分鏡視頻,包括:

25、將所述分鏡圖和所述分鏡視頻提示詞輸入至視頻大模型中,以使所述視頻大模型通過擴散自注意力架構(gòu)的雙重交叉注意力層,在所述分鏡視頻的每一幀畫面的生成過程中同時結(jié)合所述分鏡圖中多個主體的圖像內(nèi)容和所述分鏡視頻提示詞中對多個主體的文本提示,生成包含多個主體的分鏡視頻。

26、可選的,所述將所述待合成語音與所述分鏡視頻中的角色嘴型特征進行動態(tài)關(guān)聯(lián),生成目標視頻,包括:

27、通過語音編碼器提取所述待合成語音的韻律特征,其中,所述語音編碼器采用基于自注意力機制的多語言語音識別模型構(gòu)建;

28、從所述分鏡視頻中提取角色面部的角色嘴型特征;

29、在去噪網(wǎng)絡(luò)建立跨模態(tài)交叉注意力層,計算所述韻律特征與所述角色嘴型特征的注意力權(quán)重矩陣,動態(tài)調(diào)整語音驅(qū)動嘴型的強度參數(shù);

30、應用預訓練的面部遮罩生成器產(chǎn)生空間約束模板,在所述分鏡視頻的特征空間中對非嘴部區(qū)域進行動態(tài)掩碼處理;

31、在所述分鏡視頻的特征空間中對嘴部區(qū)域融合按照所述強度參數(shù)調(diào)整后的所述角色嘴型特征,生成角色嘴型與語音同步的目標視頻。

32、一種計算機可讀存儲介質(zhì),其上存儲有程序,所述程序被處理器執(zhí)行時實現(xiàn)所述的視頻生成控制方法。

33、借由上述技術(shù)方案,本發(fā)明提供的一種視頻生成控制方法及計算機可讀存儲介質(zhì),該方法包括:獲得視頻創(chuàng)意文本;將視頻創(chuàng)意文本輸入至分鏡大模型中,獲得分鏡大模型輸出的分鏡腳本和關(guān)聯(lián)提示詞,其中,關(guān)聯(lián)提示詞包括分鏡圖提示詞、語音情感提示詞和分鏡視頻提示詞;基于分鏡腳本、分鏡圖提示詞和參考圖像,通過圖像大模型生成與參考圖像的圖像特征一致的分鏡圖;基于分鏡腳本、語音情感提示詞和參考音頻,通過語音大模型將分鏡腳本中待轉(zhuǎn)換語音文本轉(zhuǎn)換為與參考音頻的語音特征一致且包含情感表達的待合成語音;基于分鏡圖和分鏡視頻提示詞,通過視頻大模型將分鏡圖生成為分鏡視頻;將待合成語音與分鏡視頻中的角色嘴型特征進行動態(tài)關(guān)聯(lián),生成目標視頻。本發(fā)明通過分鏡大模型解決分鏡腳本結(jié)構(gòu)缺陷,基于參考圖像特征約束的圖像生成確保分鏡圖特征的一致性,結(jié)合情感化語音合成與動態(tài)嘴型對齊實現(xiàn)音畫同步,并通過分鏡視頻提示詞指導多主體生成算法提升視頻保真度,從而有效解決了現(xiàn)有aigc技術(shù)在影視創(chuàng)作中存在的情感邏輯缺失、分鏡圖特征一致性差、音頻同步困難及視頻生成可控性不足等技術(shù)難題,提升了視頻內(nèi)容制作的效率和質(zhì)量。

34、上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1