視頻生成方法及裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備與流程

文檔序號(hào)：41936732發(fā)布日期：2025-05-16 13:53閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

視頻生成方法及裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備與流程

本公開涉及視頻處理，更具體地，涉及一種視頻生成方法、視頻生成裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備。

背景技術(shù)：

1、隨著計(jì)算機(jī)和視頻處理技術(shù)領(lǐng)域的發(fā)展，基于深度學(xué)習(xí)的視頻生成在各種技術(shù)領(lǐng)域得到廣泛應(yīng)用。例如，游戲，短視頻制作。目前，通過(guò)單一文本或圖像描述生成場(chǎng)景或事件單一的視頻，已經(jīng)可以制作出高質(zhì)量的視頻畫面，但對(duì)于多事件視頻的生成的復(fù)雜場(chǎng)景，難以精確控制各事件的開始時(shí)間和持續(xù)時(shí)間，進(jìn)而導(dǎo)致生成視頻中的事件順序錯(cuò)亂，持續(xù)時(shí)間不符合預(yù)期，以及過(guò)渡不在然的問(wèn)題，一定程度影響了多事件視頻的生成質(zhì)量。

2、需要說(shuō)明的是，在上述背景技術(shù)部分發(fā)明的信息僅用于加強(qiáng)對(duì)本公開的背景的理解，因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。

技術(shù)實(shí)現(xiàn)思路

1、本公開的目的在于提供一種視頻生成方法及裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備，進(jìn)而至少在一定程度上提高生成多事件視頻的質(zhì)量。

2、本公開的其他特性和優(yōu)點(diǎn)將通過(guò)下面的詳細(xì)描述變得顯然，或部分地通過(guò)本公開的實(shí)踐而習(xí)得。

3、根據(jù)本公開的一個(gè)方面，提供一種視頻生成方法，包括：接收事件描述文本序列，并根據(jù)事件描述文本序列確定待生成視頻的參考幀特征向量，事件描述文本序列包括多個(gè)事件的文本描述信息和對(duì)應(yīng)的起止時(shí)間信息；根據(jù)起止時(shí)間信息對(duì)參考幀特征向量進(jìn)行時(shí)序位置編碼處理，得到視頻幀時(shí)序融合特征，并對(duì)文本描述信息進(jìn)行時(shí)序位置編碼處理，得到文本時(shí)序融合特征；基于時(shí)序交叉注意力機(jī)制，將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合，得到目標(biāo)融合特征；根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成，得到目標(biāo)視頻。

4、在本公開的一種示例性實(shí)施例中，根據(jù)事件描述文本序列確定待生成視頻的參考幀特征向量，包括：根據(jù)多個(gè)事件的文本描述信息和對(duì)應(yīng)的起始時(shí)間信息，確定待生成視頻的參考圖像幀，每個(gè)事件至少對(duì)應(yīng)一個(gè)參考圖像幀；對(duì)參考圖像幀進(jìn)行數(shù)值化編碼，得到參考幀特征向量。

5、在本公開的一種示例性實(shí)施例中，根據(jù)起止時(shí)間信息對(duì)參考幀特征向量進(jìn)行時(shí)序位置編碼處理，得到視頻幀時(shí)序融合特征，包括：針對(duì)每個(gè)事件，根據(jù)該事件對(duì)應(yīng)的起止時(shí)間信息，將事件對(duì)應(yīng)的參考圖像幀的發(fā)生時(shí)刻進(jìn)行標(biāo)準(zhǔn)化處理，得到標(biāo)準(zhǔn)發(fā)生時(shí)刻；基于標(biāo)準(zhǔn)發(fā)生時(shí)刻和基準(zhǔn)角速度計(jì)算特征旋轉(zhuǎn)角度；根據(jù)特征旋轉(zhuǎn)角度對(duì)標(biāo)準(zhǔn)發(fā)生時(shí)刻對(duì)應(yīng)的參考幀特征向量進(jìn)行旋轉(zhuǎn)操作，得到視頻幀時(shí)序融合特征。

6、在本公開的一種示例性實(shí)施例中，針對(duì)每個(gè)事件，根據(jù)該事件對(duì)應(yīng)的起止時(shí)間信息，將事件對(duì)應(yīng)的參考圖像幀的發(fā)生時(shí)刻進(jìn)行標(biāo)準(zhǔn)化處理，得到標(biāo)準(zhǔn)發(fā)生時(shí)刻，包括：根據(jù)事件對(duì)應(yīng)的起止時(shí)間信息，確定事件對(duì)應(yīng)的時(shí)段位置；基于事件對(duì)應(yīng)的起止時(shí)間信息、時(shí)段位置和預(yù)設(shè)的標(biāo)準(zhǔn)事件時(shí)間長(zhǎng)度，將事件對(duì)應(yīng)的參考圖像幀的發(fā)生時(shí)刻進(jìn)行標(biāo)準(zhǔn)化處理，得到標(biāo)準(zhǔn)發(fā)生時(shí)刻。

7、在本公開的一種示例性實(shí)施例中，根據(jù)特征旋轉(zhuǎn)角度對(duì)標(biāo)準(zhǔn)發(fā)生時(shí)刻對(duì)應(yīng)的參考幀特征向量進(jìn)行旋轉(zhuǎn)操作，得到視頻幀時(shí)序融合特征，包括：將標(biāo)準(zhǔn)發(fā)生時(shí)刻對(duì)應(yīng)的參考幀特征向量拆分為多個(gè)維度分量；對(duì)多個(gè)維度分量按照每相鄰維度為一組的方式，劃分為多個(gè)分量組；針對(duì)每個(gè)分量組，基于特征旋轉(zhuǎn)角度將分量組在二維平面旋轉(zhuǎn)，得到時(shí)間融合分量組；根據(jù)各分量組對(duì)應(yīng)的時(shí)間融合分量組，確定視頻幀時(shí)序融合特征。

8、在本公開的一種示例性實(shí)施例中，對(duì)文本描述信息進(jìn)行時(shí)序位置編碼處理，得到文本時(shí)序融合特征，包括：對(duì)文本描述信息進(jìn)行編碼處理，得到文本嵌入信息；根據(jù)文本描述信息對(duì)應(yīng)事件的起止時(shí)間信息，確定文本嵌入信息在待生成視頻中的文本時(shí)間信息；將文本時(shí)間信息編碼至文本嵌入信息，得到文本時(shí)序融合特征。

9、在本公開的一種示例性實(shí)施例中，基于時(shí)序交叉注意力機(jī)制，將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合，得到目標(biāo)融合特征，包括：將視頻幀時(shí)序融合特征映射至查詢空間，得到查詢向量；將文本時(shí)序融合特征映射至鍵值空間，得到鍵向量，并對(duì)文本時(shí)序融合特征映射至鍵值空間，得到值向量，其中得到鍵向量和值向量采用的映射矩陣不同；根據(jù)查詢向量、鍵向量和值向量進(jìn)行注意力計(jì)算，得到目標(biāo)融合特征。

10、在本公開的一種示例性實(shí)施例中，基于時(shí)序交叉注意力機(jī)制，將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合，得到目標(biāo)融合特征，還包括：接收?qǐng)鼍扒袚Q信息，根據(jù)場(chǎng)景切換類型獲取場(chǎng)景切換信息對(duì)應(yīng)的場(chǎng)景嵌入向量；根據(jù)起止時(shí)間信息對(duì)場(chǎng)景嵌入向量進(jìn)行時(shí)序位置編碼處理，得到場(chǎng)景時(shí)序融合特征；將場(chǎng)景時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合，得到更新的文本時(shí)序融合特征；基于時(shí)序交叉注意力機(jī)制，將視頻幀時(shí)序融合特征與更新的文本時(shí)序融合特征進(jìn)行融合，得到目標(biāo)融合特征。

11、在本公開的一種示例性實(shí)施例中，在根據(jù)起止時(shí)間信息對(duì)場(chǎng)景嵌入向量進(jìn)行時(shí)序位置編碼處理，得到場(chǎng)景時(shí)序融合特征之前，方法還包括：通過(guò)標(biāo)注有不同類型的場(chǎng)景切換信息的視頻幀樣本進(jìn)行學(xué)習(xí)訓(xùn)練，得到對(duì)應(yīng)不同場(chǎng)景切換類型的場(chǎng)景嵌入向量，不同場(chǎng)景切換類型的場(chǎng)景嵌入向量為可學(xué)習(xí)的。

12、在本公開的一種示例性實(shí)施例中，根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成，得到目標(biāo)視頻，包括：根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征，通過(guò)擴(kuò)散模型進(jìn)行內(nèi)容生成，得到目標(biāo)視頻；其中，基于融合有更新的文本時(shí)序融合特征的目標(biāo)融合特征，在目標(biāo)視頻中生成場(chǎng)景過(guò)渡幀。

13、根據(jù)本公開的一個(gè)方面，提供一種視頻生成裝置，包括：信息獲取模塊，用于接收事件描述文本序列，并根據(jù)事件描述文本序列確定待生成視頻的參考幀特征向量，事件描述文本序列包括多個(gè)事件的文本描述信息和對(duì)應(yīng)的起止時(shí)間信息；編碼處理模塊，用于根據(jù)起止時(shí)間信息對(duì)參考幀特征向量進(jìn)行時(shí)序位置編碼處理，得到視頻幀時(shí)序融合特征，并對(duì)文本描述信息進(jìn)行時(shí)序位置編碼處理，得到文本時(shí)序融合特征；注意力模塊，用于基于時(shí)序交叉注意力機(jī)制，將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合，得到目標(biāo)融合特征；內(nèi)容生成模塊，用于根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成，得到目標(biāo)視頻。

14、根據(jù)本公開的一個(gè)方面，提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述中的任一項(xiàng)的方法。

15、根據(jù)本公開的一個(gè)方面，提供一種電子設(shè)備，包括：處理器；以及存儲(chǔ)器，用于存儲(chǔ)處理器的可執(zhí)行指令；其中，處理器配置為經(jīng)由執(zhí)行可執(zhí)行指令來(lái)執(zhí)行上述任意一項(xiàng)的方法。

16、本公開的示例性實(shí)施例中的視頻生成方法，接收事件描述文本序列，并根據(jù)事件描述文本序列確定待生成視頻的參考幀特征向量，事件描述文本序列包括多個(gè)事件的文本描述信息和對(duì)應(yīng)的起止時(shí)間信息；根據(jù)起止時(shí)間信息對(duì)參考幀特征向量進(jìn)行時(shí)序位置編碼處理，得到視頻幀時(shí)序融合特征，并對(duì)文本描述信息進(jìn)行時(shí)序位置編碼處理，得到文本時(shí)序融合特征；基于時(shí)序交叉注意力機(jī)制，將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合，得到目標(biāo)融合特征；根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成，得到目標(biāo)視頻。一方面，該過(guò)程能基于接收到的事件描述文本序列，通過(guò)在視頻幀特征向量和文本描述信息進(jìn)行時(shí)序位置編碼，使視頻幀的內(nèi)容和時(shí)序與文本描述一致，實(shí)現(xiàn)幀級(jí)別的時(shí)間控制，從而生成具有精確時(shí)間控制的多事件視頻。另一方面，根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成，充分融合了多事件的文本描述和視頻幀特征向量，使目標(biāo)視頻連貫流暢，各事件過(guò)渡自然。

17、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本公開。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張新楠
技術(shù)所有人：網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司
我是此專利的發(fā)明人

上一篇：一種硅單晶生長(zhǎng)爐的導(dǎo)流筒結(jié)構(gòu)的制作方法
上一篇：一種高壓油軌內(nèi)腔清洗裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

視頻生成方法及裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備與流程

視頻生成方法及裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備與流程