最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

視頻生成方法及裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備與流程

文檔序號(hào):41936732發(fā)布日期:2025-05-16 13:53閱讀:4來(lái)源:國(guó)知局
視頻生成方法及裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備與流程

本公開涉及視頻處理,更具體地,涉及一種視頻生成方法、視頻生成裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備。


背景技術(shù):

1、隨著計(jì)算機(jī)和視頻處理技術(shù)領(lǐng)域的發(fā)展,基于深度學(xué)習(xí)的視頻生成在各種技術(shù)領(lǐng)域得到廣泛應(yīng)用。例如,游戲,短視頻制作。目前,通過(guò)單一文本或圖像描述生成場(chǎng)景或事件單一的視頻,已經(jīng)可以制作出高質(zhì)量的視頻畫面,但對(duì)于多事件視頻的生成的復(fù)雜場(chǎng)景,難以精確控制各事件的開始時(shí)間和持續(xù)時(shí)間,進(jìn)而導(dǎo)致生成視頻中的事件順序錯(cuò)亂,持續(xù)時(shí)間不符合預(yù)期,以及過(guò)渡不在然的問(wèn)題,一定程度影響了多事件視頻的生成質(zhì)量。

2、需要說(shuō)明的是,在上述背景技術(shù)部分發(fā)明的信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。


技術(shù)實(shí)現(xiàn)思路

1、本公開的目的在于提供一種視頻生成方法及裝置、計(jì)算機(jī)程序產(chǎn)品和電子設(shè)備,進(jìn)而至少在一定程度上提高生成多事件視頻的質(zhì)量。

2、本公開的其他特性和優(yōu)點(diǎn)將通過(guò)下面的詳細(xì)描述變得顯然,或部分地通過(guò)本公開的實(shí)踐而習(xí)得。

3、根據(jù)本公開的一個(gè)方面,提供一種視頻生成方法,包括:接收事件描述文本序列,并根據(jù)事件描述文本序列確定待生成視頻的參考幀特征向量,事件描述文本序列包括多個(gè)事件的文本描述信息和對(duì)應(yīng)的起止時(shí)間信息;根據(jù)起止時(shí)間信息對(duì)參考幀特征向量進(jìn)行時(shí)序位置編碼處理,得到視頻幀時(shí)序融合特征,并對(duì)文本描述信息進(jìn)行時(shí)序位置編碼處理,得到文本時(shí)序融合特征;基于時(shí)序交叉注意力機(jī)制,將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合,得到目標(biāo)融合特征;根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成,得到目標(biāo)視頻。

4、在本公開的一種示例性實(shí)施例中,根據(jù)事件描述文本序列確定待生成視頻的參考幀特征向量,包括:根據(jù)多個(gè)事件的文本描述信息和對(duì)應(yīng)的起始時(shí)間信息,確定待生成視頻的參考圖像幀,每個(gè)事件至少對(duì)應(yīng)一個(gè)參考圖像幀;對(duì)參考圖像幀進(jìn)行數(shù)值化編碼,得到參考幀特征向量。

5、在本公開的一種示例性實(shí)施例中,根據(jù)起止時(shí)間信息對(duì)參考幀特征向量進(jìn)行時(shí)序位置編碼處理,得到視頻幀時(shí)序融合特征,包括:針對(duì)每個(gè)事件,根據(jù)該事件對(duì)應(yīng)的起止時(shí)間信息,將事件對(duì)應(yīng)的參考圖像幀的發(fā)生時(shí)刻進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)發(fā)生時(shí)刻;基于標(biāo)準(zhǔn)發(fā)生時(shí)刻和基準(zhǔn)角速度計(jì)算特征旋轉(zhuǎn)角度;根據(jù)特征旋轉(zhuǎn)角度對(duì)標(biāo)準(zhǔn)發(fā)生時(shí)刻對(duì)應(yīng)的參考幀特征向量進(jìn)行旋轉(zhuǎn)操作,得到視頻幀時(shí)序融合特征。

6、在本公開的一種示例性實(shí)施例中,針對(duì)每個(gè)事件,根據(jù)該事件對(duì)應(yīng)的起止時(shí)間信息,將事件對(duì)應(yīng)的參考圖像幀的發(fā)生時(shí)刻進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)發(fā)生時(shí)刻,包括:根據(jù)事件對(duì)應(yīng)的起止時(shí)間信息,確定事件對(duì)應(yīng)的時(shí)段位置;基于事件對(duì)應(yīng)的起止時(shí)間信息、時(shí)段位置和預(yù)設(shè)的標(biāo)準(zhǔn)事件時(shí)間長(zhǎng)度,將事件對(duì)應(yīng)的參考圖像幀的發(fā)生時(shí)刻進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)發(fā)生時(shí)刻。

7、在本公開的一種示例性實(shí)施例中,根據(jù)特征旋轉(zhuǎn)角度對(duì)標(biāo)準(zhǔn)發(fā)生時(shí)刻對(duì)應(yīng)的參考幀特征向量進(jìn)行旋轉(zhuǎn)操作,得到視頻幀時(shí)序融合特征,包括:將標(biāo)準(zhǔn)發(fā)生時(shí)刻對(duì)應(yīng)的參考幀特征向量拆分為多個(gè)維度分量;對(duì)多個(gè)維度分量按照每相鄰維度為一組的方式,劃分為多個(gè)分量組;針對(duì)每個(gè)分量組,基于特征旋轉(zhuǎn)角度將分量組在二維平面旋轉(zhuǎn),得到時(shí)間融合分量組;根據(jù)各分量組對(duì)應(yīng)的時(shí)間融合分量組,確定視頻幀時(shí)序融合特征。

8、在本公開的一種示例性實(shí)施例中,對(duì)文本描述信息進(jìn)行時(shí)序位置編碼處理,得到文本時(shí)序融合特征,包括:對(duì)文本描述信息進(jìn)行編碼處理,得到文本嵌入信息;根據(jù)文本描述信息對(duì)應(yīng)事件的起止時(shí)間信息,確定文本嵌入信息在待生成視頻中的文本時(shí)間信息;將文本時(shí)間信息編碼至文本嵌入信息,得到文本時(shí)序融合特征。

9、在本公開的一種示例性實(shí)施例中,基于時(shí)序交叉注意力機(jī)制,將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合,得到目標(biāo)融合特征,包括:將視頻幀時(shí)序融合特征映射至查詢空間,得到查詢向量;將文本時(shí)序融合特征映射至鍵值空間,得到鍵向量,并對(duì)文本時(shí)序融合特征映射至鍵值空間,得到值向量,其中得到鍵向量和值向量采用的映射矩陣不同;根據(jù)查詢向量、鍵向量和值向量進(jìn)行注意力計(jì)算,得到目標(biāo)融合特征。

10、在本公開的一種示例性實(shí)施例中,基于時(shí)序交叉注意力機(jī)制,將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合,得到目標(biāo)融合特征,還包括:接收?qǐng)鼍扒袚Q信息,根據(jù)場(chǎng)景切換類型獲取場(chǎng)景切換信息對(duì)應(yīng)的場(chǎng)景嵌入向量;根據(jù)起止時(shí)間信息對(duì)場(chǎng)景嵌入向量進(jìn)行時(shí)序位置編碼處理,得到場(chǎng)景時(shí)序融合特征;將場(chǎng)景時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合,得到更新的文本時(shí)序融合特征;基于時(shí)序交叉注意力機(jī)制,將視頻幀時(shí)序融合特征與更新的文本時(shí)序融合特征進(jìn)行融合,得到目標(biāo)融合特征。

11、在本公開的一種示例性實(shí)施例中,在根據(jù)起止時(shí)間信息對(duì)場(chǎng)景嵌入向量進(jìn)行時(shí)序位置編碼處理,得到場(chǎng)景時(shí)序融合特征之前,方法還包括:通過(guò)標(biāo)注有不同類型的場(chǎng)景切換信息的視頻幀樣本進(jìn)行學(xué)習(xí)訓(xùn)練,得到對(duì)應(yīng)不同場(chǎng)景切換類型的場(chǎng)景嵌入向量,不同場(chǎng)景切換類型的場(chǎng)景嵌入向量為可學(xué)習(xí)的。

12、在本公開的一種示例性實(shí)施例中,根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成,得到目標(biāo)視頻,包括:根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征,通過(guò)擴(kuò)散模型進(jìn)行內(nèi)容生成,得到目標(biāo)視頻;其中,基于融合有更新的文本時(shí)序融合特征的目標(biāo)融合特征,在目標(biāo)視頻中生成場(chǎng)景過(guò)渡幀。

13、根據(jù)本公開的一個(gè)方面,提供一種視頻生成裝置,包括:信息獲取模塊,用于接收事件描述文本序列,并根據(jù)事件描述文本序列確定待生成視頻的參考幀特征向量,事件描述文本序列包括多個(gè)事件的文本描述信息和對(duì)應(yīng)的起止時(shí)間信息;編碼處理模塊,用于根據(jù)起止時(shí)間信息對(duì)參考幀特征向量進(jìn)行時(shí)序位置編碼處理,得到視頻幀時(shí)序融合特征,并對(duì)文本描述信息進(jìn)行時(shí)序位置編碼處理,得到文本時(shí)序融合特征;注意力模塊,用于基于時(shí)序交叉注意力機(jī)制,將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合,得到目標(biāo)融合特征;內(nèi)容生成模塊,用于根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成,得到目標(biāo)視頻。

14、根據(jù)本公開的一個(gè)方面,提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述中的任一項(xiàng)的方法。

15、根據(jù)本公開的一個(gè)方面,提供一種電子設(shè)備,包括:處理器;以及存儲(chǔ)器,用于存儲(chǔ)處理器的可執(zhí)行指令;其中,處理器配置為經(jīng)由執(zhí)行可執(zhí)行指令來(lái)執(zhí)行上述任意一項(xiàng)的方法。

16、本公開的示例性實(shí)施例中的視頻生成方法,接收事件描述文本序列,并根據(jù)事件描述文本序列確定待生成視頻的參考幀特征向量,事件描述文本序列包括多個(gè)事件的文本描述信息和對(duì)應(yīng)的起止時(shí)間信息;根據(jù)起止時(shí)間信息對(duì)參考幀特征向量進(jìn)行時(shí)序位置編碼處理,得到視頻幀時(shí)序融合特征,并對(duì)文本描述信息進(jìn)行時(shí)序位置編碼處理,得到文本時(shí)序融合特征;基于時(shí)序交叉注意力機(jī)制,將視頻幀時(shí)序融合特征和文本時(shí)序融合特征進(jìn)行融合,得到目標(biāo)融合特征;根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成,得到目標(biāo)視頻。一方面,該過(guò)程能基于接收到的事件描述文本序列,通過(guò)在視頻幀特征向量和文本描述信息進(jìn)行時(shí)序位置編碼,使視頻幀的內(nèi)容和時(shí)序與文本描述一致,實(shí)現(xiàn)幀級(jí)別的時(shí)間控制,從而生成具有精確時(shí)間控制的多事件視頻。另一方面,根據(jù)各參考幀特征向量對(duì)應(yīng)的目標(biāo)融合特征進(jìn)行動(dòng)態(tài)影像生成,充分融合了多事件的文本描述和視頻幀特征向量,使目標(biāo)視頻連貫流暢,各事件過(guò)渡自然。

17、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1