本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,尤其是涉及一種基于結(jié)構(gòu)-外觀信息融合的可控視頻編輯方法。
背景技術(shù):
::1、近年來,視覺內(nèi)容生成領(lǐng)域經(jīng)歷了深刻的變革,這一轉(zhuǎn)變主要得益于擴(kuò)散生成模型的快速發(fā)展和廣泛應(yīng)用?;谶@些創(chuàng)新,文本生成圖像(text-to-image,t2i)模型應(yīng)運(yùn)而生,成為一種革命性的范式,使得用戶僅通過文本描述即可生成圖像。其中,著名的t2i模型——stable?diffusion,以其卓越的能力成為圖像生成領(lǐng)域的基石。此外,controlnet的引入進(jìn)一步擴(kuò)展了圖像編輯的能力。controlnet通過在圖像生成過程中引入多樣的結(jié)構(gòu)化引導(dǎo),使得stable?diffusion模型能夠更加精準(zhǔn)地控制圖像的生成過程。這不僅提高了編輯的精確度,還使得用戶能夠在編輯過程中更好地掌控圖像的整體結(jié)構(gòu)和細(xì)節(jié),從而實(shí)現(xiàn)更為復(fù)雜和高質(zhì)量的圖像編輯效果。2、以往的編輯方法主要集中于圖像編輯領(lǐng)域,旨在通過對現(xiàn)有圖像進(jìn)行修改來實(shí)現(xiàn)不同的視覺效果。這些方法的核心目標(biāo)是基于輸入的文本描述和附加的條件對圖像進(jìn)行調(diào)整和改進(jìn),使得生成的圖像更符合用戶的需求和期望。盡管圖像編輯領(lǐng)域取得了顯著進(jìn)展,但視頻編輯仍面臨巨大挑戰(zhàn)。首先,圖像生成模型往往忽視了時間信息的連續(xù)性,例如保持視頻運(yùn)動的一致性。直接將圖像編輯方法應(yīng)用于視頻可能會導(dǎo)致明顯的閃爍缺陷。其次,大規(guī)模的文本-視頻數(shù)據(jù)集的缺乏也為視頻編輯領(lǐng)域帶來了困難,開發(fā)類似于stablediffusion在圖像生成領(lǐng)域的通用視頻編輯模型非常具有挑戰(zhàn)性。最后,在視頻的反轉(zhuǎn)(inversion)過程中,由于誤差累積,反轉(zhuǎn)的噪聲可能會破壞原始視頻的運(yùn)動和結(jié)構(gòu)。3、與圖像編輯不同,視頻編輯不僅需要調(diào)整幀的外觀,還必須確保幀與幀之間的一致性,以維持視頻的質(zhì)量,這使得視頻編輯成為一項(xiàng)更具挑戰(zhàn)性的任務(wù)。目前的視頻編輯方法通常分為兩大類:基于反轉(zhuǎn)的方法和無反轉(zhuǎn)的方法。1.基于反轉(zhuǎn)的方法:這些方法利用ddim反轉(zhuǎn)將原始視頻轉(zhuǎn)化到隱變量空間,然后通過去噪過程生成編輯后的視頻。通常,這些方法在反轉(zhuǎn)過程中利用注意力特征來確保與原始視頻的結(jié)構(gòu)一致性。例如,在原始視頻上執(zhí)行ddim反轉(zhuǎn),使用在該視頻上訓(xùn)練的微調(diào)參數(shù)進(jìn)行編輯;利用反轉(zhuǎn)過程中計(jì)算的幀間特征對應(yīng)關(guān)系。2.無反轉(zhuǎn)的方法:這類方法避免使用ddim反轉(zhuǎn),主要依賴于controlnet來保留原始視頻的結(jié)構(gòu)信息。例如,將controlnet集成到視頻生成過程中,采用完全跨幀注意力和交錯幀平滑技術(shù)。然而,這些方法主要依賴輸入的文本指導(dǎo)進(jìn)行視頻編輯,往往缺乏對生成視頻外觀的直接控制,導(dǎo)致不準(zhǔn)確的結(jié)果,用戶因此需要對文本提示進(jìn)行復(fù)雜的手動修改,以滿足其偏好。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明的目的是為了克服上述現(xiàn)有技術(shù)僅依賴文本來控制視頻的外觀,導(dǎo)致結(jié)果不夠準(zhǔn)確需要手動修正的缺陷,并彌合視頻編輯與圖像編輯之間的差距,而提供一種基于結(jié)構(gòu)-外觀信息融合的可控視頻編輯方法。2、本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):3、一種基于結(jié)構(gòu)-外觀信息融合的可控視頻編輯方法,所述方法基于用戶輸入的文本提示來對待編輯視頻進(jìn)行控制編輯,具體步驟包括:4、從待編輯視頻中提取結(jié)構(gòu)信息并輸入基于controlnet的結(jié)構(gòu)條件控制網(wǎng)絡(luò),得到多尺度的結(jié)構(gòu)信息特征圖;5、編輯待編輯視頻的第一幀并輸入基于sparsectrl的外觀條件控制網(wǎng)絡(luò),得到多尺度的外觀信息特征圖;6、將多尺度的結(jié)構(gòu)信息特征圖以及多尺度的外觀信息特征圖融合后傳入基于animatediff的視頻編輯主干網(wǎng)絡(luò),所述視頻編輯主干網(wǎng)絡(luò)基于輸入的文本信息,以,生成編輯后的視頻。7、作為優(yōu)選技術(shù)方案,所述的結(jié)構(gòu)條件控制網(wǎng)絡(luò)利用controlnet來逐幀編碼不同的結(jié)構(gòu)信息,編碼的結(jié)構(gòu)信息集成到視頻編輯主干網(wǎng)絡(luò)的解碼器中,以對視頻生成過程進(jìn)行控制,結(jié)構(gòu)條件控制網(wǎng)絡(luò)的整個過程表示如下:8、ys=f1(x)+αs*z1(f2(x+z2(cs)))9、其中,f1表示主干網(wǎng)絡(luò)的編碼器塊;f2表示結(jié)構(gòu)條件控制網(wǎng)絡(luò)contronet中與主干網(wǎng)絡(luò)編碼器f1的對應(yīng)編碼器部分,z1和z2表示兩個零初始化的卷積層;αs是控制結(jié)構(gòu)條件控制網(wǎng)絡(luò)強(qiáng)度的超參數(shù);x表示形狀為的隱變量空間中的視頻;cs表示從輸入視頻中提取的結(jié)構(gòu)表示;ys表示包含結(jié)構(gòu)信息的輸出特征圖。10、作為優(yōu)選技術(shù)方案,所述的結(jié)構(gòu)信息包括深度、姿態(tài)、線稿以及邊緣線條。11、作為優(yōu)選技術(shù)方案,所述的結(jié)構(gòu)條件控制網(wǎng)絡(luò)對于每一種結(jié)構(gòu)信息對應(yīng)構(gòu)建一種controlnet;每當(dāng)輸入一種結(jié)構(gòu)信息,使用對應(yīng)的controlnet進(jìn)行出多尺度的結(jié)構(gòu)信息特征圖提取。12、作為優(yōu)選技術(shù)方案,所述方法使用圖像編輯工具編輯待編輯視頻的第一幀得到的外觀控制圖片;在外觀控制圖片之后拼接上全為0的幀,并與第一幀為全1,后續(xù)幀為全0的條件掩碼在通道維度上連接后輸入外觀條件控制網(wǎng)絡(luò)。13、作為優(yōu)選技術(shù)方案,所述的外觀條件控制網(wǎng)絡(luò)包括外觀編碼器和外觀信息傳播模塊;14、所述外觀編碼器在controlnet的基礎(chǔ)上將其中的每個卷積層和注意力層從2d擴(kuò)展為偽3d層,從外觀控制圖片中的提取外觀條件信息;15、在每個外觀編碼器后面都合并一個外觀傳播模塊,所述的外觀信息傳播模塊利用時間注意力層將外觀編碼器提取的外觀條件信息傳播到視頻的每一幀。16、作為優(yōu)選技術(shù)方案,所述外觀條件控制網(wǎng)絡(luò)的處理過程如下所示:17、ya=f3(x)+αa*z3(f4(z4(concat(i,m))))18、其中,ya表示帶有外觀信息的特征圖;f3為視頻編輯主干網(wǎng)絡(luò)的一個編碼器模塊,f4為外觀條件控制網(wǎng)絡(luò)的一個編碼器模塊,z3和z4為兩個零初始化的卷積層;αa是控制外觀條件控制網(wǎng)絡(luò)強(qiáng)度的超參數(shù)1;x代表的隱變量空間中的視頻;i是包含編輯幀和若干零圖的多幀輸入;m包含指示編輯圖像幀的二進(jìn)制條件掩碼。19、作為優(yōu)選技術(shù)方案,所述視頻編輯主干網(wǎng)絡(luò)基于文本生成圖像模型stablediffusion構(gòu)建,包含clip文本編碼器、vae自動編碼器以及unet架構(gòu);20、所述的clip文本編碼器對輸入的文本提示信息進(jìn)行編碼,所述的vae自動編碼器將視頻編碼到隱變量空間,所述的unet架構(gòu)中通過空間和交叉注意力機(jī)制提取視頻的本地外觀和輸入文本信息;21、通過將幀軸重塑為批處理軸,將每個卷積層和注意力層轉(zhuǎn)換為偽3d層;22、將animatediff中訓(xùn)練得到的時間注意力模塊集成到unet架構(gòu)的編碼器和解碼器中,以學(xué)習(xí)跨幀的運(yùn)動信息。23、作為優(yōu)選技術(shù)方案,所述結(jié)構(gòu)條件控制網(wǎng)絡(luò)輸出的多尺度的結(jié)構(gòu)信息特征圖ys與外觀條件控制網(wǎng)絡(luò)輸出的多尺度的外觀信息特征圖ya在相加后分別傳入主干網(wǎng)絡(luò)unet架構(gòu)中對應(yīng)尺度的文本生成圖像層中,以生成編輯后的視頻。24、作為優(yōu)選技術(shù)方案,在視頻編輯主干網(wǎng)絡(luò)中的每個時間注意力模塊中,將特征圖重新排列為一個3維張量,并對重新排列的特征圖進(jìn)行自注意力機(jī)制的操作:25、26、其中,q=wqz,k=wkz,v=wvz為對重新排列的特征圖進(jìn)行投影后得到的三個矩陣。27、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:28、本發(fā)明提出了一種多功能的視頻編輯框架,允許用戶同時通過輸入文本提示和圖像進(jìn)行詳細(xì)的外觀信息來控制編輯過程。在此框架中,結(jié)構(gòu)條件控制網(wǎng)絡(luò)捕捉原始視頻的結(jié)構(gòu)信息,而外觀條件控制網(wǎng)絡(luò)將編輯過的圖像中的外觀細(xì)節(jié)提取并傳播到整個視頻中。通過結(jié)合這些結(jié)構(gòu)和外觀元素,并利用各種預(yù)訓(xùn)練的文本生成圖像模型,能夠有效地彌合了圖像編輯與視頻編輯之間的差距,并能夠創(chuàng)建具有廣泛結(jié)構(gòu)、風(fēng)格和外觀的視頻。本發(fā)明的方法通過協(xié)調(diào)外觀信息和結(jié)構(gòu)信息,提供了一種靈活的編輯工具。用戶可以結(jié)合預(yù)先訓(xùn)練的各種個性化文本-圖像生成模型,根據(jù)具體需求對視頻進(jìn)行編輯,生成多種風(fēng)格、結(jié)構(gòu)和外觀的視頻。29、2)本發(fā)明基于animatediff搭建了視頻編輯框架,通過將幀軸重塑為批處理軸,將每個卷積層和注意力層轉(zhuǎn)換為偽3d層,從而擴(kuò)展了stablediffusion模型讓其可以獨(dú)立處理視頻中的每個幀,并且在主干網(wǎng)絡(luò)unet架構(gòu)的編碼器和解碼器中集成了時間注意力層,以學(xué)習(xí)跨幀的運(yùn)動信息,從而促進(jìn)視頻流暢的動感并增強(qiáng)幀之間的關(guān)聯(lián)性。本發(fā)明所提出的框架可以輕松集成各種個性化文本-圖像生成模型,使其能夠生成各種風(fēng)格的高質(zhì)量視頻。30、3)本發(fā)明提出的外觀條件生成網(wǎng)絡(luò)能夠通過對于輸入視頻的第一幀進(jìn)行編輯后的圖片,來控制輸出視頻中每一幀的外觀屬性,進(jìn)而影響整個視頻的視覺效果。通過這種方式,用戶可以對生成的視頻外觀進(jìn)行細(xì)粒度的控制,從而滿足不同的視覺需求。當(dāng)前第1頁12當(dāng)前第1頁12