本發(fā)明涉及視頻復(fù)原處理,具體涉及一種視頻超分辨率重建方法及系統(tǒng)。
背景技術(shù):
1、視頻超分辨率技術(shù)旨在通過挖掘視頻幀序列中的互補信息實現(xiàn)高分辨率視頻重建。隨著超高清顯示設(shè)備的快速普及,用戶對視頻內(nèi)容的畫質(zhì)要求日益提升,而不同顯示終端的分辨率規(guī)格差異顯著。
2、傳統(tǒng)視頻超分辨率技術(shù)通常針對固定縮放比例構(gòu)建獨立模型,難以動態(tài)適配多樣化的顯示需求,導(dǎo)致跨設(shè)備場景中易出現(xiàn)分辨率失配、細節(jié)丟失或計算資源冗余等問題。同時,傳統(tǒng)視頻超分辨率方法的核心挑戰(zhàn)在于跨幀時空特征的高效對齊與融合。
3、現(xiàn)有技術(shù)主要分為顯式對齊與隱式對齊兩類范式:顯式對齊通過運動估計實現(xiàn)像素級補償,在大位移場景中表現(xiàn)穩(wěn)定,但其性能高度依賴光流估計的準(zhǔn)確性,在遮擋區(qū)域或弱運動場景中易出現(xiàn)補償偏差;隱式對齊則利用神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)幀間關(guān)聯(lián),雖具有動態(tài)適應(yīng)優(yōu)勢,卻面臨可解釋性不足、復(fù)雜運動建模能力有限等瓶頸。總之,單一對齊方式難以適應(yīng)不同運動類型,無法在剛性與非剛性運動共存的復(fù)雜場景中平衡重建能力與魯棒性。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)單一對齊方式難以適應(yīng)不同運動類型,無法在剛性與非剛性運動共存的復(fù)雜場景中平衡重建能力與魯棒性的不足,本發(fā)明提出一種視頻超分辨率重建方法及系統(tǒng),構(gòu)建顯式-隱式混合對齊的雙路徑架構(gòu),通過預(yù)訓(xùn)練光流網(wǎng)絡(luò)生成運動軌跡場并利用可微雙線性采樣算法完成像素級運動補償,以及通過時空transformer在雙向傳播網(wǎng)絡(luò)上的建模能力,結(jié)合多尺度金字塔融合策略,實現(xiàn)特征對齊,從而極大改善現(xiàn)有技術(shù)存在的問題。
2、一種視頻超分辨率重建方法,包括以下步驟:
3、采集待重建視頻幀序列中的目標(biāo)幀圖像和中心幀圖像;
4、通過參數(shù)凍結(jié)的光流預(yù)測模型提取目標(biāo)幀圖像與中心幀圖像之間的稠密光流場,根據(jù)稠密光流場將目標(biāo)幀圖像向中心幀圖像進行幾何對齊,對對齊后的幀序列進行淺層特征編碼,得到運動一致性特征;
5、通過參數(shù)化殘差縮放模塊自適應(yīng)調(diào)整特征融合比例對視頻幀序列的淺層視覺特征進行提取;將提取到的淺層視覺特征輸入以時空transformer為基本單元的雙向傳播模塊中,得到時序正向特征和時序逆向特征;其中,在所述時空transformer的時空注意力機制中引入3d位置編碼;通過多尺度特征金字塔將時序正向特征和時序逆向特征進行融合,得到細節(jié)特征;
6、將運動一致性特征和細節(jié)特征進行融合;對融合后的特征進行層級特征提取,得到深層視覺特征;根據(jù)深層視覺特征進行像素級重建,生成最終的超分辨率視頻序列。
7、進一步地,所述根據(jù)稠密光流場將目標(biāo)幀圖像向中心幀圖像進行幾何對齊,對對齊后的幀序列進行淺層特征編碼,得到運動一致性特征;具體包括以下步驟:
8、根據(jù)稠密光流場,采用可微雙線性采樣算法將目標(biāo)幀圖像向中心幀圖像進行幾何對齊;
9、通過輕量化卷積網(wǎng)絡(luò)對對齊后的幀序列進行淺層特征編碼,具體包括將對齊后的幀序列升維至高維語義特征空間,采用時序維度自適應(yīng)平均池化操作將升維后的多幀特征壓縮為單幀表征向量后,通過動態(tài)權(quán)重分配機制隱式完成運動信息的自適應(yīng)融合,得到運動一致性特征。
10、進一步地,所述通過參數(shù)化殘差縮放模塊自適應(yīng)調(diào)整特征融合比例對視頻幀序列的淺層視覺特征進行提取,具體包括:采用串行級聯(lián)的五層堆疊結(jié)構(gòu)進行局部細節(jié)到全局語義的特征提?。黄渲?,利用學(xué)習(xí)參數(shù)動態(tài)調(diào)節(jié)殘差連接強度來自適應(yīng)調(diào)整特征融合比例,并通過移除batchnorm層消除不同視頻幀之間的統(tǒng)計分布差異;各層級特征通過漸進式傳遞進行特征提取,且每個層包含3×3卷積層、leakyrelu激活函數(shù)和參數(shù)化殘差連接;特征提取過程表示為:
11、;
12、其中,表示學(xué)習(xí)參數(shù),和表示卷積核為3*3的卷積層,表示為leakyrelu激活函數(shù),表示輸入特征圖,表示輸出的特征圖。
13、進一步地,所述將提取到的淺層視覺特征輸入以時空transformer為基本單元的雙向傳播模塊中,得到時序正向特征和時序逆向特征,具體包括以下步驟:
14、在前向處理階段,淺層視覺特征按原始時序輸入由堆疊式時空transformer構(gòu)成的前向處理網(wǎng)絡(luò)中,通過引入3d位置編碼的時空注意力機制聚合視頻幀序列中的多幀淺層視覺特征,逐幀提取出時序正向特征;
15、在逆向處理階段,將淺層視覺特征沿時間維度進行鏡像翻轉(zhuǎn)后饋入獨立的逆向處理網(wǎng)絡(luò)中,通過引入3d位置編碼的時空注意力機制聚合視頻幀序列中的多幀淺層視覺特征,逐幀提取出時序正向特征。
16、進一步地,所述通過引入3d位置編碼的時空注意力機制聚合視頻幀序列中的多幀淺層視覺特征,具體包括以下步驟:
17、通過3d位置卷積生成3d動態(tài)位置編碼;
18、對3d動態(tài)位置編碼和淺層視覺特征分別進行分割得到局部塊;
19、以3d動態(tài)位置編碼分割的局部塊為核心生成查詢矩陣q,以淺層視覺特征分割的局部塊為核心生成鍵矩陣k和值矩陣v;
20、將查詢矩陣q與鍵矩陣k的轉(zhuǎn)置進行點積計算得到相似度矩陣;
21、將相似度矩陣與值矩陣v進行加權(quán)求和得到聚合后的特征;
22、將聚合后的特征輸入至transformer的注意力機制模塊中,利用位置驅(qū)動的計算策略實現(xiàn)隱式的幀間對齊與特征融合。
23、進一步地,通過多尺度特征金字塔將時序正向特征和時序逆向特征進行融合,得到細節(jié)特征,具體包括以下步驟:
24、將時序正向特征和時序逆向特征按照空間維度進行拼接;
25、利用漸進式空間—時序降采樣策略,將拼接后的特征通過不同降采樣系數(shù)的3d平均池化操作構(gòu)建出特征金字塔;
26、通過可微分三線性插值算法對特征金字塔跨分辨率特征進行空間—時間維度對齊;
27、將對齊的所有特征在通道維度拼接后取均值,輸出具有細節(jié)敏感度與上下文感知力的細節(jié)特征。
28、進一步地,利用動態(tài)門控融合機制將運動一致性特征和細節(jié)特征進行融合;具體包括以下步驟:
29、將運動一致性特征和細節(jié)特征沿通道維度進行拼接,得到聯(lián)合特征;
30、通過卷積層構(gòu)成的門控網(wǎng)絡(luò)對聯(lián)合特征進行權(quán)重估計,并沿通道維度進行softmax歸一化操作,得到最終的融合特征。
31、進一步地,所述對融合后的特征進行層級特征提取,得到深層視覺特征;具體包括以下步驟:
32、利用堆疊的多個殘差組模塊對融合后的特征進行層級特征提取;其中,每個殘差組模塊由殘差通道注意力塊構(gòu)成;每個殘差通道注意力塊包括兩個卷積層和一個通道注意力模塊;第一個卷積層用于提取局部特征,在通道注意力模塊中通過全局平均池化壓縮局部特征的空間信息,第二個卷積層學(xué)習(xí)通道權(quán)重后,通過sigmoid激活函數(shù)生成局部特征的通道注意力圖;
33、將通道注意力圖與提取到的局部特征進行逐通道相乘操作,完成通道維度的特征重校準(zhǔn);
34、將校準(zhǔn)后的特征經(jīng)過卷積層提取得到視覺特征,并將視覺特征與融合后的特征進行殘差計算,得到深層視覺特征。
35、進一步地,所述根據(jù)深層視覺特征進行像素級重建,生成最終的超分辨率視頻序列;具體包括以下步驟:
36、基于動態(tài)卷積核生成深層視覺特征的內(nèi)容感知權(quán)重;
37、構(gòu)建歸一化坐標(biāo)網(wǎng)絡(luò),對每個位置通過疊加預(yù)定義核偏移量生成擴展采樣坐標(biāo);將擴展采樣坐標(biāo)展開,得到連續(xù)張量;所述連續(xù)張量表示每個輸出位置能夠采樣的鄰域坐標(biāo);
38、根據(jù)連續(xù)張量,將深層視覺特征通過雙線性插值算法獲得鄰域采樣特征;并對鄰域采樣特征進行重排形成特征立方體;
39、將內(nèi)容感知權(quán)重插值對齊至目標(biāo)分辨率后,與特征立方體進行愛因斯坦求和計算,完成鄰域像素融合;
40、將完成鄰域像素融合后的特征與視頻序列的中心幀圖像進行殘差計算,得到重建后的超分辨率視頻。
41、本發(fā)明還包括一種視頻超分辨率重建系統(tǒng),包括:
42、采集模塊,用于采集待重建視頻幀序列中的目標(biāo)幀圖像和中心幀圖像;
43、顯式對齊模塊,用于通過參數(shù)凍結(jié)的光流預(yù)測模型提取目標(biāo)幀圖像與中心幀圖像之間的稠密光流場,根據(jù)稠密光流場將目標(biāo)幀圖像向中心幀圖像進行幾何對齊,對對齊后的幀序列進行淺層特征編碼,得到運動一致性特征;
44、隱式對齊模塊,用于通過參數(shù)化殘差縮放模塊自適應(yīng)調(diào)整特征融合比例對視頻幀序列的淺層視覺特征進行提??;將提取到的淺層視覺特征輸入以時空transformer為基本單元的雙向傳播模塊中,得到時序正向特征和時序逆向特征;其中,在所述時空transformer的時空注意力機制中引入3d位置編碼;通過多尺度特征金字塔將時序正向特征和時序逆向特征進行融合,得到細節(jié)特征;
45、重建模塊,用于將運動一致性特征和細節(jié)特征進行融合;對融合后的特征進行層級特征提取,得到深層視覺特征;根據(jù)深層視覺特征進行像素級重建,生成最終的超分辨率視頻序列。
46、本發(fā)明提供了一種視頻超分辨率重建方法,具備以下有益效果:
47、本發(fā)明針對單一對齊方式固有的局限性,構(gòu)建顯式-隱式混合對齊的雙路徑架構(gòu);通過參數(shù)凍結(jié)的光流預(yù)測模型生成稠密光流場并將目標(biāo)幀圖像向中心幀圖像進行幾何對齊,完成像素級運動補償,輸出兼具高保真度和時空一致性的對齊特征,顯著降低了動態(tài)場景中特征融合時的運動模糊與錯位現(xiàn)象;通過時空transformer在雙向傳播網(wǎng)絡(luò)上的建模能力,結(jié)合多尺度金字塔融合策略,實現(xiàn)特征對齊,這種雙向協(xié)同處理機制通過聯(lián)合建模歷史狀態(tài)與未來趨勢,有效突破傳統(tǒng)單向模型在時序建模中的視野局限性,顯著增強系統(tǒng)對復(fù)雜時空關(guān)聯(lián)的表征能力,同時引入時空位置編碼引導(dǎo)的時空注意力機制,有效解決傳統(tǒng)方法中位置與內(nèi)容特征耦合導(dǎo)致的注意力模糊問題,顯著提升多幀對齊精度;該方法通過不同分支的特征融合,有效解決了傳統(tǒng)單一路徑方法在運動模糊和偽影抑制方面的局限性,在保持特征空間一致性的同時,顯著提升了復(fù)雜運動場景下的特征匹配精度;從而解決了現(xiàn)有技術(shù)無法在剛性與非剛性運動共存的復(fù)雜場景中平衡重建能力與魯棒性。