本發(fā)明屬于計(jì)算機(jī)視覺視頻理解任務(wù),具體涉及一種跨場(chǎng)景的動(dòng)作識(shí)別方法。
背景技術(shù):
1、動(dòng)作識(shí)別是計(jì)算機(jī)視覺視頻理解中的一項(xiàng)極具影響力的任務(wù)。目前的研究充分利用了先進(jìn)的識(shí)別網(wǎng)絡(luò)骨架和數(shù)據(jù),如基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)[1][2][3],基于transformer的模型[4][5]以及大規(guī)模動(dòng)作識(shí)別數(shù)據(jù)集[6][7]。盡管這些方法取得了較為突出的效果,但是它們通常在最佳照明條件的場(chǎng)景下展開,這導(dǎo)致這些模型在真實(shí)世界環(huán)境中的適用性受到限制。該任務(wù)挑戰(zhàn)在于:(1)黑暗視頻的低能見度導(dǎo)致網(wǎng)絡(luò)很難提取到有效的動(dòng)作信息;(2)缺乏針對(duì)該場(chǎng)景下的動(dòng)作識(shí)別骨干網(wǎng)絡(luò)。同時(shí),由于缺乏大規(guī)模的低光照視頻訓(xùn)練數(shù)據(jù)集,在辨別光線不足的視頻內(nèi)容時(shí),已有模型的效果將會(huì)大打折扣。
2、針對(duì)特定低光照?qǐng)鼍暗淖R(shí)別任務(wù),以往的研究工作[8][9][10][11]有著其局限性。首先,以往工作過度依賴基本的低光照?qǐng)D像增強(qiáng)策略,導(dǎo)致對(duì)于低光照視頻質(zhì)量的改善不充分;其次,以往工作往往沒有針對(duì)該任務(wù)的動(dòng)作識(shí)別骨干網(wǎng)絡(luò)進(jìn)行改進(jìn)。
3、[1]feichtenhofer,c.,fan,h.,malik,j.,&he,k..slowfast?networks?forvideo?recognition.in:cvpr(2019).
4、[2]tran,d.,wang,h.,torresani,l.,ray,j.,lecun,y.,&paluri,m.a?closerlook?at?spatiotemporal?convolutions?for?action?recognition.in:cvpr(2018).
5、[3]feichtenhofer,c.x3d:expanding?architectures?for?efficient?videorecognition.in:cvpr(2020).
6、[4]xing,z.,dai,q.,hu,h.,chen,j.,wu,z.,&jiang,y.g.svformer:semi-supervised?video?transformer?for?action?recognition.in:cvpr(2023).
7、[5]liu,z.,ning,j.,cao,y.,wei,y.,zhang,z.,lin,s.,&hu,h.video?swintransformer.in:cvpr(2022).
8、[6]goyal,r.,ebrahimi?kahou,s.,michalski,v.,materzynska,j.,westphal,s.,kim,h.,...&memisevic,r.the"something?something"video?database?for?learningand?evaluating?visual?common?sense.in:iccv(2017).
9、[7]kuehne,h.,jhuang,h.,garrote,e.,poggio,t.,&serre,t..hmdb:a?largevideo?database?for?human?motion?recognition.in:iccv(2011).
10、[8]hira,s.,das,r.,modi,a.,&pakhomov,d.delta?sampling?r-bert?forlimited?data?and?low-light?action?recognition.in:cvpr(2021).
11、[9]chen,r.,chen,j.,liang,z.,gao,h.,&lin,s..darklight?networks?foraction?recognition?in?the?dark.in:cvpr(2021).
12、[10]tu,z.,liu,y.,zhang,y.,mu,q.,&yuan,j.dtcm:joint?optimization?ofdark?enhancement?and?action?recognition?in?videos.in:ieee?transactions?onimage?processing.(2023).
13、[11]xu,y.,yang,j.,cao,h.,mao,k.,yin,j.,&see,s.arid:a?new?dataset?forrecognizing?action?in?the?dark.in:deep?learning?for?human?activityrecognition:second?international?workshop(2021).
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明是為了解決上述問題而進(jìn)行的,目的在于提供一種跨場(chǎng)景的動(dòng)作識(shí)別方法。
2、本發(fā)明提供了一種跨場(chǎng)景的動(dòng)作識(shí)別方法,具有這樣的特征,用于提升網(wǎng)絡(luò)對(duì)黑暗視頻的識(shí)別能力,包括以下步驟:s10,使用黑暗圖像作為條件,對(duì)應(yīng)的真實(shí)光照?qǐng)D像作為目標(biāo),在大規(guī)模正常光照數(shù)據(jù)集上預(yù)訓(xùn)練的controlnet模型可學(xué)習(xí)的部分進(jìn)行訓(xùn)練;s20,對(duì)步驟s10中訓(xùn)練后的controlnet模型進(jìn)行采樣,獲得黑暗圖像及其對(duì)應(yīng)的初步恢復(fù)光照?qǐng)D像;s30,將黑暗圖像、對(duì)應(yīng)的真實(shí)光照?qǐng)D像以及初步恢復(fù)光照?qǐng)D像在通道維度拼接后作為輸入,采用多頭注意力機(jī)制訓(xùn)練得到暗轉(zhuǎn)亮條件擴(kuò)散模型;s40,將多頭注意力機(jī)制替換為時(shí)空注意力機(jī)制,并使用暗轉(zhuǎn)亮條件擴(kuò)散模型對(duì)黑暗視頻的視頻幀進(jìn)行采樣,生成連續(xù)的光亮視頻幀;s50,基于黑暗輸入通道和光亮輸入通道組成的雙通道動(dòng)作識(shí)別骨干網(wǎng)絡(luò)結(jié)構(gòu),在其殘差模塊間構(gòu)建n個(gè)自蒸餾分支,每個(gè)自蒸餾分支包括一個(gè)時(shí)空融合模塊和一個(gè)對(duì)齊模塊;s60,將黑暗視頻的視頻幀和對(duì)應(yīng)的光亮視頻幀分別輸入黑暗輸入通道和光亮輸入通道中,經(jīng)過時(shí)空融合模塊和對(duì)齊模塊以提取特征和計(jì)算損失后,沿通道維度進(jìn)行合并,合并后通過自注意力模塊得到輸出特征,輸出特征從全連接層輸出對(duì)應(yīng)淺層的殘差模塊的對(duì)應(yīng)logit。
3、在本發(fā)明提供的跨場(chǎng)景的動(dòng)作識(shí)別方法中,還可以具有這樣的特征:其中,步驟s30中,暗轉(zhuǎn)亮條件擴(kuò)散模型的訓(xùn)練損失函數(shù)為:表示對(duì)整個(gè)數(shù)據(jù)分布下的損失進(jìn)行加權(quán)平均,t表示擴(kuò)散模型中逐步去噪的時(shí)間步,θ表示模型訓(xùn)練過程中優(yōu)化的參數(shù),∈t表示擴(kuò)散模型在時(shí)間步t上添加到圖像中的高斯噪聲,∈θ表示擴(kuò)散模型在時(shí)間步t上預(yù)測(cè)的噪聲,表示累積的噪聲衰減因子,x0表示原始圖像數(shù)據(jù),原始圖像數(shù)據(jù)為未添加噪聲的真實(shí)光照?qǐng)D像,xd表示黑暗圖像,xb表示真實(shí)光照?qǐng)D像,p(xd,xb)表示初步恢復(fù)光照?qǐng)D像。
4、在本發(fā)明提供的跨場(chǎng)景的動(dòng)作識(shí)別方法中,還可以具有這樣的特征:其中,步驟s40中,時(shí)空注意力機(jī)制基于多頭注意力機(jī)制,用于對(duì)輸入暗轉(zhuǎn)亮條件擴(kuò)散模型的黑暗視頻的視頻幀進(jìn)行恢復(fù),對(duì)于當(dāng)前被恢復(fù)幀j,query為當(dāng)前被恢復(fù)幀j的特征,以輸入黑暗視頻的視頻幀的第一幀和前一幀j-1的特征重建value和key,時(shí)空注意力機(jī)制的計(jì)算方式為:z表示經(jīng)過時(shí)空注意力機(jī)制后的特征表示,q=qj表示第j幀特征輸入的查詢矩陣,τ表示矩陣轉(zhuǎn)置,kτ表示重建后的鍵矩陣的轉(zhuǎn)置,表示時(shí)空注意力機(jī)制下的鍵矩陣由第一幀的鍵矩陣和前一幀的鍵矩陣在通道維度進(jìn)行拼接,k0表示第一幀的鍵矩陣,kj-1表示前一幀的鍵矩陣,表示注意力機(jī)制的縮放因子,表示時(shí)空注意力機(jī)制下的值矩陣由第一幀的值矩陣和前一幀的值矩陣在通道維度進(jìn)行拼接,v0表示第一幀的值矩陣,vj-1表示前一幀的值矩陣,表示合并操作。
5、在本發(fā)明提供的跨場(chǎng)景的動(dòng)作識(shí)別方法中,還可以具有這樣的特征:其中,步驟s40中,還使用初步恢復(fù)光照?qǐng)D像作為暗轉(zhuǎn)亮條件擴(kuò)散模型的額外控制條件,從而增強(qiáng)光照恢復(fù)的真實(shí)性和有效性。
6、在本發(fā)明提供的跨場(chǎng)景的動(dòng)作識(shí)別方法中,還可以具有這樣的特征:其中,步驟s50~步驟s60中,時(shí)空融合模塊包括可分離3d卷積層和一系列上采樣層,可分離3d卷積層用于從雙通道動(dòng)作識(shí)別骨干網(wǎng)絡(luò)結(jié)構(gòu)中較淺的殘差模塊中捕獲時(shí)空信息,通過上采樣操作后,與輸入特征的點(diǎn)積,根據(jù)其相關(guān)性對(duì)所提取的特征進(jìn)行加權(quán)。
7、在本發(fā)明提供的跨場(chǎng)景的動(dòng)作識(shí)別方法中,還可以具有這樣的特征:其中,步驟s50~步驟s60中,對(duì)齊模塊由一系列可分離3d卷積層組成,以確保通過時(shí)空融合模塊的特征大小與參考特征大小相匹配,從而計(jì)算它們之間的損失。
8、在本發(fā)明提供的跨場(chǎng)景的動(dòng)作識(shí)別方法中,還可以具有這樣的特征:其中,步驟s60中,雙通道動(dòng)作識(shí)別骨干網(wǎng)絡(luò)結(jié)構(gòu)作為一種神經(jīng)網(wǎng)絡(luò)模型,其損失函數(shù)為:表示分類損失,表示針對(duì)標(biāo)簽的損失,表示針對(duì)特征的損失,α和λ為權(quán)重系數(shù)。
9、在本發(fā)明提供的跨場(chǎng)景的動(dòng)作識(shí)別方法中,還可以具有這樣的特征:其中,分類損失針對(duì)標(biāo)簽的損失針對(duì)特征的損失和共同組成自蒸餾損失,表示交叉熵?fù)p失,hi表示第i個(gè)自蒸餾分支輸出logit,y表示對(duì)應(yīng)標(biāo)簽,hn+1表示神經(jīng)網(wǎng)絡(luò)模型最終輸出logit,表示kullback-leibler散度損失,表示l2損失,fi表示第i個(gè)自蒸餾分支輸出的預(yù)測(cè)特征,fn+1表示神經(jīng)網(wǎng)絡(luò)模型最終輸出的預(yù)測(cè)特征。
10、發(fā)明的作用與效果
11、本發(fā)明利用擴(kuò)散模型將黑暗視頻幀恢復(fù)成連續(xù)光亮視頻幀,恢復(fù)結(jié)果接近真實(shí)自然光照下的視頻,解決了黑暗視頻的低能見度問題,使后續(xù)網(wǎng)絡(luò)能提取有效動(dòng)作信息。
12、本發(fā)明在暗轉(zhuǎn)亮擴(kuò)散模型采樣階段所采用的一種特定的時(shí)空注意力機(jī)制能有效利用到被采樣的一段連續(xù)視頻幀的時(shí)序信息,從而保證被恢復(fù)光亮視頻幀的時(shí)空一致性。此外,時(shí)空注意力機(jī)制可以無(wú)縫插入到基于圖像數(shù)據(jù)訓(xùn)練的擴(kuò)散模型中,無(wú)需額外訓(xùn)練模型,即可得到恢復(fù)效果優(yōu)秀的連續(xù)光亮視頻幀。
13、本發(fā)明所設(shè)計(jì)的基于自蒸餾分支的雙通道動(dòng)作識(shí)別骨干網(wǎng)絡(luò)能有效提取有效地學(xué)習(xí)了視頻序列中的動(dòng)作特征,并通過蒸餾過程使網(wǎng)絡(luò)更具魯棒性和泛化能力,增強(qiáng)了黑暗與光照視頻信息之間的交互,提升了網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率。