本發(fā)明涉及計(jì)算機(jī)視覺,具體涉及基于全局-局部特征融合和姿態(tài)優(yōu)化的一種3d人體姿態(tài)估計(jì)方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、從單目2d視頻中估計(jì)3d人體姿態(tài)(3d-hpe)是計(jì)算機(jī)視覺領(lǐng)域經(jīng)典且具挑戰(zhàn)性的任務(wù),能廣泛應(yīng)用于虛擬現(xiàn)實(shí)、人機(jī)交互等多種與人體運(yùn)動(dòng)相關(guān)的場景。3d-hpe任務(wù)可在多視圖或單視圖設(shè)置下執(zhí)行,因多視圖方法部署成本高且難以在真實(shí)場景廣泛應(yīng)用,單目視頻估計(jì)3d人體姿態(tài)成為研究焦點(diǎn)。目前基于單目2d視頻的3d人體姿態(tài)估計(jì)方法主要分為直接回歸方法和從2d到3d的提升方法,后者因使用先進(jìn)2d姿態(tài)估計(jì)器,性能優(yōu)于前者。為緩解深度模糊帶來的模型不確定性,基于概率分布的方法利用生成模型預(yù)測多個(gè)3d姿態(tài)假設(shè);不確定性方法則利用transformer學(xué)習(xí)時(shí)序關(guān)系來緩解深度模糊問題。
2、基于概率分布的方法雖能預(yù)測多個(gè)3d姿態(tài)假設(shè),但需將多個(gè)假設(shè)聚合成唯一3d姿態(tài),效率較低,且預(yù)先確定生成假設(shè)的數(shù)量限制了設(shè)計(jì)假設(shè)回歸模型的靈活性?;趖ransformer的確定性方法存在諸多不足,部分模型只能有效捕捉長距離的全局時(shí)序依賴,忽略局部上下文中的細(xì)微時(shí)序變化,導(dǎo)致局部細(xì)節(jié)丟失;部分模型僅依賴一個(gè)分支學(xué)習(xí)全局和局部的時(shí)空關(guān)系,使局部上下文信息被長期全局信息掩蓋,最終導(dǎo)致估計(jì)的3d姿態(tài)在時(shí)序上不一致且局部細(xì)節(jié)不足。此外,確定性方法未能充分考慮模型的不確定性,導(dǎo)致不理想的評(píng)估結(jié)果,如局部關(guān)節(jié)未準(zhǔn)確對齊。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的目的是提供一種3d人體姿態(tài)估計(jì)方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì),旨在通過雙分支結(jié)構(gòu)解耦全局與局部特征,結(jié)合2d姿態(tài)對比學(xué)習(xí)和多模態(tài)約束優(yōu)化,提升局部細(xì)節(jié)還原能力,并降低因深度模糊引起的模型不確定性,從而顯著提高3d姿態(tài)估計(jì)的精度。
2、為了解決上述技術(shù)問題,本技術(shù)是這樣實(shí)現(xiàn)的:
3、第一方面,本技術(shù)實(shí)施例提供了一種3d人體姿態(tài)估計(jì)方法,所述方法包括:
4、s1、根據(jù)單目2d視頻中提取2d關(guān)鍵點(diǎn)序列,以進(jìn)行姿態(tài)空間嵌入,生成每幀的高維特征表示;
5、s2、對所述高維特征表示施加隨機(jī)掩碼操作及位置編碼,得到稀疏的時(shí)序token序列;
6、s3、利用基于transformer的姿態(tài)級(jí)時(shí)序交互模塊,對所述時(shí)序token序列提取全局時(shí)序特征;
7、s4、針對當(dāng)前幀及其鄰域幀,利用關(guān)節(jié)級(jí)空間嵌入獲得關(guān)節(jié)級(jí)token序列,并采用關(guān)節(jié)級(jí)空間交互模塊以及分層卷積捕獲局部時(shí)序細(xì)節(jié),獲得局部特征;
8、s5、通過自適應(yīng)融合策略對所述全局時(shí)序特征和所述局部特征進(jìn)行融合,生成融合特征;
9、s6、將所述融合特征輸入姿態(tài)優(yōu)化網(wǎng)絡(luò),所述姿態(tài)優(yōu)化網(wǎng)絡(luò)包括2d姿態(tài)對比學(xué)習(xí)模塊、全局3d姿態(tài)對比學(xué)習(xí)模塊和中心幀3d姿態(tài)對比學(xué)習(xí)模塊,用以生成3d人體姿態(tài);
10、s7、基于生成的3d人體姿態(tài)與對應(yīng)的先驗(yàn)信息,計(jì)算總體損失,采用稀疏–密集訓(xùn)練策略對所述姿態(tài)優(yōu)化網(wǎng)絡(luò)進(jìn)行優(yōu)化訓(xùn)練;
11、s8、基于優(yōu)化訓(xùn)練后的姿態(tài)優(yōu)化網(wǎng)絡(luò)輸出與所述單目2d視頻對應(yīng)的3d人體姿態(tài)。
12、作為本技術(shù)第一方面的一種可選實(shí)施方式,所述步驟s3中的所述姿態(tài)級(jí)時(shí)序交互模塊采用transformer作為骨干網(wǎng)絡(luò)實(shí)現(xiàn)多頭自注意力機(jī)制,對所述時(shí)序token序列進(jìn)行自注意力交互。
13、作為本技術(shù)第一方面的一種可選實(shí)施方式,所述步驟s3之后還包括:對所述時(shí)序token序列隨機(jī)初始化,生成掩碼時(shí)序token,將所述掩碼時(shí)序token與未掩碼token進(jìn)行拼接,獲得維度對齊后的全局時(shí)序特征。
14、作為本技術(shù)第一方面的一種可選實(shí)施方式,所述步驟s4包括:對當(dāng)前幀和局部鄰近幀進(jìn)行關(guān)節(jié)級(jí)空間嵌入,構(gòu)造包括查詢矩陣、鍵矩陣和值矩陣的關(guān)節(jié)級(jí)token序列;通過基于transformer的關(guān)節(jié)級(jí)空間交互模塊,對所述關(guān)節(jié)級(jí)token序列捕獲關(guān)節(jié)間的空間關(guān)系;利用兩層分層卷積捕獲所述關(guān)節(jié)間的空間關(guān)系中的局部細(xì)微時(shí)序變化;第一層卷積的核大小為3,以捕獲局部上下文的相關(guān)性;第二層卷積的核大小為1,以增強(qiáng)上下文激勵(lì);兩層分層卷積利用殘差連接,以充分學(xué)習(xí)細(xì)節(jié)特征。
15、作為本技術(shù)第一方面的一種可選實(shí)施方式,所述步驟s6中:通過2d姿態(tài)對比學(xué)習(xí)模塊,對融合特征進(jìn)行掩碼注意力處理,生成預(yù)測的2d姿態(tài),并計(jì)算與2d先驗(yàn)信息之間的對比損失;通過全局3d姿態(tài)對比學(xué)習(xí)模塊,進(jìn)行3d姿態(tài)提升操作生成全局的3d姿態(tài)序列,計(jì)算估計(jì)的3d姿態(tài)與真實(shí)3d姿態(tài)之間的對比損失;通過中心幀3d姿態(tài)對比學(xué)習(xí)模塊,使用帶步長的transformer將全局信息縮減到目標(biāo)幀上,使用全局信息約束目標(biāo)幀的特征,計(jì)算預(yù)測的中心幀的3d姿態(tài)和真實(shí)3d姿態(tài)之間的對比損失。
16、作為本技術(shù)第一方面的一種可選實(shí)施方式,所述步驟s7中,將所述總損失函數(shù)定義為:,其中,,和為超參數(shù),表示每類損失函數(shù)的權(quán)重,表示預(yù)測的2d姿態(tài)與2d先驗(yàn)信息之間的對比損失,表示估計(jì)的3d姿態(tài)與真實(shí)3d姿態(tài)之間的對比損失,表示預(yù)測的中心幀的3d姿態(tài)和真實(shí)3d姿態(tài)之間的對比損失。
17、作為本技術(shù)第一方面的一種可選實(shí)施方式,所述步驟s7中,所述稀疏-密集訓(xùn)練策略包括:在稀疏訓(xùn)練階段,設(shè)置隨機(jī)掩碼率為非0值進(jìn)行稀疏訓(xùn)練,隨機(jī)挖掘幀間一致性;在密集訓(xùn)練階段,設(shè)置隨機(jī)掩碼率為0值進(jìn)行密集訓(xùn)練,以捕獲全局時(shí)空表示。
18、第二方面,本技術(shù)實(shí)施例提供了一種3d人體姿態(tài)估計(jì)系統(tǒng),所述系統(tǒng)包括:
19、數(shù)據(jù)預(yù)處理模塊,用于根據(jù)單目2d視頻中提取2d關(guān)鍵點(diǎn)序列,以進(jìn)行姿態(tài)空間嵌入,生成每幀的高維特征表示;
20、全局-局部特征融合模塊,用于對所述高維特征表示施加隨機(jī)掩碼操作及位置編碼,得到稀疏的時(shí)序token序列;利用基于transformer的姿態(tài)級(jí)時(shí)序交互模塊,對所述時(shí)序token序列提取全局時(shí)序特征;針對當(dāng)前幀及其鄰域幀,利用關(guān)節(jié)級(jí)空間嵌入獲得關(guān)節(jié)級(jí)token序列,并采用關(guān)節(jié)級(jí)空間交互模塊以及分層卷積捕獲局部時(shí)序細(xì)節(jié),獲得局部特征;通過自適應(yīng)融合策略對所述全局時(shí)序特征和所述局部特征進(jìn)行融合,生成融合特征;
21、姿態(tài)優(yōu)化模塊,用于將所述融合特征輸入姿態(tài)優(yōu)化網(wǎng)絡(luò),所述姿態(tài)優(yōu)化網(wǎng)絡(luò)包括2d姿態(tài)對比學(xué)習(xí)模塊、全局3d姿態(tài)對比學(xué)習(xí)模塊和中心幀3d姿態(tài)對比學(xué)習(xí)模塊,用以生成3d人體姿態(tài);基于生成的3d人體姿態(tài)與對應(yīng)的先驗(yàn)信息,計(jì)算總體損失,采用稀疏–密集訓(xùn)練策略對所述姿態(tài)優(yōu)化網(wǎng)絡(luò)進(jìn)行優(yōu)化訓(xùn)練;
22、輸出模塊,用于基于優(yōu)化訓(xùn)練后的姿態(tài)優(yōu)化網(wǎng)絡(luò)輸出與所述單目2d視頻對應(yīng)的3d人體姿態(tài)。
23、第三方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備,所述電子設(shè)備包括處理器、存儲(chǔ)器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的程序或指令,程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。
24、第四方面,本技術(shù)實(shí)施例提供了一種可讀存儲(chǔ)介質(zhì),可讀存儲(chǔ)介質(zhì)上存儲(chǔ)程序或指令,程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。
25、與現(xiàn)有技術(shù)相比,本發(fā)明提出一種3d人體姿態(tài)估計(jì)方法:首先,通過對單目2d視頻提取關(guān)鍵點(diǎn)并進(jìn)行姿態(tài)空間嵌入,獲得了每幀的高維特征表示,這為后續(xù)建模提供了豐富且精確的姿態(tài)信息。接著,對高維特征施加隨機(jī)掩碼和位置編碼,構(gòu)造出稀疏的時(shí)序token序列,有效降低冗余,增強(qiáng)了模型對關(guān)鍵信息的捕捉能力。隨后,利用基于transformer的姿態(tài)級(jí)時(shí)序交互模塊,提取全局時(shí)序特征,使得視頻中的長程依賴和整體運(yùn)動(dòng)趨勢得以建模。同時(shí),對當(dāng)前幀及其鄰域幀通過關(guān)節(jié)級(jí)空間嵌入獲得局部token,并通過關(guān)節(jié)級(jí)交互模塊和分層卷積捕捉細(xì)粒度時(shí)序細(xì)節(jié),彌補(bǔ)了全局特征在局部運(yùn)動(dòng)細(xì)節(jié)描述上的不足。隨后的自適應(yīng)融合策略,將全局時(shí)序特征與局部特征整合,生成了既具宏觀語義又包含微觀細(xì)節(jié)的融合特征。接下來,將融合特征輸入含有2d及多層次3d姿態(tài)對比學(xué)習(xí)模塊的姿態(tài)優(yōu)化網(wǎng)絡(luò),通過多角度監(jiān)督進(jìn)一步細(xì)化并校正姿態(tài)信息。最后基于生成的3d人體姿態(tài)與先驗(yàn)信息計(jì)算總體損失,并采用稀疏–密集訓(xùn)練策略進(jìn)行優(yōu)化訓(xùn)練,使得網(wǎng)絡(luò)在訓(xùn)練過程中能夠充分挖掘并融合稀疏特征與密集特征,最終輸出與輸入2d視頻高度一致且準(zhǔn)確的3d人體姿態(tài)。