本發(fā)明屬于視頻處理技術(shù)領(lǐng)域,更進一步涉及一種行為識別方法,可用于異常行為檢測和人機交互。
背景技術(shù):
近年來,計算機視覺作為一門新興學(xué)科發(fā)展十分迅速,行為識別作為視頻分析和理解的關(guān)鍵技術(shù),重要的學(xué)術(shù)價值、潛在的商業(yè)價值和巨大的應(yīng)用前景使其迅速成為計算機視覺領(lǐng)域研究的熱點和難點,已廣泛應(yīng)用于視頻檢索、智能監(jiān)控、機器人導(dǎo)航、智能交通及游戲娛樂等人機交互領(lǐng)域,越來越多的學(xué)者和機構(gòu)在相關(guān)方面相繼進行了大量的研究工作。人體行為分析的關(guān)鍵就是捕獲視頻中的運動信息以及幀序列間的關(guān)系,如何有效的從視頻數(shù)據(jù)中獲取時空信息成為行為識別領(lǐng)域的研究重點。一些學(xué)者發(fā)現(xiàn)小波變換多分辨率分析能力和優(yōu)秀的時頻分析特性有助于時空信息的挖掘和提取,將其與現(xiàn)有特征描述方法相結(jié)合用于行為識別。
(1).shaol,gaor.awaveletbasedlocaldescriptorforhumanactionrecognition[c]//bmvc.2010:1-10。這種方法將二維小波變換與興趣點檢測方法相結(jié)合用于人體行為識別。該方法在時空興趣點周圍的立方體中進行2d小波分解,可以獲得具備鑒別性和可靠性的描述子,特征維度低,對噪聲、光照等影響具有一定的容許性,但該方法在進行小波分解時只選取局部立方體內(nèi)的三個代表平面,對數(shù)據(jù)的覆蓋范圍不足,獲取空時信息不充分。此外對于運動或背景較復(fù)雜的情況,基于興趣點檢測方法魯棒性較差。
(2).omidyeganehm,ghaemmaghamis,shirmohammadis.applicationof3d-waveletstatisticstovideoanalysis[j].multimediatoolsandapplications,2013,65(3):441-465。這種方法將3d小波變換與概率統(tǒng)計方法相結(jié)合用于人體行為識別。該方法將小波系數(shù)使用廣義高斯分布擬合,能夠在一定程度上獲取視頻序列空時信息以及小波系數(shù)間的依賴性,選用概率模型參數(shù)作為特征描述子有助于特征降維,但是僅采用全局特征表示方法對視頻結(jié)構(gòu)信息獲取不足,且對復(fù)雜背景、噪聲等干擾較為敏感。
視頻中的二維空間域和一維時間域的特性存在很大的差異,因此從直覺上應(yīng)該針對這兩者采用不同的處理方式而不是僅將二維空間方法擴展應(yīng)用于聯(lián)合三維空間,沿著視頻序列對興趣點進行跟蹤是近些年學(xué)者們發(fā)現(xiàn)的適于處理上述問題的方法,然而目前并沒有學(xué)者使用小波變換提取視頻中運動軌跡,以將軌跡的優(yōu)勢引入小波域行為識別。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于針對上述已有技術(shù)的不足,提出一種基于3d平穩(wěn)小波的運動軌跡行為識別方法,以更充分地提取視頻序列中的時空信息,提高人體行為識別準確率。
實現(xiàn)本發(fā)明目的的方案是:利用時空可分離的3d平穩(wěn)小波變換提取視頻中的運動信息,通過基于熵的高頻和中頻小波系數(shù)子帶加權(quán)融合和基于能量閾值的特征點提取,提高對噪聲、背景干擾的魯棒性,依據(jù)連續(xù)幀間特征點小波描述子歐式距離最小原則對特征點進行追蹤提取運動軌跡,充分獲取視頻時空信息,并進一步濾除無關(guān)特征點。在所提取軌跡周圍按不同系數(shù)子帶方向統(tǒng)計并構(gòu)建能量特征,最后使用詞袋模型編碼特征后,輸入svm分類器實現(xiàn)行為識別,其具體實現(xiàn)步驟包括如下:
(1)對行為視頻進行時空可分離的3d平穩(wěn)小波分解:
(1a)將彩色視頻數(shù)據(jù)轉(zhuǎn)換為灰度數(shù)據(jù),完成對視頻數(shù)據(jù)的預(yù)處理;
(1b)沿時間維方向?qū)σ曨l數(shù)據(jù)進行一維平穩(wěn)小波分解,分解總級數(shù)為2,得到三個包含時域信息的系數(shù)子帶:低頻系數(shù)子帶tll,高頻系數(shù)子帶th和中頻系數(shù)子帶tlh;
(1c)分別逐幀對三個小波系數(shù)子帶tll,th和tlh進行二維平穩(wěn)小波分解,獲取包含時空域信息的12×ls個12個方向的系數(shù)子帶:tll-llj,tll-lhj,tll-hlj,tll-hhj;th-llj,th-lhj,th-hlj,th-hhj;tlh-llj,tlh-lhj,tlh-hlj,tlh-hhj,其中j為小波分解級數(shù),j=1,2,...,ls,ls為分解總級數(shù);
(2)基于系數(shù)子帶的熵對高頻th和中頻子帶tlh進行加權(quán):
(2a)將高頻子帶th和中頻子帶tlh中系數(shù)值量化到[0-255]的灰度值范圍內(nèi),分別在兩個頻率子帶內(nèi),計算高頻子帶th的熵eh和中頻子帶tlh的熵em;
(2b)計算高頻子帶th和中頻子帶tlh的權(quán)值:
其中,wh和wm分別表示高頻子帶th和中頻子帶tlh對應(yīng)的權(quán)值,
(2c)對高頻子帶th和中頻子帶tlh進行加權(quán)融合,得到融合后的系數(shù)子帶:
fu=wh×th+wm×tlh;
(3)基于系數(shù)能量閾值在融合后的子帶內(nèi)提取特征點:
(3a)對于融合之后的系數(shù)子帶fu中的每一個點,在其三維立方體鄰域內(nèi),計算該鄰域中所有系數(shù)值的平均能量值
(3b)將
若e(x,y,t)≥te,則認為該能量值對應(yīng)的像素點為特征點,
若e(x,y,t)<te,則認為該能量值對應(yīng)的像素點不是特征點;
(4)使用步驟(1c)中獲得的各方向小波系數(shù)子帶,對特征點進行描述,得到特征點的小波系數(shù)描述子;
(5)依據(jù)兩點的小波系數(shù)描述子間的歐式距離最小原則,對相鄰幀間特征點進行匹配,得到視頻的運動軌跡;
(6)在沿軌跡彎曲的立方體內(nèi),構(gòu)造小波方向能量直方圖特征:
(6a)以提取的各條軌跡為中心,構(gòu)建沿軌跡彎曲的立方體;
(6b)以步驟(1c)中獲得的子帶tlh-lhj為例,根據(jù)步驟(3)中能量計算方法,計算tlh-lhj中系數(shù)的能量值;
(6c)在沿軌跡彎曲的立方體中,將各級小波分解所得子帶tlh-llj的系數(shù)所對應(yīng)的能量值進行直方圖統(tǒng)計,得到tll-llj子帶方向的能量直方圖向量ve;
(6d)依次計算高頻子帶th分解所得的th-llj,th-lhj,th-hlj,th-hhj,以及中頻子帶tlh分解所得的tlh-llj,tlh-lhj,tlh-hlj,tlh-hhj,共八個子帶方向的能量直方圖向量,并將八個能量直方圖串接,得到描述當前軌跡的小波方向能量直方圖特征vh=[ve1,ve2,...,ved,...,ve8],其中,ved表示第d個子帶方向的能量直方圖向量,d=1,2,...,8;
(7)將所有視頻樣本的小波方向能量直方圖特征劃分為訓(xùn)練集vhtr和測試集vhte,使用詞袋模型獲到訓(xùn)練集vhtr的直方圖向量htr和測試集vhte的直方圖向量hte;
(8)使用訓(xùn)練集的直方圖向量htr訓(xùn)練svm分類器,將測試集的直方圖向量hte輸入到訓(xùn)練好的svm中,輸出測試集vhte對應(yīng)的測試樣本所屬的行為類別。
本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點:
1)本發(fā)明將軌跡跟蹤引入小波域行為識別,能更有效的挖掘和獲取視頻中空時信息;同時結(jié)合基于熵的子帶加權(quán)和基于能量閾值的特征點提取,提高了對背景、光照、噪聲等的魯棒性,并有效降低算法的計算復(fù)雜度;
2)本發(fā)明采用可時空分離的3d平穩(wěn)小波變換,在保證平移穩(wěn)定性的情況下,能獲得更多方向的小波系數(shù)子帶,并進一步降低計算復(fù)雜度;通過對小波系數(shù)能量的分方向統(tǒng)計,提高了系數(shù)能量特征的判別性。
附圖說明
圖1是本發(fā)明的實現(xiàn)流程圖。
具體實施方式
參照圖1,本發(fā)明的基于3d平穩(wěn)小波的運動軌跡行為識別方法,步驟如下:
步驟1,使用時空可分離的3d平穩(wěn)小波變換對行為視頻進行分解,獲得包含時域運動信息的高頻和中頻系數(shù)子帶以及包含空時信息的各方向小波系數(shù)子帶。
將行為視頻視為由x,y,t三個方向構(gòu)成的三維直角坐標系中的三維數(shù)據(jù),其中x,y分別表示視頻幀的寬方向和高方向,t表示時間方向;
3d平穩(wěn)小波變換的實現(xiàn)過程是依次沿著x、y和t三個方向進行1d小波變換。為了獲取更多結(jié)構(gòu)信息,本發(fā)明采用時空可分離的3d平穩(wěn)小波分解,首先沿著時間維t方向進行1d平穩(wěn)小波變換,再對所獲得的時域子帶依次沿著x和y方向進行1d平穩(wěn)小波變換,也就是空間維的2d平穩(wěn)小波變換,此分解方法可以獲得更多方向子帶,且時間維和空間維的小波分解總級數(shù)可獨立選擇,能在一定程度上降低計算復(fù)雜度,其分解步驟如下:
(1.1)將數(shù)據(jù)集中的視頻樣本進行由彩色數(shù)據(jù)轉(zhuǎn)換為灰度數(shù)據(jù)的預(yù)處理,以降低計算復(fù)雜度;
(1.2)沿視頻數(shù)據(jù)t方向進行兩級1d平穩(wěn)小波分解,即沿時間維方向,將預(yù)處理后的視頻數(shù)據(jù)分解為包含低頻系數(shù)子帶tll,高頻系數(shù)子帶th和中頻系數(shù)子帶tlh的三個時域系數(shù)子帶;
(1.3)分別逐幀對三個小波系數(shù)子帶tll,th和tlh進行2d平穩(wěn)小波分解,獲取包含時空域信息的12×ls個12個方向的系數(shù)子帶:tll-llj,tll-lhj,tll-hlj,tll-hhj;th-llj,th-lhj,th-hlj,th-hhj;tlh-llj,tlh-lhj,tlh-hlj,tlh-hhj,其中j為小波分解級數(shù),j=1,2,...,ls,ls為分解總級數(shù)。
步驟2,利用熵值對步驟1中獲取的時域高頻子帶th和中頻子帶tlh進行加權(quán),實現(xiàn)不同頻率的子帶間融合。
(2.1)高頻子帶th表示行為視頻幀間變化較劇烈的信息,即主要運動信息,系數(shù)值分布較集中;而中頻子帶tlh是分解低頻系數(shù)子帶tll所得,因此比高頻子帶th包含較多的近似信息,其中有非主要運動部位附帶的運動信息或干擾信息,系數(shù)值分布較分散;系數(shù)值的分散程度可以用系數(shù)子帶的熵來衡量,將高頻子帶th和中頻子帶tlh中系數(shù)值量化到[0-255]的灰度值范圍內(nèi),分別在兩個頻率子帶內(nèi),計算高頻子帶th的熵eh和中頻子帶tlh的熵em:
其中,mi表示高頻子帶th中,灰度值為i的系數(shù)所占比例,ni表示中頻子帶tlh中,灰度值為i的系數(shù)所占比例,log的底選為2。
(2.2)根據(jù)子帶內(nèi)系數(shù)值的分散程度與子帶成正比,高頻子帶th的熵小于中頻子帶tlh的熵,且th包含的信息比中頻子帶tlh包含的運動信息更重要的特性,在進行加權(quán)處理時,給th設(shè)置較大的權(quán)值wh,給tlh設(shè)置較小的權(quán)值wm,這兩個權(quán)值wh和wm的計算公式如下:
其中,wh和wm分別表示高頻子帶th和中頻子帶tlh對應(yīng)的權(quán)值,
(2.2)對高頻子帶th和中頻子帶tlh進行加權(quán)融合,得到融合后的系數(shù)子帶:
fu=wh×th+wm×tlh。
步驟3,基于系數(shù)能量閾值在融合后的子帶內(nèi)提取特征點。
(3.1)對于融合之后的系數(shù)子帶fu中的每一個點,在其三維立方體鄰域內(nèi),計算該鄰域中所有系數(shù)值的平均能量值
其中,n為三維鄰域中系數(shù)的總個數(shù),w(x,y,t)表示融合后系數(shù)子帶fu中位置為(x,y,t)的系數(shù)值;
(3.2)將
若e(x,y,t)≥te,則說明該能量值對應(yīng)的像素點屬于主要運動的點,因此認為其是特征點;
若e(x,y,t)<te,則說明該能量值對應(yīng)的像素點對應(yīng)非運動點,或者其產(chǎn)生的運動是非主要運動或是干擾運動,因此認為其不是特征點。
步驟4,使用步驟(1.3)中獲得的各方向小波系數(shù)子帶,對特征點進行描述,得到特征點的小波系數(shù)描述子,具體實現(xiàn)如下:
(4.1)以系數(shù)子帶tll-llj為例,將各級小波分解所得子帶tll-llj中與步驟(3.2)得到的一個特征點相對應(yīng)的系數(shù)連接為一個向量,得到子帶tll-llj中該特征點的描述向量
(4.2)計算步驟(1c)中得到的12個方向的系數(shù)子帶中特征點fp對應(yīng)的描述向量,并將這12個向量串接,得到特征點fp的小波系數(shù)描述子v=[v1,v2,...,vk,...v12],其中,vk表示第k個方向系數(shù)子帶中特征點fp對應(yīng)的描述向量,k=1,2,...,12。
步驟5,依據(jù)小波系數(shù)描述子間歐式距離最小原則,通過相鄰幀間特征點匹配,實現(xiàn)視頻運動軌跡的提取:
(5.1)選取視頻的第t幀為軌跡起始幀,對于第t幀中的一個特征點pt,依據(jù)特征點的小波系數(shù)描述子間歐式距離最小原則,在t+1幀中的一個m×m的窗口中尋找特征點pt的最佳匹配點pt+1:
其中,des(pt)表示當前幀特征點pt的小波系數(shù)描述子,des(pt+1)表示下一幀中的候選特征點pt+1的小波系數(shù)描述子,t=1,2,...,nf,nf為視頻的總幀數(shù);
當在t+1幀的鄰域窗口中未匹配到特征點pt+1時,則放棄當前軌跡,從第t幀中的下一個特征點開始新的特征點匹配;
(5.2)對步驟(5.1)中匹配到的候選特征點pt+1,以t+1幀為當前幀,按照步驟(5.1)中的方法,在t+2幀的指定窗口中為其匹配特征點pt+2,得到沿時間方向逐漸延伸的軌跡;
(5.3)重復(fù)步驟(5.2),直到軌跡長度達到l時,從軌跡起始幀中的下一個特征點重新開始下一條軌跡的跟蹤,其中,l是一個人為設(shè)定的固定值,可以避免因為軌跡過長而造成的軌跡漂移問題;
(5.4)在遍歷了當前軌跡起始幀中所有的特征點之后,將下一幀作為新的軌跡起始幀,重復(fù)步驟(5.1)到(5.3)進行軌跡的跟蹤,直到軌跡起始幀為第nf-l+2幀時,軌跡跟蹤結(jié)束,得到視頻中所有的運動軌跡,這樣可以保證軌跡能覆蓋視頻絕大部分信息,此時獲得的一系列特征點的坐標,就是從該視頻中提取的人體行為運動軌跡。
步驟6,在沿軌跡彎曲的立方體內(nèi),構(gòu)造小波方向能量直方圖特征:
(6.1)在每條軌跡周圍構(gòu)建的一個大小均為c×r×l的立方體,其中c和r分別為立方體一個時間點橫截面的長和寬,l為軌跡的長度。
(6.2)以步驟(1.3)中獲得的子帶tlh-lhj為例,根據(jù)步驟3中能量的計算方法,計算tlh-lhj中系數(shù)的能量值;
(6c)在沿軌跡彎曲的立方體中,將各級小波分解所得子帶tlh-llj的系數(shù)所對應(yīng)的能量值進行直方圖統(tǒng)計,得到tll-llj子帶方向的能量直方圖向量ve;
(6d)依次計算高頻子帶th分解所得的th-llj,th-lhj,th-hlj,th-hhj,以及中頻子帶tlh分解所得的tlh-llj,tlh-lhj,tlh-hlj,tlh-hhj,共八個子帶方向的能量直方圖向量,并將八個能量直方圖串接,得到描述當前軌跡的小波方向能量直方圖特征vh=[ve1,ve2,...,ved,...,ve8],其中,ved表示第d個子帶方向的能量直方圖向量,d=1,2,...,8,該方向能量直方圖特征在不同方向上對小波系數(shù)能量進行統(tǒng)計,增加了特征的鑒別性。
步驟7,對小波方向能量直方圖特征構(gòu)建詞袋模型,獲取視頻的表示,并訓(xùn)練svm分類器。
(7.1)根據(jù)不同人體數(shù)據(jù)集常用劃分比例,將所有視頻樣本對應(yīng)的小波方向能量直方圖特征劃分為訓(xùn)練集vhtr和測試集vhte;以人體行為數(shù)據(jù)庫ucf-sports為例,該數(shù)據(jù)庫包含10種不同的行為,共150個視頻樣本,每次將其中149個樣本對應(yīng)的小波方向能量直方圖特征作為訓(xùn)練集,剩余1個樣本對應(yīng)的小波方向能量直方圖特征作為測試集;
(7.2)對訓(xùn)練集vhtr采用k-means聚類方法生成詞典dide×ce,通過詞典dide×ce,將訓(xùn)練集vhtr和測試集vhte進行量化編碼,得到訓(xùn)練集vhtr的直方圖向量htr和測試集vhte的直方圖向量hte,其中de表示特征維數(shù),ce表示聚類中心數(shù)。
步驟8,使用訓(xùn)練集的直方圖向量htr訓(xùn)練svm分類器,將測試集的直方圖向量hte輸入到訓(xùn)練好的svm中,輸出測試集vhte對應(yīng)的測試樣本所屬的行為類別。
為驗證本發(fā)明的有效性,在常用的人體行為數(shù)據(jù)庫kth和ucf-sports上,利用本發(fā)明進行行為識別;
識別的結(jié)果為:在數(shù)據(jù)庫kth上的正確識別率為96.32%,在數(shù)據(jù)庫ucf-sports上的正確識別率為95.33%。