專利名稱:一種基于李群論的多模態(tài)情感識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于情感識別領(lǐng)域,更具體地,涉及一種基于李群論的多模態(tài)情感識別方法。
背景技術(shù):
現(xiàn)有的情感識別方法,通產(chǎn)包括人體、臉部等對象的跟蹤、基于圖像的情感分類、決策級融合等步驟。
對象跟蹤從視頻中跟蹤目標得到它在每一幀中的位置。Ying Wu等使用兩層的馬爾科夫場來表示人體特征,進行人體跟蹤。Dalal和Triggs采用方向梯度直方圖來描述人的輪廓,通過使用不同位置和分辨率的窗口從圖像中梯度方向直方圖組合成特征向量,然后將特征向量輸入支持向量機分類檢測出人體并跟蹤。Qiang Zhu等對Dalal等的方法進行改進,在計算方向梯度直方圖時使用可變大小的塊代替前者固定大小的塊,使得性能有所改善。Pfinder系統(tǒng)通過特定的姿勢分析出臉部、手、腳等位置,對每個區(qū)域用空間位置和顏色建模,然后用顏色對這些區(qū)域進行跟蹤。其中如何抽取圖像特征,建立跟蹤模版,對跟蹤對象進行準確跟蹤是情感識別中一個重要問題。情感模式挖掘從時間序列中挖掘出代表基本情感的運動特征模式。目前,從時間序列中進行數(shù)據(jù)挖掘有兩類方法一類是先對時間序列提取更高級的特征向量,再對特征向量進行分析。如Daniel Weinland等人提出的行為識別方法。但是,提取高層特征的過程通常伴隨著信息的丟失,尋找一種合適的高層特征也需要先驗知識。另一類方法是采用面向時間序列的機器學(xué)習(xí)方法,直接對時間序列進行挖掘,主要有隱式馬爾科夫模型等方法。但是人體運動特征中的情感模式比較隱蔽,如何恰當(dāng)?shù)卦O(shè)計模型及其度量,是情感識別的一個難點。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的在于提供一種基于李群論的多模態(tài)情感識別方法,其根據(jù)視頻中所包含的人體姿態(tài)運動信息、手勢和臉部表情信息來判斷人的情感狀態(tài),是一個將視頻數(shù)據(jù)映射到人體運動特征、手勢特征和臉部表情特征,再從人體運動特征空間和臉部表情特征映射到狀態(tài)空間的過程,并提出利用李群論進行多模態(tài)情感識別,提高模型進行情感識別的精確性。為實現(xiàn)上述目的,本發(fā)明提供了一種基于李群論的多模態(tài)情感識別方法,包括以下步驟步驟一,獲取視頻,并提取視頻幀中圖像區(qū)域的高斯型特征描述子,包括下述子步驟(I. I)對于圖像區(qū)域中的每個像素點而言,計算一個d維特征向量F (X,y),該特征向量廠= G, Β,χ,μ, | ..,|,| ν|, φχ2+1'2],其中d為正整數(shù),R, G, B是像素點的顏色信
息,X,y是像素點在水平和垂直方向的位置信息,|lx|,I Iy I分別是像素點在水平方向和垂直方向的梯度信息,該圖像區(qū)域所有像素點的特征向量構(gòu)成圖像的特征向量集合;(I. 2)確定該圖像區(qū)域?qū)?yīng)的均值d維向量μ和協(xié)方差d維方陣,其中,
協(xié)方差矩陣
權(quán)利要求
1.一種基于李群論的多模態(tài)情感識別方法,其特征在于,包括以下步驟 步驟一,獲取視頻,并提取視頻幀中圖像區(qū)域的高斯型特征描述子,包括下述子步驟 (I. I)對于圖像區(qū)域中的每個像素點而言,計算一個d維特征向量F(x,y),該特征向量
2.根據(jù)權(quán)利要求I所述的多模態(tài)情感識別方法,其特征在于,步驟(I.3)具體為,利用Cholesky分解將矩陣E分解成一個下三角矩陣P和上三角矩陣Pt的乘積,即E = PPt,且任何一個圖像區(qū)域的協(xié)方差矩陣E對應(yīng)著一個下三角矩陣P,其后,利用得到的下三角矩陣P和步驟(1.2)中得到的均值d維向量U,構(gòu)建該圖像區(qū)域的高斯型特征描述子
3.根據(jù)權(quán)利要求I所述的多模態(tài)情感識別方法,其特征在于,步驟(2.3)具體為,確定臉部區(qū)域、手部區(qū)域和人體區(qū)域的高斯型特征描述子與跟蹤模版之間的距離,dit=| I Iog(Mi-1Mt) I |,其中Mi是在第i幀中跟蹤的臉部區(qū)域、手部區(qū)域和人體區(qū)域的高斯型特征描述子,Mt是跟蹤模版,log ()表示矩陣對數(shù),Il Il表示向量求模運算。
4.根據(jù)權(quán)利要求I所述的多模態(tài)情感識別方法,其特征在于,步驟三包括下述子步驟 (3. I)對于視頻子序列中的每一幀提取PHOG特征向量f (t),其維數(shù)為a ; (3. 2)根據(jù)PHOG特征向量f(t)構(gòu)建視頻子序列對應(yīng)的ARMA模型 (3. 3 )對ARMA模型的參數(shù)求解。
5.根據(jù)權(quán)利要求4所述的多模態(tài)情感識別方法,其特征在于,步驟(3.2)具體采用以下公式 j f(t)=Cz(t)+vv(t) [z(t+l )=Az(t)+v(t) 其中,t表示時間,C是a*b維的觀測矩陣,z (t)是b維的隱狀態(tài)向量,A是b*b維的轉(zhuǎn)移矩陣,,w(t)和v(t)是干擾噪聲組件,其分別服從均值為O、協(xié)方差矩陣分別為R和Q的正態(tài)分布。
6.根據(jù)權(quán)利要求4所述的多模態(tài)情感識別方法,其特征在于,步驟(3.3)具體為,對于給定的視頻子序列,視頻子序列的a*b維特征矩陣Gf =[f(g,f(th)] ,Gt=LW7代表奇異值分解。其中,Zi = [Z(I1), z(t2),...,z(tb)] ,(Zi )T是Zi 的偽逆矩陣,v「z Ui)-Az (tH)。
7.根據(jù)權(quán)利要求I所述的多模態(tài)情感識別方法,其特征在于,ARMA模型之間的距離度量滿足對稱性,正定型和三角不等性這度量函數(shù)的三個屬性。
8.根據(jù)權(quán)利要求I所述的多模態(tài)情感識別方法,其特征在于,情感狀態(tài)包括憤怒、悲 傷、害怕、高興、喜愛、驚訝、厭惡、害羞。
全文摘要
本發(fā)明公開了一種基于李群論的多模態(tài)情感識別方法,包括以下步驟獲取視頻,并提取視頻幀中圖像區(qū)域的高斯型特征描述子,基于高斯型特征描述子對視頻中的圖像區(qū)域進行跟蹤,根據(jù)視頻子序列構(gòu)建ARMA模型獲取ARMA模型間的距離,根據(jù)ARMA模型之間的距離構(gòu)建核函數(shù),并進行情感表達分類,根據(jù)人體、臉部和手部的情感類別概率對人進行情感識別。本發(fā)明根據(jù)視頻中所包含的人體姿態(tài)運動信息、手勢和臉部表情信息來判斷人的情感狀態(tài),是一個將視頻數(shù)據(jù)映射到人體運動特征、手勢特征和臉部表情特征,再從人體運動特征空間和臉部表情特征映射到狀態(tài)空間的過程,并提出利用李群論進行多模態(tài)情感識別,提高模型進行情感識別的精確性。
文檔編號G06K9/62GK102968643SQ20121046629
公開日2013年3月13日 申請日期2012年11月16日 優(yōu)先權(quán)日2012年11月16日
發(fā)明者王天江, 劉芳, 許春燕, 楊勇, 龔立宇, 邵光普, 舒禹程, 曹守剛 申請人:華中科技大學(xué)