本發(fā)明屬于計算機(jī)和醫(yī)學(xué)結(jié)合領(lǐng)域,采用深度卷積神經(jīng)網(wǎng)絡(luò)(dcnn)、深度神經(jīng)網(wǎng)絡(luò)(dnn)、段落向量(pv)以及支持向量機(jī)(svm)模型,涉及一種從聽覺、視覺和文本信息中對抑郁癥進(jìn)行分類的方法。
背景技術(shù):
近年來,人工智能領(lǐng)域已經(jīng)借助機(jī)器學(xué)習(xí)方法,從音頻、視頻出發(fā)建立了多種多樣的抑郁癥檢測系統(tǒng),來幫助心理學(xué)家進(jìn)行臨床抑郁癥的檢測預(yù)防和治療。在過去的幾年中,通過音視頻信息來進(jìn)行抑郁癥的檢測領(lǐng)域已經(jīng)取得了許多重要的成果。文獻(xiàn)“decisiontreebaseddepressionclassificationfromaudiovideoandlanguageinformation,20166thavec,pp89-96”公開了一種基于音頻、視頻的多模態(tài)抑郁癥估計,之后結(jié)合文本信息手動建立決策樹對抑郁癥進(jìn)行分類。此方法分為抑郁癥估計和抑郁癥分類兩部分。在抑郁癥估計階段,采用音視頻單模態(tài)對抑郁癥進(jìn)行初步估計,之后又將音視頻的單模態(tài)估計結(jié)果相結(jié)合,進(jìn)行最終的多模態(tài)抑郁癥估計。但是,這種方法在抑郁癥估計階段,受到樣本數(shù)量,特征種類多、針對性差以及模型性能的局限,導(dǎo)致對抑郁癥的估計準(zhǔn)確度低,泛化性差,無法達(dá)到精度要求;在抑郁癥分類階段,此方法采用人工分析文本信息的方法,結(jié)合抑郁癥估計階段的估計值,通過人工建立決策樹,實(shí)現(xiàn)抑郁癥的分類。這一階段由于需要人工分析文本信息,因此主觀性大,工作量大,因此此方法具有局限性且難以推廣。
目前研究學(xué)者借助機(jī)器學(xué)習(xí)方法來判斷抑郁癥已經(jīng)取得了一定的成果,然而由于抑郁癥的復(fù)雜性以及個體的差異性,抑郁癥的研究仍然面臨以下挑戰(zhàn):
1)“多對一”問題。而在抑郁癥研究中,往往是一個樣本(許多幀)對應(yīng)一個抑郁程度。這種多對一的問題導(dǎo)致大量有用的時序信息被丟棄,造成信息浪費(fèi)。為了彌補(bǔ)信息丟失的缺點(diǎn),學(xué)者設(shè)計了多種統(tǒng)計方法,這樣產(chǎn)生非常高的特征維度,容易導(dǎo)致過擬合現(xiàn)象。
2)大量有用的信息未被挖掘。目前,較多研究的是通過音視頻來檢測抑郁癥。這種通過音視頻來研究抑郁癥的方法,通常是“內(nèi)容無關(guān)”的方法。而通過文本信息來研究抑郁癥的方法現(xiàn)在還不是很成熟。通常,文本信息中反映了患者的睡眠、生活狀態(tài)等信息,這種“內(nèi)容相關(guān)”的方法目前還沒有被大量挖掘。
綜上所述,現(xiàn)有的抑郁癥檢測方法易受特征維度影響,大量信息未被全面研究,容易造成抑郁癥估計精確度低,抑郁癥檢測分類正確率低。
技術(shù)實(shí)現(xiàn)要素:
要解決的技術(shù)問題
為了避免現(xiàn)有技術(shù)的不足之處,本發(fā)明設(shè)計了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(dcnn)、深度神經(jīng)網(wǎng)絡(luò)(dnn)、段落向量(pv)以及支持向量機(jī)(svm)的多模態(tài)抑郁癥估計和分類方法。
技術(shù)方案
1.一種基于dcnn-dnn和pv-svm的多模態(tài)抑郁癥估計和分類方法,其特征在于
步驟如下:
步驟1:利用位移范圍直方圖和opensmile工具對音視頻特征進(jìn)行預(yù)處理:將視頻landmarks特征輸入位移范圍直方圖統(tǒng)計方法中,得到視頻landmarks特征的全局特征;將音頻lld特征輸入opensmile工具提取音頻全局統(tǒng)計信息;
所述的位移范圍直方圖統(tǒng)計方法步驟如下:
首先定義時間間隔m:={m1,m2,m3,...,mx},范圍r:={r1,r2,r3,...,rz},視頻landmarks特征作為位移范圍直方圖統(tǒng)計方法的輸入,x和z分別代表時間間隔和范圍的個數(shù);
然后,對于每一個時間間隔mx,計算landmarks特征每一個維度中,第i+mx幀與第i幀之間的差值,得到差值矩陣;
最后,統(tǒng)計差值矩陣中每個維度在每個范圍rz中的分布個數(shù);將得到的分布個數(shù)除以原始landmarks特征的總幀數(shù),得到歸一化后的視頻landmarks全局特征;
步驟2:利用深度卷積神經(jīng)網(wǎng)絡(luò)提取步驟1中音、視頻統(tǒng)計特征的隱層抽象特征:
式(1)中,
σ(z)=max(0,z)(3)
以患者真實(shí)的phq-8得分為dcnn模型的監(jiān)督信息,通過重復(fù)(1)式和(2)式過程,進(jìn)行dcnn模型的訓(xùn)練;將音頻和視頻特征輸入訓(xùn)練好的dcnn模型中進(jìn)行一次前向過程,并將倒數(shù)第二層隱層數(shù)據(jù)取出,作為初級音頻視頻特征的隱層抽象特征;
步驟3:利用深度神經(jīng)網(wǎng)絡(luò)dnn進(jìn)行抑郁癥估計:將步驟2中得到音頻、視頻的隱層抽象特征作為dnn網(wǎng)絡(luò)的輸入,以標(biāo)準(zhǔn)phq-8得分為監(jiān)督信息,進(jìn)行單模態(tài)dnn模型的訓(xùn)練,用訓(xùn)練好的單模態(tài)dnn模型進(jìn)行新樣本的phq-8得分估計,從而得到音頻和視頻的單模態(tài)抑郁癥phq-8得分估計,然后采用決策融合的方法將音頻和視頻的單模態(tài)phq-8得分輸入另一個dnn模型中,再次以標(biāo)準(zhǔn)phq-8得分為監(jiān)督信息,進(jìn)行多模態(tài)dnn模型的訓(xùn)練,最終利用這個多模態(tài)dnn模型進(jìn)行新樣本的phq-8得分估計;其中單模態(tài)和多模態(tài)中的兩個dnn網(wǎng)絡(luò)中每層的激活函數(shù)都采用relu函數(shù);
步驟4:利用段向量pv方法進(jìn)行文本信息的高維特征映射:段向量框架共包含兩個步驟:訓(xùn)練字典中的詞向量w以及段向量d;
在第一個階段中,從日常交流用語中提取詞序列w1,w2,w3,...,wn以及段落序列p1,p2,p3,...,pm,n和m分別表示字典中詞的個數(shù)和段落的個數(shù);每個單詞被表示為一個向量
其中,k是1到n中的某個數(shù),概率p通過一個softmax函數(shù)得到:
上式中yi是關(guān)于w和d的函數(shù),計算方法如下:
y=b+uh(wt-k,...,wt+k;w,d)(6)
其中,u和b是softmax參數(shù);
在第二階段,將w,u,b固定,在d中加入反映患者生活狀態(tài)的文本的id信息,同時使用梯度下降法進(jìn)行這些新加入的文本的推理過程;最終得到段落向量d',即反映患者生活狀態(tài)的文本的高維特征表示;
步驟5:將步驟4中得到的高維特征表示輸入svm中進(jìn)行svm訓(xùn)練,用訓(xùn)練好的svm模型進(jìn)行二分類:更趨向抑郁癥的特征表現(xiàn)將被劃分為1,否則將被劃為0類;
步驟6:將步驟3中得到的多模態(tài)phq-8得分與步驟5中得到的0、1分類結(jié)果串接后輸入隨機(jī)森林randomforests模型進(jìn)行訓(xùn)練,用訓(xùn)練好的隨機(jī)森林randomforests模型實(shí)現(xiàn)最終抑郁癥的分類任務(wù),即抑郁或非抑郁。
有益效果
本發(fā)明提出的一種基于dcnn-dnn和pv-svm的多模態(tài)抑郁癥估計和分類方法,由于采用dcnn模型對初級音視頻提取了隱層抽象特征,這樣使原來高維特征變得更加緊湊,包含的信息更加豐富,從而使模型更加有效,避免了由于特征維度過高導(dǎo)致的過擬合現(xiàn)象。同時,該發(fā)明提供了一種利用文本信息的新思路,挖掘了更多的信息。這種高層特征與低層抽象特征相結(jié)合的方法,提高了抑郁癥的檢測準(zhǔn)確度。
1)提出一種基于dcnn-dnn的多模態(tài)抑郁癥估計模型。這種模型將深度卷積神經(jīng)網(wǎng)絡(luò)可以提取抽象特征的方法和深度神經(jīng)網(wǎng)絡(luò)挖掘特征隱含聯(lián)系的能力相結(jié)合,能夠有效的提高抑郁癥的識別精度。
2)提出一種基于pv-svm的抑郁癥文本分析方法。這種方法通過將涉及患者生活的文本信息輸入到段落向量pv模型中,實(shí)現(xiàn)將文本信息映射到要給高維特征空間,進(jìn)而通過支持向量機(jī)svm自動實(shí)現(xiàn)患者生活狀態(tài)的分類目標(biāo)。
3)本發(fā)明將dcnn-dnn模型和pv-svm模型相結(jié)合,通過將音視頻低層特征預(yù)測得到的抑郁癥程度與通過文本信息得到的生活狀態(tài)的分類結(jié)果相結(jié)合,最終實(shí)現(xiàn)抑郁癥的分類任務(wù)。
4)本發(fā)明提出一種特征統(tǒng)計方法“位移范圍直方圖”,這種方法有效的反映了患者的運(yùn)動信息和速度信息。
具體實(shí)施方式
本發(fā)明的具體步驟如下:
步驟一、利用位移范圍直方圖和opensmile工具對音視頻特征進(jìn)行預(yù)處理。此步驟分為兩部分:(1)將視頻landmarks特征輸入位移范圍直方圖統(tǒng)計方法中,得到視頻landmarks特征的全局特征;(2)將音頻lld特征輸入opensmile工具提取音頻全局統(tǒng)計信息。
所述的位移范圍直方圖統(tǒng)計方法步驟如下:
首先定義時間間隔m:={m1,m2,m3,...,mx},范圍r:={r1,r2,r3,...,rz},視頻landmarks特征作為位移范圍直方圖統(tǒng)計方法的輸入,x和z分別代表時間間隔和范圍的個數(shù)。
然后,對于每一個時間間隔mx,計算landmarks特征每一個維度中,第i+mx幀與第i幀之間的差值,得到差值矩陣。
最后,統(tǒng)計差值矩陣中每個維度在每個范圍rz中的分布個數(shù)。將得到的分布個數(shù)除以原始landmarks特征的總幀數(shù),得到歸一化后的視頻landmarks全局特征。
步驟二、利用深度卷積神經(jīng)網(wǎng)絡(luò)提取步驟一中音、視頻統(tǒng)計特征的隱層抽象特征。
式(1)中,
σ(z)=max(0,z)(3)
以患者真實(shí)的phq-8得分為dcnn模型的監(jiān)督信息,通過重復(fù)(1)式和(2)式過程,進(jìn)行dcnn模型的訓(xùn)練。本發(fā)明中,將音頻和視頻特征輸入訓(xùn)練好的dcnn模型中進(jìn)行一次前向過程,并將倒數(shù)第二層隱層數(shù)據(jù)取出,作為初級音頻視頻特征的隱層抽象特征。
步驟三、利用深度神經(jīng)網(wǎng)絡(luò)dnn進(jìn)行抑郁癥估計。dnn網(wǎng)絡(luò)的全連接結(jié)構(gòu)具有挖掘數(shù)據(jù)之間隱含聯(lián)系的能力,本發(fā)明中,將步驟二中得到的抽象特征作為dnn網(wǎng)絡(luò)的輸入,以標(biāo)準(zhǔn)phq-8得分為監(jiān)督信息,進(jìn)行dnn模型的訓(xùn)練,用訓(xùn)練好的dnn模型最終進(jìn)行新樣本的phq-8得分估計。在本發(fā)明中,dnn網(wǎng)絡(luò)中每層的激活函數(shù)采用relu函數(shù),由于relu的單側(cè)抑制特性,從一定程度上緩解了梯度消失現(xiàn)象。
步驟四、利用段向量pv方法進(jìn)行文本信息的高維特征映射。段向量通過無監(jiān)督學(xué)習(xí)方式可以將文本信息映射到一個特征向量空間中,這種方法可以將不同長度的文本映射到相同維度的空間中,同時能兼顧文本的順序信息。段向量框架共包含兩個步驟:訓(xùn)練字典中的詞向量w以及段向量d。在第一個階段中,我們定義:給定一個詞序列w1,w2,w3,...,wn以及一個段落序列p1,p2,p3,...,pm,n和m分別表示字典中詞的個數(shù)和段落的個數(shù)。每個單詞被表示為一個向量
其中,k是1到n中的某個數(shù),概率p通過一個softmax函數(shù)得到:
(5)中yi是關(guān)于w和d的函數(shù),計算方法如下:
y=b+uh(wt-k,...,wt+k;w,d)(6)
u和b是softmax參數(shù)。在第二階段,將w,u,b固定,在d中加入新段的id信息,同時使用梯度下降法進(jìn)行新樣本的推理過程。最終得到段落向量d',將文本信息映射到高維空間。本方法中使用40多萬句從網(wǎng)絡(luò)上獲取的日常對話進(jìn)行pv模型的訓(xùn)練,然后將新樣本的文本信息輸入pv模型,得到文本的高維特征表示。
步驟五、將步驟四中得到的高維特征表示輸入svm中進(jìn)行svm訓(xùn)練,用訓(xùn)練好的svm模型進(jìn)行二分類。我們定義:更趨向抑郁癥的特征表現(xiàn)將被劃分為1類(如睡眠差,心情糟糕等),否則將被劃為0類。
步驟六、將步驟三中得到的phq-8得分與步驟五中得到的0、1分類結(jié)果串接后輸入隨機(jī)森林randomforests模型進(jìn)行訓(xùn)練,用訓(xùn)練好的隨機(jī)森林randomforests模型實(shí)現(xiàn)最終抑郁癥的分類任務(wù),即抑郁或非抑郁。
現(xiàn)結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步描述:
1、音視頻特征提取。
本發(fā)明音頻采用opensmile開源工具包提取了238維底層描述符特征,同時在此基礎(chǔ)上,對每一維度的底層描述特征統(tǒng)計了29維functional特征,因此,共產(chǎn)生238*29=6902維音頻特征。提取的音頻特征如表1和表2所示。
表1opensmile提取的底層描述符特征*(238)
(*△和△△分別代表了一階和二階導(dǎo)數(shù))
表2opensmile提取的functional特征(29)
本發(fā)明中視頻采用人臉面部68個特征點(diǎn)的二維坐標(biāo)值,其中包括17個臉部輪廓點(diǎn),10個眉毛周圍點(diǎn),12個眼眶周圍點(diǎn),9個鼻子周圍點(diǎn)以及20個嘴部周圍點(diǎn)。每一個坐標(biāo)點(diǎn)由x和y坐標(biāo)值組成,因此68個點(diǎn)一共產(chǎn)生136維特征。
同時,為了統(tǒng)計視頻全局特征,本發(fā)明提出了一種全局特征統(tǒng)計方法“位移范圍直方圖”,該方法能有效的反映了特征點(diǎn)的運(yùn)動信息和速度信息。本發(fā)明中,采用性別獨(dú)立的抑郁癥研究,針對男性,我們提取出2710維位移范圍直方圖特征,針對女性,我們提取出4080維位移范圍直方圖特征。表3是該算法的詳細(xì)過程:
表3位移范圍直方圖算法流程
2、基于dcnn-dnn的抑郁癥估計。
a)基于dcnn的隱層抽象特征提取
通過將式(1)和式(2)多次組合,可以構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)。通過將音視頻全局特征作為dcnn網(wǎng)絡(luò)輸入,標(biāo)簽作為dcnn監(jiān)督信息,以最小化均方誤差為目標(biāo)函數(shù),對dcnn網(wǎng)絡(luò)進(jìn)行訓(xùn)練。當(dāng)網(wǎng)絡(luò)訓(xùn)練結(jié)束后,再次將音視頻全局特征作為網(wǎng)絡(luò)的輸入,進(jìn)行一次前向過程,并取出dcnn網(wǎng)絡(luò)倒數(shù)第二層特征,作為基于dcnn的隱層抽象特征。本發(fā)明中女性音頻和視頻隱層抽象特征均為30維,男性音頻隱層抽象特征為25維,視頻隱層抽象特征為20維。
b)基于dcnn-dnn的單模態(tài)抑郁癥估計
將a)中得到的隱層特征作為dnn模型的輸入,最終進(jìn)行單模態(tài)的抑郁癥估計。在dnn網(wǎng)絡(luò)中,我們采用σ(z)=max(0,z)作為每一層網(wǎng)絡(luò)的激活函數(shù)。
c)基于dcnn-dnn的多模態(tài)抑郁癥估計
通過b),我們得到音視頻單模態(tài)抑郁癥估計。本發(fā)明中采用決策融合的方法,將音頻和視頻單模態(tài)估計值輸入另一個dnn模型中,進(jìn)行最終多模態(tài)抑郁癥估計。
3、基于段落向量pv和svm的文本信息分類。
a)段落向量模型的訓(xùn)練
段向量通過無監(jiān)督學(xué)習(xí)方式可以將文本信息映射到一個特征向量空間中,這種方法可以將不同長度的文本映射到相同維度的空間中,同時能兼顧文本的順序信息。段向量框架共包含兩個步驟:訓(xùn)練字典中的詞向量w以及段向量d。在第一個階段中,我們定義:給定一個詞序列w1,w2,w3,...,wn以及一個段落序列p1,p2,p3,...,pm,n和m分別表示字典中詞的個數(shù)和段落的個數(shù)。每個單詞被表示為一個向量
其中,概率p通過一個softmax函數(shù)得到:
(4)中yi是關(guān)于w和d的函數(shù),計算方法如下:
y=b+uh(wt-k,...,wt+k;w,d)(6)
u和b是softmax參數(shù)。在第二階段,將w,u,b固定,在d中加入新段的id信息,同時使用梯度下降法進(jìn)行新樣本的推理過程。最終得到段落向量d',將文本信息映射到高維空間。在本發(fā)明中,使用了400000句日常交流用語(電視劇臺詞)用于訓(xùn)練pv模型。設(shè)置窗長為5,向量長度為100。
b)提取文本信息特征
本發(fā)明中提取可以反映患者生活狀態(tài)的文本信息,總結(jié)如下五點(diǎn):(1)反映患者睡眠狀態(tài)的文本信息;(2)反映患者最近一段時間內(nèi)的感覺好壞的文本信息;(3)反映患者性格特點(diǎn)的文本信息;(4)反映患者是否之前被診斷過抑郁癥的文本信息;(5)反映患者是否之前被診斷過創(chuàng)傷后應(yīng)激障礙的文本信息。將涉及到以上信息的文本輸入段落向量模型中,將會得到高維特征輸出,本發(fā)明中每句話將映射到100維向量空間中。
c)文本特征分類
我們定義,趨于抑郁癥的文本特征為1類(如睡眠不好,最近心情不好),而趨于非抑郁癥的特征為0類(如睡眠好,心情好)。將b)中得到的特征向量作為svm的輸入,然后對該輸入進(jìn)行0類和1類的二分類。
4、基于dcnn-dnn和pv-svm的抑郁癥分類。
由2和3中我們分別得到抑郁癥的多模態(tài)估計值,以及患者的文本信息分類結(jié)果。然后將多模態(tài)估計值和分類結(jié)果作為隨機(jī)森林的輸入,進(jìn)行最終的抑郁癥分類。
本發(fā)明利用dcnn-dnn模型實(shí)現(xiàn)了抑郁癥抑郁程度的估計,利用pv-svm模型對文本信息進(jìn)行了分析,最后實(shí)現(xiàn)了一個抑郁癥分類框架。經(jīng)過對本發(fā)明進(jìn)行的實(shí)驗檢驗,抑郁癥分類的f1值可達(dá)到0.822。