一種基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型識(shí)別方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型識(shí)別方法及裝置,該方法包括:對(duì)于輸入的海量開(kāi)源文本,基于通用語(yǔ)義詞典和句法依存關(guān)系,采用統(tǒng)計(jì)方法自動(dòng)構(gòu)建情感維度詞典;對(duì)所構(gòu)建的情感維度詞典進(jìn)行求精,求精具體包括語(yǔ)義、情感傾向的不一致性處理和非情感詞的過(guò)濾;基于求精后得到的高質(zhì)量的情感維度詞典,結(jié)合情感認(rèn)知結(jié)構(gòu)模型中情感維度值與情感類(lèi)型的對(duì)應(yīng)關(guān)系,得到相應(yīng)的情感類(lèi)型。本發(fā)明的上述方案設(shè)計(jì)思路、可解釋性、使用靈活性及有效性上均明顯優(yōu)于已有方法,可用于商務(wù)智能、社情輿情、決策評(píng)估等領(lǐng)域面向文本的情感分析與識(shí)別。
【專(zhuān)利說(shuō)明】一種基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型識(shí)別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)科學(xué)技術(shù)中的觀點(diǎn)挖掘和情感分析領(lǐng)域,尤其涉及一種基于情感的認(rèn)知結(jié)構(gòu)模型,采用統(tǒng)計(jì)方法構(gòu)建情感維度詞典,自動(dòng)識(shí)別出文本中的多種情感類(lèi)型的方法及其裝置。
【背景技術(shù)】
[0002]觀點(diǎn)挖掘和情感分析在社會(huì)公共安全、商務(wù)智能、社情輿情等領(lǐng)域具有十分重要的應(yīng)用價(jià)值。近年來(lái),社會(huì)媒體(人人網(wǎng)、科學(xué)網(wǎng)、博客、微博、微信等)在互聯(lián)網(wǎng)中的蓬勃發(fā)展導(dǎo)致了用戶產(chǎn)生的內(nèi)容在數(shù)量上呈爆炸式增長(zhǎng)。用戶產(chǎn)生的內(nèi)容中通常包含一定量的情感,能夠?yàn)樯鐣?huì)、經(jīng)濟(jì)、政治、文化相關(guān)的多個(gè)領(lǐng)域應(yīng)用提供關(guān)鍵信息和決策支持。
[0003]目前觀點(diǎn)挖掘和情感分析方法主要是識(shí)別觀點(diǎn)的正負(fù)極性和文本中多種情感類(lèi)型。識(shí)別觀點(diǎn)正負(fù)極性的方法主要包括文檔級(jí)、語(yǔ)句級(jí)、基于情感對(duì)象特征的識(shí)別方法。Turney (ACL, 2002)提出一種利用非監(jiān)督學(xué)習(xí)方法計(jì)算詞之間的互信息(PMI)來(lái)判斷整個(gè)文檔的正負(fù)極性。Pang等(ACL,2002)提出采用多種機(jī)器學(xué)習(xí)方法分類(lèi)每篇電影評(píng)論的正負(fù)極性。Wiebe等(Computational Linguistics, 2004)通過(guò)大量數(shù)據(jù)集學(xué)習(xí)線索和特征,區(qū)分主觀觀點(diǎn)和客觀事實(shí),并在語(yǔ)句級(jí)判斷觀點(diǎn)的正負(fù)極性。張長(zhǎng)利等(JASIST,2009)提出利用詞之間的依賴關(guān)系分析中文語(yǔ)句的正負(fù)傾向性。Hu等(SIGKDD,2004)利用頻繁挖掘算法獲得情感對(duì)象特征,再利用語(yǔ)義詞典確定情感詞的正負(fù)極性,從而輸出針對(duì)每個(gè)情感對(duì)象特征的相關(guān)正負(fù)評(píng)論。
[0004]文本中情感類(lèi)型的識(shí)別目前以分類(lèi)方法為主。Mishne (SIGIR,2005)提出一種基于特征的學(xué)習(xí)方法分類(lèi)博文中的情感類(lèi)型。Alm等(ACL,2005)提出利用與Mishne相似的方法分類(lèi)敘事文本中的基本情感類(lèi)型。Mostafa在博士論文(2008)中提出用大量手工標(biāo)注的數(shù)據(jù),基于主要的情感變量,計(jì)算語(yǔ)句中幾乎所有詞的情感變量值,進(jìn)而計(jì)算出整個(gè)語(yǔ)句的情感。其中,Mostafa公開(kāi)的方案不但需要大量人力標(biāo)注數(shù)據(jù),而且不加區(qū)分地計(jì)算句子中出現(xiàn)的詞,因而導(dǎo)致該方法的效率和性能較低。
【發(fā)明內(nèi)容】
[0005]本發(fā)明要解決的技術(shù)問(wèn)題是:給定大量的文本數(shù)據(jù)集,結(jié)合情感認(rèn)知理論,自動(dòng)識(shí)別出文本中所包含的主要情感類(lèi)型。
[0006]為了識(shí)別文本中豐富的情感類(lèi)型,同時(shí)盡可能避免手工標(biāo)注等費(fèi)時(shí)費(fèi)力的方法,本發(fā)明提出了一種基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型識(shí)別方法,其包括:
[0007]步驟1、對(duì)于輸入的海量開(kāi)源文本,基于通用語(yǔ)義詞典和句法依存關(guān)系,采用統(tǒng)計(jì)方法自動(dòng)構(gòu)建不同的情感維度詞典;其中,每個(gè)情感維度詞典具有一個(gè)確定的情感維度值;
[0008]步驟2、對(duì)所構(gòu)建的情感維度詞典進(jìn)行求精得到高質(zhì)量的情感維度詞典,求精具體包括語(yǔ)義、情感傾向的不一致性處理和非情感詞的過(guò)濾;[0009]步驟3、基于求精后得到的高質(zhì)量的情感維度詞典,結(jié)合情感認(rèn)知結(jié)構(gòu)模型中情感維度值與情感類(lèi)型的對(duì)應(yīng)關(guān)系,生成相應(yīng)的情感類(lèi)型。
[0010]本發(fā)明還公開(kāi)了一種基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型識(shí)別裝置,其包括:
[0011]情感維度詞典構(gòu)造模塊,其用于對(duì)于輸入的海量開(kāi)源文本,基于通用語(yǔ)義詞典和句法依存關(guān)系,采用統(tǒng)計(jì)方法自動(dòng)構(gòu)建情感維度詞典;其中,不同的情感維度詞典具有各自的情感維度值;
[0012]情感維度詞典求精模塊,其用于對(duì)所構(gòu)建的情感維度詞典進(jìn)行求精得到高質(zhì)量的情感維度詞典,求精具體包括語(yǔ)義、情感傾向的不一致性處理和非情感詞的過(guò)濾;
[0013]情感類(lèi)型產(chǎn)生模塊,其用于基于求精后得到的高質(zhì)量的情感維度詞典,結(jié)合情感認(rèn)知結(jié)構(gòu)模型中情感維度值與情感類(lèi)型的對(duì)應(yīng)關(guān)系,生成相應(yīng)的情感類(lèi)型。
[0014]與現(xiàn)有技術(shù)相比,本發(fā)明提出的基于認(rèn)知結(jié)構(gòu)模型來(lái)識(shí)別文本情感類(lèi)型的方法由于利用了情感的認(rèn)知結(jié)構(gòu)理論,不但可以輸出豐富的情感類(lèi)型,而且所需標(biāo)注的數(shù)據(jù)量非常少。因此,在輸出結(jié)果的可解釋性、使用靈活性及有效性方面較已有方法具有明顯的優(yōu)勢(shì)。
[0015]基于認(rèn)知心理學(xué)領(lǐng)域成熟的情感認(rèn)知結(jié)構(gòu)模型,自動(dòng)識(shí)別文本中所包含的主要情感類(lèi)型;
[0016]采用統(tǒng)計(jì)方法,基于句法依存關(guān)系和通用語(yǔ)義詞典,通過(guò)少量的標(biāo)注數(shù)據(jù)自動(dòng)構(gòu)建情感維度詞典;
[0017]賦予文本情感分析更深層次的認(rèn)知結(jié)構(gòu)關(guān)聯(lián),從而給情感類(lèi)型的輸出一個(gè)更加精細(xì)的符合認(rèn)知心理學(xué)模型的合理解釋。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0018]圖1是本發(fā)明中基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型的識(shí)別方法流程圖;
[0019]圖2是利用本發(fā)明提出的文本情感類(lèi)型生成過(guò)程的示例圖。
【具體實(shí)施方式】
[0020]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0021]本發(fā)明以認(rèn)知心理學(xué)中經(jīng)典的情感認(rèn)知結(jié)構(gòu)模型(以O(shè)CC認(rèn)知結(jié)構(gòu)模型為代表[Ortony, Clore&Collins,1988])為理論基礎(chǔ),建立自動(dòng)識(shí)別文本中情感類(lèi)型的方法。該模型可以描述多種不同情感類(lèi)型的認(rèn)知結(jié)構(gòu),在情感的計(jì)算建模中有著非常廣泛的應(yīng)用。模型中每個(gè)情感類(lèi)型的出現(xiàn)都由一定的條件觸發(fā),這些條件可以用不同的情感維度值來(lái)表達(dá),其中“合意性(Desirability) ”、“褒貶性(Praise-/Blame_worthiness) ” 和“可能性(Likelihood) ”是該模型中三個(gè)最為重要的情感維度變量?!昂弦庑浴迸c主體的目標(biāo)相關(guān)聯(lián),“褒貶性”與行為是否符合社會(huì)道德標(biāo)準(zhǔn)相關(guān)聯(lián),而“可能性”則表示對(duì)事件發(fā)生的期望。
[0022]在情感認(rèn)知結(jié)構(gòu)理論中,每個(gè)情感維度變量有不同的取值?!昂弦庑浴本S度的取值包括“合意的(Desirable) ”和“不合意的(Undesirable) ”。當(dāng)某些事件的發(fā)生有利于最終目標(biāo)的實(shí)現(xiàn)時(shí),這種情況對(duì)于主體而言是合意的;反之則是不合意的。類(lèi)似地,“褒貶性”維度的取值有“值得稱贊的(Praiseworthy) ”和“應(yīng)受責(zé)備的(Blameworthy)”?!翱赡苄浴本S度有“可能的(Likely)”和“確定的”這兩個(gè)取值。情感維度變量的不同取值及其組合可以生成不同的情感類(lèi)型。例如,如果“合意的”事件的可能性是“確定的”,引發(fā)“高興”情感;否則引發(fā)“希望”。如果個(gè)體“值得表?yè)P(yáng)的”行為帶來(lái)合己意的行為后果,則導(dǎo)致“驕傲”情感的產(chǎn)生。本發(fā)明的工作可以生成六種主要情感類(lèi)型:高興(Joy)、悲傷(Distress)、希望(Hope)、恐懼(Fear)、驕傲(Pride)和羞恥(Shame)。
[0023]為此,本發(fā)明提出了一種基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型的識(shí)別方法。該方法中,文本中情感類(lèi)型的分析識(shí)別基于認(rèn)知理論中的情感認(rèn)知結(jié)構(gòu)模型,模型中主要通過(guò)情感維度值來(lái)確定情感類(lèi)型,因此,建立文本情感類(lèi)型識(shí)別系統(tǒng)的關(guān)鍵是自動(dòng)構(gòu)建高質(zhì)量的情感維度詞典。
[0024]圖1示出了本發(fā)明中基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型的識(shí)別方法流程圖。如圖1所示,該方法包括:
[0025]步驟1、面向海量開(kāi)源文本,基于通用語(yǔ)義詞典和句法依存關(guān)系,采用統(tǒng)計(jì)方法自動(dòng)構(gòu)建情感維度詞典;
[0026]步驟2、對(duì)所構(gòu)建的情感維度詞典進(jìn)行求精,求精具體包括語(yǔ)義、情感傾向的不一致性處理和非情感詞的過(guò)濾;
[0027]步驟3、基于求精后得到的高質(zhì)量的情感維度詞典,結(jié)合情感認(rèn)知結(jié)構(gòu)模型中情感維度值與情感類(lèi)型的對(duì)應(yīng)關(guān)系,生成多種主要的情感類(lèi)型。
[0028]下面詳細(xì)介紹上述各個(gè)步驟。
[0029]步驟1、情感維度詞典的建立:
[0030]情感維度詞典是基于句法依存關(guān)系和通用語(yǔ)義詞典,采用統(tǒng)計(jì)的方法自動(dòng)構(gòu)建的。輸入是海量的文本和關(guān)于某個(gè)情感維度值的種子詞,輸出是針對(duì)這個(gè)情感維度值建立起來(lái)的情感維度詞典。這里情感維度值可以是“合意的“(Desirable) ”、“不合意的(Undesirable) ”、“值得稱贊的(Praiseworthy) ”、“應(yīng)受責(zé)備的(Blameworthy) ”和“可能的(Likely) ”。具體步驟如下:
[0031]步驟1.1、手工挑選少量高質(zhì)量的每種情感維度種子詞,作為初始的情感維度詞典輸入;情感維度詞典包括DICrDICpDICpDIC;和DIQ,分別表示合意的情感維度詞典、不合意的情感維度詞典、值得稱贊的情感維度詞典、應(yīng)受責(zé)備的情感維度詞典和可能的情感維度詞典;
[0032]步驟1.2、針對(duì)情感維度詞典中每個(gè)新加入的情感維度詞,基于通用語(yǔ)義詞典,找出其同義詞和反義詞,并將其同義詞和反義詞分別放入相應(yīng)的情感維度詞典候選集中;
[0033]步驟1.3、利用句法依存關(guān)系(如:conj_and、conj_or、prep_in、parataxis 等)從輸入的海量文本中找出與所述相應(yīng)的情感維度詞典中已有的情感維度詞具有依存關(guān)系的新情感維度詞,放入相應(yīng)的情感維度詞典候選集中;
[0034]步驟1.4、利用評(píng)分函數(shù)對(duì)相應(yīng)的情感維度詞典候選集進(jìn)行評(píng)價(jià)與過(guò)濾,選取其中評(píng)分大于閾值的候選集中的情感詞,放入相應(yīng)的情感維度詞典中;
[0035]步驟1.5、不斷重復(fù)步驟1.2-1.4,直到不再有新的情感維度詞加入;
[0036]步驟1.6、利用通用語(yǔ)義詞典中的派生以及還原關(guān)系擴(kuò)充情感維度詞典。
[0037]其中,步驟1.4中所述的評(píng)分函數(shù)如下表示:
【權(quán)利要求】
1.一種基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型識(shí)別方法,其包括:步驟1、對(duì)于輸入的海量開(kāi)源文本,基于通用語(yǔ)義詞典和句法依存關(guān)系,采用統(tǒng)計(jì)方法自動(dòng)構(gòu)建不同的情感維度詞典;其中,每個(gè)情感維度詞典具有一個(gè)確定的情感維度值;步驟2、對(duì)所構(gòu)建的情感維度詞典進(jìn)行求精得到高質(zhì)量的情感維度詞典,求精具體包括語(yǔ)義、情感傾向的不一致性處理和非情感詞的過(guò)濾;步驟3、基于求精后得到的高質(zhì)量的情感維度詞典,結(jié)合情感認(rèn)知結(jié)構(gòu)模型中情感維度值與情感類(lèi)型的對(duì)應(yīng)關(guān)系,生成相應(yīng)的情感類(lèi)型。
2.如權(quán)利要求1所述的識(shí)別方法,其特征在于,步驟I中情感維度詞典包括合意的情感維度詞典、不合意的情感維度詞典、值得稱贊的情感維度詞典、應(yīng)受責(zé)備的情感維度詞典和可能的情感維度詞典。
3.如權(quán)利要求1所述的識(shí)別方法,其特征在于,步驟I具體包括:步驟1.1、輸入每種情感維度種子詞,作為初始的情感維度詞典輸入;步驟1.2、針對(duì)每個(gè)情感維度詞典中新加入的情感維度詞,基于通用語(yǔ)義詞典,找出其同義詞和反義詞,并將其同義詞和反義詞放入相應(yīng)的情感維度詞典候選集中;步驟1.3、利用句法依存關(guān)系,從輸入文本中找出與所述每個(gè)情感維度詞典中已有的情感維度詞具有依存關(guān)系的新情感維度詞,放入相應(yīng)的情感維度詞典候選集中;步驟1.4、利用評(píng)分函數(shù)對(duì)所述情感維度詞典候選集進(jìn)行評(píng)價(jià)與過(guò)濾,選取其中評(píng)分大于閾值的候選集中的情感詞,放入相應(yīng)的情感維度詞典中;步驟1.5、不斷重復(fù)步驟1.2-1.4,直到不再有新的情感維度詞加入;步驟1.6、利用通用語(yǔ)義詞典中的派生以及還原關(guān)系擴(kuò)充每個(gè)情感維度詞典。
4.如權(quán)利要求3所述的識(shí)別方法,其特征在于,步驟1.4中的評(píng)分函數(shù)既考慮當(dāng)前情感維度詞典候選集中待評(píng)價(jià)的候選詞與其對(duì)應(yīng)的情感維度詞典中的詞共現(xiàn)的次數(shù),也考慮與其對(duì)應(yīng)的情感維度詞典在所有情感維度詞典中所占的情感詞的比例。
5.如權(quán)利要求3所述的識(shí)別方法,其特征在于,步驟1.4中所述評(píng)分函數(shù)如下表示:
6.如權(quán)利要求1所述的識(shí)別方法,其特征在于,步驟2中所述語(yǔ)義不一致性是指同一個(gè)詞在同一情感維度值上具有相互矛盾的取值;情感傾向不一致性是指一個(gè)詞同時(shí)具有正負(fù)情感傾向上相互沖突的情感維度值。
7.如權(quán)利要求1所述的識(shí)別方法,其特征在于,步驟2中基于通用語(yǔ)義詞典中的同義和反義關(guān)系,去除語(yǔ)義不一致和情感傾向不一致的詞。
8.如權(quán)利要求1、6-7所述的識(shí)別方法,其特征在于,步驟2中對(duì)于當(dāng)前待求精的情感詞根據(jù)下式求其計(jì)算得分,以過(guò)濾語(yǔ)義不一致和情感傾向不一致的詞:
9.如權(quán)利要求1所述的識(shí)別方法,其特征在于,步驟I中,所述該句法依存關(guān)系包括語(yǔ)義相近或者相反的詞。
10.一種基于認(rèn)知結(jié)構(gòu)模型的文本情感類(lèi)型識(shí)別裝置,其包括:情感維度詞典構(gòu)造模塊,其用于對(duì)于輸入的海量開(kāi)源文本,基于通用語(yǔ)義詞典和句法依存關(guān)系,采用統(tǒng)計(jì)方法自動(dòng)構(gòu)建不同的情感維度詞典;其中,每個(gè)情感維度詞典具有一個(gè)確定的情感維度值;情感維度詞典求精模塊,其用于對(duì)所構(gòu)建的情感維度詞典進(jìn)行求精得到高質(zhì)量的情感維度詞典,求精具體包括語(yǔ)義、情感傾向的不一致性處理和非情感詞的過(guò)濾;情感類(lèi)型產(chǎn)生模塊,其用于基于求精后得到的高質(zhì)量的情感維度詞典,結(jié)合情感認(rèn)知結(jié)構(gòu)模型中情感維度值與情感類(lèi)型的對(duì)應(yīng)關(guān)系,生成相應(yīng)的情感類(lèi)型。
【文檔編號(hào)】G06F17/27GK103440235SQ201310363414
【公開(kāi)日】2013年12月11日 申請(qǐng)日期:2013年8月20日 優(yōu)先權(quán)日:2013年8月20日
【發(fā)明者】毛文吉, 曾大軍, 皇甫璐雯, 王磊 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所