本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別是涉及文章情感的分析方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,互聯(lián)網(wǎng)上出現(xiàn)的文章數(shù)量也是越來越多。人們?cè)诠ぷ鞯倪^程中有時(shí)候需要一篇或多篇文章的情感傾向,面對(duì)浩瀚的網(wǎng)絡(luò)文章,依靠人工評(píng)判難以做到及時(shí)響應(yīng),通過計(jì)算機(jī)來實(shí)現(xiàn)文章情感分析的技術(shù)也應(yīng)運(yùn)而生。
傳統(tǒng)的情感分析的方法,通常都是對(duì)每個(gè)詞語設(shè)置了固定的情感數(shù)值,情感數(shù)值體現(xiàn)出了該詞語的情感色彩,比如為負(fù)面情感或正面情感。然后根據(jù)組成一篇文章的每個(gè)詞語的情感數(shù)值進(jìn)行簡單的疊加,即得到了該文章所表達(dá)的情感。然而由于語言的復(fù)雜性,同樣的詞語用在不同的語言環(huán)境或與不同的詞語的組合,所表達(dá)的情感也不盡相同。因此,傳統(tǒng)的文章情感分析的方法所分析出的文章所表達(dá)的情感的準(zhǔn)確性不高。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對(duì)上述技術(shù)問題,提供一種能夠提高文章的情感分析的準(zhǔn)確性的文章情感的分析方法和裝置。
一種文章情感的分析方法,所述方法包括以下步驟:
獲取待分析的文章;
對(duì)所述文章中的內(nèi)容進(jìn)行詞句切分,生成對(duì)應(yīng)數(shù)量的詞句;
根據(jù)所述詞句確定所述文章描述的主體;
獲取每個(gè)詞句的特征向量;
根據(jù)每個(gè)詞句的特征向量計(jì)算所述文章對(duì)所述主體的描述的情感強(qiáng)度。
在其中一個(gè)實(shí)施例中,所述獲取每個(gè)詞句的特征向量的步驟,包括:
對(duì)切分后的詞句進(jìn)行篩選,獲取篩選后的詞句的特征向量;
所述根據(jù)每個(gè)詞句的特征向量計(jì)算所述文章對(duì)所述主體的描述的情感強(qiáng)度的步驟,包括:
根據(jù)篩選后的詞句的特征向量計(jì)算所述文章對(duì)所述主體的描述的情感強(qiáng)度。
在其中一個(gè)實(shí)施例中,所述獲取每個(gè)詞句的特征向量的步驟,包括:
當(dāng)獲取不到所述詞句的特征向量時(shí),檢測預(yù)設(shè)的詞庫中是否存在與所述詞句相近的詞句,若是,則獲取該相近詞句的特征向量,將其作為該詞句的特征向量,若否,則將預(yù)設(shè)的默認(rèn)特征向量作為所述詞句的特征向量。
在其中一個(gè)實(shí)施例中,所述根據(jù)每個(gè)詞句的特征向量計(jì)算所述文章對(duì)所述主體的描述的情感強(qiáng)度的步驟,包括:
根據(jù)每個(gè)詞句的特征向量計(jì)算對(duì)應(yīng)文章的特征向量;
根據(jù)所述文章的特征向量計(jì)算出所述文章的情感數(shù)值;
根據(jù)所述文章的感情數(shù)值確定所述文章對(duì)所述主體的描述的情感強(qiáng)度。
在其中一個(gè)實(shí)施例中,所述根據(jù)所述文章的特征向量計(jì)算出所述文章的情感數(shù)值的步驟,包括:
重復(fù)預(yù)設(shè)次數(shù),從文章的特征向量中隨機(jī)選取第一數(shù)量的參數(shù),構(gòu)成對(duì)應(yīng)的第二數(shù)量的子向量;
計(jì)算每個(gè)子向量對(duì)應(yīng)的子情感數(shù)值,根據(jù)每個(gè)子情感數(shù)值計(jì)算所述文章的情感數(shù)值。
在其中一個(gè)實(shí)施例中,所述方法還包括:
獲取主體相同的文章的情感強(qiáng)度,計(jì)算相同主體的綜合情感強(qiáng)度。
一種文章情感的分析裝置,所述裝置包括:
文章獲取模塊,用于獲取待分析的文章;
詞句切分模塊,用于對(duì)所述文章中的內(nèi)容進(jìn)行詞句切分,生成對(duì)應(yīng)數(shù)量的詞句;
主體確定模塊,用于根據(jù)所述詞句確定所述文章描述的主體;
特征向量獲取模塊,用于獲取每個(gè)詞句的特征向量;
情感強(qiáng)度計(jì)算模塊,用于根據(jù)每個(gè)詞句的特征向量計(jì)算所述文章對(duì)所述主體的描述的情感強(qiáng)度。
在其中一個(gè)實(shí)施例中,所述情感強(qiáng)度計(jì)算模塊還用于根據(jù)每個(gè)詞句的特征向量計(jì)算對(duì)應(yīng)文章的特征向量;根據(jù)所述文章的特征向量計(jì)算出所述文章的情感數(shù)值,根據(jù)所述文章的感情數(shù)值確定所述文章對(duì)所述主體的描述的情感強(qiáng)度。
在其中一個(gè)實(shí)施例中,所述情感強(qiáng)度計(jì)算模塊還包括:
子向量構(gòu)建單元,用于重復(fù)預(yù)設(shè)次數(shù),從文章的特征向量中隨機(jī)選取第一數(shù)量的參數(shù),構(gòu)成對(duì)應(yīng)的第二數(shù)量的子向量;
情感數(shù)值計(jì)算單元,用于計(jì)算每個(gè)子向量對(duì)應(yīng)的子情感數(shù)值,根據(jù)每個(gè)子情感數(shù)值計(jì)算所述文章的情感數(shù)值。
在其中一個(gè)實(shí)施例中,所述裝置還包括:
綜合情感強(qiáng)度計(jì)算模塊,用于獲取主體相同的文章的情感強(qiáng)度,計(jì)算相同主體的綜合情感強(qiáng)度。
上述文章情感的分析方法和裝置,通過預(yù)先設(shè)置每個(gè)詞句的特征向量,并對(duì)文章進(jìn)行詞句切分,以確定文章的描述主體,然后根據(jù)所切分的詞句的特征向量,計(jì)算出該文章對(duì)主體的描述的情感強(qiáng)度。相比于傳統(tǒng)的通過每個(gè)詞語對(duì)應(yīng)的固定數(shù)值來計(jì)算文章的情感強(qiáng)度,本實(shí)施例所提供的文章情感的分析方法,所計(jì)算出的文章所表達(dá)的情感強(qiáng)度的準(zhǔn)確性更高。
附圖說明
圖1為一個(gè)實(shí)施例中用于執(zhí)行文章情感的分析方法的服務(wù)器或終端的內(nèi)部結(jié)構(gòu)示意圖;
圖2為一個(gè)實(shí)施例中文章情感的分析方法的流程圖;
圖3為一個(gè)實(shí)施例中根據(jù)每個(gè)詞句的特征向量計(jì)算文章對(duì)主體的描述的情感強(qiáng)度的步驟的流程圖;
圖4為一個(gè)實(shí)施例中根據(jù)文章的特征向量計(jì)算出文章的情感數(shù)值的步驟的流程圖;
圖5為另一個(gè)實(shí)施例中文章情感的分析方法的流程圖;
圖6為一個(gè)實(shí)施例中文章情感的分析裝置的結(jié)構(gòu)框圖;
圖7為一個(gè)實(shí)施例中情感強(qiáng)度計(jì)算模塊的結(jié)構(gòu)框圖;
圖8為另一個(gè)實(shí)施例中文章情感的分析裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
在一個(gè)實(shí)施例中,如圖1所示,為一個(gè)終端或服務(wù)器或終端的內(nèi)部結(jié)構(gòu)示意圖。該服務(wù)器或終端包括通過系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)和內(nèi)存儲(chǔ)器。其中,服務(wù)器的非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng)和數(shù)據(jù)庫,還包括一種文章情感的分析裝置。數(shù)據(jù)庫用于存儲(chǔ)于實(shí)現(xiàn)一種文章情感的分析方法相關(guān)的數(shù)據(jù),包括存儲(chǔ)預(yù)先建立的詞句的語義數(shù)據(jù)等,文章情感的分析裝置用于實(shí)現(xiàn)一種文章情感的分析方法。該處理器用于提供計(jì)算和控制能力,支撐整個(gè)服務(wù)器的運(yùn)行。服務(wù)器中的內(nèi)存儲(chǔ)器為非易失性存儲(chǔ)介質(zhì)中的文章情感的分析裝置的運(yùn)行提供環(huán)境,該內(nèi)存儲(chǔ)器中可儲(chǔ)存有計(jì)算機(jī)可讀指令,該計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí),可使得處理器執(zhí)行一種文章情感的分析方法。本領(lǐng)域技術(shù)人員可以理解,圖1中示出的結(jié)構(gòu),僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的服務(wù)器的限定,具體的服務(wù)器可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
在一個(gè)實(shí)施例中,如圖2所示,提供了一種文章情感的分析方法,該方法可應(yīng)用與如圖1所示的服務(wù)器或終端中,包括以下步驟:
步驟202,獲取待分析的文章。
本實(shí)施例中,可從預(yù)先設(shè)置好的一個(gè)或多個(gè)網(wǎng)站中獲取其所公布的文章,或者直接讀取預(yù)先準(zhǔn)備好的文章,將所獲取到的準(zhǔn)備分析其所表達(dá)的情感的文章。待分析的文章可以是中文文章,也可以是英文文章等。其中,待分析的文章包括文章標(biāo)題與文章正文,還包括作者、發(fā)表時(shí)間以及章節(jié)以及文章等其中的一種或多種。文章所表達(dá)的情感包括正面情感、負(fù)面情感以及中立的情感。
步驟204,對(duì)文章中的內(nèi)容進(jìn)行詞句切分,生成對(duì)應(yīng)數(shù)量的詞句。
本實(shí)施例中,預(yù)先建立了詞句的語義數(shù)據(jù)庫,該語義數(shù)據(jù)庫中包含了大量的詞句(即詞語和句子)。終端或服務(wù)器可根據(jù)文章所屬語言,按照相應(yīng)的語法樹的規(guī)則,并結(jié)合語義數(shù)據(jù)庫中所記錄的句子,將文章中的每個(gè)句子切分成相應(yīng)數(shù)量的詞句。并確定每個(gè)詞語在該句子中的詞性以及在文章中所處的位置,比如確定某個(gè)詞語為名詞,并為該句子中的主語。詞句在文章中所處的位置包括處于標(biāo)題、處于文章正文中、處于章節(jié)的題目中、文章作者、發(fā)表時(shí)間等。
在一個(gè)實(shí)施例中,在進(jìn)行詞句切分的過程中,若一個(gè)句子中的連續(xù)排列在一塊的多個(gè)詞語,在數(shù)據(jù)庫中對(duì)應(yīng)存在一個(gè)完整的詞語,則將該多個(gè)詞語組成一個(gè)詞語,使切割后的詞句保持一個(gè)整體。
舉例來說,比如存在一個(gè)句子如下“平安科技有限公司……”,則在進(jìn)行詞句切分的時(shí)候,“平安”、“科技”、“公司”這些都可作為一個(gè)獨(dú)立的詞語,若數(shù)據(jù)庫中保存了一個(gè)獨(dú)立的詞語為“平安科技有限公司”,則將該句子中的“平安科技有限公司”保留為一個(gè)整體,使其不再進(jìn)行進(jìn)一步切分。
步驟206,根據(jù)詞句確定文章描述的主體。
本實(shí)施例中,可根據(jù)切分后的詞句的詞性以及在文章中所處的位置來確定該文章描述的主體??芍苯訉?duì)文章標(biāo)題進(jìn)行語法分析邏輯判斷,將標(biāo)題的主語作為文章描述的主體。還可進(jìn)一步根據(jù)語法分析邏輯分析每個(gè)句子的主語,統(tǒng)計(jì)具有相同含義的主語的詞語的出現(xiàn)次數(shù),將統(tǒng)計(jì)出的出現(xiàn)的次數(shù)最多的具有相同含義的詞語所表示的含義作為文章描述的主體。
舉例來說,若一篇文章中,出現(xiàn)“平安科技”、“平安公司”以及“平安公司總裁”這三個(gè)主語,則可將上述的三個(gè)主語識(shí)別為表示具有相同含義的主語的詞語,其描述的主體均為“平安科技有限公司”。
步驟208,獲取每個(gè)詞句的特征向量。
本實(shí)施例中,語義數(shù)據(jù)庫中還進(jìn)一步設(shè)置了每個(gè)詞句的實(shí)數(shù)特征向量,每個(gè)詞句的特征向量的維數(shù)相同(設(shè)為維向量),每一維度的參數(shù)表征了該詞句在對(duì)應(yīng)一個(gè)方面上的語義。其中,維數(shù)越大,則該特征向量所能夠表示的一個(gè)詞句的語義也就越豐富。比如,該特征向量的第一個(gè)維度表示的是一個(gè)詞句屬于名詞的概率。在一個(gè)實(shí)施例中,每個(gè)詞句的特征向量為150維的實(shí)數(shù)向量。
具體的,可通過深度學(xué)習(xí)的思想,利用預(yù)先建立的語言模型,將數(shù)據(jù)庫中的每個(gè)詞句作為特征,將其射到K維向量空間進(jìn)行訓(xùn)練,獲取一個(gè)詞句向量空間上的表示,最終訓(xùn)練得出的詞句具有唯一對(duì)應(yīng)的一個(gè)特征向量。其中,可結(jié)合潛在語義分析(Latent Semantic Index,LSI)、潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)或者Word2vec等來建立語言模型。其中,K值可為自定義的一個(gè)數(shù)值,比如為100、120、150、180、200等。
步驟210,根據(jù)每個(gè)詞句的特征向量計(jì)算文章對(duì)主體的描述的情感強(qiáng)度。
本實(shí)施例中,在獲取到每個(gè)詞句的特征向量后,可根據(jù)每個(gè)詞句的特征向量,進(jìn)行向量運(yùn)算,計(jì)算出文章對(duì)主體的情感強(qiáng)度。該情感強(qiáng)度可通過情感數(shù)值來體現(xiàn)。其中,情感數(shù)值為一個(gè)實(shí)數(shù),具體可為處于一個(gè)實(shí)數(shù)范圍內(nèi)的實(shí)數(shù),比如為處于-1到1之間的實(shí)數(shù)。數(shù)字越小,所表達(dá)的負(fù)面情感越強(qiáng)烈;反之,則表達(dá)的正面情感越強(qiáng)烈;處于越中間的數(shù)值,則表示的情感越中立。
本實(shí)施例中,通過預(yù)先設(shè)置每個(gè)詞句的特征向量,并對(duì)文章進(jìn)行詞句切分,以確定文章的描述主體,然后根據(jù)所切分的詞句的特征向量,根據(jù)該特征向量計(jì)算出文章對(duì)主體的描述的情感強(qiáng)度。相比于傳統(tǒng)的通過每個(gè)詞語對(duì)應(yīng)的固定數(shù)值來計(jì)算文章的情感強(qiáng)度,本實(shí)施例所提供的文章情感的分析方法,所計(jì)算出的文章所表達(dá)的情感強(qiáng)度的準(zhǔn)確性更高。
在一個(gè)實(shí)施例中,步驟208包括:對(duì)切分后的詞句進(jìn)行篩選,獲取篩選后的詞句的特征向量。
步驟210包括:根據(jù)篩選后的詞句的特征向量計(jì)算文章對(duì)主體的描述的情感強(qiáng)度。
本實(shí)施例中,在完成對(duì)文章中的內(nèi)容的詞句切分后,可根據(jù)所切分的詞句的詞性,進(jìn)行篩選,以刪除對(duì)于文章的情感數(shù)值計(jì)算具有干擾或意義不大的詞句。具體的,可將詞性判斷為停用詞或助詞等詞性的詞句進(jìn)行刪除。比如,停用詞為“the”、“is”、“at”、“that”、“是”、“的”等,助詞比如為“也”、“者”、“乎”等。并獲取刪除后的詞句的特征向量,根據(jù)刪除后的詞句的特征向量來計(jì)算該文章對(duì)主體所表達(dá)的情感強(qiáng)度。
本實(shí)施例中,通過進(jìn)一步對(duì)所切分后的詞句的篩選,根據(jù)篩選后的詞句的特征向量計(jì)算文章的情感數(shù)值,既可減少情感數(shù)值的計(jì)算量,又可排除被刪除的詞句的干擾,提高了情感強(qiáng)度的計(jì)算的準(zhǔn)確性。
在一個(gè)實(shí)施例中,步驟208包括:當(dāng)獲取不到詞句的特征向量時(shí),檢測預(yù)設(shè)的詞庫中是否存在與詞句相近的詞句,若是,則獲取該相近詞句的特征向量,將其作為該詞句的特征向量,若否,則將預(yù)設(shè)的默認(rèn)特征向量作為詞句的特征向量。
本實(shí)施例中,數(shù)據(jù)庫中所存儲(chǔ)的詞句雖然眾多,但一般無法窮盡所有的詞句。因而待分析的文章中,可能使用了在數(shù)據(jù)庫中不存在的詞句。此時(shí),可查詢數(shù)據(jù)庫中是否存在與該詞句的含義相同或相近的詞句,若存在,則將查詢出存在與該詞句含義最相近的詞句的特征向量作為該在數(shù)據(jù)庫中不存在的詞句的特征向量。若不存在,則將以預(yù)設(shè)的一個(gè)默認(rèn)特征向量作為該詞句的特征向量,或者還可直接刪除該詞句。
本實(shí)施例中,含義越相同的詞句,其特征向量特越相近,甚至在多數(shù)維度上的數(shù)值相同,僅在個(gè)別維度上的數(shù)值有較小的差別。因此,當(dāng)數(shù)據(jù)庫中不存在某一詞句的特征向量時(shí),可將與其相近的詞句的特征向量作為該詞句的特征向量,若也不存在與其相近的詞句,則將一個(gè)默認(rèn)的特征向量作為該詞句的特征向量。由于一篇文章中,存在這類的詞句的數(shù)量較少,采用上述的方法可保證最終所計(jì)算出的文章的情感強(qiáng)度的準(zhǔn)確性。
在一個(gè)實(shí)施例中,如圖3所示,根據(jù)每個(gè)詞句的特征向量計(jì)算文章對(duì)主體的描述的情感強(qiáng)度的步驟,包括:
步驟302,根據(jù)每個(gè)詞句的特征向量計(jì)算對(duì)應(yīng)文章的特征向量。
本實(shí)施例中,可將每個(gè)詞句的特征向量進(jìn)行加權(quán)求和,將所得到的特征向量作為對(duì)應(yīng)文章的特征向量。具體的,每個(gè)特征向量對(duì)應(yīng)的權(quán)值可為一個(gè)默認(rèn)的相同權(quán)值,還可結(jié)合每個(gè)詞句的詞性及其在文章中所處的位置,設(shè)置相對(duì)應(yīng)的權(quán)值。比如,可將處于標(biāo)題中的詞句設(shè)置相對(duì)較大的權(quán)值,而將文章正文部分的詞句設(shè)置相對(duì)較小的權(quán)值;將詞性為名詞的詞句設(shè)置相對(duì)較小的權(quán)值,而將形容詞設(shè)置相對(duì)較大的權(quán)值。
步驟304,根據(jù)文章的特征向量計(jì)算出文章的情感數(shù)值。
步驟306,根據(jù)文章的感情數(shù)值確定文章對(duì)主體的描述的情感強(qiáng)度。
本實(shí)施例中,在得到文章的特征向量后,可將其代入預(yù)先建立的情感數(shù)值計(jì)算模型中,計(jì)算出該文章的情感數(shù)值,然后根據(jù)該文章的情感數(shù)值確定文章對(duì)主體的描述的情感強(qiáng)度。
該情感數(shù)值計(jì)算模型為根據(jù)機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘的初步模型,并經(jīng)過樣本數(shù)據(jù)的訓(xùn)練,最終得到的一個(gè)情感數(shù)值計(jì)算模型。其中,樣本數(shù)據(jù)為具有一定數(shù)量(比如10000篇)的樣本文章。每篇樣本文章均設(shè)置了人工打出的情感數(shù)值,將該情感數(shù)值作為文章的特征向量的一個(gè)維度。比如,待分析的文章的特征向量為150維,則樣本文章的特征向量即為151維,其中,第1維即為人工設(shè)置的情感數(shù)值??蓪⒃摌颖疚恼麓氤醪侥P椭羞M(jìn)行訓(xùn)練,根據(jù)訓(xùn)練結(jié)果對(duì)模型中的相關(guān)參數(shù)進(jìn)行修正,直到計(jì)算得到的每篇文章的情感數(shù)值與對(duì)應(yīng)人工設(shè)置的情感數(shù)值相同或處于一定范圍的誤差之內(nèi)為止。此時(shí),所得到的模型即為最終的情感數(shù)值計(jì)算模型。
具體的,將該文章的特征向量代入所建立的情感數(shù)值計(jì)算模型中,該模型可按照決策樹的方法,將該特征向量進(jìn)行分裂變量生成樹,按照所確定的參數(shù)進(jìn)行計(jì)算,最終該樹的葉子節(jié)點(diǎn)輸出模型結(jié)果,該結(jié)果為一個(gè)數(shù)值,該數(shù)值即可作為該文章的情感數(shù)值。
本實(shí)施例中,通過根據(jù)詞句的特征向量計(jì)算出文章的特征向量,進(jìn)而再根據(jù)文章的特征向量計(jì)算出對(duì)應(yīng)文章的情感數(shù)值,根據(jù)文章的感情數(shù)值確定文章對(duì)主體的描述的情感強(qiáng)度,可進(jìn)一步提高計(jì)算出的文章的情感數(shù)值的準(zhǔn)確性。
在一個(gè)實(shí)施例中,如圖4所示,根據(jù)文章的特征向量計(jì)算出文章的情感數(shù)值的步驟,包括:
步驟402,重復(fù)預(yù)設(shè)次數(shù),從文章的特征向量中隨機(jī)選取第一數(shù)量的參數(shù),構(gòu)成對(duì)應(yīng)的第二數(shù)量的子向量。
本實(shí)施例中,預(yù)先設(shè)置了子向量的維度,該維度小于文章的特征向量(記為N維子向量)。服務(wù)器可從文章的特征向量中,隨機(jī)或按照一定的選取規(guī)則選取N個(gè)參數(shù),構(gòu)成一個(gè)N為子向量。并重復(fù)執(zhí)行預(yù)設(shè)次數(shù),得到第二數(shù)量的子向量,其中,每個(gè)子向量所包含的文章的特征向量的參數(shù)不完全相同。預(yù)設(shè)次數(shù)可為根據(jù)特征向量與子向量的維度所設(shè)置的一個(gè)合適的數(shù)值。比如,可設(shè)置第二數(shù)量為K-N+1,重復(fù)預(yù)設(shè)次數(shù)為K-N+1次。并依次從文章的K為特征向量中選取第1~N個(gè)參數(shù)、第2~N+1個(gè)參數(shù)…第K-N+1~K個(gè)參數(shù),分別構(gòu)成K-N+1個(gè)子向量。
在一個(gè)實(shí)施例中,可按照信息減少最快或信息下降最大的方向選擇文章的特征向量中的第一數(shù)量的參數(shù),比如按照熵的計(jì)算方法,來進(jìn)行參數(shù)的選擇。重復(fù)預(yù)設(shè)次數(shù),生成第二數(shù)量的子向量。
步驟404,計(jì)算每個(gè)子向量對(duì)應(yīng)的子情感數(shù)值,根據(jù)每個(gè)子情感數(shù)值計(jì)算文章的情感數(shù)值。
本實(shí)施例中,基于決策樹的方法,將每個(gè)子向量作為對(duì)應(yīng)一顆數(shù),利用隨機(jī)森林方法,得到每棵樹對(duì)應(yīng)的數(shù)值,該數(shù)值即為子向量對(duì)應(yīng)的子情感數(shù)值。將每個(gè)子情感數(shù)值進(jìn)行加權(quán)平均,得到的數(shù)值即為文章的情感數(shù)值。
本實(shí)施例中,通過文章的特征向量構(gòu)建相應(yīng)數(shù)量的子向量,并計(jì)算出子向量的子情感數(shù)值,根據(jù)子情感數(shù)值得出文章的情感數(shù)值,可提高文章的情感數(shù)值的計(jì)算的效率。
在一個(gè)實(shí)施例中,上述的文章情感的分析方法還包括:獲取主體相同的文章的情感強(qiáng)度;計(jì)算相同主體的綜合情感強(qiáng)度。
本實(shí)施例中,如圖5所示,提供了另一種文章情感的分析方法,該方法包括以下步驟:
步驟502,獲取待分析的文章。
本實(shí)施例中,可預(yù)先設(shè)置所需獲取的文章的來源,該來源可為一個(gè)或多個(gè)網(wǎng)站。服務(wù)器或終端可通過網(wǎng)絡(luò)爬蟲技術(shù)從預(yù)設(shè)的多個(gè)網(wǎng)站上獲取其所發(fā)表的多個(gè)文章。進(jìn)一步的,可設(shè)置一個(gè)獲取時(shí)間間隔,根據(jù)該時(shí)間間隔周期性的從預(yù)設(shè)的文章的來源處獲取在當(dāng)前周期內(nèi)所發(fā)表的文章。
步驟504,對(duì)文章中的內(nèi)容進(jìn)行詞句切分,生成對(duì)應(yīng)數(shù)量的詞句。
步驟506,根據(jù)詞句確定文章描述的主體。
本實(shí)施例中,同一主體的表述方式可能存在多種,服務(wù)器或終端可對(duì)所確定的文章的主體進(jìn)行識(shí)別,將不同表述的主體歸類為同一個(gè)主體。
步驟508,判斷文章描述的主體是否為預(yù)設(shè)的主體,若是,則執(zhí)行步驟510,否則,執(zhí)行步驟514。
可預(yù)先設(shè)置所需要識(shí)別的一個(gè)或多個(gè)主體,并在通過步驟206識(shí)別出文章的主體后,判斷該主體是否為預(yù)設(shè)的所需識(shí)別的主體,若是,則計(jì)算出該文章的情感數(shù)值,否則,舍棄該文章,并執(zhí)行步驟514。
在一個(gè)實(shí)施例中,文章為新聞?lì)惖奈恼拢恼碌闹黧w為上市企業(yè)??蓪⒅黧w為同一企業(yè)的不同表述方式、以及該企業(yè)的子公司以及與該企業(yè)具有相關(guān)聯(lián)的主體均判斷為同一主體。比如,存在三篇文章,其主體分別為“平安集團(tuán)”、“平安公司”、“平安集團(tuán)的員工張三”,則可是識(shí)別出“平安集團(tuán)”、“平安公司”均為“平安科技有限公司”這一主體,而“平安集團(tuán)的員工張三”也與“平安科技有限公司”相關(guān)聯(lián),因而可將這三篇文章的主體判定為相同的主體。
所設(shè)置的需獲取的文章的來源為預(yù)設(shè)的多個(gè)財(cái)經(jīng)類網(wǎng)站,并周期性地通過網(wǎng)絡(luò)爬蟲技術(shù)從該網(wǎng)站獲取在當(dāng)前周期內(nèi)所發(fā)表的文章。其中,可每天固定的時(shí)間獲取在當(dāng)天或前一天所發(fā)表的文章。
步驟510,獲取每個(gè)詞句的特征向量。
步驟512,根據(jù)每個(gè)詞句的特征向量計(jì)算文章對(duì)主體的描述的情感強(qiáng)度。
本實(shí)施例中,可根據(jù)每個(gè)詞句的特征向量計(jì)算出文章的特征向量,進(jìn)而根據(jù)文章的特征向量計(jì)算出該文章的情感數(shù)值,將該情感數(shù)值歸類到對(duì)應(yīng)的主體中。具體的,可以以“主體-情感數(shù)值”的形式來存儲(chǔ)所計(jì)算出的文章的情感數(shù)值,以便于進(jìn)行匯總分析。根據(jù)文章的情感數(shù)值可確定該文章對(duì)主體的描述的情感強(qiáng)度。
步驟514,判斷是否還存在待分析的文章,若是,則執(zhí)行步驟502,否則,執(zhí)行步驟516。
本實(shí)施例中,待分析的文章包括多個(gè),在完成對(duì)當(dāng)前文章的情感數(shù)值的計(jì)算之后,可檢測是否還存在未檢測的文章,若存在,則執(zhí)行步驟502,獲取下一個(gè)待分析的文章。
具體的,可對(duì)所提取的文章設(shè)置分析狀態(tài)標(biāo)記,該分析狀態(tài)標(biāo)記用于反映相應(yīng)的文章的分析狀態(tài),分析狀態(tài)包括未分析、正在分析、以及分析完畢。當(dāng)文章處于分析中時(shí),則更改其分析狀態(tài)標(biāo)記為表示正在分析中的標(biāo)記,當(dāng)分析完畢時(shí),則更改其分析狀態(tài)標(biāo)記為表示已經(jīng)分析完畢的標(biāo)記。通過檢測是否還存在表示未分析的狀態(tài)標(biāo)記,可獲知是否還存在待分析的文章。
步驟516,獲取主體相同的文章的情感強(qiáng)度,計(jì)算相同主體的綜合情感強(qiáng)度。
在計(jì)算出所有所需識(shí)別的文章的情感強(qiáng)度后,可將具有相同的主體的文章的情感強(qiáng)度進(jìn)行加權(quán)平均,得到當(dāng)前周期下的相同主體的綜合情感強(qiáng)度。其中每個(gè)文章的情感強(qiáng)度對(duì)應(yīng)的權(quán)值可根據(jù)文章的來源進(jìn)行設(shè)置,可設(shè)置為相同的權(quán)值或不同的權(quán)值。其中,可將具有相同的主體的文章的情感數(shù)值進(jìn)行加權(quán)平均,得到當(dāng)前周期下的相同主體的綜合情感數(shù)值,根據(jù)該綜合情感數(shù)值確定相同主體的綜合情感強(qiáng)度。
本實(shí)施例所提供的文章情感的分析方法,可應(yīng)用于上市公司的市場預(yù)測中,其中,待分析的文章為相關(guān)財(cái)經(jīng)類網(wǎng)站上的新聞報(bào)道,并結(jié)合多個(gè)新聞報(bào)道計(jì)算出該上市公司的情感強(qiáng)度,將該情感強(qiáng)度作為對(duì)該上市公司的市場預(yù)測的一個(gè)考慮因素,從而可提高對(duì)上市公司的時(shí)長預(yù)測的準(zhǔn)確性。
在一個(gè)實(shí)施例中,如圖6所示,提供了一種文章情感的分析裝置,該裝置包括:
文章獲取模塊602,用于獲取待分析的文章。
詞句切分模塊604,用于對(duì)文章中的內(nèi)容進(jìn)行詞句切分,生成對(duì)應(yīng)數(shù)量的詞句。
主體確定模塊606,用于根據(jù)詞句確定文章描述的主體。
特征向量獲取模塊608,用于獲取每個(gè)詞句的特征向量。
情感強(qiáng)度計(jì)算模塊610,用于根據(jù)每個(gè)詞句的特征向量計(jì)算文章對(duì)主體的描述的情感強(qiáng)度。
在一個(gè)實(shí)施例中,特征向量獲取模塊608還用于對(duì)切分后的詞句進(jìn)行篩選,獲取篩選后的詞句的特征向量。
情感強(qiáng)度計(jì)算模塊610還用于根據(jù)篩選后的詞句的特征向量計(jì)算文章的情感數(shù)值。
在一個(gè)實(shí)施例中,特征向量獲取模塊608還用于當(dāng)獲取不到詞句的特征向量時(shí),檢測預(yù)設(shè)的詞庫中是否存在與詞句相近的詞句,若是,則獲取該相近詞句的特征向量,將其作為該詞句的特征向量,若否,則將預(yù)設(shè)的默認(rèn)特征向量作為詞句的特征向量。
在一個(gè)實(shí)施例中,情感強(qiáng)度計(jì)算模塊610還用于根據(jù)每個(gè)詞句的特征向量計(jì)算對(duì)應(yīng)文章的特征向量;根據(jù)文章的特征向量計(jì)算出文章對(duì)主體的描述的情感強(qiáng)度;根據(jù)文章的感情數(shù)值確定文章對(duì)主體的描述的情感數(shù)值。
在一個(gè)實(shí)施例中,如圖7所示,情感強(qiáng)度計(jì)算模塊610還包括:
子向量構(gòu)建單元702,用于重復(fù)預(yù)設(shè)次數(shù),從文章的特征向量中隨機(jī)選取第一數(shù)量的參數(shù),構(gòu)成對(duì)應(yīng)的第二數(shù)量的子向量。
情感數(shù)值計(jì)算單元704,用于計(jì)算每個(gè)子向量對(duì)應(yīng)的子情感數(shù)值,根據(jù)每個(gè)子情感數(shù)值計(jì)算文章的情感數(shù)值。
在一個(gè)實(shí)施例中,如圖8所示,提供了另一種文章情感的分析裝置,該裝置該包括:
綜合情感強(qiáng)度計(jì)算模塊612,用于獲取主體相同的文章的情感強(qiáng)度,計(jì)算相同主體的綜合情感強(qiáng)度。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一非易失性計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)等。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。