最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

確定微博與給定實(shí)體的相關(guān)性的方法和裝置的制作方法

文檔序號(hào):6441015閱讀:232來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):確定微博與給定實(shí)體的相關(guān)性的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及微博信息挖掘領(lǐng)域,具體涉及確定微博與給定實(shí)體的相關(guān)性的方法和
>J-U裝直。
背景技術(shù)
微博(例如,推特、搜狐微博和騰訊微博等)作為一種社交媒體,迅速地贏得了世界范圍的歡迎。如何管理與微博有關(guān)的信息以掌握人們對(duì)政府政策的響應(yīng)、人們對(duì)商品的反饋和評(píng)論等已受到研究團(tuán)體的大量關(guān)注。存在一些研究,諸如觀點(diǎn)挖掘和在線聲譽(yù)管理等,它們聚焦于監(jiān)控用戶(hù)生成的媒體。這些研究的關(guān)鍵內(nèi)容之一在于首先要獲得與所研究實(shí)體(諸如產(chǎn)品、公司或特定事件)有關(guān)的信息。獲得與所研究實(shí)體有關(guān)的信息將面臨以下兩個(gè)問(wèn)題。首先,微博和實(shí)體都包含很少信息。微博不同于傳統(tǒng)的由用戶(hù)所生成的媒體。它允許用戶(hù)生成不超過(guò)140個(gè)字符的消息。可獲得小的上下文信息。因此,監(jiān)控和分析這些消息是具有挑戰(zhàn)性的。此外,實(shí)體名稱(chēng)可能是模糊的,導(dǎo)致這是個(gè)有挑戰(zhàn)的任務(wù)。例如,蘋(píng)果公司的名稱(chēng)Apple也可以表示水果蘋(píng)果。亞馬遜公司的名稱(chēng)Amazon也可以表示亞馬遜河。過(guò)濾可疑名稱(chēng)匹配對(duì)于有效地檢測(cè)和分析人們談?wù)撛搶?shí)體的相關(guān)內(nèi)容來(lái)說(shuō)是非常重要的。其次,訓(xùn)練數(shù)據(jù)中的組織和測(cè)試數(shù)據(jù)中的實(shí)體不同,這導(dǎo)致難以將分類(lèi)器訓(xùn)練為針對(duì)特定實(shí)體。因此,需要一種能夠解決上述問(wèn)題的技術(shù)。

發(fā)明內(nèi)容
在下文中給出關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。本發(fā)明的一個(gè)主要目的在于,提供一種確定微博與給定實(shí)體的相關(guān)性的方法和裝置。根據(jù)本發(fā)明的一個(gè)方面,提供了一種確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性的方法,包括:提取多個(gè)微博中的每個(gè)微博的特征;根據(jù)所提取的特征確定微博之間的相似度;以及利用所確定的微博之間的相似度,基于半監(jiān)督分類(lèi)器來(lái)確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性的裝置,包括:微博特征提取單元,被配置為提取多個(gè)微博中的每個(gè)微博的特征;相似度確定單元,被配置為根據(jù)所提取的特征確定微博之間的相似度;以及相關(guān)性確定單元,被配置為利用所確定的微博之間的相似度,基于半監(jiān)督分類(lèi)器來(lái)確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性。根據(jù)本發(fā)明的又一個(gè)方面,提供了 一種用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
根據(jù)本發(fā)明的再一個(gè)方面,提供了一種計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。


參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類(lèi)似的技術(shù)特征或部件將采用相同或類(lèi)似的附圖標(biāo)簽來(lái)表示。圖1是示出根據(jù)本發(fā)明的實(shí)施例的確定微博與給定實(shí)體的相關(guān)性的方法的流程圖;圖2是示出根據(jù)本發(fā)明的實(shí)施例的基于標(biāo)簽傳播算法來(lái)確定微博與實(shí)體的相關(guān)性的方法的流程圖;圖3是示出根據(jù)本發(fā)明的實(shí)施例的結(jié)合有監(jiān)督分類(lèi)器和半監(jiān)督分類(lèi)器來(lái)確定微博與給定實(shí)體的相關(guān)性的方法的流程圖;圖4是示出具有百科全書(shū)屬性的網(wǎng)頁(yè)的示意圖,該網(wǎng)頁(yè)用于消除詞匯的歧義;圖5是示出相關(guān)詞查詢(xún)網(wǎng)頁(yè)的示意圖,該網(wǎng)頁(yè)用于查找與特定詞匯相關(guān)的詞匯;圖6是示出根據(jù)本發(fā)明的實(shí)施例的確定微博與給定實(shí)體的相關(guān)性的裝置的配置的框圖;圖7是示出根據(jù)本發(fā)明的實(shí)施例的相關(guān)性確定單元的示意性配置的框圖;圖8是示出根據(jù)本發(fā)明的實(shí)施例的確定微博與給定實(shí)體的相關(guān)性的裝置的一個(gè)示例性配置的框圖;圖9是示出根據(jù)本發(fā)明的實(shí)施例的必要性判斷單元的配置的框圖;圖10是示出根據(jù)本發(fā)明的實(shí)施例的種子選擇模塊的配置的框圖;以及圖11是示出可以用于實(shí)施根據(jù)本發(fā)明的實(shí)施例的確定微博與給定實(shí)體的相關(guān)性的方法和裝置的計(jì)算設(shè)備的舉例的結(jié)構(gòu)圖。
具體實(shí)施例方式下面參照附圖來(lái)說(shuō)明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說(shuō)明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。以下參照?qǐng)D1來(lái)描述根據(jù)本發(fā)明的實(shí)施例的確定微博與給定實(shí)體的相關(guān)性的方法 100。圖1是示出根據(jù)本發(fā)明的實(shí)施例的確定微博與給定實(shí)體的相關(guān)性的方法100的流程圖。如圖1所示,在步驟S102,可以提取多個(gè)微博中的每個(gè)微博的特征。在步驟S104,可以根據(jù)所提取的特征確定微博之間的相似度。在步驟S106,可以利用所確定的微博之間的相似度,基于半監(jiān)督分類(lèi)器來(lái)確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性。例如,可以基于半監(jiān)督分類(lèi)器將每個(gè)微博標(biāo)記為真或假,其中,真表示微博與給定實(shí)體相關(guān),而假表示微博與給定實(shí)體不相關(guān)。根據(jù)需要,半監(jiān)督分類(lèi)器可以是適當(dāng)?shù)娜我獍氡O(jiān)督分類(lèi)器。例如,半監(jiān)督分類(lèi)器可以是基于標(biāo)簽傳播的分類(lèi)器或基于步步為營(yíng)算法的分類(lèi)器等等。以下描述步步為營(yíng)算法(Bootstrapping)。步步為營(yíng)算法,也叫自訓(xùn)練(self-training),是一種半監(jiān)督學(xué)習(xí)方法。該方法的核心思想是首先通過(guò)利用少量的人工標(biāo)注數(shù)據(jù)來(lái)估計(jì)出系統(tǒng)初始的參數(shù)。當(dāng)系統(tǒng)在實(shí)際運(yùn)行時(shí),如果發(fā)現(xiàn)與人工標(biāo)注數(shù)據(jù)相似度較高的未標(biāo)注數(shù)據(jù),則系統(tǒng)將其作為“自動(dòng)標(biāo)注”數(shù)據(jù)加入到訓(xùn)練集中,重新訓(xùn)練,從而改進(jìn)系統(tǒng)性能。以下參照?qǐng)D2來(lái)描述基于標(biāo)簽傳播算法來(lái)確定微博與實(shí)體的相關(guān)性的方法200。圖2是示出根據(jù)本發(fā)明的實(shí)施例的基于標(biāo)簽傳播算法來(lái)確定微博與實(shí)體的相關(guān)性的方法200的流程圖。標(biāo)簽傳播算法(Label Propagation Algorithm)的基本思想是在一個(gè)帶權(quán)重的圖上,標(biāo)簽從已標(biāo)簽的節(jié)點(diǎn)傳播到未標(biāo)簽的節(jié)點(diǎn)上。而且,在傳播的過(guò)程中,如果邊的權(quán)重越大,則標(biāo)簽傳播的越容易,這意味著如果兩個(gè)節(jié)點(diǎn)之間的相似度較高,則這兩個(gè)節(jié)點(diǎn)傾向于屬于相同的類(lèi)別。換句話說(shuō),如果兩個(gè)微博之間的相似度高,則這兩個(gè)微博傾向于都與特定實(shí)體相關(guān)或都與特定實(shí)體不相關(guān)。如圖2所示,在步驟S202,可以通過(guò)將多個(gè)微博中的每個(gè)微博視為節(jié)點(diǎn)、在具有共同特征的兩個(gè)微博之間構(gòu)建邊、并且用具有共同特征的兩個(gè)微博之間的相似度表示邊的權(quán)重,來(lái)構(gòu)建微博節(jié)點(diǎn)圖。具體地,在圖表G{V,E,W}上開(kāi)展標(biāo)簽分布,其中V是n個(gè)節(jié)點(diǎn)的集合。E是m個(gè)邊的集合,W是權(quán)重Wij的nXn矩陣,其中Wij是邊(i,j)的權(quán)重。在步驟S204,可以從節(jié)點(diǎn)中選擇一部分節(jié)點(diǎn)作為種子??梢愿鶕?jù)各種方式來(lái)選擇種子。例如,可以手動(dòng)地選擇種子?;蛘?,可以利用有監(jiān)督分類(lèi)器(例如,最大熵分類(lèi)器或樸素貝葉斯分類(lèi)器)來(lái)選擇種子,稍后將詳細(xì)描述利用最大熵分類(lèi)器選擇種子的過(guò)程。在步驟S206,可以基于標(biāo)簽傳播的算法來(lái)確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性。圖3是示出根據(jù)本發(fā)明的實(shí)施例的結(jié)合有監(jiān)督分類(lèi)器和半監(jiān)督分類(lèi)器來(lái)確定微博與給定實(shí)體的相關(guān)性的方法300的流程圖。此處,步驟S102、S104和S106與參照?qǐng)D1描述的那些步驟相同。如圖3所示,在步驟S102,可以提取多個(gè)微博中的每個(gè)微博的特征。在步驟S302,可以提取與給定實(shí)體相關(guān)聯(lián)的特征。具體地,可以從以下頁(yè)面中的至少一個(gè)頁(yè)面中提取與給定實(shí)體相關(guān)聯(lián)的詞語(yǔ)作為特征:給定實(shí)體相關(guān)聯(lián)的實(shí)體主頁(yè)、具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)、以及用于幫助用戶(hù)通過(guò)數(shù)個(gè)關(guān)鍵詞獲得相關(guān)關(guān)鍵詞的網(wǎng)頁(yè)。這么做的原因是,實(shí)體的名稱(chēng)通常包括很少的詞匯,并且有些實(shí)體的名稱(chēng)可能有歧義,例如Apple、AmaZOn等。通過(guò)引入外部資源可以獲得關(guān)于實(shí)體的更多信息。例如,可以從給定實(shí)體的實(shí)體主頁(yè)中提取與給定實(shí)體相關(guān)聯(lián)的詞語(yǔ)作為特征。可以根據(jù)每個(gè)實(shí)體的URL來(lái)查找實(shí)體主頁(yè)。實(shí)體主頁(yè)中的詞語(yǔ)通常與該實(shí)體更相關(guān)并且更能表示該實(shí)體,從實(shí)體主頁(yè)中選擇詞語(yǔ)來(lái)表示該實(shí)體,其中不包括無(wú)用詞。然而,一些實(shí)體的網(wǎng)頁(yè)是用Java Script創(chuàng)建的,甚至是用Flash創(chuàng)建的,因而目前為止難以從這些網(wǎng)頁(yè)提取文本信息。此外,可以從具有百科全書(shū)屬性的網(wǎng)頁(yè)(例如,圖4所示的網(wǎng)頁(yè))中提取與給定實(shí)體相關(guān)聯(lián)的詞語(yǔ)作為特征。具有百科全書(shū)屬性的網(wǎng)頁(yè)的一個(gè)示例是維基百科(Wikipedia)網(wǎng)頁(yè)。為了獲得更高質(zhì)量的該實(shí)體信息,并克服相關(guān)主頁(yè)的丟失問(wèn)題,可以利用例如維基百科消除多義性頁(yè)。例如,如果給定實(shí)體的名稱(chēng)有歧義,則可以從具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)查詢(xún)候選相關(guān)頁(yè)面。然后,可以對(duì)候選相關(guān)頁(yè)面進(jìn)行分析以確定候選相關(guān)頁(yè)面中是否含有給定實(shí)體的實(shí)體主頁(yè)的URL信息。如果候選相關(guān)頁(yè)面中含有給定實(shí)體的實(shí)體主頁(yè)的URL信息,則可以認(rèn)為該候選相關(guān)頁(yè)面確實(shí)與給定實(shí)體相關(guān)聯(lián),然后提取該主頁(yè)中的詞語(yǔ)作為用于該實(shí)體的特征。圖4是示例性地示出具有百科全書(shū)屬性的網(wǎng)頁(yè)的示意圖,該網(wǎng)頁(yè)用于消除詞匯的歧義。如圖4中所示,例·如,在網(wǎng)頁(yè)中輸入Linux,可以獲得對(duì)Linux的一些解釋,通過(guò)這些解釋可以消除Linux的歧義。此外,可以從用于獲得相關(guān)關(guān)鍵詞的網(wǎng)頁(yè)(例如,圖5所示的網(wǎng)頁(yè))中提取與給定實(shí)體相關(guān)聯(lián)的詞語(yǔ)作為特征。用于獲得相關(guān)關(guān)鍵詞的網(wǎng)頁(yè)的一個(gè)示例是GoogleSet網(wǎng)頁(yè)。GoogleSet提供與查詢(xún)?cè)~語(yǔ)類(lèi)似的詞語(yǔ),因而GoogleSet可以用于豐富與實(shí)體有關(guān)的信息。例如,如果在GoogleSet網(wǎng)頁(yè)中輸入“Yale University”,則返回相關(guān)聯(lián)的詞語(yǔ)“Stanf0rd”、“C0lumbia”。這種信息是有用的,它在一定程度上給出的潛在的語(yǔ)義信息。圖5是示意性地示出相關(guān)詞查詢(xún)網(wǎng)頁(yè)的示意圖,該網(wǎng)頁(yè)用于查找相關(guān)詞。如圖5所示,例如,在相關(guān)詞查詢(xún)網(wǎng)頁(yè)中輸入Linux,將返回與Linux相關(guān)的詞匯windows、windows7、mac、windows xp、windows vista、android、mobile、unix、iphone、mac os、solaris、internet explorer^windows live等詞匯。所返回的這些詞匯均與Linux相關(guān),這在一定程度上給出了 Linux的潛在語(yǔ)義信息。此外,主頁(yè)和Wiki網(wǎng)頁(yè)中的URL也是很強(qiáng)的指示器。如果微博與主頁(yè)或Wiki網(wǎng)頁(yè)包含相同URL,則該微博更可能與該實(shí)體相關(guān)。對(duì)應(yīng)于用于實(shí)體的上述特征,可以提取unigrams、bigrams、大寫(xiě)詞語(yǔ)和來(lái)自微博的URL作為特征。以“西安交通大學(xué)”為例,在unigram的情況下,“西安交通大學(xué)”將被表示為西/安/交/通/大/學(xué),而在bigram的情況下,“西安交通大學(xué)”將被表示為西安/安交/交通/通大/大學(xué)。另外,可以將·實(shí)體主頁(yè)中的元數(shù)據(jù)確定為重要的特征。HTML頁(yè)中的元標(biāo)簽提供用來(lái)表示其網(wǎng)頁(yè)的高質(zhì)量關(guān)鍵詞。如果網(wǎng)頁(yè)具有元數(shù)據(jù),則它們是用來(lái)表示該實(shí)體的良好特征。此外,還可以將實(shí)體主頁(yè)和/或具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)中的大寫(xiě)詞語(yǔ)和/或統(tǒng)一資源定位符URL確定為重要的特征。大寫(xiě)詞語(yǔ)更可能是重要詞語(yǔ)或命名實(shí)體。通過(guò)選擇這些詞語(yǔ)作為一種特征來(lái)加強(qiáng)這些詞語(yǔ)??梢杂酶鞣N適當(dāng)方式來(lái)提取微博的特征并用所提取的特征表示微博。在用外部資源來(lái)提取實(shí)體的特征的情況下,與給定實(shí)體對(duì)應(yīng)的微博可以被表示為:Vectordi, 0k) = (F1, F2, , Fj(I)
此處,Ti是微博、Ok是實(shí)體,F(xiàn)i是之前描述的一類(lèi)特征。例如,F(xiàn)1可以表示從主頁(yè)中提取的特征,F(xiàn)2可以表不從維基百科網(wǎng)頁(yè)中提取的特征,F(xiàn)3可以表不從GoogleSet中提取的特征??梢酝ㄟ^(guò)公式⑵來(lái)計(jì)算每個(gè)Fi的值。
權(quán)利要求
1.一種確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性的方法,包括: 提取所述多個(gè)微博中的每個(gè)微博的特征; 根據(jù)所提取的特征確定所述微博之間的相似度;以及 利用所確定的所述微博之間的相似度,基于半監(jiān)督分類(lèi)器來(lái)確定所述多個(gè)微博中的每個(gè)微博與所述給定實(shí)體的相關(guān)性。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述半監(jiān)督分類(lèi)器為基于標(biāo)簽傳播的分類(lèi)器。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述基于半監(jiān)督分類(lèi)器來(lái)確定所述多個(gè)微博中的每個(gè)微博與所述給定實(shí)體的相關(guān)性的步驟包括: 通過(guò)將所述多個(gè)微博中的每個(gè)微博視為節(jié)點(diǎn)、在具有共同特征的兩個(gè)微博之間構(gòu)建邊、并且用所述具有共同特征的兩個(gè)微博之間的相似度表示所述邊的權(quán)重,來(lái)構(gòu)建微博節(jié)點(diǎn)圖; 從所述節(jié)點(diǎn)中選擇一部分節(jié)點(diǎn)作為種子;以及 基于標(biāo)簽傳播的算法來(lái)確定所述多個(gè)微博中的每個(gè)微博與所述給定實(shí)體的相關(guān)性。
4.根據(jù)權(quán)利要求3所述的方法,在根據(jù)所提取的特征確定所述微博之間的相似度的步驟之前,還包括: 提取與所述給定實(shí)體相關(guān)聯(lián)的特征; 利用訓(xùn)練好的有監(jiān)督分類(lèi)器來(lái)初步確定所述多個(gè)微博中的每個(gè)微博與所述給定實(shí)體的相關(guān)性;以及 根據(jù)初步確定結(jié)果來(lái)判斷是否有必要基于半監(jiān)督分類(lèi)器來(lái)確定所述多個(gè)微博中的每個(gè)微博與所述給定實(shí)體的相關(guān)性。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述根據(jù)初步確定結(jié)果來(lái)判斷是否有必要基于半監(jiān)督分類(lèi)器來(lái)確定所述多個(gè)微博中的每個(gè)微博與所述給定實(shí)體的相關(guān)性的步驟包括: 對(duì)被確定為與所述給定實(shí)體不相關(guān)的微博的數(shù)量和相應(yīng)的閾值進(jìn)行比較; 如果被確定為與所述給定實(shí)體不相關(guān)的微博的數(shù)量小于所述閾值,則基于半監(jiān)督分類(lèi)器來(lái)確定所述多個(gè)微博中的每個(gè)微博與所述給定實(shí)體的相關(guān)性。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述從所述節(jié)點(diǎn)中選擇一部分節(jié)點(diǎn)作為種子的步驟包括: 根據(jù)所述初步確定結(jié)果從所述節(jié)點(diǎn)中選擇一部分節(jié)點(diǎn)作為種子。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述根據(jù)所述初步確定結(jié)果從所述多個(gè)節(jié)點(diǎn)中選擇一部分節(jié)點(diǎn)作為種子的步驟包括: 利用訓(xùn)練好的有監(jiān)督分類(lèi)器確定每個(gè)微博與所述給定實(shí)體的相關(guān)性的置信度;以及 分別從與所述給定實(shí)體相關(guān)的微博中以及從與所述給定實(shí)體不相關(guān)的微博中選擇具有高置信度的微博作為種子。
8.根據(jù)權(quán)利要求4所述的方法,其中,所述有監(jiān)督分類(lèi)器為最大熵分類(lèi)器或樸素貝葉斯分類(lèi)器。
9.根據(jù)權(quán)利要求4所述的方法,其中,所述提取與所述給定實(shí)體相關(guān)聯(lián)的特征的步驟包括: 從以下頁(yè)面中的至少一個(gè)頁(yè)面中提取與所述給定實(shí)體相關(guān)聯(lián)的詞語(yǔ)作為特征:所述給定實(shí)體相關(guān)聯(lián)的實(shí)體主頁(yè)、具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)、以及用于幫助用戶(hù)通過(guò)數(shù)個(gè)關(guān)鍵詞獲得相關(guān)關(guān)鍵詞的網(wǎng)頁(yè)。
10.一種確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性的裝置,包括: 微博特征提取單元,被配置為提取所述多個(gè)微博中的每個(gè)微博的特征; 相似度確定單元,被配置為根據(jù)所提取的特征確定所述微博之間的相似度;以及相關(guān)性確定單元,被配置為利用所確定的所述微博之間的相似度,基于半監(jiān)督分類(lèi)器來(lái)確定所述多個(gè)微博中的 每個(gè)微博與所述給定實(shí)體的相關(guān)性。
全文摘要
本發(fā)明涉及確定微博與給定實(shí)體的相關(guān)性的方法和裝置。確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性的方法包括提取多個(gè)微博中的每個(gè)微博的特征;根據(jù)所提取的特征確定微博之間的相似度;以及利用所確定的微博之間的相似度,基于半監(jiān)督分類(lèi)器來(lái)確定多個(gè)微博中的每個(gè)微博與給定實(shí)體的相關(guān)性。
文檔編號(hào)G06F17/30GK103164428SQ20111041447
公開(kāi)日2013年6月19日 申請(qǐng)日期2011年12月13日 優(yōu)先權(quán)日2011年12月13日
發(fā)明者張姝, 孟遙, 夏迎炬, 于浩 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1