一種擴(kuò)充實(shí)體庫的方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種擴(kuò)充實(shí)體庫的方法及裝置,該方法包括:從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù);從所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容中識別出實(shí)體詞;對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選;如果篩選出的實(shí)體詞未出現(xiàn)在實(shí)體庫中,則將所述實(shí)體詞添加到所述實(shí)體庫中,以擴(kuò)充所述實(shí)體庫,能提高擴(kuò)充實(shí)體庫中實(shí)體詞的準(zhǔn)確性。
【專利說明】一種擴(kuò)充實(shí)體庫的方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)信息處理【技術(shù)領(lǐng)域】,具體涉及一種擴(kuò)充實(shí)體庫的方法及裝置。
【背景技術(shù)】
[0002] 隨著信息和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,人們越來越多地通過互聯(lián)網(wǎng)進(jìn)行各種知識和信 息的搜索。內(nèi)容提供商在互聯(lián)網(wǎng)提供內(nèi)容使所有用戶均能平等地瀏覽、創(chuàng)造、完善內(nèi)容平 臺。
[0003] 例如百度百科、維基百科、互動百科等,能夠讓互聯(lián)網(wǎng)用戶通過百科網(wǎng)站即能找到 自己想要的全面、準(zhǔn)確、客觀的定義性信息,可供其他用戶進(jìn)行類似主題的查詢和瀏覽,以 便提供相應(yīng)的知識或者借鑒。例如,詞條是百科網(wǎng)站所含內(nèi)容的基礎(chǔ)分割單位,一個詞條具 有一個或多個單一的主題,用于闡述一件事物、一個人物、或者具備特定主題的組合等知識 內(nèi)容。在百科網(wǎng)站中包括極大數(shù)量的詞條,這些百科詞條可以大大地提高檢索的準(zhǔn)確性和 檢索的覆蓋率,并且有利于從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù),可以進(jìn)行垂直搜索,得到更為精確的 信息。
[0004] 隨著信息的廣泛傳播以及人們交流內(nèi)容的不斷擴(kuò)展,新詞條層出不窮。極大地發(fā) 現(xiàn)有價值的詞條,擴(kuò)充百科網(wǎng)站的實(shí)體庫是百科產(chǎn)品的重要目標(biāo)。常見的實(shí)現(xiàn)方案都是從 已有的數(shù)據(jù)中,利用文本切分來分析文本中可能存在的實(shí)體詞,判斷哪些實(shí)體詞是百科實(shí) 體庫中存在的,哪些是百科實(shí)體庫中不存在的,將不存在的實(shí)體詞增加到百科實(shí)體庫中。但 是這種方案存在文本切分和屬性識別不準(zhǔn)確的問題。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明實(shí)施例提供一種擴(kuò)充實(shí)體庫的方法及裝置,以克服現(xiàn)有的百科 實(shí)體庫擴(kuò)充存在文本切分和屬性識別不準(zhǔn)確的問題。
[0006] 第一方面,本發(fā)明實(shí)施例提供了一種擴(kuò)充實(shí)體庫的方法,包括:
[0007] 從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù);
[0008] 從所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容中識別出實(shí)體詞;
[0009] 對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選;
[0010] 如果篩選出的實(shí)體詞未出現(xiàn)在實(shí)體庫中,則將所述實(shí)體詞添加到所述實(shí)體庫中, 以擴(kuò)充所述實(shí)體庫。
[0011] 第二方面,本發(fā)明實(shí)施例還提供了一種擴(kuò)充實(shí)體庫的裝置,包括:
[0012] 結(jié)構(gòu)化數(shù)據(jù)識別單元,用于從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù);
[0013] 實(shí)體詞識別單元,用于從所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容中識別出實(shí) 體詞;
[0014] 實(shí)體詞篩選單元,用于對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選;
[0015] 實(shí)體詞添加單元,用于如果篩選出的實(shí)體詞未出現(xiàn)在實(shí)體庫中,則將所述實(shí)體詞 添加到所述實(shí)體庫中,以擴(kuò)充所述實(shí)體庫。
[0016] 本發(fā)明實(shí)施例的技術(shù)方案通過從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù),從預(yù)置含義字段的字 段內(nèi)容中識別出實(shí)體詞,進(jìn)行篩選后,將未出現(xiàn)在實(shí)體庫中的實(shí)體詞添加到實(shí)體庫中,以擴(kuò) 充所述實(shí)體庫。由于結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段本身就是對文字內(nèi)容進(jìn)行了切分,且對應(yīng) 于一定的含義,所以從中有效獲取實(shí)體詞的概率更高,能提高擴(kuò)充實(shí)體庫中實(shí)體詞的準(zhǔn)確 性。
【專利附圖】
【附圖說明】
[0017] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對本發(fā)明實(shí)施例描述中所 需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施 例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)本發(fā)明實(shí)施 例的內(nèi)容和這些附圖獲得其他的附圖。
[0018] 圖1是本發(fā)明實(shí)施例一所述的擴(kuò)充實(shí)體庫的方法流程圖;
[0019] 圖2是百度百科中不例詞條中所包含的第一不例表格的截圖;
[0020] 圖3是百度百科中示例詞條中所包含的第二示例表格的截圖;
[0021] 圖4是本發(fā)明實(shí)施例二所述的擴(kuò)充實(shí)體庫的方法流程圖;
[0022] 圖5是本發(fā)明實(shí)施例三所述的擴(kuò)充實(shí)體庫的裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0023] 為使本發(fā)明解決的技術(shù)問題、采用的技術(shù)方案和達(dá)到的技術(shù)效果更加清楚,下面 將結(jié)合附圖對本發(fā)明實(shí)施例的技術(shù)方案作進(jìn)一步的詳細(xì)描述,顯然,所描述的實(shí)施例僅僅 是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在 沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0024] 下面結(jié)合附圖并通過【具體實(shí)施方式】來進(jìn)一步說明本發(fā)明的技術(shù)方案。
[0025] 實(shí)施例一
[0026] 圖1是本發(fā)明實(shí)施例一提供的擴(kuò)充實(shí)體庫的方法流程圖,本實(shí)施例可適用于利用 資源庫中的結(jié)構(gòu)化數(shù)據(jù)擴(kuò)充實(shí)體庫的情況,本實(shí)施例所稱的實(shí)體詞泛指名詞與代詞,也可 進(jìn)一步指滿足預(yù)設(shè)條件的名詞與代詞。實(shí)體庫則是用于存儲各實(shí)體詞的相關(guān)信息的數(shù)據(jù) 庫,能過為用戶提供對實(shí)體詞相關(guān)數(shù)據(jù)的獲取。例如,在百科中實(shí)體詞指詞條的主題名稱, 詞條是百科網(wǎng)站所含內(nèi)容的基礎(chǔ)分割單位,詞條包括實(shí)體詞、對該實(shí)體詞的解釋、以及與該 實(shí)體詞的相關(guān)信息。此外,其他類別的實(shí)體庫,如音樂實(shí)體庫、商品實(shí)體庫等,也可以用音 樂名稱、商品名稱等作為實(shí)體詞,在實(shí)體庫中存儲各實(shí)體詞的相關(guān)細(xì)節(jié)數(shù)據(jù),如音樂背景介 紹、商品產(chǎn)地等。
[0027] 本實(shí)施例的方法可以由配置在服務(wù)器中的擴(kuò)充實(shí)體庫的裝置來執(zhí)行,如圖1所 示,本實(shí)施例所述的擴(kuò)充實(shí)體庫的方法包括 :
[0028] S101、從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù)。
[0029] 結(jié)構(gòu)化數(shù)據(jù)是指將數(shù)據(jù)分別存儲在至少一個預(yù)置含義字段中,通常可以用二維表 結(jié)構(gòu)邏輯來實(shí)現(xiàn)表達(dá),在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)全部為結(jié)構(gòu)化數(shù)據(jù),在文件中,結(jié)構(gòu)化數(shù)據(jù) 包括表格、圖表、報表等結(jié)構(gòu)的數(shù)據(jù)。預(yù)置含義字段中的數(shù)據(jù)均符合該字段的預(yù)置含義要 求,有一定的共性,例如都是姓名、都是地址等。結(jié)構(gòu)化存儲的數(shù)據(jù)通過預(yù)置含義字段進(jìn)行 了初步的劃分,數(shù)據(jù)有一定的屬性特征。
[0030] 本實(shí)施例所稱的資源庫可為任意形式的數(shù)據(jù)源,例如數(shù)據(jù)庫、文件包、網(wǎng)頁資源 庫、電子文檔等,只要能從中獲取結(jié)構(gòu)化數(shù)據(jù),并在所述結(jié)構(gòu)化數(shù)據(jù)中能挖掘到需要擴(kuò)充到 實(shí)體庫的實(shí)體詞即可。
[0031] 由于本實(shí)施例的目的是擴(kuò)充實(shí)體庫,所使用的資源庫中所包含的內(nèi)容優(yōu)選為與該 實(shí)體庫的內(nèi)容相關(guān)度較高的內(nèi)容。并且,在實(shí)體庫中用于介紹實(shí)體詞的相關(guān)數(shù)據(jù)中存在的 其他實(shí)體詞更多,關(guān)聯(lián)性更強(qiáng),適于作為擴(kuò)展的工具。例如,若用于擴(kuò)充百科實(shí)體庫,則可以 優(yōu)選采用百科資源庫作為資源庫。以歌手為例,對"劉德華"這一實(shí)體詞進(jìn)行介紹的相關(guān)數(shù) 據(jù)中,可能與此歌手關(guān)聯(lián)的其他明星人物、歌曲、影片等實(shí)體詞更多,則從已有實(shí)體詞的相 關(guān)結(jié)構(gòu)化數(shù)據(jù)中查找并篩選出擴(kuò)展的實(shí)體詞的成功率更高。
[0032] S102、從所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容中識別出實(shí)體詞。
[0033] 由于結(jié)構(gòu)化數(shù)據(jù)可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn),所以結(jié)構(gòu)化數(shù)據(jù)的相同字段 (即結(jié)構(gòu)化數(shù)據(jù)中的列)的字段內(nèi)容一般類別相同。當(dāng)需要擴(kuò)充實(shí)體庫時,本實(shí)施例可通過 根據(jù)需要擴(kuò)充的實(shí)體詞的類別,結(jié)合擴(kuò)充目標(biāo)設(shè)置字段的設(shè)置條件或枚舉符合該擴(kuò)充目標(biāo) 的字段,從所獲取的結(jié)構(gòu)化數(shù)據(jù)中篩選出滿足所述擴(kuò)充目標(biāo)的預(yù)置含義字段,獲取所述結(jié) 構(gòu)化數(shù)據(jù)中所篩選字段的字段內(nèi)容,對所獲取的字段內(nèi)容進(jìn)行識別獲取實(shí)體詞。若某些字 段的字段內(nèi)容不能直接識別出實(shí)體詞,可對字段內(nèi)容進(jìn)行切分后再執(zhí)行實(shí)體詞識別操作即 可。
[0034] 例如,若目標(biāo)為擴(kuò)充人物類別中的實(shí)體詞,可設(shè)置條件判斷字段是否包含"者"、 "員"、"人"、以及"演員"等字或詞,也可枚舉符合該擴(kuò)充目標(biāo)的字段"扮演角色"、"導(dǎo)演"、"合 作演員"、以及"演唱者"等字段名稱,以枚舉字段名稱為例,可以從百科詞條"劉德華"中的 結(jié)構(gòu)化數(shù)據(jù)"參演電影"表格中篩選出"扮演角色"、"導(dǎo)演"、以及"合作演員"這三個字段作 為預(yù)置含義字段,如圖2所示。還可以從該詞條中的"為他人創(chuàng)作"表格中篩選出"演唱者" 這一字段作為預(yù)置含義字段,如圖3所示。
[0035] 其中,從"扮演角色"、"導(dǎo)演"、以及"演唱者"字段的字段內(nèi)容中可以直接識別出實(shí) 體詞,而從"合作演員"字段中提取字段內(nèi)容后,需要按分號進(jìn)行切分來識別出實(shí)體詞。
[0036] S103、對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選。
[0037] 所述預(yù)設(shè)規(guī)則可根據(jù)實(shí)體庫的擴(kuò)充目標(biāo)來設(shè)置,例如,將所述實(shí)體詞中字?jǐn)?shù)大于 預(yù)設(shè)閾值的實(shí)體詞過濾掉、將屬于黑名單的實(shí)體詞過濾掉、和/或?qū)儆陬A(yù)設(shè)類型的實(shí)體 詞過濾掉(例如包含序號、時間、特殊符號)。
[0038] 需要說明的是,所述預(yù)設(shè)規(guī)則可包括針對所有預(yù)置含義字段的字段內(nèi)容的篩選規(guī) 貝1J,所述預(yù)設(shè)規(guī)則還可包括分別針對各預(yù)置含義字段的字段內(nèi)容的篩選規(guī)則。
[0039] S104、如果篩選出的實(shí)體詞未出現(xiàn)在實(shí)體庫中,則將所述實(shí)體詞添加到所述實(shí)體 庫中,以擴(kuò)充所述實(shí)體庫。
[0040] 為了避免重復(fù)設(shè)置實(shí)體詞,操作S103獲取實(shí)體詞后,還需判斷實(shí)體詞是否已經(jīng)出 現(xiàn)在實(shí)體庫中,將未出現(xiàn)在所述實(shí)體庫中的實(shí)體詞添加到所述實(shí)體庫中。
[0041] 本實(shí)施例的技術(shù)方案通過從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù),從預(yù)置含義字段的字段內(nèi) 容中識別出實(shí)體詞,進(jìn)行篩選后,將未出現(xiàn)在實(shí)體庫中的實(shí)體詞添加到實(shí)體庫中,能消除實(shí) 體詞歧義,能減少對結(jié)構(gòu)化數(shù)據(jù)識別的范圍。由于結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段本身就是對 文字內(nèi)容進(jìn)行了切分,且對應(yīng)于一定的含義,所以從中有效獲取實(shí)體詞的概率更高,可以提 高實(shí)體詞識別的準(zhǔn)確性和效率,能提高擴(kuò)充實(shí)體庫的準(zhǔn)確性和效率。
[0042] 實(shí)施例二
[0043] 圖4是本發(fā)明實(shí)施例二所述的擴(kuò)充實(shí)體庫的方法流程圖,本實(shí)施例以通過百科資 源庫中的結(jié)構(gòu)化數(shù)據(jù)擴(kuò)充百科實(shí)體庫為例公開一種擴(kuò)充實(shí)體庫的方法,如圖4所示,本實(shí) 施例所述的擴(kuò)充實(shí)體庫的方法包括:
[0044] S401、從百科實(shí)體庫中獲取結(jié)構(gòu)化數(shù)據(jù)。
[0045] 作為優(yōu)選,所述資源庫可為該百科實(shí)體庫,即從該百科實(shí)體庫內(nèi)部挖掘?qū)嶓w詞來 擴(kuò)充它本身。
[0046] -般來說,為了方便檢索和數(shù)據(jù)管理,百科實(shí)體庫中的現(xiàn)有的實(shí)體詞進(jìn)行了分類, 例如分為歌曲、電影、人物、自然、文化、地理、歷史、生活、社會、藝術(shù)、經(jīng)濟(jì)、科技、體育等類 另IJ,或者某些類別還有進(jìn)一步的更深層次的分類。因此,為了提高命中率,所述從資源庫中 獲取結(jié)構(gòu)化數(shù)據(jù)的操作,可進(jìn)一步優(yōu)選為從該百科實(shí)體庫中與需要擴(kuò)充的實(shí)體詞的類別相 關(guān)聯(lián)的類別中獲取結(jié)構(gòu)化數(shù)據(jù)。例如,需要擴(kuò)充百科實(shí)體庫中的電影類別的實(shí)體詞,而與電 影類別相關(guān)聯(lián)的類別為電影類別和人物類別,則僅需要從百科實(shí)體庫的電影類別和人物類 別中獲取結(jié)構(gòu)化數(shù)據(jù),以縮小結(jié)構(gòu)化數(shù)據(jù)的查找范圍,從而提高擴(kuò)充實(shí)體庫的效率。
[0047] S402、獲取所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段。
[0048] 當(dāng)需要擴(kuò)充百科實(shí)體庫時,本實(shí)施例可通過根據(jù)需要擴(kuò)充的實(shí)體詞的類別,結(jié)合 擴(kuò)充目標(biāo)設(shè)置字段的設(shè)置條件或枚舉符合該擴(kuò)充目標(biāo)的字段,從所獲取的結(jié)構(gòu)化數(shù)據(jù)中篩 選出滿足所述擴(kuò)充目標(biāo)的預(yù)置含義字段,例如可過濾掉諸如時間、地址等字段,獲取所述結(jié) 構(gòu)化數(shù)據(jù)中所篩選字段的字段內(nèi)容,對所獲取的字段內(nèi)容進(jìn)行識別獲取實(shí)體詞。
[0049] S403、獲取所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容。
[0050] 若某些字段的字段內(nèi)容不能直接識別出實(shí)體詞,可對字段內(nèi)容進(jìn)行切分后再執(zhí)行 實(shí)體詞識別操作即可。
[0051] S404、過濾掉存在內(nèi)鏈接的字段內(nèi)容。
[0052] 本實(shí)施例所稱的內(nèi)鏈接是指內(nèi)鏈,即在實(shí)體庫內(nèi)部,如果存在某個實(shí)體詞的相關(guān) 數(shù)據(jù),則此實(shí)體詞出現(xiàn)在其他實(shí)體詞的相關(guān)數(shù)據(jù)中時,會為此實(shí)體詞建立內(nèi)部鏈接,以便用 戶方便地找到該實(shí)體詞自己的相關(guān)數(shù)據(jù)。例如在百科實(shí)體庫中,在各詞條內(nèi)部會對其中涉 及到的已有詞條添加內(nèi)鏈接,以供用戶通過內(nèi)鏈接找到詞條所涉及的其他詞條的網(wǎng)頁位置 和分類。例如百科詞條"劉德華"中的結(jié)構(gòu)化數(shù)據(jù)"參演電影"表格(如圖2所示)中"扮 演角色"這一列中,有些字段內(nèi)容添加了內(nèi)鏈接,有些未添加內(nèi)鏈接(如圖2所示的圈定內(nèi) 容)。包括添加內(nèi)鏈接的內(nèi)容已出現(xiàn)在百科的實(shí)體詞中,無需添加,因此,為了提高效率,在 獲取字段內(nèi)容后,可在進(jìn)行實(shí)體詞識別之前進(jìn)行濾掉。
[0053] 例如,從百科詞條"劉德華"中的結(jié)構(gòu)化數(shù)據(jù)"參演電影"表格(如圖2所示)中 "扮演角色"、"導(dǎo)演"、以及"合作演員"這三個預(yù)置含義字段中識別人物類別的實(shí)體詞,在在 獲取這些字段內(nèi)容之后,將存在內(nèi)鏈接的字段內(nèi)容過濾掉,僅獲取未添加內(nèi)鏈接(如圖2所 示的圈定內(nèi)容)。又如,從該詞條中的"為他人創(chuàng)作"表格(如圖3所示)"歌曲名稱"這一 列中識別出歌曲類別的實(shí)體詞,過濾掉內(nèi)鏈接的字段內(nèi)容后,僅獲取未添加內(nèi)鏈接(如圖3 所示)的圈定內(nèi)容。通過濾掉存在內(nèi)鏈接的字段內(nèi)容來提前進(jìn)行篩選,能縮小實(shí)體詞識別 的范圍,從而能提1?效率。
[0054] S405、從過濾后的字段內(nèi)容中識別出實(shí)體詞。
[0055] S406、對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選。
[0056] S407、對所述實(shí)體詞進(jìn)行去重處理。
[0057] 需要說明的是,本操作可在篩選之后進(jìn)行,也可在篩選之前進(jìn)行。通過對所識別的 實(shí)體詞進(jìn)行去重處理,能進(jìn)一步減小操作408中的實(shí)體詞的數(shù)目,同時能避免重復(fù)添加。
[0058] S408、如果所述實(shí)體詞未出現(xiàn)在百科的實(shí)體詞中,將所述實(shí)體詞添加到百科實(shí)體 庫中。
[0059] 本實(shí)施例以通過百科資源庫中的結(jié)構(gòu)化數(shù)據(jù)擴(kuò)充百科實(shí)體庫為例,在實(shí)施例一的 基礎(chǔ)之上,增加了過濾掉存在內(nèi)鏈接的字段內(nèi)容的操作,以及增加了對實(shí)體詞進(jìn)行去重處 理的操作,能進(jìn)一步提高擴(kuò)充實(shí)體庫的效率。
[0060] 實(shí)施例三
[0061]圖5是本發(fā)明實(shí)施例三所述的擴(kuò)充實(shí)體庫的裝置的結(jié)構(gòu)框圖,如圖5所示,本實(shí)施 例所述的擴(kuò)充實(shí)體庫的裝置包括:
[0062] 結(jié)構(gòu)化數(shù)據(jù)識別單元501,用于從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù);
[0063] 實(shí)體詞識別單元502,用于從所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容中識別 出實(shí)體詞;
[0064] 實(shí)體詞篩選單元503,用于對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選;
[0065] 實(shí)體詞添加單元504,用于如果篩選出的實(shí)體詞未出現(xiàn)在實(shí)體庫中,則將所述實(shí)體 詞添加到所述實(shí)體庫中,以擴(kuò)充所述實(shí)體庫。
[0066] 進(jìn)一步地,所述資源庫為百科資源庫。
[0067] 進(jìn)一步地,所述實(shí)體詞識別單元502具體用于:
[0068] 獲取所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容;
[0069] 如果所述字段內(nèi)容在所述資源庫中不存在內(nèi)鏈接,則從所述字段內(nèi)容中識別出實(shí) 體詞。
[0070] 進(jìn)一步地,所述實(shí)體詞篩選單元503具體用于:
[0071] 將符合下述至少一項(xiàng)的實(shí)體詞過濾掉:所述實(shí)體詞中字?jǐn)?shù)大于預(yù)設(shè)閾值的實(shí)體 詞、屬于黑名單的實(shí)體詞、包含預(yù)設(shè)符號的實(shí)體詞、和屬于預(yù)設(shè)類型的實(shí)體詞。
[0072] 進(jìn)一步地,所述實(shí)體詞篩選單元503還用于:在將所述實(shí)體詞添加到所述實(shí)體庫 中的操作之前,還包括:對所述實(shí)體詞進(jìn)行去重處理。
[0073] 本實(shí)施例提供的擴(kuò)充實(shí)體庫的裝置可執(zhí)行本發(fā)明實(shí)施例一和實(shí)施例二所提供的 擴(kuò)充實(shí)體庫的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
[0074] 以上實(shí)施例提供的技術(shù)方案中的全部或部分內(nèi)容可以通過軟件編程實(shí)現(xiàn),其軟件 程序存儲在可讀取的存儲介質(zhì)中,存儲介質(zhì)例如:計算機(jī)中的硬盤、光盤或軟盤。
[0075] 注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解, 本發(fā)明不限于這里所述的特定實(shí)施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、 重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對本發(fā)明進(jìn)行 了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還 可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【權(quán)利要求】
1. 一種擴(kuò)充實(shí)體庫的方法,其特征在于,包括: 從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù); 從所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容中識別出實(shí)體詞; 對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選; 如果篩選出的實(shí)體詞未出現(xiàn)在實(shí)體庫中,則將所述實(shí)體詞添加到所述實(shí)體庫中,以擴(kuò) 充所述實(shí)體庫。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述資源庫為百科資源庫。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字 段內(nèi)容中識別出實(shí)體詞的操作具體包括: 獲取所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容; 如果所述字段內(nèi)容在所述資源庫中不存在內(nèi)鏈接,則從所述字段內(nèi)容中識別出實(shí)體 。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選的 操作具體包括: 將符合下述至少一項(xiàng)的實(shí)體詞過濾掉:所述實(shí)體詞中字?jǐn)?shù)大于預(yù)設(shè)閾值的實(shí)體詞、屬 于黑名單的實(shí)體詞、包含預(yù)設(shè)符號的實(shí)體詞、和屬于預(yù)設(shè)類型的實(shí)體詞。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在將所述實(shí)體詞添加到所述實(shí)體庫中的 操作之前,還包括:對所述實(shí)體詞進(jìn)行去重處理。
6. -種擴(kuò)充實(shí)體庫的裝置,其特征在于,包括: 結(jié)構(gòu)化數(shù)據(jù)識別單元,用于從資源庫中獲取結(jié)構(gòu)化數(shù)據(jù); 實(shí)體詞識別單元,用于從所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容中識別出實(shí)體 詞; 實(shí)體詞篩選單元,用于對所述實(shí)體詞按照預(yù)設(shè)規(guī)則進(jìn)行篩選; 實(shí)體詞添加單元,用于如果篩選出的實(shí)體詞未出現(xiàn)在實(shí)體庫中,則將所述實(shí)體詞添加 到所述實(shí)體庫中,以擴(kuò)充所述實(shí)體庫。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述資源庫為百科資源庫。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述實(shí)體詞識別單元具體用于: 獲取所述結(jié)構(gòu)化數(shù)據(jù)的預(yù)置含義字段的字段內(nèi)容; 如果所述字段內(nèi)容在所述資源庫中不存在內(nèi)鏈接,則從所述字段內(nèi)容中識別出實(shí)體 。
9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述實(shí)體詞篩選單元具體用于,將符合下 述至少一項(xiàng)的實(shí)體詞過濾掉:所述實(shí)體詞中字?jǐn)?shù)大于預(yù)設(shè)閾值的實(shí)體詞、屬于黑名單的實(shí) 體詞、包含預(yù)設(shè)符號的實(shí)體詞、和屬于預(yù)設(shè)類型的實(shí)體詞。
10. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述實(shí)體詞篩選單元還用于:在將所述 實(shí)體詞添加到所述實(shí)體庫中的操作之前,還包括:對所述實(shí)體詞進(jìn)行去重處理。
【文檔編號】G06F17/30GK104102738SQ201410364026
【公開日】2014年10月15日 申請日期:2014年7月28日 優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】梁爽 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司