專利名稱:信息提取模型訓(xùn)練裝置、信息提取裝置和信息提取系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理的技術(shù)領(lǐng)域,更具體地,涉及一種信息 提取模型訓(xùn)練裝置及其方法、 一種信息提取裝置及其方法、 一種包括 信息提取模型訓(xùn)練裝置和信息提取裝置的信息提取系統(tǒng)及其方法。
背景技術(shù):
信息提取是一種信息檢索方式,目的在于從非結(jié)構(gòu)的機(jī)器可讀文件 中提取結(jié)構(gòu)化或半結(jié)構(gòu)化的信息。信息提取的重要性取決于非結(jié)構(gòu)形 式的可利用信息的增長量,例如,因特網(wǎng)上的成千上萬的網(wǎng)頁決定了 信息提取技術(shù)的重要性。然而,從海量的語料中手工提取信息即費(fèi)時(shí) 又不實(shí)際可行。
例如,由于商業(yè)原因, 一個(gè)商務(wù)管理者想從新聞中收集其公司的競 爭者的所有供貨商。以手工方式實(shí)現(xiàn)的信息提取步驟如下首先,創(chuàng) 建競爭者列表;第二,下載由搜索引擎搜索到的與列表中的公司有關(guān) 的新聞;第三,認(rèn)真的讀取每一條新聞,以找到是否涉及任意一個(gè)競 爭者的供貨商。上述的每一步驟都是非常耗費(fèi)人力和耗費(fèi)時(shí)間的,因 此,能夠從非結(jié)構(gòu)化文件中提取預(yù)定信息的方法將是非常有用的。
通常,信息提取的結(jié)構(gòu)可以劃分為兩種方法,手工結(jié)構(gòu)和基于機(jī) 器學(xué)習(xí)的結(jié)構(gòu)。
手工的結(jié)構(gòu)化信息提取系統(tǒng)通常由專家來構(gòu)造。該結(jié)構(gòu)化系統(tǒng)的 精確率和效率較好。但是,所采用的規(guī)則必須由特定領(lǐng)域的專家構(gòu)造, 以及針對該特定領(lǐng)域構(gòu)造的結(jié)構(gòu)處理并不一定適用于其它領(lǐng)域。
基于機(jī)器學(xué)習(xí)的系統(tǒng)是由各種機(jī)器學(xué)習(xí)技術(shù)構(gòu)造的,例如,符號 學(xué)習(xí),歸納邏輯規(guī)劃,分裝器歸納,統(tǒng)計(jì)方法以及語法歸納。從帶標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)該系統(tǒng)的規(guī)則或模型。對于所有的信息提取系統(tǒng)來說, 該學(xué)習(xí)過程相同,但是學(xué)習(xí)的數(shù)據(jù)通常是由不同的人出于不同的目的 來標(biāo)記的。
申請US2006161531提供了一種從以半結(jié)構(gòu)化或非結(jié)構(gòu)化格式寫 入的數(shù)據(jù)集(例如,自然語言文本)中提取與預(yù)定上下文有關(guān)的信息 的方法和系統(tǒng)。與預(yù)定上下文有關(guān)的該信息按照預(yù)定的結(jié)構(gòu)設(shè)置存儲 在信息存儲器中。此外,將提取的信息中的各個(gè)數(shù)據(jù)值依據(jù)其與預(yù)定 上下文的屬性的相關(guān)性分配權(quán)重。向結(jié)構(gòu)化信息分配權(quán)重的操作提供 了用于比較多個(gè)結(jié)構(gòu)化設(shè)置的信息與預(yù)定的上下文的屬性的相關(guān)性的 方法。
申請JP2006244262提出了一種系統(tǒng),用于以高精確率檢索對問 句的示例應(yīng)答句子。會話單元候選生成裝置執(zhí)行形態(tài)學(xué)分析以及問句 的文法分析以生成會話單元中的候選實(shí)例。會話單元提取裝置將存儲 在存儲裝置中的會話單元提取規(guī)則應(yīng)用于會話單元中的候選實(shí)例,并 從問句中提取會話單元。示例數(shù)據(jù)寄存器裝置將從問句示例中提取的 多個(gè)會話單元以及問句和應(yīng)答句子寄存在存儲裝置中。示例問題應(yīng)答 句子數(shù)據(jù)檢索裝置為每一個(gè)新的問句的每一個(gè)特定會話單元檢索具有 與來自存儲裝置的特定會話單元相同的會話類型的特定會話單元的示 例問題應(yīng)答句子。相互問句比較裝置根據(jù)句子之間的相似度來確定檢 索的示例問題應(yīng)答句子的問句和新的問句是否是與類似內(nèi)容有關(guān)的問 句。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述問題,提出了本發(fā)明。從而能夠 精確地訓(xùn)練信息提取模型,以及可以以很高的效率和較高的精確度從 海量語料中提取預(yù)定信息。
根據(jù)本發(fā)明第一方面,提出了一種信息提取模型訓(xùn)練裝置,包括:
IES模型訓(xùn)練單元,用于利用語料來生成IES模型訓(xùn)練集和MRE規(guī) 則訓(xùn)練集,并根據(jù)IES模型訓(xùn)練集和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES 模型;以及MRE規(guī)則訓(xùn)練單元,用于利用語料和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后 的MRE規(guī)則庫。
根據(jù)本發(fā)明第二方面,提出了一種信息提取模型訓(xùn)練裝置,包括 MRE規(guī)則訓(xùn)練單元,用于利用語料來生成第一IEA模型訓(xùn)練集;
以及
IEA模型訓(xùn)練單元,用于利用語料來生成第二IEA模型訓(xùn)練集以及 第一MRE規(guī)則訓(xùn)練集,并根據(jù)第一和第二IEA模型訓(xùn)練集以及第一 MRE訓(xùn)練集生成訓(xùn)練后的IEA模型;
其中,MRE規(guī)則訓(xùn)練單元根據(jù)第一MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的 MRE模型。
根據(jù)本發(fā)明的第三方面,提出了一種信息提取模型訓(xùn)練裝置,包
括
IES模型訓(xùn)練單元,用于利用語料來生成IES模型訓(xùn)練集和第一 MRE規(guī)則訓(xùn)練集;以及
MRE規(guī)則訓(xùn)練單元,用于利用語料和MRE規(guī)則訓(xùn)練集生成第一 IEA模型訓(xùn)練集;
IEA模型訓(xùn)練單元,用于利用語料來生成第二IEA模型訓(xùn)練集以及 第二MRE規(guī)則訓(xùn)練集;
其中MRE規(guī)則訓(xùn)練單元根據(jù)第一MRE規(guī)則訓(xùn)練集和第二MRE規(guī) 則訓(xùn)練集生成訓(xùn)練后的MRE規(guī)則庫,IES模型訓(xùn)練單元用于根據(jù)IES模 型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模型;IEA 模型訓(xùn)練單元用于根據(jù)IEA模型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練 集生成訓(xùn)練后的IEA模型。
根據(jù)本發(fā)明第四方面,提出了一種信息提取模型訓(xùn)練方法,包括 IES模型訓(xùn)練步驟,利用語料來生成IES模型訓(xùn)練集和MRE規(guī)則訓(xùn)
練集,并根據(jù)IES模型訓(xùn)練集和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模
型;以及
MRE規(guī)則訓(xùn)練步驟,利用語料和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的 MRE規(guī)則庫。
根據(jù)本發(fā)明第五方面,提出了一種信息提取模型訓(xùn)練方法,包括:MRE規(guī)則訓(xùn)練步驟,利用語料來生成第一IEA模型訓(xùn)練集庫;以
及
IEA模型訓(xùn)練步驟,利用語料來生成第二IEA模型訓(xùn)練集以及第一 MRE規(guī)則訓(xùn)練集,并根據(jù)第一和第二IEA模型訓(xùn)練集以及第一MRE訓(xùn) 練集生成訓(xùn)練后的IEA模型;
其中,MRE規(guī)則訓(xùn)練步驟根據(jù)第一MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的 MRE模型。
根據(jù)本發(fā)明第六方面,提出了一種信息提取模型訓(xùn)練方法,包括
IES模型訓(xùn)練步驟,利用語料來生成IES模型訓(xùn)練集和第一MRE規(guī) 則訓(xùn)練集;以及
MRE規(guī)則訓(xùn)練步驟,利用語料和MRE規(guī)則訓(xùn)練集生成第一IEA模 型訓(xùn)練集;
IEA模型訓(xùn)練步驟,利用語料來生成第二IEA模型訓(xùn)練集以及第二 MRE規(guī)則訓(xùn)練集;
其中MRE規(guī)則訓(xùn)練步驟根據(jù)第一 MRE規(guī)則訓(xùn)練集和第二 MRE規(guī) 則訓(xùn)練集生成訓(xùn)練后的MRE規(guī)則庫,IES模型訓(xùn)練步驟根據(jù)IES模型訓(xùn) 練集以及第一和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模型;IEA模型 訓(xùn)練步驟是用于根據(jù)IEA模型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練集 生成訓(xùn)練后的IEA模型。
根據(jù)本發(fā)明第七方面,提出了一種用于從文本段中提取實(shí)例集的 信息提取裝置,包括
IES,用于基于IES模型從語料中經(jīng)過分段的文本段中選出表述了 預(yù)定信息的文本段作為候選實(shí)例并提供給MRE;
MRE,用于基于MRE規(guī)則庫將候選實(shí)例分別與預(yù)定的第1至第N
級規(guī)則進(jìn)行匹配,并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添加到第l 至第N個(gè)實(shí)例集的相應(yīng)的實(shí)例集中;
其中,MRE通過向IES提供調(diào)整參數(shù)來動態(tài)地調(diào)整IES精確率和 IES召回率至少之一。
根據(jù)本發(fā)明第八方面,提出了一種用于從文本段中提取實(shí)例集的 信息提取裝置,包括MRE,用于基于MRE規(guī)則庫將語料中經(jīng)過分段的文本段分別與預(yù) 定的第1至第N級規(guī)則進(jìn)行匹配,并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分 別添加到第1至第N個(gè)實(shí)例集的相應(yīng)實(shí)例集中,以及將與不確定級規(guī)則 匹配的候選實(shí)例作為不確定實(shí)例提供給IEA;以及
IEA,用于基于IEA模型從不確定實(shí)例中選出表述了預(yù)定信息的實(shí) 例并添加到第N+1個(gè)實(shí)例集中;
其中,MRE通過向IEA提供調(diào)整參數(shù)來動態(tài)地調(diào)整IEA精確率以及 IEA召回率中的至少之一。
根據(jù)本發(fā)明第九方面,提出了一種用于從文本段中提取實(shí)例集的 信息提取裝置,包括
IES,用于基于IES模型從語料中經(jīng)過分段的文本段中選出表述了
預(yù)定信息的文本段作為候選實(shí)例;
MRE,用于基于MRE規(guī)則庫將來自IES的候選實(shí)例分別與預(yù)定的 第1至第N級規(guī)則進(jìn)行匹配,并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添 加到第1至第N個(gè)實(shí)例集的相應(yīng)實(shí)例集中,其中將與不確定級規(guī)則匹配 的候選實(shí)例作為不確定實(shí)例提供給IEA;以及
IEA,用于基于IEA模型從不確定實(shí)例中選出表述了預(yù)定信息的實(shí) 例并添加到第N+1個(gè)實(shí)例集中;
其中,MRE通過向IES和IEA中的至少之一提供調(diào)整參數(shù)來動態(tài)地 調(diào)整IES精確率、IES召回率、IEA精確率以及IEA召回率中的至少之一。
根據(jù)本發(fā)明第十方面,提出了一種用于從文本段中提取實(shí)例集的 信息提取方法,包括
利用IES模型IES從語料中經(jīng)過分段的文本段中選出表述了預(yù)定 信息的文本段作為候選實(shí)例并提供給MRE;
基于MRE規(guī)則庫MRE將候選實(shí)例分別與預(yù)定的第1至第N級規(guī)則 進(jìn)行匹配;并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添加到第1至第N個(gè)
實(shí)例集的相應(yīng)的實(shí)例集中;以及
MRE向IES提供調(diào)整參數(shù)來動態(tài)地調(diào)整IES精確率和IES召回率至
少之一。
根據(jù)本發(fā)明第十一方面,提出了一種用于從文本段中提取實(shí)例集的信息提取方法,包括
利用MRE規(guī)則庫MRE將語料中經(jīng)過分段的文本段分別與預(yù)定的 第1至第N級規(guī)則進(jìn)行匹配,并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添 加到第1至第N個(gè)實(shí)例集的相應(yīng)實(shí)例集,以及將與不確定級規(guī)則匹配的 候選實(shí)例作為不確定實(shí)例提供給IEA;
基于IEA模型IEA從不確定實(shí)例中選出表述了預(yù)定信息的實(shí)例并 添加到第N+1個(gè)實(shí)例集中;以及
MRE通過向IEA提供調(diào)整參數(shù)來動態(tài)地調(diào)整IEA精確率以及IEA 召回率中的至少之一。
根據(jù)本發(fā)明第十二方面,提出了一種用于從文本段中提敢實(shí)例集 的信息提取方法,包括
基于IES模型IES從語料中經(jīng)過分段的文本段中選出表述了預(yù)定
信息的文本段作為候選實(shí)例;
利用MRE規(guī)則庫MRE將來自IES的候選實(shí)例分別與預(yù)定的第1至 第N級規(guī)則進(jìn)行匹配,將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添加到第l 至第N個(gè)實(shí)例集的相應(yīng)實(shí)例集中,其中將與不確定級規(guī)則匹配的候選 實(shí)例作為不確定實(shí)例提供給IEA;
基于IEA模型IEA從不確定實(shí)例中選出表述了預(yù)定信息的實(shí)例并 添加到第N+1個(gè)實(shí)例集中;
MRE通過向IES和IEA中的至少之一提供調(diào)整參數(shù)來動態(tài)地調(diào)整 IES精確率、IES召回率、IEA精確率以及IEA召回率中的至少之一。
以及本發(fā)明提出一種包括信息提取模型訓(xùn)練裝置和信息提取裝 置的信息提取系統(tǒng)和信息提取方法。
圖l是示出了根據(jù)本發(fā)明的用于訓(xùn)練信息提取模型和提取信息的系統(tǒng) 的硬件示意圖2是示出了根據(jù)本發(fā)明的信息提取模型訓(xùn)練裝置和信息提取裝置之 間的交互關(guān)系的示意圖3a是示出了根據(jù)本發(fā)明第一實(shí)施例的信息提取模型訓(xùn)練裝置的示意圖3b是示出了根據(jù)本發(fā)明第二實(shí)施例的信息提取模型訓(xùn)練裝置的示意 圖3c是示出了根據(jù)本發(fā)明第三實(shí)施例的信息提取模型訓(xùn)練裝置的示意 圖4a—4c是分別示出了根據(jù)本發(fā)明第一實(shí)施例的信息提取模型訓(xùn)練裝
置的各個(gè)部件執(zhí)行信息提取模型訓(xùn)練的流程圖5a是示出了根據(jù)本發(fā)明第一實(shí)施例的信息提取裝置的示意圖5b是示出了根據(jù)本發(fā)明第二實(shí)施例的信息提取裝置的示意圖5c是示出了根據(jù)本發(fā)明第三實(shí)施例的信息提取裝置的示意圖6是示出了己知的信息提取分類器的示意圖7a是示出了根據(jù)本發(fā)明的MRE的示意結(jié)構(gòu)圖7b是示出了多級規(guī)則的示例表。
圖8是示出了根據(jù)本發(fā)明第一實(shí)施例的信息提取方法的流程圖; 圖9示出了應(yīng)用本發(fā)明的系統(tǒng)的一個(gè)示意結(jié)構(gòu)圖。
具體實(shí)施例方式
下面,將參考附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中,相同的 元件將由相同的參考符號或數(shù)字表示。此外,在本發(fā)明的下列描述中, 將省略對已知功能和配置的具體描述,以避免使本發(fā)明的主題不清楚。
圖l是示出了根據(jù)本發(fā)明的用于訓(xùn)練信息提取模型和提取信息的 系統(tǒng)的硬件結(jié)構(gòu)圖。其中08指示了該系統(tǒng)的關(guān)鍵部件。所述系統(tǒng)包括 CPU 01,用于對應(yīng)用程序提供計(jì)算功能;內(nèi)部總線05,所述系統(tǒng)通過 內(nèi)部總線05在內(nèi)存06和永久存儲器07 (可以是硬盤和閃存)之間交換 數(shù)據(jù);輸入裝置03,例如可以是用于按鍵輸入的鍵盤或用于語音輸入 的麥克風(fēng)等等;輸出裝置04和輔助組件02。存儲器07存儲有操作系統(tǒng) 文件071,信息提取裝置文件073,信息提取模型訓(xùn)練裝置文件074,提 取的信息實(shí)例911,訓(xùn)練語料902,信息提取模型913以及輔助系統(tǒng)工作 的其它文件072。所述內(nèi)存06包括操作系統(tǒng)061,信息提取裝置063,信 息提取模型訓(xùn)練裝置064以及其它的應(yīng)用程序062。圖2示出了圖1所示的信息提取模型訓(xùn)練裝置和信息提取裝置之間
的交互關(guān)系。信息提取模型訓(xùn)練裝置064用于根據(jù)訓(xùn)練語料902訓(xùn)練信 息提取模型913,并將訓(xùn)練后的信息提取模型913提供給信息提取裝置 063使用。信息提取裝置063通過使用信息提取模型913從輸入的語料 901中提取出所需的信息實(shí)例911。
雖然圖1示出了該系統(tǒng)的硬件結(jié)構(gòu)圖中包括信息提取裝置063和信 息提取模型訓(xùn)練裝置064,該系統(tǒng)可以僅包括利用信息提取模型來進(jìn)行 信息提取的信息提取裝置063,或者只包括用于生成信息提取模型的信 息提取模型訓(xùn)練裝置064。下面將結(jié)合附圖分別對信息提取裝置063和 信息提取模型訓(xùn)練裝置064進(jìn)行描述。
參考圖3a,根據(jù)本發(fā)明第一實(shí)施例的信息提取模型訓(xùn)練裝置包括 用于訓(xùn)練IES模型的IES (Information Extraction Sifter,信息提取篩選 器)模型訓(xùn)練單元220,用于訓(xùn)練MRE規(guī)則數(shù)據(jù)庫的MRE (Multi-level rule based extractor,基于多級規(guī)則的提取器)規(guī)則訓(xùn)練單元330以及用 于訓(xùn)練IEA模型的IEA (Information Extraction Arbiter,信息提取仲裁 器)模型訓(xùn)練單元440。首先,IES模型訓(xùn)練單元220, MRE規(guī)則訓(xùn)練 單元330以及IEA模型訓(xùn)練單元440可以利用訓(xùn)練集-I 9021、訓(xùn)練集-II 9022和訓(xùn)練集-111 9023對IES模型、MRE規(guī)則和IEA模型進(jìn)行訓(xùn)練,得 到初始IES模型9131, MRE規(guī)則9132和IEA模型9133。但是,也可以使 用訓(xùn)練好的初始IES模型,MRE規(guī)則和IEA模型。訓(xùn)練集-II 9022和訓(xùn) 練集-III卯23初始可以為空集合??梢岳糜?xùn)練集-I 9021訓(xùn)練初始的 正S模型,MRE規(guī)則和IEA模型。之后,由IES模型訓(xùn)練單元220, MRE 規(guī)則訓(xùn)練單元330以及IEA模型訓(xùn)練單元440對上述訓(xùn)練集進(jìn)行訓(xùn)練, 從而分別生成所需的IES模型,MRE規(guī)則和IEA模型。
圖4a—4c是分別示出了根據(jù)本發(fā)明第一實(shí)施例的信息提取模型訓(xùn)
練裝置的各個(gè)部件如何執(zhí)行信息提取模型訓(xùn)練的流程圖。
圖4a示出了IES模型訓(xùn)練單元220如何生成訓(xùn)練集-I 9021,訓(xùn)練集 -II 9022的流程圖。參考圖4a,首先,在S401, IES模型訓(xùn)練單元220 利用初始的IES模型從語料9024中選擇所有可能的表述了預(yù)定信息的 文本段作為IES接受的樣本。該初始的IES模型可以利用IES模型訓(xùn)練樣本和IES模型訓(xùn)練參數(shù)在IES模型的訓(xùn)練過程中產(chǎn)生。在本實(shí)施例中, IES可以是一個(gè)分類器IEC (Information Extraction Classifier)。
在S402,將IES模型訓(xùn)練單元220在S401中選出的所有樣本進(jìn)行手 工標(biāo)記將表述了預(yù)定信息的樣本標(biāo)記為正類的樣本,而將沒有表述 預(yù)定信息的樣本標(biāo)記為負(fù)類的樣本。
在S403,將手工標(biāo)記后的所有樣本添加到訓(xùn)練集-119022,用于提 高IES的召回率和精確率。其中IES精確率的定義為IES正確分為正 類的文本的數(shù)目/IES分類正類的文本的數(shù)目*100%。 IES的召回率定 義為IES正確分為正類的文本的數(shù)目/正類文本的數(shù)目*100%。
在S404,為了優(yōu)化MRE規(guī)則訓(xùn)練單元330的訓(xùn)練集-I 9021,使得 訓(xùn)練集-I9021能夠識別出MRE規(guī)則訓(xùn)練單元330選出的全部樣本,IES 模型訓(xùn)練單元220將MRE規(guī)則訓(xùn)練單元標(biāo)記的樣本與手工標(biāo)記的樣本 不一致的樣本作為錯誤識別的樣本添加到訓(xùn)練集-I 9021,用于提高 MRE的精確率。
圖4b示出了MRE規(guī)則訓(xùn)練單元330如何生成訓(xùn)練集-n卯22的流程 圖。參考圖4b,首先,在S421,由MRE規(guī)則訓(xùn)練單元330利用初始的 MRE規(guī)則數(shù)據(jù)庫9132從語料9024中選擇所有可能的未表述預(yù)定信息 的文本段,作為MRE接受的樣本。該初始的MRE規(guī)則數(shù)據(jù)庫可以利用 MRE規(guī)則訓(xùn)練樣本在MRE規(guī)則訓(xùn)練過程中產(chǎn)生。
在S422,將MRE在S421選出的所有樣本進(jìn)行手工標(biāo)記將表述預(yù) 定信息的文本段標(biāo)識為正類,而將沒有表述預(yù)定信息的文本段標(biāo)記為 負(fù)類。之后,在S423,將MRE規(guī)則訓(xùn)練單元330接受的樣本與手工標(biāo) 記的樣本不一致的樣本作為錯誤識別的樣本添加到訓(xùn)練集-III 9023, 以改進(jìn)IEA的精確率。
圖4c示出了IEA模型訓(xùn)練單元440如何生成訓(xùn)練集-I 9021,訓(xùn)練集 -II 9022和訓(xùn)練集-111 9023的流程圖。參考圖4c,首先,在S431, IEA 模型訓(xùn)練單元440利用初始的IEA模型從語料9024中選擇所有可能的 表述了預(yù)定信息的文本段作為IEA接受的樣本。該初始的IEA模型可以 利用IEA模型訓(xùn)練樣本和IEA模型訓(xùn)練參數(shù)在IEA的訓(xùn)練過程中產(chǎn)生。 IEA可以是一個(gè)信息提取分類器IEC。在S432,將IEA模型訓(xùn)練單元440在S431中選出的所有樣本進(jìn)行手 工標(biāo)記將表述了預(yù)定信息的樣本標(biāo)記為正類的樣本,而將沒有表述 預(yù)定信息的樣本標(biāo)記為負(fù)類的樣本。
在S433,將手工標(biāo)記后的所有樣本添加到訓(xùn)練集-111 9023,用于提 高IEA的召回率和精確率。其中,IEA的精確率的定義為IEA正確分 為正類的文本的數(shù)目/IEA分類正類的文本的數(shù)目* 100M。IEA召回率 的定義為IEA正確分為正類的文本的數(shù)目/正類文本的數(shù)目* 100%
在S434,為了優(yōu)化MRE規(guī)則訓(xùn)練單元330的訓(xùn)練集-I,使得訓(xùn)練集 -19021能夠識別出1/[1^規(guī)則訓(xùn)練單元330選出的全部樣本,IEA模型訓(xùn) 練單元440將MRE規(guī)則訓(xùn)練單元標(biāo)記的樣本與手工標(biāo)記的樣本不一致 的樣本作為錯誤識別的樣本添加到訓(xùn)練集-19021,用于提高M(jìn)RE的精確率。
最后,在獲得了最終的訓(xùn)練集-19021,訓(xùn)練集-II9022和訓(xùn)練集-m 9023之后,IES模型訓(xùn)練單元220根據(jù)訓(xùn)練集-I卯21和訓(xùn)練集-II9022生 成IES模型9131, MRE規(guī)則訓(xùn)練單元330根據(jù)訓(xùn)練集-I卯21生成MRE規(guī) 則庫9132' IEA模型訓(xùn)練單元440根據(jù)訓(xùn)練集-in 9023和訓(xùn)練集-1 9021 生成IEA模型9133。
圖3b示出了根據(jù)本發(fā)明第二實(shí)施例的信息提取模型訓(xùn)練裝置。圖 3b和3a的區(qū)別在于信息提取模型訓(xùn)練裝置僅包括IES模型訓(xùn)練單元220 和MRE規(guī)則訓(xùn)練單元330。 IES模型訓(xùn)練單元220執(zhí)行的步驟與圖4a所 示的類似,這里僅簡單描述。IES模型訓(xùn)練單元220將MRE錯誤識別的 樣本添加到訓(xùn)練集-1卯21,以提高M(jìn)RE的精確率,并將手工標(biāo)記后的 全部樣本添加到訓(xùn)練集-11 9022,以提高IES的召回率和精確率。MRE 規(guī)則訓(xùn)練單元330利用初始的MRE規(guī)則數(shù)據(jù)庫9132從語料9024中選擇 所有可能的未表述預(yù)定信息的文本段,作為MRE接受的樣本。該初始 的MRE規(guī)則數(shù)據(jù)庫可以利用MRE規(guī)則訓(xùn)練樣本在MRE規(guī)則訓(xùn)練過程 中產(chǎn)生。之后,MRE對選出的所有樣本進(jìn)行手工標(biāo)記將表述預(yù)定信 息的文本段標(biāo)識為正類,而將沒有表述預(yù)定信息的文本段標(biāo)記為負(fù)類。 MRE規(guī)則訓(xùn)練單元330將接受的樣本與手工標(biāo)記的樣本不一致的樣本作為錯誤識別的樣本添加到訓(xùn)練集-I 9021。最后,IES模型訓(xùn)練單元220 基于訓(xùn)練集-II 9022和訓(xùn)練集-1 9021生成IES模型,而MRE規(guī)則訓(xùn)練單 元330基于訓(xùn)練集-I 9021生成MRE規(guī)則數(shù)據(jù)庫。
圖3c示出了根據(jù)本發(fā)明第三實(shí)施例的信息提取模型訓(xùn)練裝置。圖3c 和3a的區(qū)別在于信息提取模型訓(xùn)練裝置僅包括MRE規(guī)則訓(xùn)練單元330 和IEA模型訓(xùn)練單元440。 MRE規(guī)則訓(xùn)練單元330和IEA模型訓(xùn)練單元 440執(zhí)行的步驟與圖4b和4c所示的類似,這里僅簡單描述。MRE規(guī)則 訓(xùn)練單元330將其錯誤識別的所有樣本添加到訓(xùn)練集-111 9023,以提高 IEA的精確率。IEA模型訓(xùn)練單元440將MRE錯誤識別的樣本添加到訓(xùn) 練集-19021,以提高M(jìn)RE的精確率,并將手工標(biāo)記后的全部樣本添加 到訓(xùn)練集-111 9023,以提高IEA的召回率和精確率。最后,IEA模型訓(xùn) 練單元440基于訓(xùn)練集-111 9023和訓(xùn)練集-1 9021生成IEA模型,而MRE 規(guī)則訓(xùn)練單元330基于訓(xùn)練集-I 9021生成MRE規(guī)則數(shù)據(jù)庫。
在得到例如圖4a訓(xùn)練獲得的IES模型,MRE規(guī)則庫以及IEA模型之 后,信息提取模型訓(xùn)練裝置可以利用上述訓(xùn)練模型來提取信息。由于 這些模型經(jīng)過訓(xùn)練而被優(yōu)化,所以能夠更準(zhǔn)確地提取出所需的信息。 雖然本發(fā)明采用了手工標(biāo)記的方式對樣本進(jìn)行標(biāo)記,也可以采用其它 的標(biāo)記方式,或者采用已經(jīng)標(biāo)記好的樣本等,只要是能夠獲得正確標(biāo) 記的樣本。
圖5a示出了根據(jù)本發(fā)明第一實(shí)施例的信息提取裝置。該信息提取裝 置包括信息提取模型913,所述的信息提取模型913包括IES模型9131, MRE規(guī)則庫9132以及IEA模型9133;文本段數(shù)據(jù)庫912,包括IES拒 絕的文本段9121, MRE拒絕的文本段9122以及IEA拒絕的文本段9123; 用于對輸入的語料進(jìn)行分段的語料分段器l;利用IES模型用于從文本 段提取信息的IES2;利用MRE規(guī)則庫中的多級規(guī)則對信息進(jìn)行提取的 MRE3;以及利用IEA模型進(jìn)行信息提取的IEA4,其中MRE 3通過向 IES 2和IEA 4分別提供調(diào)整數(shù)據(jù)981和982來動態(tài)調(diào)整IES 2和IEA 4的 性能。
在本實(shí)施例中,IES2可以是一個(gè)信息提取分類器IEC。 IES 2應(yīng) 該具有較高的召回率以及可接受的精確率,從而可以從輸入語料中挑
20選出候選實(shí)例,其中對于IEC,精確率的定義二IEC正確分為正類的 文本的數(shù)目/IEC分類為正類的文本的數(shù)目* 100%,召回率的定義= IEC正確分為正類的文本的數(shù)目/正類文本的數(shù)目*100%??梢酝ㄟ^ 向IES 2提供不同的參數(shù)來分別改變IES 2的精確率和召回率(要定 義)。例如,使用風(fēng)險(xiǎn)參數(shù)來調(diào)整IES2的精確率和召回率。IEA4也 可以是一個(gè)信息提取分類器,IEA 4具有較高的精確率以及可接受的 召回率,從而IEA4可以確保提取的信息實(shí)際上是預(yù)定義的信息實(shí)例。 可以通過向IEA 4提供不同的參數(shù)來分別改變IEA 4的精確率和召回 率。例如,使用風(fēng)險(xiǎn)參數(shù)來調(diào)整IEA 4的精確率和召回率。IEA2和 IEA 4的結(jié)構(gòu)可以相同,但是各自的訓(xùn)練參數(shù)和訓(xùn)練數(shù)據(jù)不同。
圖6示出了己知的信息提取分類器IEC 5的一個(gè)示例。IEC是一 個(gè)兩類文本信息分類器,根據(jù)文本分類模型把輸入的文本分成正、負(fù) 兩類,正類表示輸入文本包含預(yù)定義的信息,負(fù)類表示輸入文本不包 含預(yù)定義的信息。IEC的輸入包括 一系列的文本段591,文本分類 模型592,外部文本分類參數(shù)593。 IEC的輸出包括IEC分類為-1的 文本段作為拒絕的文本段581, IEC分類為+1的文本段作為接受的文 本段582。
文本分類模型592例如包括文本分類特征和內(nèi)部文本分類參數(shù)。 在輸入了外部文本分類參數(shù)593之后,IEC5修改文本分類模型592中 的內(nèi)部分類參數(shù)。之后,每次在IEC5讀入一條文本時(shí),利用文本分 類模型592對讀取的文本進(jìn)行分類。例如,如果預(yù)定義的信息是A 和B公司之間的競爭關(guān)系,那么IEC5就會對表述了公司之間的競爭 關(guān)系的文本標(biāo)記為正類,否則標(biāo)記為負(fù)類。
一個(gè)具體的IEC可以用一個(gè)兩類支撐向量機(jī)SVM(Support Vector Machine)分類器來實(shí)現(xiàn)。SVM分類器可以使用SVMLIGHT訓(xùn)練生 成,特征采用TF-IDF特征,文本分類模型中所包含的文本分類特征 可以包括支撐向量,松弛變量等內(nèi)容,內(nèi)部文本分類參數(shù)可以是SVM 的訓(xùn)練參數(shù),比如風(fēng)險(xiǎn)參數(shù)等。
圖7a示出了 MRE 3的一個(gè)示意圖。MRE 3包括1級規(guī)則匹配 單元21, 2級規(guī)則匹配單元22直到n級規(guī)則匹配單元23n,以及未確定級規(guī)則匹配單元24。 MRE 3還可以包括多級規(guī)則數(shù)據(jù)庫9132,該 多級規(guī)則數(shù)據(jù)庫包括1級規(guī)則91321, 2級規(guī)則91322直到n級規(guī)則 91323,以及不確定級規(guī)則91324。 MRE 3將候選實(shí)例(也可以是文本 段)分別與1級規(guī)則匹配單元21, 2級規(guī)則匹配單元22直到n級規(guī)則 匹配單元23n,以及不確定級規(guī)則匹配單元24匹配,并將匹配成功的 候選實(shí)例分別作為實(shí)例集19111,實(shí)例集2 9112,…實(shí)例集n9113以 及不確定實(shí)例集923中的相應(yīng)的實(shí)例集。
圖7b示出了用于識別一句話是否表述了兩個(gè)公司之間是競爭者 的多級規(guī)則數(shù)據(jù)庫的一個(gè)實(shí)例。標(biāo)簽〈SUB1〉表示第一個(gè)公司的名 稱,而標(biāo)簽<SUB2>表示第二個(gè)公司的名稱。標(biāo)簽<MODIFIER—1> 表示0~1個(gè)任意詞(包括數(shù)字等),標(biāo)簽<MODIFffiR—10〉表示0 10 個(gè)任意詞,以及標(biāo)簽〈COMPETE〉表示具有競爭含義的任意詞。圖 7b的示例表示出了三級規(guī)則1級規(guī)則,2級規(guī)則,以及不確定級規(guī) 則。MRE3可以利用規(guī)則匹配單元將圖7b的規(guī)則與輸入的文本進(jìn)行匹 配,從而獲得所需的信息。
下面將參考圖5a和圖8具體描述根據(jù)本發(fā)明第一實(shí)施例的信息 提取方法。在S801,輸入語料。在S802,由語料分段器l將語料分段 為文本段,分段后的文本段可以是一個(gè)短語, 一個(gè)句子,或一個(gè)段落。 在S803,由IES 2根據(jù)IES模型9131對所有的輸入文本段進(jìn)行過濾。 IES 2將沒有表述預(yù)定信息的文本段放入拒絕的文本段數(shù)據(jù)庫9121 中,將表述了預(yù)定信息的所有文本段作為候選實(shí)例提供給MRE3。在 S804, MRE 3將候選實(shí)例與MRE數(shù)據(jù)庫9132中的規(guī)則進(jìn)行匹配。 MRE規(guī)則庫9132中已有的多級規(guī)則已經(jīng)分類為不同的級別,具有更 低等級的規(guī)則具有更高的優(yōu)先級和可信度。MRE首先將候選實(shí)例與較
低等級的規(guī)則進(jìn)行匹配。與1級規(guī)則匹配的候選實(shí)例被添加到實(shí)例集 9111,與2級規(guī)則匹配的候選實(shí)例被添加到實(shí)例集9112,而與n級規(guī) 則匹配的候選實(shí)例被添加到實(shí)例集N 9133, MRE將這些可以匹配的 候選實(shí)例作為接受的實(shí)例,而將與不確定級規(guī)則匹配的候選實(shí)例作為 不確定實(shí)例集923輸出。在S805, MRE確定是否需要對IES和IEA 進(jìn)行調(diào)整,如果需要,則進(jìn)行相應(yīng)的調(diào)整。具體地,當(dāng)MRE的拒絕率(拒絕的實(shí)例數(shù)目與輸入的候選實(shí)例數(shù)目之間的比率)大于第一預(yù)
定值時(shí),MRE將利用一個(gè)用于增加精確率的調(diào)整參數(shù)981來通知IES2 增加精確率。如果MRE的接受率(接受的實(shí)例數(shù)目與輸入的候選實(shí) 例數(shù)目之間的比率)大于第二預(yù)定值時(shí),MRE3將利用一個(gè)用于增加 召回率的調(diào)整參數(shù)981來通知IES2增加召回率。當(dāng)MRE3的不確定
率(不確定實(shí)例的數(shù)目與接受的實(shí)例數(shù)目之間的比率)大于第三預(yù)定 值時(shí),MRE3將利用一個(gè)用于增加召回率的調(diào)整參數(shù)982通知IEA4 增加召回率。如果MRE3的不確定實(shí)例接受率(接受的實(shí)例數(shù)目與不 確定的實(shí)例數(shù)目之間的比值)大于第四預(yù)定值時(shí),MRE3將利用一個(gè) 用于增加精確率的調(diào)整參數(shù)982來通知IEA4增加精確率。上述的調(diào) 整參數(shù)可以是風(fēng)險(xiǎn)參數(shù)。本領(lǐng)域的技術(shù)人員可以根據(jù)算法的不同采用 不同的調(diào)整參數(shù)以及可以根據(jù)需要對第一至第四預(yù)定值進(jìn)行設(shè)置???以使用SVMLIGHT中的一j參數(shù)來調(diào)整風(fēng)險(xiǎn)參數(shù),以獲得上述調(diào)整參 數(shù)981和982。
之后,在S806,由IEA4根據(jù)IEA模型9133判斷每個(gè)不確定的 候選實(shí)例是否表述了預(yù)定信息。如果沒有,則IEA4將拒絕該不確定 的候選實(shí)例,將其放入拒絕的文本段9123。如果是,則將接受該不確 定的候選實(shí)例并添加到實(shí)例集9114中。此后,如果還有未處理的文本, 則重復(fù)執(zhí)行S803 — S806,從而獲得了多個(gè)實(shí)例集。
由于在運(yùn)行階段,由MRE3向IES2和IEA4動態(tài)地提供調(diào)整數(shù)據(jù), 以調(diào)整IES2和IEA4的精確率和召回率中的至少一個(gè),從而能夠增加 對輸入的文本的分析的精確度和準(zhǔn)確率。
圖5b是根據(jù)本發(fā)明第二實(shí)施例的信息提取裝置。參考圖5b,其 與圖5a的區(qū)別在于該信息提取裝置僅包括語料分段器1, IES 2以及 MRE3,而不包括IEA4。 MRE3將從IES2輸出的候選實(shí)例與多級規(guī)則 數(shù)據(jù)庫匹配,并生成相應(yīng)的實(shí)例集。此外,MRE3動態(tài)地向IES2提供 用于調(diào)整IES2的精確率和召回率的調(diào)整參數(shù)。其提取信息的方法與圖 8所示的流程圖中對應(yīng)的部分類似。
圖5c是根據(jù)本發(fā)明第三實(shí)施例的信息提取裝置。參考圖5c,其 與圖5a的區(qū)別在于該信息提取裝置僅包括語料分段器1, MRE 3,以及IEA4而不包括IES 2。 MRE3將輸入的候選實(shí)例與多級規(guī)則數(shù)據(jù) 庫匹配,并生成相應(yīng)的實(shí)例集。此外,MRE3動態(tài)地向IEA4提供用 于調(diào)整IEA4的精確率和召回率的調(diào)整參數(shù)。其提取信息的方法與圖8 所示的流程圖中對應(yīng)的部分類似。
圖9示出了應(yīng)用本發(fā)明的信息提取模型訓(xùn)練裝置和信息提取裝置 的系統(tǒng)的一個(gè)示例。該系統(tǒng)用于從因特網(wǎng)新聞中提取公司之間的商業(yè) 關(guān)系(例如,競爭,合作,等)。
在訓(xùn)練階段,由信息提取模型訓(xùn)練裝置根據(jù)訓(xùn)練語料來訓(xùn)練商業(yè) 關(guān)系提取模型。在提取信息階段,使用瀏覽器從因特網(wǎng)下載新聞,作 為語料,信息提取裝置根據(jù)訓(xùn)練的信息提取模型從下載的新聞(語料) 提取商業(yè)關(guān)系實(shí)例。之后,向用戶呈現(xiàn)提取的信息實(shí)例。
盡管已經(jīng)參照具體實(shí)施例,對本發(fā)明進(jìn)行了描述,但本發(fā)明不應(yīng) 當(dāng)由這些實(shí)施例來限定,而應(yīng)當(dāng)僅由所附權(quán)利要求來限定。應(yīng)當(dāng)清楚, 在不偏離本發(fā)明的范圍和精神的前提下,本領(lǐng)域普通技術(shù)人員可以對 實(shí)施例進(jìn)行改變或修改。
權(quán)利要求
1. 一種信息提取模型訓(xùn)練裝置,包括IES模型訓(xùn)練單元,用于利用語料來生成IES模型訓(xùn)練集和MRE規(guī)則訓(xùn)練集,并根據(jù)IES模型訓(xùn)練集和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模型;以及MRE規(guī)則訓(xùn)練單元,用于利用語料和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的MRE規(guī)則庫。
2. 如權(quán)利要求l所述的信息提取模型訓(xùn)練裝置,其中 IES模型訓(xùn)練單元基于初始的IES模型,將語料中表述了預(yù)定信息的文本作為IES模型訓(xùn)練單元接受的樣本,并對其進(jìn)行標(biāo)記作為IES模 型訓(xùn)練樣本放入IES模型訓(xùn)練集中;以及將MRE規(guī)則訓(xùn)練單元對所述 IES模型訓(xùn)練樣本進(jìn)行識別所獲得的錯誤識別樣本作為MRE規(guī)則訓(xùn)練 樣本放入MRE規(guī)則訓(xùn)練集中。
3. 如權(quán)利要求l所述的信息提取模型訓(xùn)練裝置,其中-MRE規(guī)則訓(xùn)練單元基于初始的MRE規(guī)則庫,將語料中未表述預(yù)定信息的文本作為MRE規(guī)則訓(xùn)練單元接受的樣本,并對其進(jìn)行標(biāo)記,之 后將MRE錯誤識別的樣本放入MRE規(guī)則訓(xùn)練集中。
4. 一種信息提取模型訓(xùn)練裝置,包括MRE規(guī)則訓(xùn)練單元,用于利用語料來生成第一IEA模型訓(xùn)練集;以及IEA模型訓(xùn)練單元,用于利用語料來生成第二IEA模型訓(xùn)練集以及 第一MRE規(guī)則訓(xùn)練集,并根據(jù)第一和第二IEA模型訓(xùn)練集以及第一 MRE訓(xùn)練集生成訓(xùn)練后的IEA模型;其中,MRE規(guī)則訓(xùn)練單元根據(jù)第一MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的 MRE模型。
5. 如權(quán)利要求4所述的信息提取模型訓(xùn)練裝置,還包括-IES模型訓(xùn)練單元,用于利用語料來生成IES模型訓(xùn)練集和第二MRE規(guī)則訓(xùn)練集,并根據(jù)IES模型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模型,其中MRE規(guī)則訓(xùn)練單元根據(jù)第一MRE規(guī) 則訓(xùn)練集和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的MRE模型。
6. 如權(quán)利要求4所述的信息提取模型訓(xùn)練裝置,其中 MRE規(guī)則訓(xùn)練單元基于初始的MRE規(guī)則庫,將語料中未表述預(yù)定信息的文本作為MRE規(guī)則訓(xùn)練單元接受的樣本,并對其進(jìn)行標(biāo)記后將 MRE規(guī)則訓(xùn)練單元錯誤識別的樣本為IEA模型訓(xùn)練樣本放入第一IEA模型訓(xùn)練集中。
7. 如權(quán)利要求4所述的信息提取模型訓(xùn)練裝置,其中 IEA模型訓(xùn)練單元基于初始的IEA模型訓(xùn)練模型,將語料中表述了預(yù)定信息的文本作為IEA模型訓(xùn)練單元接受的樣本,并對其進(jìn)行標(biāo)記 作為IEA模型訓(xùn)練樣本放入第二IEA模型訓(xùn)練集中;以及將MRE規(guī)則訓(xùn) 練單元對所述IEA模型訓(xùn)練樣本進(jìn)行識別所獲得的錯誤識別樣本作為 MRE規(guī)則訓(xùn)練樣本放入第一MRE規(guī)則訓(xùn)練集中。
8. 如權(quán)利要求5所述的信息提取模型訓(xùn)練裝置,其中 IES模型訓(xùn)練單元基于初始的IES模型,將語料中表述了預(yù)定信息的文本作為IES模型訓(xùn)練單元接受的樣本,并對其進(jìn)行標(biāo)記作為IES模 型訓(xùn)練樣本放入IES模型訓(xùn)練集中;以及將MRE規(guī)則訓(xùn)練單元對所述 IES模型訓(xùn)練樣本進(jìn)行識別所獲得的錯誤識別樣本作為MRE規(guī)則訓(xùn)練 樣本放入第二MRE規(guī)則訓(xùn)練集中。
9. 一種信息提取模型訓(xùn)練裝置,包括IES模型訓(xùn)練單元,用于利用語料來生成IES模型訓(xùn)練集和第一 MRE規(guī)則訓(xùn)練集;以及MRE規(guī)則訓(xùn)練單元,用于利用語料和MRE規(guī)則訓(xùn)練集生成第一 IEA模型訓(xùn)練集;IEA模型訓(xùn)練單元,用于利用語料來生成第二IEA模型訓(xùn)練集以及 第二MRE規(guī)則訓(xùn)練集;其中MRE規(guī)則訓(xùn)練單元根據(jù)第一MRE規(guī)則訓(xùn)練集和第二MRE規(guī) 則訓(xùn)練集生成訓(xùn)練后的MRE規(guī)則庫,IES模型訓(xùn)練單元用于根據(jù)IES模 型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模型;IEA 模型訓(xùn)練單元用于根據(jù)IEA模型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IEA模型。
10. —種信息提取模型訓(xùn)練方法,包括IES模型訓(xùn)練步驟,利用語料來生成IES模型訓(xùn)練集和MRE規(guī)則訓(xùn) 練集,并根據(jù)IES模型訓(xùn)練集和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模 型;以及MRE規(guī)則訓(xùn)練步驟,利用語料和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的 MRE規(guī)則庫。
11. 如權(quán)利要求10所述的信息提取模型訓(xùn)練方法,其中IES模型訓(xùn)練步驟還包括步驟基于初始的IES模型,將語料中表述了預(yù)定信息的文本作為IES模 型訓(xùn)練步驟接受的樣本,并對其進(jìn)行標(biāo)記作為IES模型訓(xùn)練樣本放入 IES模型訓(xùn)練集中;以及將MRE規(guī)則訓(xùn)練步驟對所述IES模型訓(xùn)練樣本 進(jìn)行識別所獲得的錯誤識別樣本作為MRE規(guī)則訓(xùn)練樣本放入MRE規(guī)則訓(xùn)練集中。
12. 如權(quán)利要求10所述的信息提取模型訓(xùn)練方法,其中 MRE規(guī)則訓(xùn)練步驟還包括步驟基于初始的MRE規(guī)則庫,將語料中未表述預(yù)定信息的文本作為 MRE規(guī)則訓(xùn)練步驟接受的樣本,并對其進(jìn)行標(biāo)記,之后將MRE規(guī)則訓(xùn) 練步驟錯誤識別的樣本放入MRE規(guī)則訓(xùn)練集中。
13. —種信息提取模型訓(xùn)練方法,包括MRE規(guī)則訓(xùn)練步驟,利用語料來生成第一IEA模型訓(xùn)練集庫;以及IEA模型訓(xùn)練步驟,利用語料來生成第二IEA模型訓(xùn)練集以及第一 MRE規(guī)則訓(xùn)練集,并根據(jù)第一和第二IEA模型訓(xùn)練集以及第一MRE訓(xùn) 練集生成訓(xùn)練后的IEA模型;其中,MRE規(guī)則訓(xùn)練步驟根據(jù)第一MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的 MRE模型。
14. 如權(quán)利要求13所述的信息提取模型訓(xùn)練方法,還包括-IES模型訓(xùn)練步驟,IES模型訓(xùn)練步驟利用語料來生成IES模型訓(xùn)練集和第二MRE規(guī)則訓(xùn)練集,并根據(jù)IES模型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模型,其中MRE規(guī)則訓(xùn)練步驟根據(jù) 第一MRE規(guī)則訓(xùn)練集和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的MRE模型。
15. 如權(quán)利要求13所述的信息提取模型訓(xùn)練方法,其中 MRE規(guī)則訓(xùn)練步驟還包括步驟基于初始的MRE規(guī)則庫,將語料中未表述預(yù)定信息的文本作為 MRE規(guī)則訓(xùn)練步驟接受的樣本,并對其進(jìn)行標(biāo)記后將MRE規(guī)則訓(xùn)練步 驟錯誤識別的樣本為IEA模型訓(xùn)練樣本放入第一IEA模型訓(xùn)練集中。
16. 如權(quán)利要求13所述的信息提取模型訓(xùn)練方法,其中 IEA模型訓(xùn)練步驟還包括步驟基于初始的IEA模型訓(xùn)練模型,IEA模型訓(xùn)練步驟將語料中表述了 預(yù)定信息的文本作為IEA模型訓(xùn)練步驟接受的樣本,并進(jìn)行標(biāo)記作為 IEA模型訓(xùn)練樣本放入第二IEA模型訓(xùn)練集中;以及將MRE規(guī)則訓(xùn)練步 驟對所述IEA模型訓(xùn)練樣本進(jìn)行識別所獲得的錯誤識別樣本作為MRE 規(guī)則訓(xùn)練樣本放入第一MRE規(guī)則訓(xùn)練集中。
17. 如權(quán)利要求14所述的信息提取模型訓(xùn)練方法,其中 IES模型訓(xùn)練步驟還包括步驟IES模型訓(xùn)練步驟基于初始的IES模型,將語料中表述了預(yù)定信息 的文本作為IES模型訓(xùn)練步驟接受的樣本,并對其進(jìn)行標(biāo)記作為IES模 型訓(xùn)練樣本放入IES模型訓(xùn)練集中;以及將MRE規(guī)則訓(xùn)練步驟對所述 IES模型訓(xùn)練樣本進(jìn)行識別所獲得的錯誤識別樣本作為MRE規(guī)則訓(xùn)練 樣本放入第二MRE規(guī)則訓(xùn)練集中。
18. —種信息提取模型訓(xùn)練方法,包括-IES模型訓(xùn)練步驟,利用語料來生成IES模型訓(xùn)練集和第一MRE規(guī) 則訓(xùn)練集;以及MRE規(guī)則訓(xùn)練步驟,利用語料和MRE規(guī)則訓(xùn)練集生成第一IEA模 型訓(xùn)練集;IEA模型訓(xùn)練步驟,利用語料來生成第二IEA模型訓(xùn)練集以及第二 MRE規(guī)則訓(xùn)練集;其中MRE規(guī)則訓(xùn)練步驟根據(jù)第一MRE規(guī)則訓(xùn)練集和第二MRE規(guī) 則訓(xùn)練集生成訓(xùn)練后的MRE規(guī)則庫,IES模型訓(xùn)練步驟根據(jù)IES模型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模型;IEA模型 訓(xùn)練步驟是用于根據(jù)IEA模型訓(xùn)練集以及第一和第二MRE規(guī)則訓(xùn)練集 生成訓(xùn)練后的IEA模型。
19. 一種用于從文本段中提取實(shí)例集的信息提取裝置,包括 IES,用于基于IES模型從語料中經(jīng)過分段的文本段中選出表述了預(yù)定信息的文本段作為候選實(shí)例并提供給MRE;MRE,用于基于MRE規(guī)則庫將候選實(shí)例分別與預(yù)定的第1至第N 級規(guī)則進(jìn)行匹配,并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添加到第l 至第N個(gè)實(shí)例集的相應(yīng)的實(shí)例集中;其中,MRE通過向IES提供調(diào)整參數(shù)來動態(tài)地調(diào)整IES精確率和 IES召回率至少之一。
20. 如權(quán)利要求19所述的信息提取裝置,其中 IES是一個(gè)信息提取分類器IEC。
21. 如權(quán)利要求19所述的信息提取裝置,其中 MRE包括N級規(guī)則匹配器。
22. 如權(quán)利要求19所述的信息提取裝置,其中 MRE在候選實(shí)例拒絕率大于第一預(yù)定值時(shí),利用第一調(diào)整參數(shù)向IES通知增加IES精確率;以及MRE在候選實(shí)例接受率大于第二預(yù)定值時(shí),利用第二調(diào)整參數(shù)向 IES通知增加IES召回率。
23. —種用于從文本段中提取實(shí)例集的信息提取裝置,包括 MRE,用于基于MRE規(guī)則庫將語料中經(jīng)過分段的文本段分別與預(yù)定的第1至第N級規(guī)則進(jìn)行匹配,并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分 別添加到第1至第N個(gè)實(shí)例集的相應(yīng)實(shí)例集中,以及將與不確定級規(guī)則 匹配的候選實(shí)例作為不確定實(shí)例提供給IEA;以及IEA,用于基于IEA模型從不確定實(shí)例中選出表述了預(yù)定信息的實(shí) 例并添加到第N+1個(gè)實(shí)例集中;其中,MRE通過向IEA提供調(diào)整參數(shù)來動態(tài)地調(diào)整IEA精確率以及 IEA召回率中的至少之一。
24. 如權(quán)利要求23所述的信息提取裝置,其中MRE包括第1至第N級規(guī)則匹配器;以及不確定級規(guī)則匹配器。
25. 如權(quán)利要求23所述的信息提取裝置,其中 IEA是一個(gè)信息提取分類器IEC。
26. 如權(quán)利要求23所述的信息提取裝置,其中 MRE在不確定實(shí)例拒絕率大于第三預(yù)定值時(shí),利用第三調(diào)整參數(shù)向IEA通知增加IEA精確率;以及MRE在不確定實(shí)例接受率大于第四預(yù)定值時(shí),利用第四調(diào)整參數(shù) 向IEA通知增加IE A召回率。
27. —種用于從文本段中提取實(shí)例集的信息提取裝置,包括 IES,用于基于IES模型從語料中經(jīng)過分段的文本段中選出表述了預(yù)定信息的文本段作為候選實(shí)例;MRE,用于基于MRE規(guī)則庫將來自IES的候選實(shí)例分別與預(yù)定的 第1至第N級規(guī)則進(jìn)行匹配,并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添 加到第1至第N個(gè)實(shí)例集的相應(yīng)實(shí)例集中,其中將與不確定級規(guī)則匹配 的候選實(shí)例作為不確定實(shí)例提供給IEA;以及IEA,用于基于IEA模型從不確定實(shí)例中選出表述了預(yù)定信息的實(shí) 例并添加到第N+1個(gè)實(shí)例集中;其中,MRE通過向IES和IEA中的至少之一提供調(diào)整參數(shù)來動態(tài)地 調(diào)整IES精確率、IES召回率、IEA精確率以及IEA召回率中的至少之一。
28. 如權(quán)利要求27所述的信息提取裝置,其中 IES和IEA分別是一個(gè)信息提取分類器IEC。
29. 如權(quán)利要求27所述的信息提取裝置,其中 MRE包括N級規(guī)則匹配器;以及 不確定級規(guī)則匹配器。
30. 如權(quán)利要求27所述的信息提取裝置,其中 MRE在候選實(shí)例拒絕率大于第一預(yù)定值時(shí),利用第一調(diào)整參數(shù)向IES通知增加IES精確率;MRE在候選實(shí)例接受率大于第二預(yù)定值時(shí),利用第二調(diào)整參數(shù)向 IES通知增加IES召回率;MRE在不確定實(shí)例拒絕率大于第三預(yù)定值時(shí),利用第三調(diào)整參數(shù) 向IEA通知增加IEA精確率;以及MRE在不確定實(shí)例接受率大于第四預(yù)定值時(shí),利用第四調(diào)整參數(shù) 向IEA通知增加IEA召回率。
31. —種用于從文本段中提取實(shí)例集的信息提取方法,包括 基于IES模型IES從語料中經(jīng)過分段的文本段中選出表述了預(yù)定信息的文本段作為候選實(shí)例并提供給MRE;基于MRE規(guī)則庫MRE將候選實(shí)例分別與預(yù)定的第1至第N級規(guī)則 進(jìn)行匹配;并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添加到第1至第N個(gè) 實(shí)例集的相應(yīng)的實(shí)例集中;以及MRE向IES提供調(diào)整參數(shù)來動態(tài)地調(diào)整IES精確率和IES召回率至少之一。
32. 如權(quán)利要求31所述的信息提取方法,其中MRE提供調(diào)整參數(shù) 來執(zhí)行動態(tài)調(diào)整的步驟包括在候選實(shí)例拒絕率大于第一預(yù)定值時(shí),MRE利用第一調(diào)整參數(shù)向 IES通知增加IES精確率;以及在候選實(shí)例接受率大于第二預(yù)定值時(shí),MRE利用第二調(diào)整參數(shù)向 IES通知增加IES召回率。
33. —種用于從文本段中提取實(shí)例集的信息提取方法,包括 利用MRE規(guī)則庫MRE將語料中經(jīng)過分段的文本段分別與預(yù)定的第1至第N級規(guī)則進(jìn)行匹配,并將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添 加到第1至第N個(gè)實(shí)例集的相應(yīng)實(shí)例集,以及將與不確定級規(guī)則匹配的 候選實(shí)例作為不確定實(shí)例提供給IEA;基于IEA模型IEA從不確定實(shí)例中選出表述了預(yù)定信息的實(shí)例并 添加到第N+1個(gè)實(shí)例集中;以及MRE通過向IEA提供調(diào)整參數(shù)來動態(tài)地調(diào)整IEA精確率以及IEA召回率中的至少之一。
34. 如權(quán)利要求33所述的信息提取方法,其中MRE提供調(diào)整參數(shù)來執(zhí)行動態(tài)調(diào)整的步驟包括在不確定實(shí)例拒絕率大于第三預(yù)定值時(shí),MRE利用第三調(diào)整參數(shù)向IEA通知增加IEA精確率;以及在不確定實(shí)例接受率大于第四預(yù)定值時(shí),MRE利用第四調(diào)整參數(shù) 向IEA通知增加IEA召回率。
35. —種用于從文本段中提取實(shí)例集的信息提取方法,包括 基于IES模型IES從語料中經(jīng)過分段的文本段中選出表述了預(yù)定信息的文本段作為候選實(shí)例;利用MRE規(guī)則庫MRE將來自IES的候選實(shí)例分別與預(yù)定的第1至 第N級規(guī)則進(jìn)行匹配,將與相應(yīng)級規(guī)則匹配的候選實(shí)例分別添加到第l 至第N個(gè)實(shí)例集的相應(yīng)實(shí)例集中,其中將與不確定級規(guī)則匹配的候選 實(shí)例作為不確定實(shí)例提供給IEA;基于IEA模型IEA從不確定實(shí)例中選出表述了預(yù)定信息的實(shí)例并 添加到第N+1個(gè)實(shí)例集中;MRE通過向IES和IEA中的至少之一提供調(diào)整參數(shù)來動態(tài)地調(diào)整 IES精確率、IES召回率、IEA精確率以及IEA召回率中的至少之一。
36. 如權(quán)利要求35所述的信息提取方法,MRE提供調(diào)整參數(shù)來執(zhí) 行動態(tài)調(diào)整的步驟包括在候選實(shí)例拒絕率大于第一預(yù)定值時(shí),MRE利用第一調(diào)整參數(shù)向 IES通知增加IES精確率;在候選實(shí)例接受率大于第二預(yù)定值時(shí),MRE利用第二調(diào)整參數(shù)向 IES通知增加IES召回率;在不確定實(shí)例拒絕率大于第三預(yù)定值時(shí),MRE利用第三調(diào)整參數(shù) 向IEA通知增加IEA精確率;以及在不確定實(shí)例接受率大于第四預(yù)定值時(shí),MRE利用第四調(diào)整參數(shù) 向IE A通知增加IE A召回率。
37. —種信息提取系統(tǒng),包括根據(jù)權(quán)利要求1或4或9所述的信息提取模型訓(xùn)練裝置;以及 根據(jù)權(quán)利要求19, 23和27之一所述的信息提取裝置。
38. —種信息提取方法,包括根據(jù)權(quán)利要求10或13或18所述的信息提取模型訓(xùn)練方法;以及 根據(jù)權(quán)利要求31或33或35所述的信息提取方法。
全文摘要
本發(fā)明提供一種信息提取模型訓(xùn)練裝置,包括IES模型訓(xùn)練單元,用于利用語料來生成IES模型訓(xùn)練集和MRE規(guī)則訓(xùn)練集,并根據(jù)IES模型訓(xùn)練集和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的IES模型;以及MRE規(guī)則訓(xùn)練單元,用于利用語料和MRE規(guī)則訓(xùn)練集生成訓(xùn)練后的MRE規(guī)則庫。此外,本發(fā)明提供了一種用于從文本段中提取實(shí)例集的信息提取裝置,一種信息提取模型訓(xùn)練方法和信息提取方法,以及包括該信息提取模型訓(xùn)練裝置和信息提取裝置的系統(tǒng)和方法。通過本發(fā)明,可以精確、快速地從大量信息中查找出所需信息。
文檔編號G06F17/27GK101470699SQ20071030662
公開日2009年7月1日 申請日期2007年12月28日 優(yōu)先權(quán)日2007年12月28日
發(fā)明者吳根清, 靳簡明 申請人:日電(中國)有限公司