最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種實現(xiàn)漢語同音字檢索的方法

文檔序號:6363022閱讀:562來源:國知局
專利名稱:一種實現(xiàn)漢語同音字檢索的方法
技術領域
本發(fā)明涉及漢字檢索技術領域,特別是一種實現(xiàn)漢語同音字檢索的方法。
背景技術
同音字是漢語言的一種特性,漢字中存在大量的同音字。用戶在檢索時,只知道一個字的讀音,不知道其具體寫法的情況是很常見的,因此,同音字檢索作為一種智能檢索方式應運而生。傳統(tǒng)的實現(xiàn)漢語同音字檢索的方法有兩種一種是利用漢語的詞庫,另一種是利用漢字的拼音。漢語的詞匯量(指由漢字組成的詞組)是很大的,如果使用詞庫方式進行同音字檢索,需要建立龐大的同音詞庫,且檢索的時候,需要將用戶輸入的關鍵詞根據(jù)同音詞庫替換成若干同音詞,使一個輸入實際上變成多個輸入,降低了檢索的效率,同時增大了維護和擴展的成本。另一種方式,是將每個漢字與其拼音關聯(lián)起來,當用戶輸入關鍵詞時,先將每個漢字轉(zhuǎn)換成拼音,再反向根據(jù)拼音查詢具有相同讀音的漢字,進行排列組合,生成若干同音關鍵詞組,再進行檢索。這種方式經(jīng)排列組合之后,會生成非常多的同音關鍵詞組,尤其是當用戶輸入的關鍵詞包含漢字個數(shù)越多,這種現(xiàn)象越明顯,會使效率大大下降,如果對這些同音關鍵詞組進行篩選過濾,只保留有意義的詞組,無疑又涉及語法和詞法分析等方面的知識,門檻較高,成本較大。

發(fā)明內(nèi)容
(一 )要解決的技術問題有鑒于此,本發(fā)明的主要目的在于提供一種實現(xiàn)漢語同音字檢索的方法,以提高漢字檢索的效率,降低成本。( 二 )技術方案為達到上述目的,本發(fā)明提供的了一種實現(xiàn)漢語同音字檢索的方法,該方法包括步驟I :建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數(shù)據(jù)庫中的原始全文內(nèi)容進行映射,得到由多條映射記錄構(gòu)成的檢索數(shù)據(jù)庫;步驟2 :按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同首代表字串;步驟3 :在由多條映射記錄構(gòu)成的檢索數(shù)據(jù)庫中對該同音代表字串進行檢索,得到檢索結(jié)果。上述方案中,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括: 以國家質(zhì)量技術監(jiān)督局2001年宣布的計算機漢字信息交換標準GB18030為依據(jù),建立常用漢字與其同音代表字之間的映射關系,其中GB18030共包括70244個漢字,從具有相同發(fā)音的多個漢字中選取同音代表字。上述方案中,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括: 以國家語委漢字處制定的包括7000個漢字的現(xiàn)代漢語通用字表或以教育部目前正向社會征求意見的包括8300個漢字的通用規(guī)范漢字表為依據(jù),建立常用漢字與其同音代表字之間的映射關系,從具有相同發(fā)音的多個漢字中選取同音代表字。上述方案中,所述在從具有相同發(fā)音的多個漢字中選取同音代表字,是選用具有相同發(fā)音的任一個字做為其同音代表字,優(yōu)選地是選用具有相同發(fā)音的第一個字做為其同音代表字。至于相同發(fā)音的規(guī)則,可以根據(jù)用戶不同的需求靈活決定,可以精確到相同拼音的不同聲調(diào),也可以不區(qū)分相同拼音的不同聲調(diào),或者可以不區(qū)分非卷舌舌音和卷舌音等。上述方案中,所述原始全文內(nèi)容和同音代表字信息保存在同一個數(shù)據(jù)庫表中,步驟I中所述映射記錄包括以下字段記錄標識、原始全文內(nèi)容和同音代表字信息,其中原始全文內(nèi)容與同音代表字信息按照所述映射關系一一對應。所述步驟3包括以該同音代表字串為檢索關鍵詞,在檢索數(shù)據(jù)庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據(jù)該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始全文內(nèi)容為檢索結(jié)果。上述方案中,所述原始全文內(nèi)容和同音代表字信息分別保存在不同的數(shù)據(jù)庫表中,步驟I中所述映射記錄包括以下字段記錄標識、原始資源標識ID和同音代表字信息, 其中原始資源標識ID與同音代表字信息按照所述映射關系一一對應,且在原始全文內(nèi)容數(shù)據(jù)庫表中原始資源標識ID對應于原始全文內(nèi)容。所述步驟3包括以該同音代表字串為檢索關鍵詞,在檢索數(shù)據(jù)庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據(jù)該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始資源標識ID,然后根據(jù)該原始資源標識ID到原始全文內(nèi)容數(shù)據(jù)庫表中找到對應的記錄,得到原始全文內(nèi)容為檢索結(jié)果。上述方案中,步驟3中所述檢索采用全文檢索方式,該全文檢索是指計算機索引程序通過掃描檢索數(shù)據(jù)庫中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找,并將查找的結(jié)果反饋給用戶的檢索方式。上述方案中,該方法在步驟3之后還包括得到檢索結(jié)果之后,對檢索結(jié)果進行標紅處理和生成動態(tài)摘要,并展現(xiàn)給用戶;其中,標紅處理是指對檢索結(jié)果的條目內(nèi)容中的檢索關鍵詞運用紅色字體突出顯示;生成動態(tài)摘要是指在檢索結(jié)果的條目內(nèi)容中提取檢索關鍵詞的上下文連接而成的摘要。上述方案中,所述標紅處理具體包括首先在使用同音代表字串作為檢索關鍵詞返回的檢索結(jié)果的命中記錄中,查找同音代表字串在同音代表字信息內(nèi)容中出現(xiàn)的次數(shù)和位置,由于同音代表字信息是原始全文內(nèi)容根據(jù)同音代表字表逐一映射而來,所以信息的總字符長度完全一樣,相同位置對應的字發(fā)音也是相同的,根據(jù)同音代表字串出現(xiàn)的次數(shù)和位置在原始全文內(nèi)容中找到對應位置即是原始檢索關鍵詞的所在位置,將其對應位置的字符使用紅色突出顯示,就完成了對原始全文內(nèi)容的標紅處理。上述方案中,所述動態(tài)摘要的生成方法包括首先在使用同音代表字串作為檢索關鍵詞返回的檢索結(jié)果的命中記錄中,查找同音代表字串在同音代表字信息內(nèi)容中出現(xiàn)的次數(shù)和位置;與該位置對應的原始全文內(nèi)容的相同位置就是原始檢索關鍵詞出現(xiàn)的位置, 將原始關鍵詞的上下文內(nèi)容取出,就生成了動態(tài)摘要。上述方案中,步驟2中所述按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射之后,進一步將未在檢索數(shù)據(jù)庫映射記錄中出現(xiàn)的原始全文內(nèi)容和同音代表字信息作為一條新的映射記錄插入到檢索數(shù)據(jù)庫中,實時對檢索數(shù)據(jù)庫的映射記錄進行擴充和完善。(三)有益效果從上述技術方案可以看出,本發(fā)明具有以下有益效果I)、本發(fā)明檢索效率高;直接使用同音代表字串進行檢索,避免了傳統(tǒng)算法中對輸入詞的多種同音詞進行循環(huán)窮舉的方式。2)、本發(fā)明不依賴同音詞庫,不需要同音詞庫。由于漢語的詞匯量大且組合靈活, 同音詞庫的建立和維護都相當耗費資源,而本發(fā)明不依賴同音詞庫,不需要同音詞庫,所以降低了資源的耗費,降低了成本。3)、本發(fā)明基于漢字總量的確定性,具擴展性,即同音字映射表可維護,且維護成本低。本發(fā)明能夠同音字映射表的記錄總數(shù)可控,可控指同音字表的記錄規(guī)模即為漢字的總數(shù)規(guī)模,在一個可預見的范圍之內(nèi),因為漢字不會憑空增加,或者增加的機率和比率很小。由于總數(shù)可控,所以對同音字映射表的維護成本較低,尤其是相對于漢語詞組來講。每天都會出現(xiàn)很多新詞,如果采用同音詞方法的話,其維護量是很大的,而字則不會,隨之而來的,同音字表也更容易維護。4)、本發(fā)明能夠?qū)τ脩糨斎爰百Y源的元數(shù)據(jù)信息進行數(shù)據(jù)挖掘,會自動添加相應記錄;元數(shù)據(jù)即metadata,指資源的描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。如題名,關鍵詞,內(nèi)容介紹,欄目名稱,首播日期等。由于資源的元數(shù)據(jù)信息以及用戶輸入的檢索關鍵詞都需要替換成其同音代表字,因此可以發(fā)現(xiàn)這其中是否有些字并不在同音字映射表中,如果確實存在這樣的情況,則自動將這個字插入同音字映射表中。


圖I是本發(fā)明提供的實現(xiàn)漢語同音字檢索的方法流程圖。
具體實施例方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。本發(fā)明提供的這種實現(xiàn)漢語同音字檢索的方法,利用漢字總數(shù)遠遠低于由漢字所組成的詞匯總數(shù)的特點,以漢字為中心來實現(xiàn)同音檢索。同時,又利用了漢字讀音的特點, 但又不直接使用拼音,而是將每個漢字對應一個同音代表字,這種方式保證了原始漢字信息與同音代表字信息在字符和長度都相同的特性,決定了資源的元數(shù)據(jù)信息與其同音代表字信息是等長的,為后續(xù)的檢索,標紅處理以及生成動態(tài)摘要都做了良好的鋪墊?;诂F(xiàn)代計算機技術,尤其是存儲技術而言,即便是10萬個漢字規(guī)模也不過1Mb。 其存儲空間相對于對于當今的內(nèi)存容量實在是九牛一毛。而相應的,對于檢索系統(tǒng)來講,檢索效率才是最關鍵的。本方法的優(yōu)勢正是在于其檢索/標紅/動態(tài)摘要等操作的高效,以及低成本和高擴展性。
如圖I所示,圖I是本發(fā)明提供的實現(xiàn)漢語同音字檢索的方法流程圖,該方法包括步驟I :建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數(shù)據(jù)庫中的原始全文內(nèi)容進行映射,得到由多條映射記錄構(gòu)成的檢索數(shù)據(jù)庫;步驟2 :按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同首代表字串;步驟3 :在由多條映射記錄構(gòu)成的檢索數(shù)據(jù)庫中對該同音代表字串進行檢索,得到檢索結(jié)果。其中,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括以國家質(zhì)量技術監(jiān)督局2001年宣布的計算機漢字信息交換標準一一GB18030 (最新的GB18030共 70244個漢字)為依據(jù),建立初始同音代表字映射表,其同音代表字可取自具有相同發(fā)音的任一個漢字,推薦使用具有相同發(fā)音的第一個字做為其同音代表字。如果國家標準有所調(diào)整,同音代表字映射表隨之調(diào)整?;蛘?,以國家語委漢字處制定的現(xiàn)代漢語通用字表(7000 個漢字)或以教育部目前正向社會征求意見的通用規(guī)范漢字表(8300個漢字)為依據(jù),建立初始同音代表字映射表,其同音代表字可取自具有相同發(fā)音的任一個漢字,推薦使用具有相同發(fā)音的第一個字做為其同音代表字。這種方式的特點是初始裝入的是常用漢字,總量小,檢索效率高。其后續(xù)的維護可以兩種途徑齊頭并進,既隨著國家標準的調(diào)整而調(diào)整, 又可以動態(tài)的根據(jù)用戶輸入及資源的元數(shù)據(jù)信息進行自動擴充。原始全文內(nèi)容和同音代表字信息可以保存在同一個數(shù)據(jù)庫表中,此時步驟I中所述映射記錄包括以下字段記錄標識、原始全文內(nèi)容和同音代表字信息,其中原始全文內(nèi)容與同音代表字信息按照所述映射關系對應。利用同音代表字映射關系裝入系統(tǒng)建立原始全文內(nèi)容與同音代表字信息的映射記錄,記錄數(shù)可以為常用漢字個數(shù),大概六千條左右。 在資源入庫到系統(tǒng)時,利用全文及同音代表字內(nèi)容同步系統(tǒng)對資源的所有元數(shù)據(jù)信息生成兩列內(nèi)容,一列為原始全文內(nèi)容,按照一定的格式(可以為xml格式,也可以自定義格式) 收集所有的元數(shù)據(jù)項,同時,利用同音代表字映射表生成原始全文內(nèi)容對應的同音代表字信息。所述步驟3包括以該同音代表字串為檢索關鍵詞,在檢索數(shù)據(jù)庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據(jù)該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始全文內(nèi)容為檢索結(jié)果。在檢索系統(tǒng)中,為減小耦合性,還可以將原始全文內(nèi)容和同音代表字信息分別保存在不同的數(shù)據(jù)庫表中。需要指出的是,在同音代表字信息存儲時,需要同時保存與其對應的原始全文內(nèi)容的原始資源標識ID,即步驟I中所述映射記錄包括以下字段記錄標識、原始資源標識ID和同音代表字信息,其中原始資源標識ID與同音代表字信息按照所述映射關系一一對應,且在原始全文內(nèi)容數(shù)據(jù)庫表中原始資源標識ID對應于原始全文內(nèi)容。所述步驟3包括以該同音代表字串為檢索關鍵詞,在檢索數(shù)據(jù)庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據(jù)該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始資源標識ID,然后根據(jù)該原始資源標識ID到原始全文內(nèi)容數(shù)據(jù)庫表中找到對應的記錄,得到原始全文內(nèi)容為檢索結(jié)果。
步驟3中所述檢索采用全文檢索方式,該全文檢索是指計算機索引程序通過掃描檢索數(shù)據(jù)庫中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找,并將查找的結(jié)果反饋給用戶的檢索方式。該方法在步驟3之后還包括得到檢索結(jié)果之后,將檢索結(jié)果進行標紅處理和生成動態(tài)摘要,并展現(xiàn)給用戶;其中,標紅處理是指對檢索結(jié)果的條目內(nèi)容中的檢索關鍵詞運用紅色字體突出顯示;生成動態(tài)摘要是指在檢索結(jié)果的條目內(nèi)容中提取檢索關鍵詞的上下文連接而成的摘要。這里所述的標紅處理的具體實現(xiàn)方式為首先在使用同音代表字串作為檢索關鍵詞返回的檢索結(jié)果的命中記錄中,查找同音代表字串在同音代表字信息內(nèi)容中出現(xiàn)的次數(shù)和位置(相對同音代表字信息內(nèi)容起始位置的偏移量);由于同音代表字信息是原始全文內(nèi)容根據(jù)同音代表字表逐一映射而來,所以信息的總字符長度完全一樣,相同位置對應的字發(fā)音也是相同的,根據(jù)同音代表字串出現(xiàn)的次數(shù)和位置在原始全文內(nèi)容中找到對應位置 (相對原始全文內(nèi)容起始位置的偏移量)即是原始檢索關鍵詞的所在位置,將其對應位置的字符使用紅色突出顯示,就完成了對原始全文內(nèi)容的標紅處理。這里所述的動態(tài)摘要的生成方法是,首先在使用同音代表字串作為檢索關鍵詞返回的檢索結(jié)果的命中記錄中,查找同音代表字串在同音代表字信息內(nèi)容中出現(xiàn)的次數(shù)和位置;與該位置對應的原始全文內(nèi)容的相同位置就是原始檢索關鍵詞出現(xiàn)的位置,將原始關鍵詞的上下文內(nèi)容取出,就生成了動態(tài)摘要。步驟2中所述按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射之后,進一步將未在檢索數(shù)據(jù)庫映射記錄中出現(xiàn)的原始全文內(nèi)容和同音代表字信息作為一條新的映射記錄插入到檢索數(shù)據(jù)庫中,實時對檢索數(shù)據(jù)庫的映射記錄進行擴充和完善。在將關鍵詞中的漢字替換成同音代表字的過程中,自動將未在映射表中記錄的漢字插入映射表的原始漢字列中,并為這條映射記錄添加待處理標志,便于后續(xù)維護處理。在將未處理的原始漢字添加其同音代表字,其方式可以是人工的,也可以是自動的。下表I示例性的描述了本發(fā)明常用漢字與其同音代表字的映射關系,左側(cè)列表示原始漢字,右側(cè)列表示與原始漢字對應的同音代表字。需要說明的是,該表I僅僅是一個映射示例,未列出所有的映射關系,故中間用省略號代替。
權(quán)利要求
1.一種實現(xiàn)漢語同音字檢索的方法,其特征在于,該方法包括步驟I :建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數(shù)據(jù)庫中的原始全文內(nèi)容進行映射,得到由多條映射記錄構(gòu)成的檢索數(shù)據(jù)庫;步驟2 :按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同首代表字串;步驟3:在由多條映射記錄構(gòu)成的檢索數(shù)據(jù)庫中對該同音代表字串進行檢索,得到檢索結(jié)果。
2.根據(jù)權(quán)利要求I所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括以國家質(zhì)量技術監(jiān)督局2001年宣布的計算機漢字信息交換標準GB18030為依據(jù),建立常用漢字與其同音代表字之間的映射關系,其中GB18030共包括70244個漢字,從具有相同發(fā)音的多個漢字中選取同音代表字。
3.根據(jù)權(quán)利要求I所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括以國家語委漢字處制定的包括7000個漢字的現(xiàn)代漢語通用字表或以教育部目前正向社會征求意見的包括8300個漢字的通用規(guī)范漢字表為依據(jù),建立常用漢字與其同音代表字之間的映射關系,從具有相同發(fā)音的多個漢字中選取同音代表字。
4.根據(jù)權(quán)利要求2或3所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,所述在從具有相同發(fā)音的多個漢字中選取同音代表字,是選用具有相同發(fā)音的任一個字做為其同音代表字。
5.根據(jù)權(quán)利要求4所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,所述在從具有相同發(fā)音的多個漢字中選取同音代表字,是選用具有相同發(fā)音的第一個字做為其同音代表字。
6.根據(jù)權(quán)利要求I所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,所述原始全文內(nèi)容和同音代表字信息保存在同一個數(shù)據(jù)庫表中,步驟I中所述映射記錄包括以下字段記錄標識、原始全文內(nèi)容和同音代表字信息,其中原始全文內(nèi)容與同音代表字信息按照所述映射關系--對應。
7.根據(jù)權(quán)利要求6所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,所述步驟3包括 以該同音代表字串為檢索關鍵詞,在檢索數(shù)據(jù)庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據(jù)該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始全文內(nèi)容為檢索結(jié)果。
8.根據(jù)權(quán)利要求I所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,所述原始全文內(nèi)容和同音代表字信息分別保存在不同的數(shù)據(jù)庫表中,步驟I中所述映射記錄包括以下字段記錄標識、原始資源標識ID和同音代表字信息,其中原始資源標識ID與同音代表字信息按照所述映射關系一一對應,且在原始全文內(nèi)容數(shù)據(jù)庫表中原始資源標識ID對應于原始全文內(nèi)容。
9.根據(jù)權(quán)利要求8所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,所述步驟3包括: 以該同音代表字串為檢索關鍵詞,在檢索數(shù)據(jù)庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據(jù)該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始資源標識ID,然后根據(jù)該原始資源標識ID到原始全文內(nèi)容數(shù)據(jù)庫表中找到對應的記錄,得到原始全文內(nèi)容為檢索結(jié)果。
10.根據(jù)權(quán)利要求I所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,步驟3中所述檢索采用全文檢索方式,該全文檢索是指計算機索引程序通過掃描檢索數(shù)據(jù)庫中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找,并將查找的結(jié)果反饋給用戶的檢索方式。
11.根據(jù)權(quán)利要求I所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,該方法在步驟3 之后還包括得到檢索結(jié)果之后,對檢索結(jié)果進行標紅處理和生成動態(tài)摘要,并展現(xiàn)給用戶;其中, 標紅處理是指對檢索結(jié)果的條目內(nèi)容中的檢索關鍵詞運用紅色字體突出顯示;生成動態(tài)摘要是指在檢索結(jié)果的條目內(nèi)容中提取檢索關鍵詞的上下文連接而成的摘要。
12.根據(jù)權(quán)利要求11所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,所述標紅處理具體包括首先在使用同音代表字串作為檢索關鍵詞返回的檢索結(jié)果的命中記錄中,查找同音代表字串在同音代表字信息內(nèi)容中出現(xiàn)的次數(shù)和位置,由于同音代表字信息是原始全文內(nèi)容根據(jù)同音代表字表逐一映射而來,所以信息的總字符長度完全一樣,相同位置對應的字發(fā)音也是相同的,根據(jù)同音代表字串出現(xiàn)的次數(shù)和位置在原始全文內(nèi)容中找到對應位置即是原始檢索關鍵詞的所在位置,將其對應位置的字符使用紅色突出顯示,就完成了對原始全文內(nèi)容的標紅處理。
13.根據(jù)權(quán)利要求11所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,所述動態(tài)摘要的生成方法包括首先在使用同音代表字串作為檢索關鍵詞返回的檢索結(jié)果的命中記錄中,查找同音代表字串在同音代表字信息內(nèi)容中出現(xiàn)的次數(shù)和位置;與該位置對應的原始全文內(nèi)容的相同位置就是原始檢索關鍵詞出現(xiàn)的位置,將原始關鍵詞前后的上下文內(nèi)容取出,就生成了動態(tài)摘要。
14.根據(jù)權(quán)利要求I所述的實現(xiàn)漢語同音字檢索的方法,其特征在于,步驟2中所述按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射之后,進一步將未在檢索數(shù)據(jù)庫映射記錄中出現(xiàn)的原始全文內(nèi)容和同音代表字信息作為一條新的映射記錄插入到檢索數(shù)據(jù)庫中,實時對檢索數(shù)據(jù)庫的映射記錄進行擴充和完善。
全文摘要
本發(fā)明公開了一種實現(xiàn)漢語同音字檢索的方法,該方法包括步驟1建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數(shù)據(jù)庫中的原始全文內(nèi)容進行映射,得到由多條映射記錄構(gòu)成的檢索數(shù)據(jù)庫;步驟2按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同音代表字串;步驟3在由多條映射記錄構(gòu)成的檢索數(shù)據(jù)庫中對該同音代表字串進行檢索,得到檢索結(jié)果。本發(fā)明直接使用同音代表字串進行檢索,避免了傳統(tǒng)算法中對輸入詞的多種同音詞進行循環(huán)窮舉的方式,檢索效率高。另外,本發(fā)明不依賴同音詞庫,不需要同音詞庫,降低了資源的耗費,降低了成本。
文檔編號G06F17/30GK102609455SQ201210008298
公開日2012年7月25日 申請日期2012年1月12日 優(yōu)先權(quán)日2012年1月12日
發(fā)明者周海濱, 崔玉祥, 王杰中, 鄒娟 申請人:北京中科大洋科技發(fā)展股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1