最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種字符串模糊匹配方法及系統(tǒng)

文檔序號(hào):41944830發(fā)布日期:2025-05-16 14:02閱讀:4來(lái)源:國(guó)知局
一種字符串模糊匹配方法及系統(tǒng)

本發(fā)明涉及字符識(shí)別領(lǐng)域,特別涉及一種字符串模糊匹配方法及系統(tǒng)。


背景技術(shù):

1、光學(xué)字符識(shí)別技術(shù)ocr能夠?qū)⒉煌愋偷奈臋n,如掃描的紙張文檔、pdf文件或圖像,轉(zhuǎn)換成可編輯和可搜索的數(shù)據(jù)。

2、現(xiàn)有技術(shù)中,ocr通過(guò)圖像預(yù)處理、文字檢測(cè)、字符分割、字符識(shí)別和后處理方式,將識(shí)別結(jié)果與標(biāo)準(zhǔn)字符串進(jìn)行模糊比較與搜索,尋找出與正確字符相似的字符。在相似性的判斷上,例如采用編輯距離方法,該方法是一種用于測(cè)量?jī)蓚€(gè)字符串之間相似性的算法。

3、但是,模糊比較與搜索獲得的字符與需要識(shí)別的字符雖然相似,如“紫”與“柴”,兩者卻并不是同一個(gè)字符,也沒(méi)有進(jìn)一步對(duì)相似的兩個(gè)字符進(jìn)行區(qū)分,使得識(shí)別結(jié)果出現(xiàn)錯(cuò)誤。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例提供一種字符串模糊匹配方法及系統(tǒng),可以解決現(xiàn)有技術(shù)中,ocr技術(shù)識(shí)別的相似結(jié)果存在字符錯(cuò)誤的問(wèn)題。

2、本發(fā)明實(shí)施例提供一種字符串模糊匹配方法,包括以下步驟:獲取不同字號(hào)字體的多個(gè)字符;從多個(gè)字符中選擇任意兩個(gè)字符,通過(guò)光學(xué)字符識(shí)別技術(shù)ocr提取每個(gè)字符的圖像特征向量,并獲得兩個(gè)字符的圖像特征向量之間的夾角余弦距離作為相似度;根據(jù)多個(gè)字符中任意兩個(gè)字符之間的相似度,構(gòu)建字形相似性矩陣;根據(jù)編輯距離方法中用于將字符串的一個(gè)字符替換為另一個(gè)字符的替換操作,對(duì)替換操作內(nèi)描述替換字符所用成本的代價(jià)進(jìn)行字符相似性加權(quán),以構(gòu)建加權(quán)編輯距離方法;所述字符相似性加權(quán)包括:當(dāng)被替換的字符的相似度高于設(shè)定的相似性閾值時(shí),替換操作的代價(jià)為第一設(shè)定值與相似度之差;否則,替換操作的代價(jià)為第二設(shè)定值,所述第二設(shè)定值表示對(duì)替換操作的代價(jià)賦予高于第一設(shè)定值與相似度之差的懲罰值;對(duì)待匹配的兩個(gè)字符串使用加權(quán)編輯距離方法,在替換操作時(shí),根據(jù)字形相似性矩陣查詢待匹配的兩個(gè)字符串內(nèi)需進(jìn)行替換操作的兩個(gè)字符之間的相似度,并對(duì)替換操作的代價(jià)進(jìn)行字符相似性加權(quán),獲取加權(quán)編輯距離的結(jié)果;對(duì)加權(quán)編輯距離的結(jié)果歸一化,獲得待匹配的兩個(gè)字符串的相似性;根據(jù)待匹配的兩個(gè)字符串的相似性與預(yù)設(shè)值的關(guān)系確定匹配結(jié)果。

3、進(jìn)一步地,所述對(duì)待匹配的兩個(gè)字符串使用加權(quán)編輯距離方法,具體步驟包括:

4、創(chuàng)建一個(gè)( m+1)×( n+1)的矩陣;

5、其中, m為待匹配的第一字符串的長(zhǎng)度, n為待匹配的第二字符串的長(zhǎng)度,矩陣的行標(biāo) i對(duì)應(yīng)第一字符串從左至右的字符數(shù),矩陣的列標(biāo) j對(duì)應(yīng)第二字符串從左至右的字符數(shù),矩陣中的每個(gè)矩陣元 d[ i][ j]表示第一字符串的前 i個(gè)字符轉(zhuǎn)換為第二字符串的前 j個(gè)字符所需的編輯距離中最小的編輯距離;

6、對(duì)矩陣進(jìn)行填充:

7、

8、其中, d[ i-1][ j]+1為刪除操作, d[ i][ j-1]+1為插入操作, d[ i-1][ j-1]+cos t為替換操作,cos t為替換操作的代價(jià);

9、查詢第一字符串中需要替換的字符與第二字符串中作為替換參照的字符在相似性矩陣中的字符相似度,對(duì)代價(jià)進(jìn)行字符相似性加權(quán):

10、

11、其中, if表示條件, similarity表示字符相似度, threshold表示設(shè)定的相似性閾值;

12、填充完畢,矩陣中 d[ m][ n]的矩陣元的值表示第一字符串和第二字符串之間的加權(quán)編輯距離。

13、進(jìn)一步地,所述獲得兩個(gè)字符的圖像特征向量之間的夾角余弦距離作為相似度,具體步驟包括:

14、當(dāng)兩個(gè)字符為全角字符時(shí),將全角字符轉(zhuǎn)換為半角字符;

15、使用光學(xué)字符識(shí)別技術(shù)ocr中的方向梯度直方圖hog?算法獲取每個(gè)字符的hog描述子,所述hog描述子為一維數(shù)組;將兩個(gè)字符的相似性比較轉(zhuǎn)變?yōu)閮蓚€(gè)字符的hog描述子的相似性比較;

16、獲取兩個(gè)字符的hog描述子之間的夾角余弦距離作為相似度。

17、進(jìn)一步地,所述查詢第一字符串中需要替換的字符與第二字符串中作為替換參照的字符在相似性矩陣中的字符相似度還需對(duì)查詢方式進(jìn)行優(yōu)化以增加查詢速度,所述優(yōu)化的具體包括:若第一字符串和第二字符串均為企業(yè)名稱,在相似性矩陣中篩選企業(yè)名稱中的全部字符的字符相似度,獲得相似性矩陣子集。

18、進(jìn)一步地,所述優(yōu)化還包括:設(shè)置每個(gè)字符串中每個(gè)字符在相似性矩陣中查詢時(shí),查詢的相似字符不超過(guò)15個(gè),且設(shè)定的相似性閾值不低于0.85。

19、進(jìn)一步地,所述優(yōu)化還包括:在多個(gè)線程上同時(shí)查詢第一字符串中的每個(gè)字符和第二字符串中每個(gè)字符分別在相似性矩陣中的字符相似度。

20、進(jìn)一步地,所述根據(jù)待匹配的兩個(gè)字符串的相似性與預(yù)設(shè)值的關(guān)系確定匹配結(jié)果,具體步驟包括:當(dāng)相似性為1表示匹配成功;當(dāng)相似性大于設(shè)定的相似性閾值且小于1時(shí),表示可疑匹配結(jié)果;當(dāng)相似性小于設(shè)定的相似性閾值時(shí),表示匹配失敗。

21、進(jìn)一步地,所述可疑匹配結(jié)果需要將待匹配的兩個(gè)字符串進(jìn)行深入比較,所述深入比較的具體步驟包括:

22、當(dāng)待匹配的兩個(gè)字符串為企業(yè)名稱時(shí),在能夠查詢統(tǒng)一社會(huì)信用代碼的網(wǎng)站上對(duì)待匹配的兩個(gè)字符串的企業(yè)名稱分別進(jìn)行搜索,獲取搜索結(jié)果并進(jìn)行比較;

23、當(dāng)比較結(jié)果相同,表示匹配成功,且表示待匹配的兩個(gè)字符串的企業(yè)名稱為同一家企業(yè);

24、當(dāng)比較結(jié)果不同,表示匹配失敗,且表示待匹配的兩個(gè)字符串的企業(yè)名稱的字形相似。

25、本發(fā)明實(shí)施例提供一種字符串模糊匹配系統(tǒng),包括:

26、矩陣構(gòu)建模塊,用于獲取不同字號(hào)字體的多個(gè)字符;從多個(gè)字符中選擇任意兩個(gè)字符,通過(guò)光學(xué)字符識(shí)別技術(shù)ocr提取每個(gè)字符的圖像特征向量,并獲得兩個(gè)字符的圖像特征向量之間的夾角余弦距離作為相似度;根據(jù)多個(gè)字符中任意兩個(gè)字符之間的相似度,構(gòu)建字形相似性矩陣;

27、加權(quán)編輯距離構(gòu)建與使用模塊,用于根據(jù)編輯距離方法中用于將字符串的一個(gè)字符替換為另一個(gè)字符的替換操作,對(duì)替換操作內(nèi)描述替換字符所用成本的代價(jià)進(jìn)行字符相似性加權(quán),以構(gòu)建加權(quán)編輯距離方法;所述字符相似性加權(quán)包括:當(dāng)被替換的字符的相似度高于設(shè)定的相似性閾值時(shí),替換操作的代價(jià)為第一設(shè)定值與相似度之差;否則,替換操作的代價(jià)為第二設(shè)定值,所述第二設(shè)定值表示對(duì)替換操作的代價(jià)賦予高于第一設(shè)定值與相似度之差的懲罰值;對(duì)待匹配的兩個(gè)字符串使用加權(quán)編輯距離方法,在替換操作時(shí),根據(jù)字形相似性矩陣查詢待匹配的兩個(gè)字符串內(nèi)需進(jìn)行替換操作的兩個(gè)字符之間的相似度,并對(duì)替換操作的代價(jià)進(jìn)行字符相似性加權(quán),獲取加權(quán)編輯距離的結(jié)果;對(duì)加權(quán)編輯距離的結(jié)果歸一化,獲得待匹配的兩個(gè)字符串的相似性;

28、相似性匹配模塊,用于根據(jù)待匹配的兩個(gè)字符串的相似性與預(yù)設(shè)值的關(guān)系確定匹配結(jié)果。

29、本發(fā)明實(shí)施例提供一種字符串模糊匹配方法及系統(tǒng),與現(xiàn)有技術(shù)相比,其有益效果如下:

30、從多個(gè)字符中選擇任意兩個(gè)字符,通過(guò)光學(xué)字符識(shí)別技術(shù)ocr提取每個(gè)字符的圖像特征向量,并獲得兩個(gè)字符的圖像特征向量之間的夾角余弦距離作為相似度;根據(jù)多個(gè)字符中任意兩個(gè)字符之間的相似度,構(gòu)建字形相似性矩陣;根據(jù)編輯距離方法中用于將字符串的一個(gè)字符替換為另一個(gè)字符的替換操作,對(duì)替換操作內(nèi)描述替換字符所用成本的代價(jià)進(jìn)行字符相似性加權(quán),以構(gòu)建加權(quán)編輯距離方法;字符相似性加權(quán)包括:當(dāng)被替換的字符的相似度高于設(shè)定的相似性閾值時(shí),替換操作的代價(jià)為第一設(shè)定值與相似度之差;否則,替換操作的代價(jià)為第二設(shè)定值,第二設(shè)定值表示對(duì)替換操作的代價(jià)賦予高于第一設(shè)定值與相似度之差的懲罰值;對(duì)待匹配的兩個(gè)字符串使用加權(quán)編輯距離方法,在替換操作時(shí),根據(jù)字形相似性矩陣查詢待匹配的兩個(gè)字符串內(nèi)需進(jìn)行替換操作的兩個(gè)字符之間的相似度,并對(duì)替換操作的代價(jià)進(jìn)行字符相似性加權(quán),獲取加權(quán)編輯距離的結(jié)果;對(duì)加權(quán)編輯距離的結(jié)果歸一化,獲得待匹配的兩個(gè)字符串的相似性;根據(jù)待匹配的兩個(gè)字符串的相似性與預(yù)設(shè)值的關(guān)系確定匹配結(jié)果。

31、其中,替換操作的代價(jià)增加了對(duì)相似度的考慮,使得替換操作受到相似度的影響,當(dāng)被替換的字符的相似度高于設(shè)定的相似性閾值時(shí),替換操作的代價(jià)表示為第一設(shè)定值與相似度之差,代價(jià)?。环駝t,替換操作的代價(jià)表示為第二設(shè)定值,代價(jià)高;接著,對(duì)待匹配的兩個(gè)字符串使用加權(quán)編輯距離,在進(jìn)行替換操作時(shí)會(huì)受到字符的相似度的影響;對(duì)獲取的加權(quán)編輯距離歸一化,獲得待匹配的兩個(gè)字符串的相似性。最終,實(shí)現(xiàn)對(duì)編輯距離方法的改進(jìn),使得比較過(guò)程中遇到相似字符時(shí),考慮到采用兩個(gè)字符的相似度對(duì)相似的兩個(gè)字符進(jìn)行區(qū)分,獲得正確的識(shí)別結(jié)果。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1