本申請涉及數(shù)據(jù)增強,具體涉及一種中文錯別字糾正數(shù)據(jù)增強方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、中文錯別字糾正的應(yīng)用十分廣泛,尤其在教育或者出版領(lǐng)域,該任務(wù)主要對輸入文本中的音近、形近錯誤進行糾正,不改變輸入文本的長度。當(dāng)前,中文錯別字糾正效果主要局限于標(biāo)注數(shù)據(jù)非常少。
2、現(xiàn)有技術(shù)提出了一些數(shù)據(jù)增強的方法:首先從各網(wǎng)頁爬取大量的中文文本,然后將這些文本分句,處理后的句子被認(rèn)為是完全正確的,最后利用混淆集將句子中某個漢字或者詞替換為易混淆的漢字或者詞,從而構(gòu)造錯誤句子。然而,網(wǎng)頁上收集的文本質(zhì)量并不高,本身也可能存在錯誤,并且大都是通用領(lǐng)域的文本,對某個獨特領(lǐng)域的錯別字糾正效果提升有限。
技術(shù)實現(xiàn)思路
1、本申請的目的是提供一種中文錯別字糾正數(shù)據(jù)增強方法及裝置、一種電子設(shè)備以及一種計算機可讀存儲介質(zhì)。
2、本申請第一方面提供一種中文錯別字糾正數(shù)據(jù)增強方法,包括:
3、獲取錯別字糾正訓(xùn)練集;
4、對所述訓(xùn)練集中的樣本進行依存句法分析,得到分析結(jié)果;
5、對所述訓(xùn)練集中的樣本兩兩組合,計算兩樣本屬于上下文的概率,得到計算結(jié)果;
6、根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集。
7、一種可能的實現(xiàn)方式中,所述對所述訓(xùn)練集中的樣本進行依存句法分析,得到分析結(jié)果,包括:
8、對所述訓(xùn)練集中的樣本進行分詞,并對每個詞語進行詞性標(biāo)注;
9、對樣本中的各個詞語進行依存句法分析,得到分析結(jié)果。
10、一種可能的實現(xiàn)方式中,所述根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集,包括:
11、根據(jù)所述分析結(jié)果以及預(yù)設(shè)的獨立句子識別規(guī)則,確定樣本中的獨立句子成分;
12、在所述樣本中去掉所述獨立句子成分或者僅保留所述獨立句子成分,以構(gòu)造新的樣本。
13、一種可能的實現(xiàn)方式中,所述根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集,包括:
14、根據(jù)所述分析結(jié)果以及預(yù)設(shè)的非必要識別規(guī)則,確定樣本中的非必要成分;
15、在所述樣本中去掉所述非必要成分,以構(gòu)造新的樣本。
16、一種可能的實現(xiàn)方式中,所述根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集,包括:
17、根據(jù)所述分析結(jié)果,確定至少一個高頻插入語;
18、在樣本中插入至少一個所述高頻插入語,以構(gòu)造新的樣本。
19、一種可能的實現(xiàn)方式中,所述根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集,包括:
20、根據(jù)所述計算結(jié)果,確定兩個樣本作為上下文的概率,若所述概率超過預(yù)設(shè)概率閾值并且兩個樣本組合之后的樣本長度不超過預(yù)設(shè)長度閾值,則將兩個樣本組合之后的樣本作為新的訓(xùn)練樣本。
21、本申請第二方面提供一種中文錯別字糾正數(shù)據(jù)增強裝置,包括:
22、獲取模塊,用于獲取錯別字糾正訓(xùn)練集;
23、分析模塊,用于對所述訓(xùn)練集中的樣本進行依存句法分析,得到分析結(jié)果;
24、計算模塊,用于對所述訓(xùn)練集中的樣本兩兩組合,計算兩樣本屬于上下文的概率,得到計算結(jié)果;
25、擴充模塊,用于根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集。
26、一種可能的實現(xiàn)方式中,所述分析模塊,具體用于:
27、對所述訓(xùn)練集中的樣本進行分詞,并對每個詞語進行詞性標(biāo)注;
28、對樣本中的各個詞語進行依存句法分析,得到分析結(jié)果。
29、本申請第三方面提供一種電子設(shè)備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器運行所述計算機程序時執(zhí)行以實現(xiàn)本申請第一方面所述的方法。
30、本申請第四方面提供一種計算機可讀存儲介質(zhì),其上存儲有計算機可讀指令,所述計算機可讀指令可被處理器執(zhí)行以實現(xiàn)本申請第一方面所述的方法。
31、相較于現(xiàn)有技術(shù),本申請?zhí)峁┑闹形腻e別字糾正數(shù)據(jù)增強方法,通過獲取錯別字糾正訓(xùn)練集;對所述訓(xùn)練集中的樣本進行依存句法分析,得到分析結(jié)果;對所述訓(xùn)練集中的樣本兩兩組合,計算兩樣本屬于上下文的概率,得到計算結(jié)果;根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集。本方案中,在現(xiàn)有訓(xùn)練集的基礎(chǔ)上,通過依存句法分析以及上下文判斷對原有樣本進行切分或者擴充,從而增加獨特領(lǐng)域內(nèi)的訓(xùn)練數(shù)據(jù),以提高相應(yīng)領(lǐng)域的錯別字糾正效果。
1.一種中文錯別字糾正數(shù)據(jù)增強方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述訓(xùn)練集中的樣本進行依存句法分析,得到分析結(jié)果,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分析結(jié)果或者所述計算結(jié)果擴充所述訓(xùn)練集,包括:
7.一種中文錯別字糾正數(shù)據(jù)增強裝置,其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述分析模塊,具體用于:
9.一種電子設(shè)備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器運行所述計算機程序時執(zhí)行以實現(xiàn)如權(quán)利要求1至6中任一項所述的方法。
10.一種計算機可讀存儲介質(zhì),其特征在于,其上存儲有計算機可讀指令,所述計算機可讀指令可被處理器執(zhí)行以實現(xiàn)如權(quán)利要求1至6中任一項所述的方法。