最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種多尺度SoftMasked-ChineseBERT模型的中文醫(yī)療文本拼寫糾錯方法和系統(tǒng)

文檔序號:41953056發(fā)布日期:2025-05-16 14:16閱讀:3來源:國知局
一種多尺度SoftMasked-ChineseBERT模型的中文醫(yī)療文本拼寫糾錯方法和系統(tǒng)

本發(fā)明屬于自然語言處理,具體涉及一種多尺度softmasked-chinesebert模型的中文醫(yī)療文本拼寫糾錯方法、系統(tǒng)、介質(zhì)和設(shè)備。


背景技術(shù):

1、隨著醫(yī)療信息化的快速推進(jìn),醫(yī)療數(shù)據(jù)的數(shù)字化處理已成為醫(yī)療行業(yè)的重要組成部分。這些數(shù)據(jù)包括患者的診療記錄、檢驗(yàn)報告、處方信息等,通常通過電子健康記錄(ehr)、電子病歷(emr)等系統(tǒng)錄入和管理。然而,由于人工輸入的不可避免性,中文醫(yī)療數(shù)據(jù)中存在大量拼寫錯誤,如錯別字、同音字誤寫、詞語缺失等,給數(shù)據(jù)的準(zhǔn)確性和完整性帶來了挑戰(zhàn)。這些錯誤不僅會影響臨床決策和診療結(jié)果,還可能降低醫(yī)療數(shù)據(jù)挖掘與人工智能輔助決策系統(tǒng)的精度,進(jìn)而影響模型的訓(xùn)練和預(yù)測能力。在醫(yī)療文本分析中,拼寫錯誤尤其復(fù)雜。中文特有的多音字、同音字、形似字等現(xiàn)象,使得拼寫錯誤難以通過傳統(tǒng)拼寫檢查技術(shù)有效識別。例如,“肺炎”可能寫成“肺研”,“多發(fā)性”誤寫為“奪發(fā)性”,或“診斷”誤寫為“癥斷”等。這些拼寫錯誤會對關(guān)鍵信息如疾病、藥品名稱等的識別產(chǎn)生不良影響,增加診斷錯誤的風(fēng)險。

2、近年來,隨著人工智能技術(shù),特別是自然語言處理(nlp)和深度學(xué)習(xí)的發(fā)展,拼寫錯誤的自動檢測與糾正得到了新的解決方案。這些技術(shù)不僅能夠識別常見錯誤,還能結(jié)合上下文語境進(jìn)行語義理解,從而實(shí)現(xiàn)更為準(zhǔn)確的糾錯?;诖笠?guī)模醫(yī)學(xué)文本語料庫訓(xùn)練的語言模型,能夠有效識別醫(yī)學(xué)術(shù)語中的拼寫錯誤,為醫(yī)療行業(yè)提供智能的拼寫糾正工具。然而,現(xiàn)有技術(shù)在處理中文醫(yī)療數(shù)據(jù)時仍存在一些挑戰(zhàn)。首先,醫(yī)療數(shù)據(jù)中包含大量專業(yè)術(shù)語、縮寫及方言,導(dǎo)致拼寫錯誤的表現(xiàn)更加多樣,通用拼寫糾正算法難以應(yīng)對這些領(lǐng)域特定的錯誤。其次,中文醫(yī)療文本中的拼寫錯誤通常受上下文影響較大,如何利用上下文信息提升糾錯準(zhǔn)確性,仍然是一個技術(shù)難題。因此,本技術(shù)結(jié)合深度學(xué)習(xí)與自然語言處理方法,提出了一種創(chuàng)新的中文醫(yī)療數(shù)據(jù)拼寫錯誤檢測與糾正技術(shù)。該技術(shù)不僅能夠識別和糾正常見拼寫錯誤,還能針對醫(yī)學(xué)領(lǐng)域的特定錯誤提供高精度糾正,進(jìn)而提高醫(yī)療數(shù)據(jù)的質(zhì)量和處理效率,為智能醫(yī)療的進(jìn)一步發(fā)展提供支持。

3、近年來,基于bert等預(yù)訓(xùn)練語言模型的拼寫糾錯方法獲得了廣泛關(guān)注。bert通過雙向訓(xùn)練捕捉上下文信息,能夠有效學(xué)習(xí)語義特征,這對于拼寫糾錯至關(guān)重要,尤其在處理拼寫相似但語義不同的字時,預(yù)訓(xùn)練模型能夠顯著提高糾錯的準(zhǔn)確性。hong等人提出的faspell模型采用bert作為去噪自動編碼器,生成候選字符并通過計算字符之間的相似度篩選最可能的糾正字符。盡管這種方法利用了語義信息來提升糾錯效果,但它主要關(guān)注字符的語義相似性,忽視了字符的視覺和語音相似性。liu等人指出,中文拼寫錯誤的主要原因可分為語音相似性和視覺相似性。約83%的拼寫錯誤源自語音相似性,48%的錯誤與字符形狀相似性有關(guān)。拼音相似(如“餓”和“鵝”)或形狀相似(如“且”和“世”)的字容易產(chǎn)生拼寫錯誤,因此,除了語義信息,語音和字形的相似性在拼寫糾錯中也非常重要。為了解決僅依賴語義信息的問題,近年來一些研究嘗試將語音和視覺信息融合進(jìn)拼寫糾錯模型中。spellgcn模型:該模型通過圖卷積網(wǎng)絡(luò)(gcn)分別建模字形和拼音的相似性,并結(jié)合bert進(jìn)行特征初始化。realise模型:結(jié)合gru和卷積神經(jīng)網(wǎng)絡(luò)(cnn),提取字形和字音特征,增強(qiáng)拼寫糾錯能力。

4、phmospell模型:通過vgg19卷積神經(jīng)網(wǎng)絡(luò)和神經(jīng)tts模型,從字形和字音兩方面提取特征,提升糾錯效果。這些方法通過引入語音和視覺信息取得了一定的進(jìn)展,但仍面臨特征不對等的問題,因?yàn)槠磳懠m錯模型和預(yù)訓(xùn)練語言模型依賴不同的數(shù)據(jù)源,導(dǎo)致學(xué)習(xí)到的特征類型和分布不一致。cui等提出基于chinesebert的中文拼寫糾錯方法,此方法通過采用chinesebert預(yù)訓(xùn)練模型解決了多模態(tài)數(shù)據(jù)不對等的問題,通過改進(jìn)bert的嵌入層使得bert模型可以充分修改可能存在拼寫錯誤的字符。

5、目前主流的中文拼寫錯誤改正方法存在一下問題。

6、對于字符數(shù)量過多的長文本采用端到端的方式,輸入原文本通過模型得到目標(biāo)文本。長文本處理面臨幾個挑戰(zhàn)。傳統(tǒng)的序列模型(如rnn、lstm)會遇到“梯度消失”或“梯度爆炸”的問題,導(dǎo)致難以捕捉長距離的依賴關(guān)系。即使是基于自注意力機(jī)制的transformer,處理長文本時也會因?yàn)橛嬎懔亢蛢?nèi)存消耗過大,難以一次性抓取全部信息。此外,長文本往往包含冗余或無關(guān)信息,如何有效提取有用信息并忽略無關(guān)部分是一個關(guān)鍵問題。長文本中可能涉及多個主題或觀點(diǎn),模型需要識別并靈活處理這些變化,保持對全局的理解,尤其是在話題轉(zhuǎn)移時。

7、有研究表明,準(zhǔn)確檢測文本中的拼寫錯誤字符對于有效糾正錯誤至關(guān)重要。然而,傳統(tǒng)的拼寫糾錯方法大多數(shù)未能充分解決這一問題。盡管一些方法,例如基于chinesebert的中文拼寫糾錯技術(shù),在一定程度上提升了拼寫錯誤的檢測能力,但其檢測效果依然不盡人意,且方法普遍存在粗略化的問題,難以對拼寫錯誤進(jìn)行精細(xì)且高效的糾正。因此,如何提高拼寫錯誤字符的準(zhǔn)確檢測,仍然是當(dāng)前拼寫糾錯研究中的一個關(guān)鍵挑戰(zhàn)。近年來,深度學(xué)習(xí)方法,如基于bert、lstm、cnn和transformer的模型,展現(xiàn)了強(qiáng)大的糾錯潛力。這些模型能夠自動學(xué)習(xí)復(fù)雜的錯誤模式,并有效處理依賴上下文的拼寫錯誤。然而,在特定領(lǐng)域,尤其是醫(yī)療領(lǐng)域,通用模型的糾錯效果并不理想。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種多尺度softmasked-chinesebert的中文醫(yī)療文本拼寫糾錯方法、系統(tǒng)、介質(zhì)和設(shè)備,以解決現(xiàn)有中文醫(yī)療文本的糾錯方法在拼寫錯誤檢出方面準(zhǔn)確率低,影響糾錯效率的問題。

2、本發(fā)明提供一種基于多尺度softmasked-chinesebert模型的中文醫(yī)療文本拼寫糾錯方法,包括:

3、將待糾錯的中文醫(yī)療文本采用多語步拆分算法拆分為單語步句子集合;

4、將單語步句子集合輸入聯(lián)合探測模型,以得到嵌入序列,聯(lián)合探測模型包括三個子模型,將嵌入序列輸入三個子模型分別得到標(biāo)簽序列,三個標(biāo)簽序列加權(quán)求和以得到字符錯誤概率序列,探測出嵌入序列的錯誤字符;

5、將嵌入序列輸入softmasked,基于字符錯誤概率序列,將嵌入序列中的錯誤字符的語義特征進(jìn)行屏蔽,得到融合特征序列;

6、將融合特征序列輸入校正模型得到糾正字符,用糾正字符替換嵌入序列中的錯誤字符。

7、所述將待糾錯的中文醫(yī)療文本采用多語步拆分算法拆分為單語步句子集合,包括:

8、將待糾錯文本以句號為界線劃分為若干個完整句子;

9、采用ltp平臺分析每個完整句子的句法,判斷完整句子中的詞語,確定核心詞語,分析完整句子中的并列結(jié)構(gòu),當(dāng)完整句子中沒有并列結(jié)構(gòu),則為單語步句子,直接輸出;當(dāng)完整句子中有并列結(jié)構(gòu),則為多語步句子,根據(jù)核心詞語拆分句子;

10、當(dāng)并列結(jié)構(gòu)的父節(jié)點(diǎn)為根節(jié)點(diǎn),則以并列的兩個核心詞為分割點(diǎn),將完整句子拆分為單語步句子,當(dāng)并列結(jié)構(gòu)的父節(jié)點(diǎn)不是根節(jié)點(diǎn),則直接輸出單語步句子,所有輸出的單語步句子構(gòu)成單語步集合。

11、聯(lián)合探測模型包括三個子模型,三個子模型分別為bigru、textcnn和dpcnn。

12、所述將單語步句子集合輸入聯(lián)合探測模型,以得到嵌入序列,聯(lián)合探測模型包括三個子模型,將嵌入序列輸入三個子模型分別得到標(biāo)簽序列,三個標(biāo)簽序列加權(quán)求和以得到字符錯誤概率序列,探測出嵌入序列的錯誤字符,包括:

13、設(shè)定單語步句子集合中每個句子的中文字符序列,通過聯(lián)合探測模型對中文字符序列進(jìn)行特征提取,得到對應(yīng)的嵌入序列;

14、聯(lián)合探測模型包括三個子模型,分別為bigru、textcnn、dpcnn,將嵌入序列分別輸入bigru、textcnn、dpcnn中,得到三組標(biāo)簽序列,

15、將三組標(biāo)簽序列進(jìn)行加權(quán)求和得到字符錯誤概率序列,表示為:

16、gi=w1·gbigrui+w2·gtextcnni+w3·gdpcnni

17、其中,w1,w2,w3分別為三個子模型的權(quán)重,gbigrui表示bigru輸出的字符xi是否為錯誤的概率大小,gtextcnni表示textcnn輸出的字符xi是否為錯誤的概率大小,gdpcnni表示dpcnn輸出字符xi是否為錯誤的概率大小,gi為字符xi是否為錯誤的概率大小。

18、所述將嵌入序列輸入softmasked,基于字符錯誤概率序列,將嵌入序列中的錯誤字符的語義特征進(jìn)行屏蔽,得到融合特征序列,具體為:

19、將嵌入序列輸入softmasked,根據(jù)字符錯誤概率序列將嵌入序列中的錯誤字符的語義特征進(jìn)行屏蔽,采用掩碼字符代替,保留字符的字形向量和字音向量,以得到融合特征序列;

20、融合特征為:

21、

22、其中,為字符xi的融合特征,ewi為語義向量;esi為字形向量;epi為字音向量,emask為掩碼向量,gi為字符xi是否為錯誤的概率大小。

23、所述將融合特征序列輸入校正模型得到糾正字符,用糾正字符替換嵌入序列中的錯誤字符,具體為:

24、將融合特征序列輸入校正模型,對于嵌入序列中的正確字符,原始輸入將被保留;對于嵌入序列中的錯誤字符,校正模型為每個錯誤字符生成一組候選字符,采用bert最后一層輸出每個候選字符的進(jìn)行錯誤糾正的概率,表示為pc(yi=j(luò)|x)=softmax(wh′i+b)[j]

25、其中:pc(yi=j(luò)|x)為中文字符序列中字符xi被糾正為候選字符j的概率,w和b是校正模型中的參數(shù),h′i表示字符xi的線性變換后的隱藏狀態(tài);

26、softmax函數(shù)對h′i進(jìn)行計算,h′i的計算公式如下:

27、

28、其中,是校正模型最后一層的隱藏狀態(tài);ei表示字符xi的嵌入向量;

29、校正模型選擇概率最大的候選字符作為的糾正字符,用糾正字符替換嵌入序列中的錯誤字符。

30、所述多尺度softmasked-chinesebert模型包括聯(lián)合探測模型和校正模型,對多尺度softmasked-chinesebert模型的訓(xùn)練包括:

31、通過聯(lián)合探測模型與校正模型的目標(biāo)函數(shù)訓(xùn)練多尺度softmasked-chinesebert模型,多尺度softmasked-chinesebert模型的損失函數(shù)為:

32、l=λ·lc+(1-λ)·ld

33、其中,ld為聯(lián)合探測模型的損失,lc為校正模型的損失,λ為權(quán)重因子,λ的取值范圍是[0,1]。

34、本發(fā)明還提供一種基于多尺度softmasked-chinesebert模型的中文醫(yī)療文本拼寫糾錯系統(tǒng),包括:

35、文本拆分模塊,用于將待糾錯的中文醫(yī)療文本采用多語步拆分算法拆分為單語步句子集合;

36、錯誤字符探測模塊,用于將單語步句子集合輸入聯(lián)合探測模型,以得到嵌入序列,聯(lián)合探測模型包括三個子模型,將嵌入序列輸入三個子模型分別得到標(biāo)簽序列,三個標(biāo)簽序列加權(quán)求和以得到字符錯誤概率序列,探測出嵌入序列的錯誤字符;

37、錯誤字符屏蔽模塊,用于將嵌入序列輸入softmasked,基于字符錯誤概率序列,將嵌入序列中的錯誤字符的語義特征進(jìn)行屏蔽,得到融合特征序列;

38、錯誤字符校正模塊,用于將融合特征序列輸入校正模型得到糾正字符,用糾正字符替換嵌入序列中的錯誤字符。

39、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)權(quán)利要求1-7任一項(xiàng)所述基于多尺度softmasked-chinesebert模型的中文醫(yī)療文本拼寫糾錯方法的步驟。

40、本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-7任一項(xiàng)所述基于多尺度softmasked-chinesebert模型的中文醫(yī)療文本拼寫糾錯方法的步驟。

41、為達(dá)到上述目的,本發(fā)明提供以下技術(shù)方案:

42、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:

43、本發(fā)明采用多語步拆分算法將待糾錯文本拆分為單語步句子集合,單語步句子能夠提高錯誤檢測的準(zhǔn)確性;聯(lián)合探測模型融合了多種模型,通過多層次上下文信息捕捉和局部特征提取,能夠捕捉錯誤字符的不同層面,增強(qiáng)字符錯誤識別的準(zhǔn)確性和魯棒性。在糾正錯誤字符時,采用了softmasked來屏蔽錯誤字符的語義特征,同時保留字形和字音信息;校正模型能夠更好地依賴上下文進(jìn)行修正,從而提高修正的準(zhǔn)確性和效率。本發(fā)明通過多層次的上下文捕捉、特征融合與精確修正,能夠更好地適應(yīng)醫(yī)療文本中的語言特征,提升醫(yī)療文本處理的準(zhǔn)確性與魯棒性。本發(fā)明通過多語步拆分、多模型融合的探測模型以及校正模型,提升了拼寫糾錯的效率與準(zhǔn)確性,尤其在專業(yè)術(shù)語和復(fù)雜上下文的處理中展現(xiàn)出優(yōu)異的性能。本發(fā)明為中文醫(yī)療文本質(zhì)量提升提供了有效的技術(shù)支持,具有較強(qiáng)的實(shí)際應(yīng)用價值和廣闊的應(yīng)用前景。

44、進(jìn)一步,聯(lián)合探測模型融合了bigru、textcnn和dpcnn三種子模型,這些子模型通過雙向信息流、卷積操作和深層特征提取,從不同角度支持字符錯誤識別,再通過加權(quán)融合輸出,全面評估字符錯誤,能夠提升拼寫糾錯的效率和準(zhǔn)確性。

45、進(jìn)一步,進(jìn)行模型優(yōu)化時,通過聯(lián)合優(yōu)化探測與校正任務(wù),減少了錯誤檢測和糾正之間的冗余操作,提升了整體的處理效率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1