本發(fā)明涉及文本處理,更具體地說(shuō),本發(fā)明涉及一種基于ocr與nlp的保電方案文本識(shí)別分析方法。
背景技術(shù):
1、保電方案是為保障特定場(chǎng)景電力供應(yīng)制定的計(jì)劃文件,包含保電任務(wù)時(shí)間安排和邏輯關(guān)系,光學(xué)字符識(shí)別(ocr)技術(shù)可以用于將保電方案文本中的圖像數(shù)據(jù)轉(zhuǎn)換為可編輯的文本數(shù)據(jù),自然語(yǔ)言處理(nlp)技術(shù)則可以進(jìn)一步對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)義分析和信息提取;在大型保電任務(wù)中,保電方案文本通常記錄保電任務(wù)的事件時(shí)間信息和邏輯依賴關(guān)系,這些文本內(nèi)容需要通過(guò)識(shí)別和分析,以明確保電任務(wù)的先后順序和邏輯關(guān)聯(lián),從而輔助保電任務(wù)的優(yōu)先級(jí)調(diào)度和執(zhí)行,在實(shí)際應(yīng)用中,保電方案文本常以非結(jié)構(gòu)化形式呈現(xiàn),包括自然語(yǔ)言描述的保電任務(wù)內(nèi)容、時(shí)間節(jié)點(diǎn)及其相互關(guān)聯(lián)的信息。
2、現(xiàn)有技術(shù)中,保電方案文本的保電任務(wù)優(yōu)先級(jí)調(diào)整依賴于預(yù)定義規(guī)則,無(wú)法根據(jù)保電任務(wù)的事件時(shí)間線和邏輯依賴關(guān)系動(dòng)態(tài)優(yōu)化,會(huì)導(dǎo)致保電任務(wù)優(yōu)先級(jí)解析不準(zhǔn)確,影響調(diào)度效率,并可能引發(fā)保電任務(wù)執(zhí)行中的延遲或沖突。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的實(shí)施例提供一種基于ocr與nlp的保電方案文本識(shí)別分析方法以解決上述背景技術(shù)中提出的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于ocr與nlp的保電方案文本識(shí)別分析方法,包括如下步驟:
4、獲取保電方案文本的圖像數(shù)據(jù),通過(guò)光學(xué)字符識(shí)別處理將圖像數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化文本數(shù)據(jù);
5、對(duì)結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理分析,識(shí)別與保電任務(wù)相關(guān)的事件時(shí)間標(biāo)簽與邏輯依賴關(guān)系,并將事件時(shí)間標(biāo)簽與邏輯依賴關(guān)系映射為優(yōu)先級(jí)調(diào)度規(guī)則;
6、通過(guò)動(dòng)態(tài)語(yǔ)義嵌入模型對(duì)結(jié)構(gòu)化文本數(shù)據(jù)的上下文表示進(jìn)行提取,評(píng)估上下文一致性的波動(dòng)特性;
7、基于上下文一致性的波動(dòng)特性確定保電任務(wù)間邏輯關(guān)聯(lián)的強(qiáng)度變化,并根據(jù)保電任務(wù)間邏輯關(guān)聯(lián)的強(qiáng)度變化生成初步保電任務(wù)優(yōu)先級(jí);
8、對(duì)結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行再次解析,根據(jù)優(yōu)先級(jí)調(diào)度規(guī)則和初步保電任務(wù)優(yōu)先級(jí)確認(rèn)最終的保電任務(wù)優(yōu)先級(jí)。
9、在一個(gè)優(yōu)選的實(shí)施方式中,獲取保電方案文本的圖像數(shù)據(jù),通過(guò)光學(xué)字符識(shí)別處理將圖像數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化文本數(shù)據(jù),具體包括:
10、基于掃描設(shè)備獲取保電方案文本的圖像數(shù)據(jù),保電方案文本包括紙質(zhì)文本和電子文檔;
11、對(duì)圖像數(shù)據(jù)進(jìn)行預(yù)處理,包括灰度化、噪聲去除和邊緣增強(qiáng);
12、使用光學(xué)字符識(shí)別算法對(duì)預(yù)處理后的圖像數(shù)據(jù)進(jìn)行字符提取,將字符信息轉(zhuǎn)換為數(shù)字化文本;
13、對(duì)數(shù)字化文本進(jìn)行結(jié)構(gòu)化處理,提取段落、標(biāo)題及保電任務(wù)描述的邏輯分塊信息,生成結(jié)構(gòu)化文本數(shù)據(jù)。
14、在一個(gè)優(yōu)選的實(shí)施方式中,對(duì)結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理分析,識(shí)別與保電任務(wù)相關(guān)的事件時(shí)間標(biāo)簽與邏輯依賴關(guān)系,并將事件時(shí)間標(biāo)簽與邏輯依賴關(guān)系映射為優(yōu)先級(jí)調(diào)度規(guī)則,具體包括:
15、通過(guò)語(yǔ)法解析對(duì)結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行句法分析,提取語(yǔ)句中的主語(yǔ)、謂語(yǔ)和賓語(yǔ)關(guān)系;
16、使用命名實(shí)體識(shí)別算法從結(jié)構(gòu)化文本數(shù)據(jù)中提取事件時(shí)間信息,并將事件時(shí)間信息標(biāo)注為事件時(shí)間標(biāo)簽;
17、基于依存句法分析識(shí)別保電任務(wù)間的邏輯依賴關(guān)系,邏輯依賴關(guān)系包括保電任務(wù)的先后順序、條件關(guān)系以及并行關(guān)系;
18、將提取的事件時(shí)間標(biāo)簽和邏輯依賴關(guān)系以圖結(jié)構(gòu)形式存儲(chǔ),生成保電任務(wù)間依賴圖;
19、根據(jù)保電任務(wù)間依賴圖中的事件時(shí)間標(biāo)簽和邏輯依賴關(guān)系,結(jié)合優(yōu)先級(jí)估算模型,生成優(yōu)先級(jí)調(diào)度規(guī)則。
20、在一個(gè)優(yōu)選的實(shí)施方式中,通過(guò)動(dòng)態(tài)語(yǔ)義嵌入模型對(duì)結(jié)構(gòu)化文本數(shù)據(jù)的上下文表示進(jìn)行提取,評(píng)估上下文一致性的波動(dòng)特性,具體包括:
21、對(duì)結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行上下文窗口劃分,得到固定窗口長(zhǎng)度的上下文片段,每個(gè)上下文片段覆蓋連續(xù)的句子;
22、使用動(dòng)態(tài)語(yǔ)義嵌入模型對(duì)每個(gè)上下文片段進(jìn)行語(yǔ)義特征提取,動(dòng)態(tài)語(yǔ)義嵌入模型基于預(yù)訓(xùn)練語(yǔ)言模型構(gòu)建,通過(guò)多層注意力機(jī)制生成每個(gè)上下文片段的上下文表示;
23、通過(guò)計(jì)算上下文片段之間的語(yǔ)義向量變化率,量化上下文表示的一致性;語(yǔ)義向量變化率由相鄰上下文片段的語(yǔ)義向量差值計(jì)算得到;
24、使用多分形去趨勢(shì)波動(dòng)分析對(duì)語(yǔ)義向量變化率進(jìn)行波動(dòng)特性建模,生成上下文一致性波動(dòng)特性指數(shù)以評(píng)估上下文一致性的波動(dòng)特性。
25、在一個(gè)優(yōu)選的實(shí)施方式中,使用多分形去趨勢(shì)波動(dòng)分析對(duì)語(yǔ)義向量變化率進(jìn)行波動(dòng)特性建模,生成上下文一致性波動(dòng)特性指數(shù)以評(píng)估上下文一致性的波動(dòng)特性,具體為:設(shè)語(yǔ)義向量變化率序列為,通過(guò)多分形去趨勢(shì)波動(dòng)分析生成波動(dòng)特性指數(shù),計(jì)算公式為:;其中,表示上下文一致性波動(dòng)特性指數(shù),表示第個(gè)上下文片段的語(yǔ)義向量變化率,表示語(yǔ)義向量變化率的均值,表示上下文片段的總數(shù),表示上下文片段的編號(hào)。
26、在一個(gè)優(yōu)選的實(shí)施方式中,基于上下文一致性的波動(dòng)特性確定保電任務(wù)間邏輯關(guān)聯(lián)的強(qiáng)度變化,并根據(jù)保電任務(wù)間邏輯關(guān)聯(lián)的強(qiáng)度變化生成初步保電任務(wù)優(yōu)先級(jí),具體包括:
27、上下文一致性波動(dòng)特性指數(shù)越大,保電任務(wù)間邏輯關(guān)聯(lián)的強(qiáng)度變化越顯著;
28、將所有保電任務(wù)按照上下文一致性波動(dòng)特性指數(shù)的大小進(jìn)行排序,按照排序結(jié)果生成初步保電任務(wù)優(yōu)先級(jí)列表,保電任務(wù)從上下文一致性波動(dòng)特性指數(shù)最小到最大依次排列。
29、在一個(gè)優(yōu)選的實(shí)施方式中,對(duì)結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行再次解析,根據(jù)優(yōu)先級(jí)調(diào)度規(guī)則和初步保電任務(wù)優(yōu)先級(jí)確認(rèn)最終的保電任務(wù)優(yōu)先級(jí),具體包括:
30、獲取保電任務(wù)的優(yōu)先級(jí)調(diào)度規(guī)則和初步保電任務(wù)優(yōu)先級(jí);
31、對(duì)結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行再次解析,識(shí)別與每個(gè)保電任務(wù)相關(guān)的事件時(shí)間標(biāo)簽和邏輯依賴關(guān)系;
32、根據(jù)優(yōu)先級(jí)調(diào)度規(guī)則中保電任務(wù)的順序和初步保電任務(wù)優(yōu)先級(jí)的排列,結(jié)合結(jié)構(gòu)化文本數(shù)據(jù)中的邏輯依賴關(guān)系,對(duì)所有保電任務(wù)的優(yōu)先級(jí)進(jìn)行調(diào)整和確認(rèn),生成最終的保電任務(wù)優(yōu)先級(jí)。
33、本發(fā)明一種基于ocr與nlp的保電方案文本識(shí)別分析方法的技術(shù)效果和優(yōu)點(diǎn):
34、1、通過(guò)將保電方案文本的圖像數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化文本數(shù)據(jù),并結(jié)合自然語(yǔ)言處理技術(shù),對(duì)文本中的事件時(shí)間標(biāo)簽和邏輯依賴關(guān)系進(jìn)行精準(zhǔn)識(shí)別與映射;本發(fā)明通過(guò)動(dòng)態(tài)語(yǔ)義嵌入模型提取上下文表示,評(píng)估上下文一致性的波動(dòng)特性,量化保電任務(wù)間的邏輯關(guān)聯(lián)強(qiáng)度變化,從而生成初步保電任務(wù)優(yōu)先級(jí)并確認(rèn)最終優(yōu)先級(jí);相比傳統(tǒng)的靜態(tài)優(yōu)先級(jí)調(diào)度方式,該方法能夠動(dòng)態(tài)結(jié)合保電任務(wù)的時(shí)間線和邏輯依賴關(guān)系進(jìn)行解析和優(yōu)化,有效提升了保電任務(wù)調(diào)度的準(zhǔn)確性和效率。
35、2、通過(guò)處理非結(jié)構(gòu)化的保電方案文本,將復(fù)雜的語(yǔ)義信息轉(zhuǎn)化為易于分析的結(jié)構(gòu)化數(shù)據(jù),解決了傳統(tǒng)優(yōu)先級(jí)調(diào)整依賴規(guī)則化模型的問(wèn)題;通過(guò)多層次的數(shù)據(jù)解析和動(dòng)態(tài)模型的引入,優(yōu)化了保電任務(wù)優(yōu)先級(jí)的生成流程;本發(fā)明的方法在處理保電任務(wù)間的復(fù)雜邏輯關(guān)聯(lián)時(shí),能夠適應(yīng)多樣化的保電任務(wù)場(chǎng)景需求,減少了人工分析的工作量和錯(cuò)誤率,顯著提升了保電任務(wù)調(diào)度的智能化水平,為實(shí)現(xiàn)高效、穩(wěn)定的電力保障提供了重要的技術(shù)支撐。