本發(fā)明屬于信息處理與文檔分析領(lǐng)域,具體涉及一種pdf文檔信息自動(dòng)化提取方法及系統(tǒng)。
背景技術(shù):
1、隨著電子文檔的普及,特別是在學(xué)術(shù)、工業(yè)、法律和商業(yè)等領(lǐng)域中,pdf格式已經(jīng)成為信息發(fā)布和共享的主要載體。pdf文檔的結(jié)構(gòu)固定、跨平臺(tái)展示一致,是高精度信息傳輸?shù)闹匾绞?。然而,隨著文檔規(guī)模和復(fù)雜性的增加,自動(dòng)化提取pdf文檔中的關(guān)鍵信息變得愈加重要。高效的自動(dòng)化提取技術(shù)不僅能夠幫助企業(yè)和學(xué)術(shù)機(jī)構(gòu)快速獲取關(guān)鍵信息,減少人工工作量,還能夠在大規(guī)模文檔處理、數(shù)據(jù)挖掘等方面發(fā)揮重要作用,因此研究和開(kāi)發(fā)pdf信息自動(dòng)化提取技術(shù)具有重要的現(xiàn)實(shí)意義。
2、目前,pdf信息提取的主流方法主要依賴(lài)于光學(xué)字符識(shí)別(ocr)和基于模板的文本解析技術(shù)。最新的研究表明,基于視覺(jué)和文本雙重信息融合的技術(shù)在提高信息提取精度方面具有明顯優(yōu)勢(shì)。例如,近年來(lái)的研究工作,如機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)在pdf信息提取中的應(yīng)用,結(jié)合自然語(yǔ)言處理(nlp)和布局信息的解決方案。這些研究將文本、布局和圖像信息結(jié)合在一起,極大提升了復(fù)雜文檔的解析能力,尤其在包含表格和圖像的場(chǎng)景中表現(xiàn)出色。
3、盡管現(xiàn)有技術(shù)在pdf信息提取上取得了一定的進(jìn)展,但仍然面臨諸多挑戰(zhàn)。首先,傳統(tǒng)的ocr方法依賴(lài)圖像識(shí)別,常常在處理復(fù)雜結(jié)構(gòu)或多語(yǔ)言文檔時(shí)表現(xiàn)不佳,特別是在應(yīng)對(duì)嵌入有圖表、符號(hào)或注釋等復(fù)雜布局的文檔時(shí),容易出現(xiàn)識(shí)別錯(cuò)誤或數(shù)據(jù)遺漏。其次,基于模板匹配的方案適用性差,無(wú)法靈活應(yīng)對(duì)不同風(fēng)格和格式的文檔,往往需要為每個(gè)文檔類(lèi)型定制模板,耗時(shí)且難以擴(kuò)展。此外,當(dāng)前技術(shù)大多未能充分利用文檔中的布局和視覺(jué)信息,導(dǎo)致提取出的信息缺乏上下文語(yǔ)義和結(jié)構(gòu)準(zhǔn)確性。隨著電子文檔數(shù)量的不斷增長(zhǎng),如何快速、準(zhǔn)確地從海量pdf文檔中自動(dòng)提取關(guān)鍵信息仍是一個(gè)亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問(wèn)題是:提供一種pdf文檔信息自動(dòng)化提取方法及系統(tǒng),解決了現(xiàn)有技術(shù)中如何準(zhǔn)確快速的從海量pdf文檔中自動(dòng)提取關(guān)鍵信息的問(wèn)題。
2、本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:
3、一種pdf文檔信息自動(dòng)化提取方法,對(duì)pdf文檔進(jìn)行預(yù)處理操作,形成微調(diào)訓(xùn)練模型所需的數(shù)據(jù)集;然后,利用預(yù)訓(xùn)練的布局感知深度學(xué)習(xí)模型,結(jié)合數(shù)據(jù)集信息進(jìn)行模型微調(diào)和訓(xùn)練;最后,利用訓(xùn)練好的模型處理包括文本、布局和圖像的多模態(tài)信息,進(jìn)行分類(lèi)文本并提取出關(guān)鍵信息段落。
4、所述對(duì)pdf文檔進(jìn)行預(yù)處理操作包括:
5、步驟1、提取pdf文檔頁(yè)面文本信息,應(yīng)用文本提取工具直接從pdf文檔中按行提取文本內(nèi)容及其布局信息,同時(shí)獲取該行的位置信息;
6、步驟2、提取pdf頁(yè)面圖像,使用文檔圖像轉(zhuǎn)換工具將pdf頁(yè)面轉(zhuǎn)換為圖像格式,調(diào)整圖像的尺寸與頁(yè)面的實(shí)際尺寸保持一致,并將處理后的圖像保存;
7、步驟3、數(shù)據(jù)準(zhǔn)備與標(biāo)注,使用標(biāo)注工具對(duì)pdf頁(yè)面圖像進(jìn)行標(biāo)注,生成微訓(xùn)練調(diào)模型所需的數(shù)據(jù)集。
8、步驟1中,采用遍歷指定文件夾中的pdf文檔的方式,提取每頁(yè)的內(nèi)容,獲取頁(yè)面尺寸、每行文字及其對(duì)應(yīng)的行位置信息。
9、在標(biāo)注過(guò)程中,導(dǎo)入預(yù)處理后的pdf頁(yè)面圖像,設(shè)置標(biāo)注類(lèi)別、標(biāo)注目標(biāo)段落,以段落為單位進(jìn)行標(biāo)注,使每個(gè)框選區(qū)域代表完整段落并附上相應(yīng)的標(biāo)簽。
10、完成標(biāo)注后,導(dǎo)出結(jié)果,并與提取的文本和布局信息進(jìn)行匹配,篩選出匹配度高的文本行并生成數(shù)據(jù)集。
11、模型微調(diào)和訓(xùn)練的具體過(guò)程如下:
12、首先,加載預(yù)訓(xùn)練模型、準(zhǔn)備數(shù)據(jù)集,其次,設(shè)置訓(xùn)練參數(shù),然后,結(jié)合從pdf文檔中提取的文本、布局和圖像信息對(duì)模型進(jìn)行微調(diào)訓(xùn)練,最后,通過(guò)定期評(píng)估模型性能,保存最佳模型檢查點(diǎn)。
13、使用微調(diào)和訓(xùn)練后的模型對(duì)新輸入的pdf文檔進(jìn)行關(guān)鍵信息提取,將頁(yè)面的文本和位置信息分割成若干部分,每個(gè)部分獨(dú)立處理,并對(duì)處理好的pdf數(shù)據(jù)進(jìn)行推理,解析模型輸出,獲取pdf頁(yè)面中每行文本的類(lèi)別和內(nèi)容。
14、pdf文檔信息自動(dòng)化提取系統(tǒng),包括信息輸入模塊、數(shù)據(jù)處理模塊、結(jié)果輸出模塊,其中,信息輸入模塊用于輸入pdf文檔,數(shù)據(jù)處理模塊應(yīng)用所述方法,對(duì)pdf文檔頁(yè)面的關(guān)鍵信息進(jìn)行提取并標(biāo)注,結(jié)果輸出模塊用于將處理后的pdf文檔進(jìn)行可視化展示。
15、所述數(shù)據(jù)處理模塊按類(lèi)別匯總提取的文本行,使用不同顏色的邊界框標(biāo)注提取出的文本段落,并將結(jié)果保存。
16、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)調(diào)用所述方法的全部或部分步驟。
17、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
18、1、避免識(shí)別誤差,提升提取精度
19、本發(fā)明使用pdf文檔提取工具直接從pdf中按行提取文字內(nèi)容,而非依賴(lài)ocr技術(shù)。ocr在處理復(fù)雜布局、特殊字符(如公式、符號(hào))和多語(yǔ)言文本時(shí),常有識(shí)別錯(cuò)誤,影響準(zhǔn)確性。通過(guò)直接提取文檔中的原始文本及其精確的位置信息,避免了ocr技術(shù)中的識(shí)別誤差,尤其在處理帶有復(fù)雜符號(hào)或?qū)I(yè)文檔時(shí),確保了高精度的文本提取。
20、2、結(jié)合布局感知,利用行信息提高信息提取準(zhǔn)確性
21、本發(fā)明通過(guò)獲取文本的位置信息和頁(yè)面布局,將文檔內(nèi)容按行處理。結(jié)合版面信息的方法能夠更好地捕捉文檔中的段落和表格,不僅基于內(nèi)容,還能理解每行文本在頁(yè)面中的相對(duì)位置。此方法對(duì)處理布局復(fù)雜的文檔尤其有效,大幅提升了段落提取的準(zhǔn)確性和效率。
22、3、分段處理,確保信息完整
23、在信息提取過(guò)程中,本發(fā)明通過(guò)分段處理頁(yè)面的文本內(nèi)容和布局信息,同時(shí)保留完整的圖像信息。該分割處理方式避免了因模型輸入限制導(dǎo)致的信息丟失,確保即使頁(yè)面內(nèi)容較多,也能完整提取所有文本段落,從而保證信息提取的連續(xù)性和完整性。
24、4、高效標(biāo)注,減少人工成本
25、本發(fā)明在數(shù)據(jù)準(zhǔn)備和標(biāo)注過(guò)程中采用段落級(jí)標(biāo)注,通過(guò)標(biāo)注工具框選目標(biāo)段落并附上類(lèi)別標(biāo)簽。與逐行標(biāo)注相比,段落級(jí)標(biāo)注不僅更貼合實(shí)際應(yīng)用需求,還大幅減少了標(biāo)注時(shí)間和人工成本,同時(shí)提升了標(biāo)注的效率與準(zhǔn)確性。
26、5、自動(dòng)化流程,提升提取效率
27、傳統(tǒng)的pdf信息提取方法通常需要大量人工干預(yù)和手動(dòng)配置。而本發(fā)明結(jié)合預(yù)訓(xùn)練的基于文檔布局感知的多模態(tài)模型,實(shí)現(xiàn)了從預(yù)處理到信息提取的高度自動(dòng)化,減少了人工操作,并具備批量處理pdf文件的能力,特別適合大規(guī)模文檔處理需求。
28、6、結(jié)果可視化,增強(qiáng)可解釋性
29、提取的關(guān)鍵信息通過(guò)在pdf頁(yè)面圖像上進(jìn)行標(biāo)注,以不同顏色區(qū)分類(lèi)別,提供直觀的可視化展示。這種展示方式不僅方便用戶(hù)驗(yàn)證提取結(jié)果的準(zhǔn)確性,還增強(qiáng)了信息提取的可解釋性,使關(guān)鍵信息更加易于理解和應(yīng)用。
30、本發(fā)明通過(guò)結(jié)合文本與布局信息,顯著提升了信息提取的精度和效率,避免了ocr技術(shù)的局限性,具有高度的自動(dòng)化、廣泛的適應(yīng)性和擴(kuò)展性,尤其適用于專(zhuān)業(yè)文檔的關(guān)鍵信息提取,提供了更加高效、準(zhǔn)確的解決方案。