最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于PDF文檔的內(nèi)容預(yù)處理后差異可視化方法、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41954012發(fā)布日期:2025-05-16 14:18閱讀:3來(lái)源:國(guó)知局
基于PDF文檔的內(nèi)容預(yù)處理后差異可視化方法、設(shè)備及存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及文檔處理,尤其涉及一種基于pdf文檔的內(nèi)容預(yù)處理后差異可視化方法、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、在模型訓(xùn)練的過(guò)程中,原始數(shù)據(jù)的質(zhì)量會(huì)直接影響到模型訓(xùn)練的效果和穩(wěn)定性。pdf文檔作為一種承載大量信息的常見(jiàn)格式,常被用作數(shù)據(jù)收集和模型訓(xùn)練的重要來(lái)源。而pdf文檔中具有固定布局,且可能包含圖片、表格等非結(jié)構(gòu)化數(shù)據(jù),這些特性使得直接使用pdf文檔進(jìn)行模型訓(xùn)練變得復(fù)雜。因此,為了提高模型訓(xùn)練的效果和穩(wěn)定性,通常需要對(duì)pdf文檔進(jìn)行預(yù)處理,包括內(nèi)容清洗、去重、去敏感化等操作。

2、然而,當(dāng)前的pdf文檔預(yù)處理技術(shù)在將pdf文檔提取為txt格式或圖片文件,并對(duì)pdf文檔進(jìn)行預(yù)處理后,預(yù)處理后的pdf文檔會(huì)失去與原始pdf文檔位置信息的精確映射。因此,用戶難以直觀地比較處理前后的內(nèi)容差異,在語(yǔ)料質(zhì)量評(píng)估環(huán)節(jié),無(wú)法評(píng)估預(yù)處理結(jié)果是否符合預(yù)期要求。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)的主要目的在于提供一種基于pdf文檔的內(nèi)容預(yù)處理后差異可視化方法、設(shè)備及存儲(chǔ)介質(zhì),旨在解決pdf文檔預(yù)處理后難以直觀比較處理前后的內(nèi)容差異的技術(shù)問(wèn)題。

2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例提供一種基于pdf文檔的內(nèi)容預(yù)處理后差異可視化方法,所述基于pdf文檔的內(nèi)容預(yù)處理后差異可視化方法包括:

3、提取pdf文檔中的文本內(nèi)容和圖片內(nèi)容,得到文本文件和圖片文件,并記錄所述pdf文檔的原始文檔信息,以及所述文本內(nèi)容和所述圖片內(nèi)容在所述文本文件和所述圖片文件中的位置信息;

4、基于所述原始文檔信息和所述位置信息,構(gòu)建所述pdf文檔的映射文件,所述映射文件包括所述pdf文檔與所述文本內(nèi)容和所述圖片內(nèi)容之間的映射關(guān)系;

5、基于所述映射文件,將所述文本文件按照段落進(jìn)行拆分,得到段落單元;

6、將所述段落單元和所述圖片文件分別輸入到對(duì)應(yīng)的處理算子中進(jìn)行處理,根據(jù)所述處理算子的處理結(jié)果,整合得到目標(biāo)文檔;

7、于同一顯示界面中,輸出所述pdf文檔與所述目標(biāo)文檔,并在所述顯示界面中對(duì)所述pdf文檔與所述目標(biāo)文檔的差異部分進(jìn)行標(biāo)記。

8、在一實(shí)施例中,所述提取pdf文檔中的文本內(nèi)容和圖片內(nèi)容,得到文本文件和圖片文件,并記錄所述pdf文檔的原始文檔信息,以及所述文本內(nèi)容和所述圖片內(nèi)容在所述文本文件和所述圖片文件中的位置信息的步驟包括:

9、利用pdf解析庫(kù),提取所述pdf文檔的所述文本內(nèi)容和所述圖片內(nèi)容;

10、根據(jù)所述pdf文檔的文檔結(jié)構(gòu)及語(yǔ)義特征,確定所述pdf文檔的原始文檔信息,所述原始文檔信息包括章節(jié)、段落、頁(yè)碼范圍、pdf段落坐標(biāo)以及圖片頁(yè)碼、圖片坐標(biāo)和尺寸;

11、將所述文本內(nèi)容與所述pdf文檔中的所述章節(jié)和所述段落相匹配,并根據(jù)所述章節(jié)和所述段落,獲取對(duì)應(yīng)所述文本內(nèi)容在所述文本文件中的文本行號(hào)、偏移量和文本索引位置;

12、在將提取的所述圖片內(nèi)容保存為所述圖片文件時(shí),記錄所述圖片文件的文件路徑;

13、將所述文本內(nèi)容在所述文本文件中的文本行號(hào)、偏移量和文本索引位置,以及所述圖片文件的文件路徑整合,得到所述文本內(nèi)容和所述圖片內(nèi)容在所述文本文件和所述圖片文件中的位置信息。

14、在一實(shí)施例中,所述基于所述原始文檔信息和所述位置信息,構(gòu)建所述pdf文檔的映射文件,所述映射文件包括所述pdf文檔與所述文本內(nèi)容和所述圖片內(nèi)容之間的映射關(guān)系的步驟包括:

15、根據(jù)所述原始文檔信息,創(chuàng)建映射條目,所述映射條目包括所述pdf文檔中的章節(jié)、段落和圖片;

16、將所述pdf文檔中的章節(jié)、段落和圖片,與所述文本內(nèi)容和所述圖片內(nèi)容進(jìn)行對(duì)應(yīng);

17、根據(jù)所述原始文檔信息和所述位置信息,確定所述映射條目在所述pdf文檔中的具體位置,以及所述映射條目在所述文本文件和所述圖片文件中的位置信息;

18、將所述映射條目按照預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行整合,得到所述pdf文檔的映射文件。

19、在一實(shí)施例中,所述基于所述映射文件,將所述文本文件按照段落進(jìn)行拆分,得到段落單元的步驟包括:

20、基于所述映射文件中段落的文本行號(hào)、偏移量和文本索引位置,從所述文本文件中提取每個(gè)段落對(duì)應(yīng)的所述文本內(nèi)容,得到多個(gè)段落單元。

21、在一實(shí)施例中,所述將所述段落單元和所述圖片文件分別輸入到對(duì)應(yīng)的處理算子中進(jìn)行處理,根據(jù)所述處理算子的處理結(jié)果,整合得到目標(biāo)文檔的步驟包括:

22、將所述段落單元和所述圖片文件分發(fā)至對(duì)應(yīng)所述處理算子中進(jìn)行處理,得到處理結(jié)果;

23、將所述處理結(jié)果按照所述映射文件中的結(jié)構(gòu)進(jìn)行整合,得到目標(biāo)文檔。

24、在一實(shí)施例中,所述于同一顯示界面中,輸出所述pdf文檔與所述目標(biāo)文檔,并在所述顯示界面中對(duì)所述pdf文檔與所述目標(biāo)文檔的差異部分進(jìn)行標(biāo)記的步驟包括:

25、根據(jù)所述映射文件的映射關(guān)系,確定所述pdf文檔與所述目標(biāo)文檔中對(duì)應(yīng)內(nèi)容的頁(yè)面匹配關(guān)系;

26、基于所述頁(yè)面匹配關(guān)系,于同一顯示界面中,并列展示所述pdf文檔與所述目標(biāo)文檔的對(duì)應(yīng)頁(yè)面;

27、采用不同的顏色、標(biāo)記或高亮方式,對(duì)所述pdf文檔與所述目標(biāo)文檔中的差異部分進(jìn)行標(biāo)記。

28、在一實(shí)施例中,所述于同一顯示界面中,輸出所述pdf文檔與所述目標(biāo)文檔,并在所述顯示界面中對(duì)所述pdf文檔與所述目標(biāo)文檔的差異部分進(jìn)行標(biāo)記的步驟,還包括:

29、當(dāng)選擇指令停留在標(biāo)記上時(shí),基于過(guò)程文件顯示所述標(biāo)記所對(duì)應(yīng)的所述文本內(nèi)容或所述圖片內(nèi)容的處理記錄。

30、在一實(shí)施例中,所述當(dāng)選擇指令停留在標(biāo)記上時(shí),基于過(guò)程文件顯示所述標(biāo)記所對(duì)應(yīng)的所述文本內(nèi)容或所述圖片內(nèi)容的處理記錄的步驟,還包括:

31、在處理所述段落單元和所述圖片文件的過(guò)程中,創(chuàng)建過(guò)程文件,記錄所述處理算子處理所述段落單元和所述圖片文件的處理記錄,所述處理記錄包括處理的起始時(shí)間、結(jié)束時(shí)間、處理類型、處理狀態(tài)、位置信息,以及處理前和處理后的所述文本內(nèi)容和所述圖片內(nèi)容;

32、當(dāng)所述選擇指令停留在標(biāo)記上時(shí),在所述過(guò)程文件中檢索并提取所述標(biāo)記對(duì)應(yīng)的所述處理記錄,并在所述顯示界面中以側(cè)邊欄、彈窗或懸浮框的形式展示。

33、本技術(shù)實(shí)施例還提供一種基于pdf文檔的內(nèi)容預(yù)處理后差異可視化設(shè)備,所述基于pdf文檔的內(nèi)容預(yù)處理后差異可視化設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如上文所述的基于pdf文檔的內(nèi)容預(yù)處理后差異可視化方法的步驟。

34、本技術(shù)實(shí)施例還提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的基于pdf文檔的內(nèi)容預(yù)處理后差異可視化方法的步驟。

35、本技術(shù)實(shí)施例公開(kāi)了一種基于pdf文檔的內(nèi)容預(yù)處理后差異可視化方法,通過(guò)提取pdf文檔中的文本內(nèi)容和圖片內(nèi)容,得到文本文件和圖片文件,并記錄所述pdf文檔的原始文檔信息,以及所述文本內(nèi)容和所述圖片內(nèi)容在所述文本文件和所述圖片文件中的位置信息;基于所述原始文檔信息和所述位置信息,構(gòu)建所述pdf文檔的映射文件,所述映射文件包括所述pdf文檔與所述文本內(nèi)容和所述圖片內(nèi)容之間的映射關(guān)系;基于所述映射文件,將所述文本文件按照段落進(jìn)行拆分,得到段落單元;將所述段落單元和所述圖片文件分別輸入到對(duì)應(yīng)的處理算子中進(jìn)行處理,根據(jù)所述處理算子的處理結(jié)果,整合得到目標(biāo)文檔;于同一顯示界面中,輸出所述pdf文檔與所述目標(biāo)文檔,并在所述顯示界面中對(duì)所述pdf文檔與所述目標(biāo)文檔的差異部分進(jìn)行標(biāo)記。本技術(shù)通過(guò)建立文本內(nèi)容和圖片內(nèi)容與原始pdf文檔的位置映射關(guān)系,并在利用處理算子對(duì)提取出的內(nèi)容進(jìn)行處理時(shí),同步保存處理記錄,實(shí)現(xiàn)了在進(jìn)行差異可視化對(duì)比展示時(shí),能夠根據(jù)映射關(guān)系將處理前后的文檔內(nèi)容進(jìn)行同步展示,使得用戶可以直觀比較處理前后的內(nèi)容差異,在語(yǔ)料質(zhì)量評(píng)估環(huán)節(jié),可以有效評(píng)估預(yù)處理結(jié)果是否符合預(yù)期效果。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1