最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種文檔中復(fù)雜表格的識別方法與流程

文檔序號:41956272發(fā)布日期:2025-05-16 14:24閱讀:7來源:國知局
一種文檔中復(fù)雜表格的識別方法與流程

本發(fā)明涉及表格識別,特別涉及一種文檔中復(fù)雜表格的識別方法。


背景技術(shù):

1、在信息技術(shù)與人工智能飛速發(fā)展的背景下,文檔圖像處理與分析已經(jīng)成為一個重要的研究方向,該領(lǐng)域涵蓋了圖像識別、光學(xué)字符識別及自然語言處理等技術(shù),并應(yīng)用于不同場景下的自動化數(shù)據(jù)提取、信息理解與處理。隨著各類電子文檔的廣泛使用,如何高效、準(zhǔn)確地從這些文檔中提取結(jié)構(gòu)化信息,尤其是財務(wù)報告中的復(fù)雜表格數(shù)據(jù),成為了研究的重點。尤其是在pdf財報這類常見的財務(wù)報表中,表格不僅具有復(fù)雜的布局,還包含合并單元格和跨頁表格等特殊情況,這對自動化識別提出了極高的挑戰(zhàn)。

2、盡管現(xiàn)有的文檔表格識別方法在處理標(biāo)準(zhǔn)的表格布局時已有一定的進展,但在面對復(fù)雜表格,尤其是跨頁表格和合并單元格的情況下,仍存在許多不足。現(xiàn)有方法大多依賴于固定的規(guī)則的模式匹配,難以適應(yīng)不同表格樣式與布局的多樣性。在識別空白單元格時,尤其是當(dāng)空白單元格是合并單元格的一部分時,現(xiàn)有方法常常難以準(zhǔn)確區(qū)分真正的空白單元格和那些屬于合并區(qū)域的空白單元格,這直接導(dǎo)致數(shù)據(jù)解析的錯誤。此外,對于跨頁表格,由于表格內(nèi)容可能被拆分在多個頁面上,當(dāng)前的跨頁識別方法缺乏對表格跨頁信息的準(zhǔn)確傳遞能力,這可能導(dǎo)致數(shù)據(jù)丟失或不一致,從而影響最終的表格數(shù)據(jù)重建與分析結(jié)果。

3、在表格識別過程中,空白單元格的類型判定和跨頁表格分析的不足,會導(dǎo)致以下幾個主要問題:1、空白單元格誤判:如果空白單元格被錯誤判定為合并單元格的一部分,或者反之,可能會導(dǎo)致表格的合并狀態(tài)和數(shù)據(jù)結(jié)構(gòu)無法正確恢復(fù),影響最終數(shù)據(jù)的準(zhǔn)確性。例如,某些合并單元格的內(nèi)容可能無法正確傳遞到相應(yīng)的單元格位置,導(dǎo)致數(shù)據(jù)丟失或錯誤。2、跨頁表格的錯誤拼接:在跨頁表格的處理過程中,如果跨頁信息未能正確傳遞,可能會造成頁面之間表格內(nèi)容的錯位,尤其是在多頁表格的合并區(qū)域未能正確連接時,數(shù)據(jù)的上下文關(guān)系會喪失,進而影響表格的分析和后續(xù)的決策支持。


技術(shù)實現(xiàn)思路

1、有鑒于現(xiàn)有技術(shù)中存在的上述問題,本技術(shù)提供了一種文檔中復(fù)雜表格的識別方法。

2、本公開實施例提供一種文檔中復(fù)雜表格的識別方法,包括以下步驟:

3、s1、基于pdf財報,獲取多組圖像文件,并識別各組圖像文件中的表格區(qū)域,獲取表格數(shù)據(jù);

4、s2、基于表格數(shù)據(jù),分析各表格區(qū)域間的相似性,結(jié)合相似性傳遞性假設(shè),執(zhí)行跨頁識別,以完成完整表格識別作業(yè);

5、s3、在s2基礎(chǔ)上,初步確定完整表格相關(guān)數(shù)據(jù),并依據(jù)合并單元格的形式類型,對空白單元格進行類型確定,并識別合并單元格的范圍,再次完善完整表格相關(guān)數(shù)據(jù),并根據(jù)完善后的完整表格相關(guān)數(shù)據(jù),對表格執(zhí)行還原任務(wù)。

6、可選的,s1具體步驟包括:

7、s11、根據(jù)公司財務(wù)部預(yù)先獲取pdf財報,并將pdf財報文檔轉(zhuǎn)換為多組圖像文件,從多組圖像文件中提取出高分辨率圖像及文本層信息,其中,所述文本層信息包括但不限于文字內(nèi)容、文字位置、字體及字號;

8、s12、使用邊緣檢測核對高分辨率圖像進行卷積運算,以獲取每個像素點的邊緣強度,所述邊緣強度的獲取方式如下:

9、;

10、式中,為圖像在坐標(biāo)處的像素值;為邊緣檢測核的權(quán)重,由選定的邊緣檢測核(如sobel核)定義;及分別為邊緣檢測核中第i個位置相對于中心位置在水平方向上及垂直方向上的偏移量;i為索引變量,表示當(dāng)前正在處理的邊緣檢測核中的第?i個位置;n為邊緣檢測核中元素的總數(shù)。

11、可選的,s1具體步驟還包括:

12、s13、利用otsu算法,根據(jù)最大化類間方差來設(shè)定最佳閾值,將閾值與各個像素點的邊緣強度進行大小比較,若相應(yīng)像素點的邊緣強度超過設(shè)定閾值時,此時將相應(yīng)像素點作為表格邊緣點,并通過霍夫變換檢測圖像中存在的直線,尋找到圖像中表格的橫線和豎線,根據(jù)表格的橫線和豎線之間的交點,確定表格中的邊界線,以生成表格數(shù)據(jù),其中,所述表格數(shù)據(jù)包括各組圖像文件中圖像內(nèi)所存在的表格的橫線位置、豎線位置及交點位置。

13、可選的,s2具體步驟包括:

14、s21、基于所述表格數(shù)據(jù),確定各組圖像文件中表格的列數(shù)、行數(shù)、列寬及行寬,并結(jié)合所述文本層信息,構(gòu)建各表格區(qū)域的特征向量h,依據(jù)pdf財報所轉(zhuǎn)換的多組圖像文件的順序,確定各表格之間的相鄰關(guān)系;

15、s22、根據(jù)各表格區(qū)域的特征向量h,識別相鄰表格間的相似性,以獲取相似度,具體為:

16、

17、式中,為第j個表格區(qū)域的特征向量,為第j+1個表格區(qū)域的特征向量,為特征向量和特征向量的點積,為特征向量的范數(shù)。

18、可選的,s2具體步驟還包括:

19、s23、預(yù)先設(shè)定相似閾值,通過將相似閾值與相似度進行比對,以確定相應(yīng)相鄰表格間是否存在跨頁行為,具體比對內(nèi)容如下:

20、若相似度超過相似閾值,則確定相應(yīng)相鄰表格間存在跨頁行為,表明當(dāng)前相鄰表格屬于同一組表格,并將當(dāng)前表格標(biāo)記為子表格;

21、若相似度未超過相似閾值,則確定相應(yīng)相鄰表格間未存在跨頁行為,表明當(dāng)前相鄰表格不屬于同一組表格。

22、可選的,s2具體步驟還包括:

23、s24、依據(jù)s23中的比對結(jié)果,結(jié)合相似性傳遞性假設(shè),若表格a與表格b屬于同一組表格,表格b與表格c屬于同一組表格,則表格a與表格c也屬于同一組表格,通過匯總,以在多組圖像文件中識別出多組完整表格,所述完整表格至少包括一組子表格。

24、可選的,s3具體步驟包括:

25、s31、將所述完整表格中的各子表格進行拼接,以確定出所述完整表格內(nèi)各交點處的坐標(biāo),根據(jù)所述完整表格內(nèi)各交點處的坐標(biāo),將所述完整表格劃分為若干組單元格。

26、可選的,s3具體步驟還包括:

27、s32、遍歷所述完整表格內(nèi)的所有單元格,若所述完整表格中存在合并單元格,且合并單元格的形式類型為類型一,則通過以下步驟識別合并單元格:

28、s321、從所述完整表格左上角的起始點開始,向右擴展,直到遇到邊界線,記錄橫向合并列數(shù)hs,具體為:

29、;

30、式中,為單元格在行和列p+r位置上的邊界線;為單元格橫向合并的列數(shù);為取最大的r值,使得在位置上沒有邊界線;為在單元格位置的邊界線不存在,其中,下標(biāo)的翻譯為中文,表示為不存在;r為從當(dāng)前位置開始向右檢查的列數(shù)。

31、s322、從所述完整表格左上角的起始點開始,向下擴展,直到遇到邊界線,記錄縱向合并行數(shù)zs,具體為:

32、;

33、式中,為單元格在行和列位置上的邊界線,為單元格縱向合并的行數(shù);為取最大的e值,使得在位置上沒有邊界線;為在單元格位置的邊界線不存在,其中,下標(biāo)的翻譯為中文,表示為不存在;e為從當(dāng)前位置開始向下檢查的行數(shù);

34、s323、基于s321及s322的內(nèi)容,確定出所述完整表格中合并單元格的形式類型為類型一的范圍f,所述范圍。

35、可選的,s3具體步驟還包括:

36、s33、遍歷所述完整表格內(nèi)的所有單元格,若所述完整表格中存在合并單元格,且合并單元格的形式類型為類型二,則通過以下方式識別合并單元格:

37、

38、式中,為判定結(jié)果,表示單元格是否是合并單元格中的空白單元格,表示單元格是合并單元格的一部分,表示單元格是獨立的、真正的空白單元格,不屬于任何合并單元格區(qū)域;表示單元格沒有跨越其他列,是一個獨立的單元格;表示單元格跨越了多個列;表示單元格跨越了多個行;表示單元格沒有跨越其他行;表示單元格的合并狀態(tài),表示單元格不是合并單元格的第一個單元格,表示單元格是合并單元格的第一個單元格;

39、,,表示單元格屬于合并單元格的空白單元格;

40、,,表示單元格是一個真正的空白單元格,不屬于任何合并區(qū)域。

41、可選的,s3具體步驟還包括:

42、s34、基于s33中對所述完整表格內(nèi)的空白單元格的類型確定,逐步確定所述完整表格中合并單元格的形式類型為類型二的范圍,并依據(jù)類型一的合并單元格范圍及類型二的合并單元格范圍,重新完善完整表格相關(guān)數(shù)據(jù),所述完整表格相關(guān)數(shù)據(jù)包括完整表格內(nèi)各橫線位置、豎線位置及、點位置、列數(shù)、行數(shù)、列寬、行寬、文本層信息以及合并單元格范圍;基于所述完整表格相關(guān)數(shù)據(jù),將pdf財報中所涉及到的完整表格轉(zhuǎn)換為結(jié)構(gòu)化表格數(shù)據(jù),其中,結(jié)構(gòu)化表格數(shù)據(jù)包括但不限于excel、json及csv,并在轉(zhuǎn)化過程中,對表格執(zhí)行還原任務(wù),具體為:

43、;

44、式中,s為重建后的表格,為單元格的內(nèi)容,為單元格在完整表格中的行索引,取值范圍是從1到q;q為完整表格的行數(shù),為單元格在完整表格中的列索引,取值范圍是從1到p;p為完整表格的列數(shù);

45、若,意味著該單元格參與了合并,單元格的內(nèi)容會被加到重建表格中;

46、若,意味著該單元格未參與了合并,單元格的內(nèi)容在重建后的表格中將不會進行重新編輯。

47、本發(fā)明提供了一種文檔中復(fù)雜表格的識別方法,具備以下有益效果:

48、(1)利用相似性傳遞性假設(shè),該方法通過計算相鄰表格之間的相似度(通過特征向量的點積與范數(shù)計算),能夠高效地判斷不同表格區(qū)域是否存在跨頁行為。通過設(shè)定相似度閾值,該方法能夠自動識別相鄰表格是否屬于同一組表格,從而判斷是否存在跨頁表格,這一過程不僅減少了人工干預(yù)的需求,還顯著提高了跨頁表格識別的精度,確保了表格數(shù)據(jù)的連續(xù)性和完整性。通過相似性分析和傳遞性假設(shè)的結(jié)合,本發(fā)明能夠在多組圖像文件中自動識別出完整的跨頁表格,并將多個子表格成功拼接成完整表格。這一過程中,方法通過匯總相鄰表格的特征信息,能夠在不同頁面之間正確識別表格的連續(xù)性。通過這種自動化的跨頁表格重建,解決了傳統(tǒng)方法中跨頁表格信息丟失或錯位的問題,從而提高了表格數(shù)據(jù)的可靠性和分析效果。綜上所述,本發(fā)明的方法在表格數(shù)據(jù)的處理上提供了高效、準(zhǔn)確的解決方案,尤其在跨頁表格的識別和合并表格的重建方面展現(xiàn)了顯著的優(yōu)勢。這使得對于pdf財報等復(fù)雜文檔中的表格識別和數(shù)據(jù)提取過程變得更加智能化和自動化,有效提升了信息提取的質(zhì)量和效率。

49、(2)通過遍歷完整表格內(nèi)的所有單元格,并判斷每個單元格是否屬于合并單元格的一部分,本發(fā)明能夠準(zhǔn)確區(qū)分出空白合并單元格和真正的空白單元格,這一過程使得合并單元格的判定更加細(xì)致和準(zhǔn)確,避免了傳統(tǒng)方法中由于誤判合并單元格而導(dǎo)致的數(shù)據(jù)解析錯誤。特別是在類型二合并單元格中,能夠根據(jù)單元格的合并狀態(tài)和位置關(guān)系,精確判斷每個空白單元格是否是合并單元格的一部分,從而確保表格數(shù)據(jù)的完整性和準(zhǔn)確性。在合并單元格的識別過程中,系統(tǒng)不僅能夠判斷合并單元格是否屬于合并區(qū)域,還能根據(jù)單元格跨越的行數(shù)和列數(shù),自動識別橫向和縱向合并單元格的范圍。通過細(xì)化識別,系統(tǒng)能夠準(zhǔn)確區(qū)分哪些單元格是獨立的、哪些是合并單元格的組成部分。對于橫向和縱向的合并單元格,系統(tǒng)能夠自動識別其跨度,避免了由于合并區(qū)域范圍計算錯誤導(dǎo)致的表格結(jié)構(gòu)損壞。本發(fā)明方法通過對每個單元格的合并狀態(tài)和類型的判斷,能夠確保完整表格在經(jīng)過合并單元格識別后得到有效恢復(fù)。通過對表格內(nèi)每個單元格的精確識別,尤其是對于類型二合并單元格的識別,使得表格在合并單元格處理過程中得以準(zhǔn)確還原。這樣,表格中的數(shù)據(jù)能夠按照原始布局被準(zhǔn)確恢復(fù),并且空白單元格的位置也能夠正確標(biāo)定。

50、(3)本發(fā)明通過對空白單元格的類型判定以及類型一和類型二合并單元格的范圍識別,能夠精準(zhǔn)識別表格中不同類型的合并單元格,特別是在處理復(fù)雜財務(wù)報表中的合并單元格時,減少了傳統(tǒng)方法中的誤判,這一過程通過逐步完善合并單元格的范圍,確保了表格的結(jié)構(gòu)完整性和內(nèi)容的準(zhǔn)確性,避免了因為合并單元格范圍錯誤而導(dǎo)致的數(shù)據(jù)丟失或錯位。結(jié)構(gòu)化表格數(shù)據(jù)轉(zhuǎn)換:通過將完整表格數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化表格數(shù)據(jù)(如excel、json或csv),本發(fā)明實現(xiàn)了文檔內(nèi)容的高效提取與重建,這一過程不僅提高了數(shù)據(jù)提取的準(zhǔn)確性,還為后續(xù)的數(shù)據(jù)處理與分析提供了清晰、標(biāo)準(zhǔn)化的表格格式,便于進一步的自動化分析和處理。例如,將pdf財報中的表格數(shù)據(jù)自動轉(zhuǎn)換為csv格式,使得數(shù)據(jù)可以直接用于財務(wù)分析、數(shù)據(jù)可視化等應(yīng)用。本發(fā)明通過對表格中每個單元格的內(nèi)容進行加權(quán)求和,確保了合并單元格內(nèi)容的精準(zhǔn)重建。通過結(jié)合合并單元格的合并狀態(tài)(是否參與合并),在重建表格時,對合并單元格的內(nèi)容進行了合理的調(diào)整與填充,確保了表格結(jié)構(gòu)的還原。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1