最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

<nobr id="buwcx"><strike id="buwcx"></strike></nobr>
<thead id="buwcx"><noframes id="buwcx"><pre id="buwcx"></pre></noframes></thead>
  • <small id="buwcx"></small>
  • <pre id="buwcx"></pre>

    一種文檔排版類型的檢測方法及系統(tǒng)的制作方法

    文檔序號:6443590閱讀:348來源:國知局
    專利名稱:一種文檔排版類型的檢測方法及系統(tǒng)的制作方法
    技術(shù)領(lǐng)域
    本發(fā)明涉及文檔排版的檢測領(lǐng)域,具體涉及ー種文檔排版類型的檢測方法及系統(tǒng)。
    背景技術(shù)
    文檔圖像有橫排版和豎排版之分。在較為復(fù)雜的版面中還會出現(xiàn)橫排和豎排混合的情況,即一部分區(qū)域是橫排版,一部分區(qū)域是豎排版。排版方向信息也是版面分析中ー個較為重要的信息。很多算法都要依賴于這一信息進(jìn)行調(diào)整。在大批量圖書加工中靠人工去輸入,是一件非常繁瑣的工作,不利于整體加工的自動化,影響整體加工效率。在對文檔的排版方式進(jìn)行判斷吋,一種比較常用的方式是對文檔圖像分別做黑像素的行向或列向投影。在某一方向上方差較大,或者出現(xiàn)投影峰分離,則可判斷出相應(yīng)的排版方向。但是一般易受噪聲、插圖等因素影響。申請?zhí)枮?00910084862. 6、名稱為“判斷文本區(qū)域排版方向的方法”的專利中提出了一種文本區(qū)域排版方向的判斷方法,該方法利用投影的方法,根據(jù)得到的投影直方圖進(jìn)行統(tǒng)計(jì)分析,根據(jù)文本區(qū)域外接矩形的長寬比來判斷排版的方向是橫排還是豎排。雖然該方法能夠判斷文檔中的基本排版類型是橫排或豎排,但是仍然不能夠?qū)旌吓虐?既有橫排又有豎排)的情況進(jìn)行判斷。且易受噪聲、插圖等因素影響。

    發(fā)明內(nèi)容
    針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的在于提供一種文檔排版類型的檢測方法及系統(tǒng),通過Hough變換參數(shù)空間分析字符排列的周期性實(shí)現(xiàn)對文檔圖像多種排版方式的確認(rèn)。為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下一種文檔排版類型的檢測方法,包括以下步驟(1)選定待檢測的文檔圖像,并對所述文檔圖像進(jìn)行ニ值化處理得到ニ值化圖像;(2)計(jì)算ニ值化圖像的連通域,并計(jì)算連通域的最小外接矩形以及最小外接矩形的中心點(diǎn)坐標(biāo);(3)將所述最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough變換計(jì)算的輸入點(diǎn)集,在Hough 變換參數(shù)空間投票計(jì)算累加矩陣Α( θ,ρ);其中,累加矩陣Α(θ,ρ)以θ為χ軸,θ表示文檔圖像的每行或每列的最小外接矩形的中心點(diǎn)所在直線的法線與X軸正半軸的夾角,0彡θ ^ 180; P表示文檔圖像空間的每行或每列的最小外接矩形的中心點(diǎn)所在直線與X軸的距離,P <+r,r為文檔圖像對角線長度的一半;(4)檢測累加矩陣的投票極值點(diǎn),并對極值點(diǎn)進(jìn)行周期性分析,根據(jù)極值點(diǎn)在不同 θ方向上的周期性確定文檔的排版類型。
    進(jìn)一歩,如上所述的ー種文檔排版類型的檢測方法,步驟(1)中,對文檔圖像進(jìn)行 ニ值化處理前,對文檔圖像進(jìn)行預(yù)處理,所述預(yù)處理包括灰度調(diào)整和降噪處理。進(jìn)一歩,如上所述的ー種文檔排版類型的檢測方法,步驟(3)中,在Hough變換參數(shù)空間投票計(jì)算累加矩陣吋,記錄參數(shù)空間中投票點(diǎn)和原始文檔圖像空間中點(diǎn)的對應(yīng)關(guān)承。進(jìn)一歩,如上所述的ー種文檔排版類型的檢測方法,所述極值點(diǎn)是指參數(shù)空間的極大值點(diǎn),對極值點(diǎn)進(jìn)行周期性分析是指對θ在0°和90°的方向上進(jìn)行周期性分析。進(jìn)一歩,如上所述的ー種文檔排版類型的檢測方法,步驟中,對極值點(diǎn)進(jìn)行周期性分析,確定文檔的排版類型的具體方式為a)當(dāng)極值點(diǎn)只在ー個角度方向上具有周期性吋,θ在90°方向具有周期性為橫排版,θ在0°方向具有周期性為豎排版;b)當(dāng)極值點(diǎn)在兩個角度方向上都具有周期性吋,確定方式如下bl)如果在0°或90°上只存在ー個周期序列,則排版方式為單ー排版類型,如果 θ在0°方向上的周期值大于90°方向上的周期值則為単一豎排版,如果Θ在0°方向上的周期值小于90°方向上的周期值則為単一橫排版;b2)如果在0°或90°上存在兩個或者兩者以上的周期序列,則排版方式為混合排版。進(jìn)一歩,如上所述的ー種文檔排版類型的檢測方法,具有周期性的極值點(diǎn)的周期值大于文檔圖像中字符的最小外接矩形的長或?qū)挘倚∮谖臋n圖像中字符的最小外接矩形的長或?qū)挼膋倍,2彡k彡6。進(jìn)一歩,如上所述的ー種文檔排版類型的檢測方法,所述字符的最小外接矩形的長或?qū)挒槲臋n中所有連通域的最小外接矩形的長或?qū)捴械淖畲笾?。再進(jìn)一歩,如上所述的ー種文檔排版類型的檢測方法,所述極大值點(diǎn)的投票值的閾值范圍為(3,10)。更進(jìn)一歩,如上所述的ー種文檔排版類型的檢測方法,所述極大值點(diǎn)的投票值的閾值優(yōu)選值為5。一種文檔排版類型的檢測系統(tǒng),包括ニ值化裝置用于對待檢測文檔圖像進(jìn)行ニ值化處理,得到ニ值化圖像;連通域計(jì)算裝置用于計(jì)算ニ值化圖像的連通域,并計(jì)算出連通域的最小外接矩形及最小外接矩形的中心點(diǎn)坐標(biāo);Hough變換裝置用于將最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough變換計(jì)算的輸入點(diǎn)集,在Hough變換參數(shù)空間投票計(jì)算累加矩陣Α( θ,ρ);其中,累加矩陣Α(θ,ρ)以θ為X軸,θ表示文檔圖像的每行或每列的最小外接矩形的中心點(diǎn)所在直線的法線與X軸正半軸的夾角,0彡θ ^ 180; P表示文檔圖像空間的每行或每列的最小外接矩形的中心點(diǎn)所在直線與X軸的距離,P <+r,r為文檔圖像對角線長度的一半;排版類型確認(rèn)裝置用于檢測累加矩陣的投票極值點(diǎn),并對極值點(diǎn)進(jìn)行周期性分折,根據(jù)極值點(diǎn)在不同θ方向上的周期性確定文檔的排版類型。本發(fā)明的效果在干本發(fā)明所述的方法及系統(tǒng),基于文檔圖像中字行/列的平行性、周期性、以及行間距一般大于字間距的特點(diǎn),將文字連通域最小外接矩形的中心作為輸入數(shù)據(jù),在Hough變換參數(shù)空間分析字符排列的周期性,來確定文檔的排版方式。實(shí)現(xiàn)了對文檔圖像為橫排、豎排或者混合排版等多種情況的判斷,克服了現(xiàn)有排版類型確認(rèn)方法中無法處理混合排版的情況缺陷,能夠?qū)ξ臋n圖像中的多種排版方式的進(jìn)行確認(rèn)。


    圖1為本發(fā)明一種文檔排版類型的檢測系統(tǒng)的結(jié)構(gòu)框圖;圖2為本發(fā)明一種文檔排版類型的檢測方法的流程圖;圖3為實(shí)施方式中待檢測的橫排版的文檔圖像;圖4為圖3中文檔圖像連通域的最小外接矩形示意圖;圖5為圖3中文檔圖像在Hough變換參數(shù)空間中極值點(diǎn)周期分析結(jié)果圖;圖6為實(shí)施例中待檢測的豎排版的文檔圖像;圖7為圖6中文檔圖像在Hough變換參數(shù)空間中極值點(diǎn)周期分析結(jié)果圖;圖8為實(shí)施例中待檢測的混合排版的文檔圖像;圖9為圖8中文檔圖像在Hough變換參數(shù)空間中極值點(diǎn)周期分析結(jié)果圖。
    具體實(shí)施例方式本發(fā)明的主要思想是本發(fā)明所述的方法及系統(tǒng)主要的依據(jù)是文檔中字行(列) 的平行性、周期性、行間距一般大于字間距來確認(rèn)文檔的排版類型。將文字連通域外接矩形的中心作為輸入數(shù)據(jù),在Hough變換的參數(shù)空間分析字符排列的周期性,同時利用行間距和字間距的關(guān)系來判斷,在參數(shù)空間90度和0度上會出現(xiàn)兩列峰值點(diǎn),這些點(diǎn)一般按周期性排布,其間隔周期代表了行間距或字間距。對于字符只在ー個方向上對齊的文檔,則只會在ー個角度上極值點(diǎn)具有周期性。如果兩方向上均對齊,則可利用周期的大小來判斷,因?yàn)橐话阄臋n的行間距都會大于字間距??纱_定混排圖像中的橫排和豎排區(qū)域。下面結(jié)合說明書附圖與具體實(shí)施方式
    對本發(fā)明做進(jìn)ー步的詳細(xì)說明。圖1示出了本發(fā)明ー種文檔排版類型的檢測系統(tǒng)的結(jié)構(gòu)框圖,由圖中可以看出, 該系統(tǒng)主要包括以下裝置ニ值化裝置11 用于對待檢測文檔圖像進(jìn)行ニ值化處理,得到ニ值化圖像;連通域計(jì)算裝置12 用于計(jì)算ニ值化圖像的連通域,并計(jì)算出連通域的最小外接矩形及最小外接矩形的中心點(diǎn)坐標(biāo);Hough變換裝置13 用于將最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough變換計(jì)算的輸入點(diǎn)集,在Hough變換參數(shù)空間投票計(jì)算累加矩陣Α( θ,ρ);排版類型確認(rèn)裝置14 用于檢測累加矩陣的投票極值點(diǎn),并對極值點(diǎn)進(jìn)行周期性分析,根據(jù)極值點(diǎn)在不同θ方向上的周期性確定文檔的排版類型。圖2示出了基于圖1中檢測系統(tǒng)的ー種文檔排版類型的檢測方法的流程圖,由圖中可以看出,該方法主要包括以下步驟步驟S21 對文檔圖像進(jìn)行ニ值化處理得到ニ值化圖像;選定待檢測的文檔圖像,如圖3中的文檔圖像,并對所述文檔圖像進(jìn)行ニ值化處理得到ニ值化圖像。Hough變換算法主要是應(yīng)用于ニ值的像素點(diǎn),本發(fā)明所述的方法是要將
    6字或偏旁的最小外接矩形的中心點(diǎn)作為輸入點(diǎn);求取中心點(diǎn)需要計(jì)算連通域,而要計(jì)算連通域需要將待檢測的文檔圖形轉(zhuǎn)化為ニ值圖像,而文檔圖像中的常見的噪聲對檢測結(jié)果的好壞有很大的影響,所以一般在對文檔圖像進(jìn)行ニ值化處理之前,需要對文檔圖像進(jìn)行預(yù)處理,包括灰度調(diào)整處理和降噪處理。步驟S22 計(jì)算ニ值化圖像的連通域、連通域的最小外接矩形及最小外接矩形的中心點(diǎn)坐標(biāo);計(jì)算ニ值化圖像的連通域,并計(jì)算連通域的最小外接矩形以及最小外接矩形的中心點(diǎn)坐標(biāo)。ニ值化圖像連通域的標(biāo)記采用現(xiàn)有技木,本具體實(shí)施方式
    中不再詳細(xì)描述,對圖 3中的文檔圖像進(jìn)行連通域計(jì)算,并計(jì)算連通域的最小外接矩形的結(jié)果如圖4所示。步驟S23 將最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough變換的輸入點(diǎn)集在參數(shù)空間投票;將步驟S22中所計(jì)算的ニ值圖像連通域的最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough 變換計(jì)算的輸入點(diǎn)集,并在Hough變換參數(shù)空間投票計(jì)算累加矩陣A ( θ,ρ )。在Hough變換中,P 一般表示圖像空間中原點(diǎn)到圖像空間中一條直線的距離(半徑),θ表示圖像空間中過原點(diǎn)的半徑與X軸正半軸的夾角。對于文檔圖像中同一行或者同一列的字符,其連通域的最小外接矩形的中心點(diǎn)坐標(biāo)應(yīng)該在一條直線上,所以在本發(fā)明中,累加矩陣Α( θ,ρ) 以θ角為X軸,θ表示文檔圖像的每行或每列的最小外接矩形的中心點(diǎn)所在直線的法線與X軸正半軸的夾角,0彡θ ^ 180 ; P表示文檔圖像空間的每行或每列的最小外接矩形的中心點(diǎn)所在直線與X軸的距離,-r彡P(guān)彡+r,r為文檔圖像對角線長度的一半。在Hough 變換參數(shù)空間投票計(jì)算累加矩陣時,同時記錄參數(shù)空間中投票點(diǎn)和原始文檔圖像空間中點(diǎn)的對應(yīng)關(guān)系。步驟S24 檢測分析累加矩陣的投票極值點(diǎn),根據(jù)極值點(diǎn)的周期性確認(rèn)文檔的排版類型。檢測參數(shù)空間中累加矩陣的投票極值點(diǎn),并對極值點(diǎn)進(jìn)行周期性分析,根據(jù)極值點(diǎn)在不同方向上的周期性確定文檔的排版類型。本發(fā)明中的極值點(diǎn)指的是極大值點(diǎn),本實(shí)施方式中,所述的極大值點(diǎn)是指該點(diǎn)累加矩陣的投票值多于其前后兩個點(diǎn)的投票值的點(diǎn), 例如對于ー投票值為5的點(diǎn),其前后兩點(diǎn)的投票值如果均小于5,則該點(diǎn)為極大值點(diǎn),如果前后兩點(diǎn)的投票值其中之一不小于5或者均不小于5,則該點(diǎn)不是極大值點(diǎn)。對極值點(diǎn)進(jìn)行周期性分析指的是對θ在0°和90°的方向上進(jìn)行周期性分析,0°和90°的方向其實(shí)對應(yīng)的是文檔的豎排版排或者橫排版兩個方向。對于文檔圖像,不論是橫排還是豎排,字行/字列的在文檔圖像中的排列是有周期性的,而且行/列間距一般都大于同一行/列的字符間距。在Hough變換的參數(shù)空間中, θ為90度和0度的方向上會出現(xiàn)兩列峰值點(diǎn),這些點(diǎn)一般是按周期性排列的,間隔周期代表了文檔的行間距或者字符間距,通過對上述周期性的分析,即可確認(rèn)出文檔的排版類型。 其中本實(shí)施方式中對于排版類型進(jìn)行判斷的具體方式如下a)當(dāng)極值點(diǎn)只在ー個角度方向上具有周期性吋,θ在90°方向上具有具有周期性為橫排版,θ在0°方向上具有周期性為豎排版;這是因?yàn)棣缺硎疚臋n圖像的每行或每列的最小外接矩形的中心點(diǎn)所在直線的法線與X軸正半軸的夾角,實(shí)際上就是每一行或每一列的字符所在的直線的法線與X軸的夾角,如果θ為90°,那么說明字符所在的直線與X軸平行,而X軸為橫向的,所以此時即能判斷為橫排版。b)當(dāng)極值點(diǎn)在兩個方向上都具有周期性吋,及θ在0°和90°都具有周期性,這時要分以下兩種情況進(jìn)行判斷bl)如果0°或90°方向上都只是具有ー個周期序列,即0°或90°方向上的周期是單ー的周期,文檔的排版類型確定為単一性排版。這時如果0°方向的周期值大于90° 方向上的,那么文檔為單ー豎排版,如果0°方向的周期值小于90°方向上,那么文檔為單 ー橫排版。b2)如果0°或90°方向上具有兩個或兩個以上的周期序列,那么文檔排版類型為混合排版。根據(jù)經(jīng)驗(yàn),在豎排版的文檔中,一般文字在橫向上的排列也是整齊的,所以會導(dǎo)致在Hough變換空間0°和90°兩個方向上均有周期性。在兩個方向上均具有周期性吋,再查看0°或90°方向上的周期間隔即周期值是否是唯一的,若是即為bl情況,此時如果0° 方向上的周期值應(yīng)大于90°方向上的周期值為單一豎排版的情況,如果90°方向上的周期值應(yīng)大于0°方向上的周期值為單一橫排版的情況,這是由文檔圖像中行間距/列間距一般要大于同一行/列中兩個相鄰字符的間距的特點(diǎn)決定的。如果0°或90°方向的周期間隔不是唯一的,即為は情況,此時即可判為混排版。此外,在實(shí)際的排版判斷吋,Hough變換參數(shù)空間投票計(jì)算累加矩陣吋,投票值是有一定最低閾值的,當(dāng)上述選出的極大值點(diǎn)的投票值大于最低閾值吋,才能成為判斷時所采用的極大值點(diǎn),即需要對極大值點(diǎn)進(jìn)行篩選,根據(jù)經(jīng)驗(yàn)該最低閾值可選范圍一般大于3 小于10,優(yōu)選值為5 (經(jīng)驗(yàn)值),只有選出的極大值點(diǎn)的投票數(shù)大于設(shè)定閾值,才作為判斷排版過程的極大值點(diǎn)。本發(fā)明所述的方法利用的是極值點(diǎn)周期性進(jìn)行判斷的,而該周期其實(shí)即為文檔圖像中的行間距/列間距和字符間距。本具體實(shí)施方式
    中的行間距/列間距即為同一行/列的字符的最小外接矩形的中心點(diǎn)所在的直線與相鄰行/列的字符的最小外接矩形的中心點(diǎn)所在的直線之間的距離,字符間距即為同一行/列中相鄰兩個字符的最小外接矩形的中心點(diǎn)之間的距離。由于行間距行間距/列間距或者字符間距一般都是要大于單個字符的寬或高的,所以周期值也應(yīng)該大于該值,如果周期值太小,也有可能是噪聲所引起的,所以本實(shí)施方式中,周期值大于文檔圖像中字符的最小外接矩形的長或?qū)挘瑫r小于文檔圖像中字符的最小外接矩形的長或?qū)挼膋倍,2 < k < 6,k的取值范圍一般是2 6,優(yōu)選值為3。根據(jù)文檔圖像中所有字符的最小外接矩形,統(tǒng)計(jì)出最大的長寬值,在判斷排版類型時,查看周期值是否大于所有長寬值中統(tǒng)計(jì)概率最大的長寬值來確定出是否為正常的周期值。下面結(jié)合具體的實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步的說明。實(shí)施例對于圖3中所示的文檔圖像,首先進(jìn)行ニ值化處理,得到ニ值化圖像,并計(jì)算標(biāo)識 ニ值化圖像的連通域,計(jì)算出連通域的最小外接矩形,如圖4所示,然后將最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough變換計(jì)算的輸入點(diǎn)集,在Hough變換參數(shù)空間投票,計(jì)算累加矩陣 Α(θ,P),同時記錄參數(shù)空間投票點(diǎn)與原始圖像空間站中點(diǎn)的對應(yīng)關(guān)系,之后檢測參數(shù)空間累加矩陣的極大值點(diǎn),并在θ的0°和90°方向上進(jìn)行極值點(diǎn)的周期性分析,并對極值點(diǎn)進(jìn)行篩選,其結(jié)果如圖5所示(圖中橫向?yàn)棣?),由圖中可以看出,θ只在90度方向上具有周期性,所以判定圖3中的文檔圖像的排版方式為橫排版。對于圖6中的文檔圖像,在Hough變換參數(shù)空間進(jìn)行極值點(diǎn)的分析,并對極值點(diǎn)進(jìn)行篩選后其結(jié)果如圖7所示,由圖中可以看出,θ在0度和90度方向上均具有周期性,每個方向上的周期性其周期值僅有一個,為bl情況,為單ー排版,而θ在0度方向上的周期值要大于90度方向上的周期值,所以為當(dāng)以豎排版的情況。對于圖8中的文檔圖像,在Hough變換參數(shù)空間進(jìn)行極值點(diǎn)的分析,并對極值點(diǎn)進(jìn)行篩選后(即所選出的極大值點(diǎn)的投票值滿足大于設(shè)定的投票閾值的條件)其結(jié)果如圖9 所示,由圖中可以看出,θ在0度和90度方向上均具有周期性,在0度方向上只有ー個周期值,而在90度方向上具有兩個周期值(90度方向上的前六個極值點(diǎn)具有同一個周期值, 后面的極值點(diǎn)具有另外ー個周期值),所以為は情況,為混排情況。而且由圖8文檔的實(shí)際排版情況,可以看出,對于混排中的豎排部分,在橫向排列方向上也具有周期性,所以θ在 90方向上會有兩個周期值,是符合實(shí)際情況的。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其同等技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
    權(quán)利要求
    1.一種文檔排版類型的檢測方法,包括以下步驟(1)選定待檢測的文檔圖像,并對所述文檔圖像進(jìn)行ニ值化處理得到ニ值化圖像;(2)計(jì)算ニ值化圖像的連通域,并計(jì)算連通域的最小外接矩形以及最小外接矩形的中心點(diǎn)坐標(biāo);(3)將所述最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough變換計(jì)算的輸入點(diǎn)集,在Hough變換參數(shù)空間投票計(jì)算累加矩陣Α( θ,ρ);其中,累加矩陣Α(θ,ρ)以θ為X軸,θ表示文檔圖像的每行或每列的最小外接矩形的中心點(diǎn)所在直線的法線與X軸正半軸的夾角,0彡θ ^ 180 ; P表示文檔圖像空間的每行或每列的最小外接矩形的中心點(diǎn)所在直線與X軸的距離,P <+r,r為文檔圖像對角線長度的一半;(4)檢測累加矩陣的投票極值點(diǎn),并對極值點(diǎn)進(jìn)行周期性分析,根據(jù)極值點(diǎn)在不同θ 方向上的周期性確定文檔的排版類型。
    2.如權(quán)利要求1所述的ー種文檔排版類型的檢測方法,其特征在于步驟(1)中,對文檔圖像進(jìn)行ニ值化處理前,對文檔圖像進(jìn)行預(yù)處理,所述預(yù)處理包括灰度調(diào)整和降噪處理。
    3.如權(quán)利要求1所述的ー種文檔排版類型的檢測方法,其特征在于步驟(3)中,在 Hough變換參數(shù)空間投票計(jì)算累加矩陣吋,記錄參數(shù)空間中投票點(diǎn)和原始文檔圖像空間中點(diǎn)的對應(yīng)關(guān)系。
    4.如權(quán)利要求3所述的ー種文檔排版類型的檢測方法,其特征在干步驟(4)中,所述極值點(diǎn)是指參數(shù)空間的極大值點(diǎn),對極值點(diǎn)進(jìn)行周期性分析是指對θ在0°和90°的方向上進(jìn)行周期性分析。
    5.如權(quán)利要求4所述的ー種文檔排版類型的檢測方法,其特征在干步驟(4)中,對極值點(diǎn)進(jìn)行周期性分析,確定文檔的排版類型的具體方式為a)當(dāng)極值點(diǎn)只在ー個角度方向上具有周期性吋,θ在90°方向具有周期性為橫排版, θ在0°方向具有周期性為豎排版;b)當(dāng)極值點(diǎn)在兩個角度方向上都具有周期性吋,確定方式如下bl)如果在0°或90°上只存在ー個周期序列,則排版方式為單ー排版類型,如果θ在 0°方向上的周期值大于90°方向上的周期值則為単一豎排版,如果θ在0°方向上的周期值小于90°方向上的周期值則為単一橫排版;b2)如果在0°或90°上存在兩個或者兩者以上的周期序列,則排版方式為混合排版。
    6.如權(quán)利要求5所述的ー種文檔排版類型的檢測方法,其特征在于具有周期性的極值點(diǎn)的周期值大于文檔圖像中字符的最小外接矩形的長或?qū)?,且小于文檔圖像中字符的最小外接矩形的長或?qū)挼膋倍,2彡k < 6。
    7.如權(quán)利要求6所述的ー種文檔排版類型的檢測方法,其特征在于所述文檔圖像中字符的最小外接矩形的長或?qū)挒槲臋n中所有連通域的最小外接矩形的長或?qū)捴械淖畲笾怠?br> 8.如權(quán)利要求4至6之一所述的ー種文檔排版類型的檢測方法,其特征在于所述極大值點(diǎn)的投票值的閾值范圍為(3,10)。
    9.如權(quán)利要求8所述的ー種文檔排版類型的檢測方法,其特征在于所述極大值點(diǎn)的投票值的閾值優(yōu)選值為5。
    10. 一種文檔排版類型的檢測系統(tǒng),包括ニ值化裝置用于對待檢測文檔圖像進(jìn)行ニ值化處理,得到ニ值化圖像; 連通域計(jì)算裝置用于計(jì)算ニ值化圖像的連通域,并計(jì)算出連通域的最小外接矩形及最小外接矩形的中心點(diǎn)坐標(biāo);Hough變換裝置用于將最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough變換計(jì)算的輸入點(diǎn)集, 在Hough變換參數(shù)空間投票計(jì)算累加矩陣A ( θ , ρ);其中,累加矩陣Α(θ,ρ)以θ為X軸,θ表示文檔圖像的每行或每列的最小外接矩形的中心點(diǎn)所在直線的法線與X軸正半軸的夾角,0彡θ ^ 180 ; P表示文檔圖像空間的每行或每列的最小外接矩形的中心點(diǎn)所在直線與X軸的距離,P <+r,r為文檔圖像對角線長度的一半;排版類型確認(rèn)裝置用于檢測累加矩陣的投票極值點(diǎn),并對極值點(diǎn)進(jìn)行周期性分析,根據(jù)極值點(diǎn)在不同θ方向上的周期性確定文檔的排版類型。
    全文摘要
    本發(fā)明公開了一種文檔排版類型的檢測方法及系統(tǒng),屬于文檔排版類型檢測領(lǐng)域。本發(fā)明所述的方法及系統(tǒng),依據(jù)文檔中字行/列的平行性、周期性以及行間距大于字間距等特點(diǎn),以文字連通域最小外接矩形的中心點(diǎn)坐標(biāo)作為Hough變換的輸入點(diǎn)集,在Hough變換的參數(shù)空間進(jìn)行投票,對投票極值點(diǎn)進(jìn)行周期性分析,通過參數(shù)空間中極大值點(diǎn)在不同方向上的周期性,確定文檔的排版類型。通過本發(fā)明所述的方法及系統(tǒng)實(shí)現(xiàn)了對文檔中各種排版情況中排版類型的確認(rèn)。
    文檔編號G06K9/46GK102567732SQ20111044579
    公開日2012年7月11日 申請日期2011年12月28日 優(yōu)先權(quán)日2011年12月28日
    發(fā)明者胡希馳 申請人:方正國際軟件(北京)有限公司, 方正國際軟件有限公司
    網(wǎng)友詢問留言 已有0條留言
    • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
    1