本發(fā)明涉及一種場(chǎng)景文本檢測(cè)方法。
背景技術(shù):
::場(chǎng)景文本檢測(cè)是指在不同場(chǎng)景圖像中定位文本區(qū)域所在的位置,比如路標(biāo)、商店名稱和警示牌等,其是端到端的場(chǎng)景文本識(shí)別的一個(gè)重要的步驟。有效的場(chǎng)景文本檢測(cè)結(jié)果有助于提高大量多媒體應(yīng)用的性能,比如移動(dòng)視覺搜索、基于內(nèi)容的圖像檢索和自動(dòng)指示牌翻譯等。近年來(lái),一系列有關(guān)場(chǎng)景文本檢測(cè)的國(guó)際競(jìng)賽被成功的舉辦,很大程度上促進(jìn)了場(chǎng)景文本檢測(cè)技術(shù)的研究。但由于自然場(chǎng)景環(huán)境中的很多不可控因素,比如文本大小的不同、顏色的差異和復(fù)雜的背景等,使得場(chǎng)景文本檢測(cè)仍然是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)極具挑戰(zhàn)的問題。場(chǎng)景文本檢測(cè)的第一個(gè)步驟是候選文本區(qū)域(candidatetextregion,記為CTR)的提取。傳統(tǒng)的CTR提取方法,通常是基于滑動(dòng)窗口、筆畫寬度變換(strokewidthtransform,記為SWT)和最大穩(wěn)定極值區(qū)域(maximallystableextremalregion,記為MSER),因此它們沒有充分利用文本本身固有的內(nèi)在特性,從而導(dǎo)致提取出比真實(shí)文本區(qū)域多很多的大量非文本候選區(qū)域,以至于使得后續(xù)的非文本區(qū)域過濾過程的任務(wù)非常艱巨。而且傳統(tǒng)的這些CTR提取方法對(duì)某些外在的因素比較敏感,比如光照變化和圖像模糊等。這些都會(huì)引起一部分真實(shí)文本區(qū)域不能被提取到,從而導(dǎo)致低的召回率。例如,目前已發(fā)表的文獻(xiàn)在ICDAR2015場(chǎng)景文本檢測(cè)庫(kù)中最好的召回率只有0.83。因此,候選文本區(qū)域提取的好壞將直接影響最終的文本檢測(cè)性能。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是借助顯著性檢測(cè)的思想,并將其應(yīng)用到場(chǎng)景文本檢測(cè)中,進(jìn)而提出一種基于文本顯著性的場(chǎng)景文本檢測(cè)方法。本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:一種基于文本顯著性的場(chǎng)景文本檢測(cè)方法,包括如下步驟:一、初始文本顯著性檢測(cè)(1)構(gòu)建初始文本顯著性檢測(cè)CNN模型,該模型是在VGGNet-16的基礎(chǔ)上進(jìn)行改進(jìn)得到,只保留VGGNet-16中的前五個(gè)模塊,并分別為每個(gè)模塊引入一個(gè)側(cè)輸出模塊(包含一個(gè)卷積層和一個(gè)去卷積層)用于監(jiān)督學(xué)習(xí),前兩個(gè)模塊使用文本邊緣作為監(jiān)督信號(hào),后三個(gè)模塊使用文本區(qū)域作為監(jiān)督信號(hào),最后將后三個(gè)側(cè)輸出模塊的輸出進(jìn)行融合(即先將三個(gè)輸出進(jìn)行拼接,再使用一個(gè)卷積層對(duì)其進(jìn)行卷積)并使用文本區(qū)域作為監(jiān)督信號(hào)進(jìn)行學(xué)習(xí),上述提到的卷積層僅包含一個(gè)1×1的卷積核;(2)對(duì)于給定的圖像,使用初始文本顯著性檢測(cè)CNN模型得到其對(duì)應(yīng)的文本顯著性圖;(3)采用大津法對(duì)顯著性圖進(jìn)行二值化后,得到二值圖像;(4)對(duì)于二值圖像中的每一個(gè)連通體(即候選文本區(qū)域),計(jì)算其最小外接矩形;(5)根據(jù)每一個(gè)最小外接矩形,從原始圖像中裁剪得到一個(gè)圖像塊,并將其作為候選文本區(qū)域圖像,該圖像將是文本顯著性細(xì)化CNN模型的輸入。二、文本顯著性細(xì)化(1)構(gòu)建文本顯著性細(xì)化CNN模型,該模型是在去卷積網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn)得到,包含十個(gè)模塊,前五個(gè)模塊記為ENblock,和VGGNet模型中的前五個(gè)模塊一樣,后五個(gè)模塊記為DEblock,作為前五個(gè)模塊的逆過程,每個(gè)DEblock由去卷積層或卷積層組成,每個(gè)DEblock模塊中最后一個(gè)卷積層的輸出與對(duì)稱的ENblock中第一個(gè)卷積層的輸出沿通道方向進(jìn)行拼接,并將拼接后的特征圖作為下一個(gè)DEblock模塊的輸入,最后一個(gè)拼接后特征圖則作為一個(gè)卷積層的輸入;(2)將候選文本區(qū)域圖像作為文本顯著性細(xì)化CNN模型的輸入,得到與其對(duì)應(yīng)的文本顯著性圖;(3)使用大津法對(duì)得到的文本顯著性圖進(jìn)行二值化后,得到文本顯著性區(qū)域,即最終的候選文本區(qū)域。三、文本顯著性區(qū)域分類(1)構(gòu)建文本顯著性區(qū)域分類CNN模型,該模型是在VGGNet-16的基礎(chǔ)上進(jìn)行改進(jìn)得到,即:只保留VGGNet-16中的前三個(gè)模塊,為了讓模型能接受任意大小的輸入圖像,在第三個(gè)模塊后面增加一個(gè)全局平均池化層來(lái)提取固定長(zhǎng)度的特征,最后使用softmax層來(lái)對(duì)特征進(jìn)行分類;(2)對(duì)于每一個(gè)候選文本區(qū)域,從左右兩個(gè)方向搜索與其相鄰的候選文本區(qū)域;(3)假設(shè)當(dāng)前候選文本區(qū)域的最小外接矩形的大小為w×h,其中心點(diǎn)的坐標(biāo)為(x,y),坐標(biāo)系的原點(diǎn)在圖像的左上角;如果在區(qū)域(x?1.5h?0.5w,y?0.5h,x+1.5h+0.5w,y+0.5h)范圍內(nèi),包含了其他候選文本區(qū)域且這些區(qū)域的高度h′滿足[0.5h≤h′≤1.5h],將其與當(dāng)前候選文本區(qū)域進(jìn)行合并得到擴(kuò)大的候選文本區(qū)域;(4)對(duì)于每一個(gè)擴(kuò)大的候選文本區(qū)域,計(jì)算其最小外接矩形;(5)根據(jù)每一個(gè)最小外接矩形,從原始圖像中裁剪得到一個(gè)圖像塊,并將其作為擴(kuò)大的候選文本區(qū)域?qū)?yīng)的候選文本區(qū)域圖像,該圖像將是文本顯著性區(qū)域分類CNN模型的輸入;(6)使用文本顯著性區(qū)域分類CNN模型過濾掉非文本區(qū)域;(7)根據(jù)剩下的文本區(qū)域的高度和垂直位置,將其聚類成文本行;(8)根據(jù)同一行中的相鄰文本區(qū)域之間的距離,將文本行分割成單詞區(qū)域,即得到最終的文本檢測(cè)結(jié)果。本發(fā)明具有如下優(yōu)點(diǎn):(1)本發(fā)明提出了一種僅對(duì)文本區(qū)域有效的顯著性檢測(cè)的CNN模型,該模型在不同層使用了不同的監(jiān)督信息,以便充分利用文本的先驗(yàn)知識(shí)來(lái)有效地指導(dǎo)模型的訓(xùn)練,并最后將多層信息進(jìn)行融合來(lái)進(jìn)行多尺度特征學(xué)習(xí),以便提高模型所提特征的魯棒性和區(qū)分能力。在該模型的幫助下,在所檢測(cè)到的顯著性圖中,只有文本區(qū)域或近似文本的區(qū)域被凸顯出來(lái),從而使得提取的候選文本區(qū)域的數(shù)量接近于真實(shí)文本區(qū)域的個(gè)數(shù)。(2)為了提高文本檢測(cè)的性能,本發(fā)明提出了一種文本顯著性區(qū)域細(xì)化CNN模型和文本顯著性區(qū)域分類CNN模型。在細(xì)化CNN模型中,對(duì)淺層的特征圖與深層的特征圖進(jìn)行整合,以便提高文本分割的準(zhǔn)確率。在分類CNN模型中,使用的是全卷積神經(jīng)網(wǎng)絡(luò),因此可以使用任意大小的圖像作為模型的輸入。(3)本發(fā)明提出了一種新的圖像構(gòu)造策略,以便構(gòu)造更具區(qū)分能力的圖像區(qū)域用于分類,從而提高分類準(zhǔn)確率。(4)本發(fā)明通過在場(chǎng)景文本檢測(cè)過程中引入顯著性檢測(cè),能有效地檢測(cè)場(chǎng)景中的文本區(qū)域,提高場(chǎng)景文本檢測(cè)方法的性能。精確的文本檢測(cè)和分割結(jié)果,能進(jìn)一步提高基于文本檢測(cè)的應(yīng)用,比如文本識(shí)別、圖像檢索等。附圖說(shuō)明圖1為本發(fā)明的方法在幾種挑戰(zhàn)場(chǎng)景中的文本檢測(cè)結(jié)果實(shí)例,其中:(a)原始圖像;(b)粗糙的CTR提取結(jié)果,不同的灰度值表示不同的粗糙CTR;(c)最終的CTR提取結(jié)果,不同的灰度值表示不同的CTR;(d)CTR分類結(jié)果,不同的灰度值表示不同的單詞;(e)最終文本檢測(cè)結(jié)果。圖2為對(duì)文本有意識(shí)的初始文本顯著性檢測(cè)CNN結(jié)構(gòu)。圖3為測(cè)試圖像經(jīng)初始文本顯著性檢測(cè)CNN后的所有輸出結(jié)果實(shí)例,其中:(a)輸入圖像,(b)-(f)所有五個(gè)模塊由淺到深的輸出結(jié)果,(g)最終融合后的文本有意識(shí)的顯著性圖。圖4為文本檢測(cè)方法的過程,其中:(a)輸入圖像,(b)文本有意識(shí)的顯著性檢測(cè)結(jié)果,(c)粗糙CTR提取結(jié)果,(d)將(c)中所有CTR圖像經(jīng)文本顯著性細(xì)化CNN后的輸出進(jìn)行拼接后的顯著性圖,(e)CTR細(xì)化結(jié)果,(f)CTR分類結(jié)果,(g)最終文本檢測(cè)結(jié)果,(h)真實(shí)結(jié)果,(c)、(e)和(f)中的不同灰度值表示不同的候選文本區(qū)域或單詞。圖5為文本顯著性細(xì)化CNN結(jié)構(gòu)。圖6為在測(cè)試圖像(第一行)中的文本區(qū)域分割結(jié)果(第二行)實(shí)例;圖7為文本顯著性區(qū)域分類CNN結(jié)構(gòu)。圖8為不同圖像構(gòu)造方法得到的圖像實(shí)例,其中:(a)直接將候選文本區(qū)域歸一化到固定大小的結(jié)果;(b)以候選文本區(qū)域最小外接矩形的高為邊長(zhǎng)構(gòu)造一個(gè)正方形區(qū)域,再進(jìn)行歸一化的結(jié)果;(c)本發(fā)明提出的圖像構(gòu)造策略的結(jié)果。圖9為本發(fā)明提出的場(chǎng)景文本檢測(cè)方法的成功實(shí)例。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步的說(shuō)明,但并不局限于此,凡是對(duì)本發(fā)明技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,均應(yīng)涵蓋在本發(fā)明的保護(hù)范圍中。本發(fā)明提供了一種基于文本顯著性區(qū)域的場(chǎng)景文本檢測(cè)方法,該方法由三部分組成,分別為:初始文本顯著性檢測(cè)、文本顯著性細(xì)化和文本顯著性區(qū)域分類。在初始文本顯著性檢測(cè)階段,首先設(shè)計(jì)一個(gè)用于文本顯著性檢測(cè)的CNN模型,該模型能從圖像中自動(dòng)學(xué)習(xí)能夠表征文本內(nèi)在屬性的特征,并得到對(duì)文本有意識(shí)的顯著性圖。在該顯著性圖中,文本區(qū)域的顯著性值被凸顯出來(lái),而背景區(qū)域的顯著性值被抑制,因此可根據(jù)顯著性圖提取出粗糙的文本顯著性區(qū)域。在文本顯著性細(xì)化階段,設(shè)計(jì)一個(gè)文本顯著性細(xì)化CNN模型用來(lái)對(duì)粗糙的文本顯著性區(qū)域進(jìn)行進(jìn)一步文本顯著性檢測(cè),得到更加精確的文本顯著性圖,并可基于該顯著性圖得到最終的文本顯著性區(qū)域,其實(shí)際上包含了精確的文本區(qū)域的分割結(jié)果,該文本顯著性區(qū)域即為候選文本區(qū)域。因此,基于上述兩個(gè)文本顯著性檢測(cè)的CNN模型的候選文本區(qū)域提取方法能克服傳統(tǒng)方法所存在的問題。在文本顯著性區(qū)域分類階段,提出了一種新的圖像構(gòu)造策略,然后使用文本顯著性區(qū)域分類CNN模型來(lái)過濾非文本區(qū)域,并得到最終的文本檢測(cè)結(jié)果。本發(fā)明提到的文本顯著性區(qū)域也叫候選文本區(qū)域(記為CTR)。上述所有的CNN模型都是基于強(qiáng)大的VGGNet-16模型。因此,對(duì)于不同場(chǎng)景,本發(fā)明的方法能得到很好的文本檢測(cè)結(jié)果,如圖2所示。由圖2可知,在大部分情況下,本發(fā)明的方法提取的候選文本區(qū)域的個(gè)數(shù)較少,且?guī)缀跖c真實(shí)文本區(qū)域中的字母?jìng)€(gè)數(shù)一致,并且即便在文本區(qū)域內(nèi)的顏色變化較大或文本和背景的顏色很相似的情況下,本發(fā)明的方法仍然能成功地完成文本檢測(cè)。接下來(lái)將詳細(xì)地介紹本發(fā)明方法中的各部分內(nèi)容。一、初始文本顯著性檢測(cè)相比傳統(tǒng)的文本無(wú)關(guān)的候選文本生成方法(比如基于MSER的方法),本發(fā)明提出了一種基于對(duì)文本有意識(shí)的顯著性檢測(cè)的候選文本區(qū)域提取方法。該方法中的顯著性檢測(cè)是專門針對(duì)文本的,即在生成的顯著性圖中,文本區(qū)域是被凸顯出來(lái)的,因此該方法是對(duì)文本有意識(shí)的(或文本相關(guān)的),即提取的候選區(qū)域中的很大一部分為文本區(qū)域,從而大大地減少了候選文本區(qū)域的數(shù)量。本發(fā)明在VGGNet-16的基礎(chǔ)上,設(shè)計(jì)了一個(gè)深層監(jiān)督的CNN網(wǎng)絡(luò)結(jié)構(gòu)(記為初始文本顯著性檢測(cè)CNN)用來(lái)預(yù)測(cè)圖像中每個(gè)像素屬于文本的顯著性值。為了使初始文本顯著性檢測(cè)CNN將注意力集中在文本區(qū)域上,那些能反映文本屬性的信息將被用做監(jiān)督信息來(lái)訓(xùn)練該CNN模型。區(qū)分文本和背景的一個(gè)最重要的信息是文本區(qū)域的形狀,且文本的邊緣和整個(gè)區(qū)域能很好的表征文本的形狀。在CNN的學(xué)習(xí)過程中,隨著網(wǎng)絡(luò)深度的增加,CNN所學(xué)到的特征反映了物體中局部信息到全局信息的變化過程。對(duì)于文本而言,邊緣是局部信息,整個(gè)文本區(qū)域是全局信息。因此,本發(fā)明分別使用文本的邊緣和整個(gè)區(qū)域作為CNN結(jié)構(gòu)中淺層和深層的監(jiān)督信息來(lái)完成模型的訓(xùn)練。為了得到精確的顯著性預(yù)測(cè)結(jié)果,在強(qiáng)大的VGGNet-16模型的基礎(chǔ)上進(jìn)行相應(yīng)的改進(jìn)得到初始文本顯著性檢測(cè)CNN模型,只保留VGGNet-16中的前五個(gè)模塊。如上所述,CNN模型中的淺層通常學(xué)習(xí)到的是局部特征,比如邊緣。而自然場(chǎng)景圖像中包含了大量不同物體的邊緣,包括來(lái)自文本的和背景的。因此,為了讓CNN模型在淺層的特征學(xué)習(xí)中,將更多的注意力放在文本邊緣上,僅文本的邊緣被用作淺層的監(jiān)督信號(hào)來(lái)指導(dǎo)模型的訓(xùn)練。CNN模型中的深層通常學(xué)習(xí)的是目標(biāo)的全局特征,因此文本的整個(gè)區(qū)域被用作深層的監(jiān)督信號(hào)來(lái)監(jiān)督模型的訓(xùn)練,以至于學(xué)習(xí)到更具區(qū)分性的全局特征來(lái)表征文本的特性。綜上所述,由淺層到深層,整個(gè)候選文本區(qū)域提取CNN一直都集中于文本特征(包括局部和全局)的學(xué)習(xí)。在此,我們調(diào)查了哪些層應(yīng)當(dāng)使用文本邊緣或整個(gè)區(qū)域作為監(jiān)督信號(hào),并通過實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)模型中的前兩個(gè)模塊和后三個(gè)模塊分別使用文本邊緣和整個(gè)區(qū)域進(jìn)行監(jiān)督學(xué)習(xí)時(shí),本發(fā)明的方法取得最好的性能。為了將不同的監(jiān)督信號(hào)引入到CNN模型中,通過為每個(gè)模塊中最后的卷積層增加一個(gè)側(cè)輸出模塊(包括一個(gè)卷積層和一個(gè)去卷積層)來(lái)進(jìn)行深層監(jiān)督學(xué)習(xí)。為了使最終的顯著性圖對(duì)文本大小更加魯棒,這里只對(duì)后三個(gè)側(cè)輸出模塊的輸出進(jìn)行融合。因?yàn)樵趯?duì)文本有意識(shí)的顯著性預(yù)測(cè)過程中,我們希望捕捉文本區(qū)域的全局信息,同時(shí)通過實(shí)驗(yàn)驗(yàn)證當(dāng)把前兩個(gè)側(cè)輸出模塊的輸出也進(jìn)行融合時(shí),總體的性能幾乎沒有提高。到此為止,整個(gè)初始文本顯著性檢測(cè)CNN的結(jié)構(gòu)以構(gòu)建完成,如圖2所示。在模型的訓(xùn)練過程中,為了緩減正負(fù)樣本間的嚴(yán)重不均衡現(xiàn)象,使用叉熵?fù)p失函數(shù)來(lái)計(jì)算誤差,并對(duì)所有模塊計(jì)算得到的誤差求和得到總誤差,然后將誤差回傳來(lái)更新模型的參數(shù)直到滿足終止條件。在模型的測(cè)試過程中,對(duì)于給定的一個(gè)圖像,使用訓(xùn)練好的模型可直接得到與其對(duì)應(yīng)的顯著性圖。這里,最終融合后的顯著性圖被作為輸入圖像最終的顯著性圖,且在該圖中,文本區(qū)域擁有更大的顯著性值。得益于深層監(jiān)督學(xué)習(xí),在所有側(cè)輸出模塊的輸出結(jié)果中,文本邊緣或文本區(qū)域也通常擁有更大的值。圖3給出了三個(gè)圖像經(jīng)過初始文本顯著性檢測(cè)CNN后的所有輸出結(jié)果。由圖3可知:(1)在所有側(cè)輸出模塊的輸出結(jié)果中,文本邊緣處的點(diǎn)比背景邊緣處的點(diǎn)擁有更大的顯著性值,由此證明了本發(fā)明提出的監(jiān)督學(xué)習(xí)策略是有效的。(2)隨著網(wǎng)絡(luò)越來(lái)越深,更多背景區(qū)域的顯著性值被抑制,而文本區(qū)域的顯著性值持續(xù)被凸顯出來(lái),并且文本區(qū)域的形狀變得越來(lái)越模糊,由此證明了隨著網(wǎng)絡(luò)深度的增加,初始文本顯著性檢測(cè)CNN能有效地學(xué)習(xí)文本區(qū)域的局部和全局特征。(3)在所有的對(duì)文本有意識(shí)的顯著性檢測(cè)結(jié)果中,最終融合的顯著性圖獲得了最好的文本顯著性檢測(cè)效果,由此證明了該融合策略充分考慮到了文本區(qū)域來(lái)自不同模塊的多尺度信息。值得注意的是,無(wú)論是在訓(xùn)練還是測(cè)試階段,輸入圖像的大小可以是任意的,因?yàn)槌跏嘉谋撅@著性檢測(cè)CNN是一個(gè)全卷積網(wǎng)絡(luò)模型。但為了降低時(shí)間和內(nèi)存的消耗,對(duì)于寬度大于500的圖像,在保持長(zhǎng)寬比的前提下,將其寬度放縮到固定大小500。對(duì)于給定的圖像(如圖4(a)所示),使用初始文本顯著性檢測(cè)CNN模型得到其對(duì)應(yīng)的文本有意識(shí)的顯著性圖(如圖4(b)所示)后,通過以下步驟很容易提取出粗糙的文本顯著性區(qū)域(候選文本區(qū)域,記為CTR):(1)采用大津法對(duì)顯著性圖進(jìn)行二值化,得到二值圖像,如圖4(c)所示。(2)對(duì)于二值圖像中的每一個(gè)連通體(即候選文本區(qū)域),計(jì)算其最小外接矩形。(3)根據(jù)每一個(gè)最小外接矩形,從原始圖像中裁剪得到一個(gè)圖像塊,并將其作為候選文本區(qū)域圖像,該圖像將是文本顯著性細(xì)化CNN模型的輸入。由上可知,候選文本區(qū)域的個(gè)數(shù)等于二值圖像中的連通體個(gè)數(shù)。由于由此得到的候選文本區(qū)域通常會(huì)包含多個(gè)字母,因此這里,我們稱之為初始候選文本區(qū)域,其將被后續(xù)的文本顯著性細(xì)化CNN模型進(jìn)行細(xì)化得到最終的候選文本區(qū)域。二、文本顯著性細(xì)化在自然場(chǎng)景圖像中,由于文本和背景的多樣性,訓(xùn)練集要想把所有的情況都考慮到,這幾乎是不可能。因此,基于初始文本顯著性檢測(cè)CNN模型得到的初始候選文本區(qū)域通常會(huì)包含一些背景區(qū)域。而且當(dāng)文本之間相互靠得很近時(shí),一個(gè)初始候選文本區(qū)域?qū)鄠€(gè)單詞文本或多行文本。如果直接將初始候選文本區(qū)域作為文本檢測(cè)結(jié)果,將降低檢測(cè)的準(zhǔn)確率和召回率。而且,精確的文本分割結(jié)果能為場(chǎng)景文本識(shí)別提供有利的信息。因此,對(duì)初始候選文本區(qū)域進(jìn)行細(xì)化得到精確文本分割結(jié)果是很用必要的。近年來(lái),語(yǔ)義圖像分割作為計(jì)算機(jī)視覺領(lǐng)域中最熱門的研究課題之一,它致力于分割圖像中含有不同語(yǔ)義信息的目標(biāo)。本發(fā)明中的文本區(qū)域分割可被當(dāng)作為語(yǔ)義圖像分割中的一個(gè)簡(jiǎn)單的兩類問題,即文本和非文本區(qū)域。當(dāng)前性能最好的語(yǔ)義圖像分割方法都是基于CNN的,比如全卷積網(wǎng)絡(luò)(fullyconvolutionalnetwork)和去卷積網(wǎng)絡(luò)(deconvolutionalnetwork)。對(duì)此,本發(fā)明將在去卷積網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建一個(gè)新的CNN模型(記為文本顯著性細(xì)化CNN)用于檢測(cè)更精確的文本顯著性圖。文本顯著性細(xì)化CNN模型包含了十個(gè)模塊。前五個(gè)模塊(記為ENblock)和VGGNet模型中的前五個(gè)模塊一樣,由于池化層的存在,隨著模型的前向傳播,由這五個(gè)模塊得到的特征圖的大小被逐漸縮小。后五個(gè)模塊(記為DEblock)可被當(dāng)作前五個(gè)模塊的逆過程,每個(gè)DEblock模塊由去卷積層或卷積層組成。由于去卷積層的存在,隨著模型的前向傳播,由這五個(gè)模塊得到的特征圖的大小被逐漸擴(kuò)大。每個(gè)DEblock中的卷積層的具體配置和與其對(duì)稱的ENblock中的卷積層的配置一樣,比如conv102/conv10-1/conv6-1和conv1-1/conv1-2/conv5-3具有相同的參數(shù)配置。對(duì)于去卷積層來(lái)說(shuō),單個(gè)輸入單元將對(duì)應(yīng)多個(gè)輸出,因此去卷積層的輸出相比輸入是被放大的和更密集的。第i個(gè)去卷積層(記為deconv-i)中濾波器的大小和步幅分別為2i+1和2i,濾波器的個(gè)數(shù)和屬于同一個(gè)DEblock的卷積層中的卷積核的個(gè)數(shù)一樣。每個(gè)卷積層和去卷積層后面緊接一個(gè)ReLU非線性激活函數(shù)。傳統(tǒng)的CNN采用逐層的方式進(jìn)行特征學(xué)習(xí),然而在本發(fā)明中,我們希望候選文本區(qū)域細(xì)化CNN中的DEblock模塊能從模糊且小的特征圖中學(xué)習(xí)到更精細(xì)且更大的高層特征。因此,我們通過整合淺層ENblock中的信息和深層DEblock中的信息來(lái)合并高層全局特征和底層局部特征,并通過自動(dòng)學(xué)習(xí)來(lái)提高文本分割的性能。具體而言,每個(gè)DEblock模塊中最后一個(gè)卷積層的輸出與對(duì)稱的ENblock中第一個(gè)卷積層的輸出沿通道方向進(jìn)行拼接,并將拼接后的特征圖作為下一個(gè)DEblock模塊(除了最后一個(gè))的輸入。最后一個(gè)拼接后特征圖則作為一個(gè)卷積層的輸入,該卷積層只有一個(gè)大小為1×1的卷積核。到此為止,整個(gè)文本顯著性細(xì)化CNN結(jié)構(gòu)已構(gòu)建完成,如圖5所示。和初始文本顯著性檢測(cè)CNN不同的是,文本顯著性細(xì)化CNN的輸入為初始候選文本區(qū)域圖像而不是整個(gè)原始圖像,并僅在最后一個(gè)卷積層處使用文本區(qū)域作為監(jiān)督信號(hào)來(lái)指導(dǎo)模型的訓(xùn)練。對(duì)于不同的圖像,提取到的初始候選文本區(qū)域圖像的大小差別較大。在本發(fā)明中,所有初始候選文本區(qū)域圖像被歸一化為固定高度224并保持其長(zhǎng)寬比不變。在模型的訓(xùn)練過程中,同樣采用叉熵?fù)p失函數(shù)來(lái)計(jì)算最后一個(gè)卷積層的輸出和真實(shí)結(jié)果之間的誤差,并使用標(biāo)準(zhǔn)的隨機(jī)梯度下降算法來(lái)最小化該損失函數(shù)。在模型的測(cè)試過程中,對(duì)于給定的一個(gè)圖像,將其作為訓(xùn)練好的模型的輸入,可直接得到與其對(duì)應(yīng)的文本顯著性圖(如圖4(d)所示),該圖中文本區(qū)域?qū)?yīng)的像素點(diǎn)值更大。因此,使用大津法對(duì)得到的文本顯著性圖進(jìn)行二值化后,可得到精確的文本區(qū)域分割結(jié)果,其中的每一個(gè)連通體即為一個(gè)最終的候選文本區(qū)域(如圖4(e)所示)。圖6給出了五個(gè)測(cè)試圖像的文本區(qū)域分割結(jié)果。由圖6可知,即便對(duì)于背景復(fù)雜的圖像或文本模糊的圖像,基于文本顯著性細(xì)化CNN模型的文本分割方法都能得到好的分割結(jié)果。由于作為文本顯著性細(xì)化CNN的輸入,初始候選文本區(qū)域圖像是從原始圖像按照初始候選文本區(qū)域的最小外接矩形裁剪得到,因此它們中的背景(如圖6中的第一行圖像)要比原始圖像中的背景(如圖4中的最左列圖像)簡(jiǎn)單很多。所以,我們不需要像初始文本顯著性檢測(cè)CNN模型一樣使用更多的監(jiān)督信號(hào)來(lái)訓(xùn)練模型,并通過實(shí)驗(yàn)驗(yàn)證,當(dāng)在不同層加入更多監(jiān)督信號(hào)時(shí),總體性能變化很小,反而模型的復(fù)雜度提高了。同時(shí)還發(fā)現(xiàn)對(duì)于文本顯著性細(xì)化這一任務(wù),文本顯著性細(xì)化CNN模型要比初始文本顯著性檢測(cè)CNN模型效果更好。與初始的候選文本區(qū)域(如圖4(c)所示)相比,經(jīng)過細(xì)化后的候選文本區(qū)域(如圖4(e)所示)中的文本能被精確地分割出來(lái)。三、文本顯著性區(qū)域分類在候選文本區(qū)域(亦稱文本顯著性區(qū)域,如圖4(e)所示)中,仍然存在一部分非文本區(qū)域,因此需要對(duì)其進(jìn)行非文本區(qū)域過濾操作,即將文本顯著性區(qū)域分類為文本和非文本,該過程實(shí)際上是圖像分類中的兩分類問題。在著名的ImageNet競(jìng)賽中,基于CNN的方法(比如VGGNet和GoogleNet)獲得了圖像分類任務(wù)中最好的性能。因此在本發(fā)明中,我們通過對(duì)VGGNet進(jìn)行修改來(lái)構(gòu)造一個(gè)全卷積神經(jīng)網(wǎng)絡(luò)(記為文本顯著性區(qū)域分類CNN)用于文本顯著性區(qū)域分類。由于文本顯著性區(qū)域分類是一個(gè)兩分類問題且文本相比ImageNet中的物體更加簡(jiǎn)單,因此文本顯著性區(qū)域分類中,一個(gè)網(wǎng)絡(luò)深度比原始VGGNet更淺的CNN就足夠獲得好的性能。在本發(fā)明中,我們只使用VGGNet中的前三個(gè)模塊來(lái)構(gòu)造文本顯著性區(qū)域分類CNN。VGGNet的輸入圖像的大小為224*224,其對(duì)于文本顯著性區(qū)域分類來(lái)說(shuō)太大。為了在模型訓(xùn)練和測(cè)試時(shí)節(jié)省時(shí)間和內(nèi)存,輸入圖像的高度被歸一化為固定大小32。在測(cè)試時(shí),輸入圖像的寬度由其原始大小自動(dòng)決定。在訓(xùn)練時(shí),為了加速訓(xùn)練過程,輸入圖像的寬度被歸一化為固定大小100。為了使模型能接受任意寬度的輸入圖像,在第三個(gè)模塊后面增加一個(gè)全局平均池化(globalaveragepooling)層而不是全連接層來(lái)生成固定長(zhǎng)度的特征向量。由于第三個(gè)模塊輸出256個(gè)特征圖,因此由全局平均池化層生成的特征向量的長(zhǎng)度為256。最后,在測(cè)試時(shí),使用softmax層來(lái)對(duì)特征向量進(jìn)行分類,在訓(xùn)練時(shí),使用softmaxloss層來(lái)計(jì)算誤差。到此為止,整個(gè)文本顯著性區(qū)域分類CNN結(jié)構(gòu)已構(gòu)建完成,如圖7所示。對(duì)于給定的一個(gè)圖像,經(jīng)過本發(fā)明提出的基于初始文本顯著性檢測(cè)CNN和文本顯著性細(xì)化CNN的候選文本區(qū)域提取方法后,將產(chǎn)生大量的候選文本區(qū)域(文本顯著性區(qū)域),基于它們來(lái)構(gòu)造候選文本區(qū)域圖像作為文本顯著性區(qū)域分類CNN的輸入。眾所周知,與只包含單個(gè)字母的文本區(qū)域圖像相比,包含多個(gè)字母的文本區(qū)域圖像具有更強(qiáng)的區(qū)分能力。因此,本發(fā)明提出一種新的圖像構(gòu)造策略來(lái)構(gòu)造候選文本區(qū)域圖像,其過程如下:(1)對(duì)于每一個(gè)候選文本區(qū)域,從左右兩個(gè)方向搜索與其相鄰的候選文本區(qū)域。將滿足如下條件的候選文本區(qū)域與當(dāng)前候選文本區(qū)域合并構(gòu)成一個(gè)新的擴(kuò)大的候選文本區(qū)域。假設(shè)當(dāng)前候選文本區(qū)域的最小外接矩形的大小為w×h,其中心點(diǎn)的坐標(biāo)為(x,y),坐標(biāo)系的原點(diǎn)在圖像的左上角。如果在區(qū)域(x?1.5h?0.5w,y?0.5h,x+1.5h+0.5w,y+0.5h)范圍(該四元組中的元素分別表示該區(qū)域的左上角和右下角兩點(diǎn)的坐標(biāo))內(nèi),包含了其他候選文本區(qū)域且這些區(qū)域的高度h′滿足[0.5h≤h′≤1.5h],將其與當(dāng)前候選文本區(qū)域進(jìn)行合并得到擴(kuò)大的候選文本區(qū)域。(2)對(duì)于每一個(gè)擴(kuò)大的候選文本區(qū)域,計(jì)算其最小外接矩形。根據(jù)每一個(gè)最小外接矩形,從原始圖像中裁剪得到一個(gè)圖像塊,并將其作為擴(kuò)大的候選文本區(qū)域?qū)?yīng)的候選文本區(qū)域圖像,該圖像將是文本顯著性區(qū)域分類CNN模型的輸入。由上可知,本發(fā)明提出的圖像構(gòu)造策略所構(gòu)造的候選文本區(qū)域圖像,通常包含多個(gè)字母區(qū)域。由于全連接層的限制,傳統(tǒng)方法直接將當(dāng)前的候選文本區(qū)域歸一化到固定大小(如圖8(a)所示),或者以當(dāng)前候選文本區(qū)域最小外接矩形的高為邊長(zhǎng)構(gòu)造一個(gè)正方形區(qū)域(如圖8(b)所示),然后再將其歸一化到固定大小。因此,這些方法得到的候選文本區(qū)域圖像通常只包含一個(gè)字母區(qū)域。與傳統(tǒng)方法,本發(fā)明提出的圖像構(gòu)造策略有以下兩個(gè)優(yōu)點(diǎn):(1)構(gòu)造的候選文本區(qū)域圖像通常包含多個(gè)字母區(qū)域(如圖8(c)所示),從而使得其比僅包含單個(gè)字母區(qū)域的圖像擁有更多區(qū)分能力強(qiáng)的信息,以至于提供最終的分類性能。(2)得益于全卷積層,在輸入文本顯著性區(qū)域分類CNN模型時(shí),構(gòu)造的候選文本區(qū)域圖像可保持原始的長(zhǎng)寬比,以至于損失更少的信息。在使用文本顯著性區(qū)域分類CNN過濾掉非文本區(qū)域之后,首先根據(jù)剩下的文本區(qū)域(如圖4(f)中的所有連通體)的高度和垂直位置,將其聚類成文本行。然后根據(jù)同一行中的相鄰文本區(qū)域之間的距離,將文本行分割成單詞區(qū)域(如圖4(f)中不同灰度值的成分),即得到最終的文本檢測(cè)結(jié)果(如圖4(g)中矩形框所示)。圖9給出了本發(fā)明在幾個(gè)具有挑戰(zhàn)性的場(chǎng)景下進(jìn)行文本檢測(cè)成功的實(shí)例,比如單個(gè)字母、復(fù)雜背景以及文本與背景間的對(duì)比度低等場(chǎng)景,由此說(shuō)明了本發(fā)明的有效性。當(dāng)前第1頁(yè)1 2 3 當(dāng)前第1頁(yè)1 2 3