本發(fā)明涉及一種面向高分辨率文檔圖像的陰影修復(fù)方法,屬于計(jì)算機(jī)視覺(jué)。
背景技術(shù):
1、在日常生活和工作中,文檔圖像的使用十分廣泛,無(wú)論是教科書(shū)、報(bào)紙還是各類票據(jù),它們通常以電子文檔的形式被保存,用于數(shù)字文檔存檔或在線消息傳輸,隨著智能手機(jī)及其高性能攝像頭的普及,越來(lái)越多的人使用手機(jī)代替掃描儀進(jìn)行文檔數(shù)字化,但是,當(dāng)光源被遮擋時(shí),拍攝的文檔圖像可能會(huì)出現(xiàn)陰影;陰影區(qū)域的低亮度降低了文檔圖像的質(zhì)量和可讀性,導(dǎo)致內(nèi)容難以辨認(rèn),影響用戶體驗(yàn);此外,這些陰影可能會(huì)遮蓋部分文字,給后續(xù)的文本識(shí)別任務(wù)帶來(lái)極大的困擾;因此,文檔圖像的陰影去除是一項(xiàng)重要的圖像處理任務(wù),對(duì)于保證圖像質(zhì)量和用戶體驗(yàn)尤為關(guān)鍵;
2、現(xiàn)有的文檔圖像陰影修復(fù)算法在處理高分辨率文檔圖像時(shí)普遍面臨顯著的速度瓶頸,這些方法需要對(duì)每個(gè)像素進(jìn)行詳盡分析,導(dǎo)致計(jì)算量大幅增加,尤其是在復(fù)雜背景或多重陰影的情況下,處理時(shí)間尤為延長(zhǎng);因此,在處理大規(guī)模高分辨率文檔圖像時(shí),整體效率極低,這對(duì)要求快速周轉(zhuǎn)的應(yīng)用場(chǎng)景(如在線文檔掃描服務(wù)、即時(shí)文件共享平臺(tái)和高速文檔處理系統(tǒng))構(gòu)成了嚴(yán)峻挑戰(zhàn);這些應(yīng)用通常需要在極短時(shí)間內(nèi)完成從圖像采集到輸出的全過(guò)程,以提供流暢的用戶體驗(yàn);然而,當(dāng)前的陰影修復(fù)技術(shù)難以同時(shí)保證修復(fù)質(zhì)量和實(shí)時(shí)處理需求,這不僅影響工作效率,也可能降低用戶滿意度。
3、此外,現(xiàn)有的文檔圖像陰影修復(fù)算法中的細(xì)化網(wǎng)絡(luò)可能因?yàn)橐龑?dǎo)信息的不足而難以完全保留圖像細(xì)節(jié),雖然有采用注意力機(jī)制和多尺度分析等手段來(lái)增強(qiáng)對(duì)陰影區(qū)域的識(shí)別和修復(fù),但在將低級(jí)特征映射到高級(jí)特征的過(guò)程中,可能會(huì)丟失一些微小但重要的結(jié)構(gòu)信息,如文本的細(xì)線或細(xì)微的紋理變化,這種信息丟失會(huì)使得最終修復(fù)的圖像在視覺(jué)上不如原始圖像清晰,尤其是在放大查看時(shí),細(xì)節(jié)的缺失更為明顯。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提出了一種面向高分辨率文檔圖像的陰影修復(fù)方法。
2、本發(fā)明的技術(shù)方案如下:
3、一方面,本發(fā)明提供了一種面向高分辨率文檔圖像的陰影修復(fù)方法,包括以下步驟:
4、采集帶有陰影的高分辨率文檔圖像,對(duì)帶有陰影的高分辨率文檔圖像進(jìn)行預(yù)處理后構(gòu)建陰影圖像數(shù)據(jù)集;
5、構(gòu)建低分辨率圖像校正模型,所述低分辨率圖像校正模型包括背景估計(jì)網(wǎng)絡(luò)以及去陰影網(wǎng)絡(luò);
6、將陰影圖像數(shù)據(jù)集下采樣后得到低分辨率陰影圖像數(shù)據(jù)集,并輸入背景估計(jì)網(wǎng)絡(luò)提取每張低分辨率陰影圖像的陰影預(yù)測(cè)熱力圖,再將每張低分辨率陰影圖像及其對(duì)應(yīng)的陰影預(yù)測(cè)熱力圖輸入去陰影網(wǎng)絡(luò)得到低分辨率去陰影圖像;
7、構(gòu)建高分辨率陰影混合模型,將每張低分辨率陰影圖像及其對(duì)應(yīng)的低分辨率去陰影圖像輸入高分辨率陰影混合模型得到高分辨率去陰影圖像;
8、構(gòu)建高分辨率細(xì)化模型,將每張陰影圖像對(duì)應(yīng)的低分辨率去陰影圖像、陰影預(yù)測(cè)熱力圖、去陰影網(wǎng)絡(luò)的解碼器最后一層特征圖以及高分辨率去陰影圖像輸入高分辨率細(xì)化模型得到高分辨率文檔圖像陰影修復(fù)圖像。
9、作為本發(fā)明的優(yōu)選實(shí)施方式,對(duì)帶有陰影的高分辨率文檔圖像進(jìn)行隨機(jī)裁剪,進(jìn)而對(duì)裁剪后大小統(tǒng)一的圖像進(jìn)行歸一化操作,將圖像數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布。
10、作為本發(fā)明的優(yōu)選實(shí)施方式,所述背景估計(jì)網(wǎng)絡(luò)包括若干卷積層、一個(gè)全局平均池化層以及一個(gè)全連接預(yù)測(cè)層;
11、所述背景估計(jì)網(wǎng)絡(luò)的損失函數(shù)具體如下式所示:
12、
13、其中:表示低分辨率陰影圖像的預(yù)測(cè)背景顏色值;bgt表示陰影圖像的真實(shí)背景顏色值;
14、對(duì)背景估計(jì)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行反向傳播,得到最后一個(gè)卷積層關(guān)于預(yù)測(cè)結(jié)果的梯度并計(jì)算權(quán)重,通過(guò)權(quán)重與最后一個(gè)卷積層輸出的特征圖加權(quán)求和得到陰影預(yù)測(cè)熱力圖。
15、作為本發(fā)明的優(yōu)選實(shí)施方式,所述去陰影網(wǎng)絡(luò)基于u-net網(wǎng)絡(luò)構(gòu)建由若干編碼器、若干解碼器、編碼器與解碼器之間的跳躍連接層以及一個(gè)圖像融合層構(gòu)成,所述圖像融合層由第一融合卷積層di以及第二融合卷積層dm構(gòu)成;
16、低分辨率陰影圖像及其對(duì)應(yīng)的陰影預(yù)測(cè)熱力圖輸入去陰影網(wǎng)絡(luò)后,由編碼器輸出的特征再輸入到圖像融合層,圖像融合層輸出低分辨率去陰影圖像,具體如下式所示:
17、
18、其中:表示低分辨率去陰影圖像;xd表示編碼器輸出的特征。
19、作為本發(fā)明的優(yōu)選實(shí)施方式,所述高分辨率陰影混合模型包括逆混合模塊以及陰影混合模塊;
20、低分辨率陰影圖像及其對(duì)應(yīng)的低分辨率去陰影圖像經(jīng)過(guò)逆混合模塊后得到低分辨率混合圖層,具體如下式所示:
21、
22、其中:bl表示低分辨率混合圖層;il表示低分辨率陰影圖像;
23、提取陰影圖像的高頻分量作為逆混合模塊的附加輸入,得到高分辨率混合圖層,具體如下式所示:
24、bh=φ2(h(φ1(cat(up(bl),h))))+up(bl)
25、其中:bh表示高分辨率混合圖層;φ1表示第一卷積層;φ2表示第二卷積層;h(·)表示leakyrelu函數(shù);up(·)表示上采樣;cat(·)表示在通道維度上的特征圖拼接;
26、將高分辨率混合圖層輸入陰影混合模塊得到高分辨率去陰影圖像,具體如下式所示:
27、
28、其中:表示高分辨率去陰影圖像;ih表示陰影圖像。
29、作為本發(fā)明的優(yōu)選實(shí)施方式,所述高分辨率細(xì)化模型包括若干卷積層以及一個(gè)圖像融合層;
30、將低分辨率去陰影圖像進(jìn)行上采樣后在通道緯度上與高分辨率去陰影圖像進(jìn)行拼接,得到初始拼接圖像;
31、將陰影預(yù)測(cè)熱力圖與去陰影網(wǎng)絡(luò)的解碼器最后一層特征圖分別上采樣后與初始拼接圖像再次拼接,得到輸入拼接圖像;
32、將輸入拼接圖像輸入高分辨率細(xì)化模型,輸入拼接圖像經(jīng)過(guò)卷積層后得到的特征xc再輸入圖像融合層,圖像融合層輸出高分辨率文檔圖像陰影修復(fù)圖像,具體如下式所示:
33、
34、其中:表示高分辨率文檔圖像陰影修復(fù)圖像。
35、作為本發(fā)明的優(yōu)選實(shí)施方式,同時(shí)對(duì)低分辨率圖像校正模型、高分辨率陰影混合模型以及高分辨率細(xì)化模型的生成結(jié)果計(jì)算生成損失得到總體生成損失具體如下式所示:
36、
37、其中:表示低分辨率圖像校正模型的生成損失;表示實(shí)際低分辨率無(wú)陰影圖像;表示高分辨率陰影混合模型的生成損失;表示實(shí)際無(wú)陰影圖像;表示高分辨率細(xì)化模型的生成損失;
38、同時(shí)對(duì)低分辨率圖像校正模型、高分辨率陰影混合模型以及高分辨率細(xì)化模型的生成結(jié)果計(jì)算陰影邊緣梯度損失得到總體陰影邊緣梯度損失具體如下式所示:
39、
40、其中:表示低分辨率圖像校正模型的陰影邊緣梯度損失;表示高分辨率陰影混合模型的陰影邊緣梯度損失;表示高分辨率細(xì)化模型的陰影邊緣梯度損失;mb表示陰影邊緣;表示梯度計(jì)算;
41、將總體生成損失以及總體陰影邊緣梯度損失相加得到總體損失,基于總體損失通過(guò)反向傳播方法計(jì)算模型中各參數(shù)的梯度,并利用隨機(jī)梯度下降方法更新參數(shù),重復(fù)操作,直至總體損失收斂并穩(wěn)定,結(jié)束訓(xùn)練。
42、作為本發(fā)明的優(yōu)選實(shí)施方式,所述陰影邊緣計(jì)算步驟為:
43、計(jì)算圖像的陰影蒙版m,具體如下式所示:
44、
45、其中:ii表示輸入的陰影圖像;io表示輸入的去陰影圖像;r,g,b分別表示圖像的紅色通道值、綠色通道值、藍(lán)色通道值;n表示歸一化函數(shù),具體如下式所示:
46、
47、其中:imax表示輸入圖像的最大值;imin表示輸入圖像的最小值;
48、對(duì)陰影蒙版分別進(jìn)行膨脹和腐蝕操作,得到對(duì)應(yīng)的膨脹蒙版以及腐蝕蒙版,對(duì)膨脹蒙版以及腐蝕蒙版求差得到陰影邊緣。
49、另一方面,本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如本發(fā)明任一實(shí)施例所述的方法。
50、再一方面,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明任一實(shí)施例所述的方法。
51、本發(fā)明具有如下有益效果:
52、1、本發(fā)明通過(guò)低分辨率校正網(wǎng)絡(luò)、高分辨率陰影混合網(wǎng)絡(luò)和高分辨率細(xì)化網(wǎng)絡(luò)三個(gè)部分實(shí)現(xiàn)陰影的高效去除,構(gòu)造了一個(gè)雙路協(xié)同轉(zhuǎn)換框架,利用混合網(wǎng)絡(luò)從低分辨率到高分辨率進(jìn)行快速擴(kuò)展;在低分辨率圖上執(zhí)行修復(fù)可以顯著減少計(jì)算量,降低硬件資源的需求,從而大幅降低成本;通過(guò)快速擴(kuò)展機(jī)制,能夠迅速生成高分辨率的修復(fù)結(jié)果,極大提高了處理效率;輕量級(jí)的陰影混合層設(shè)計(jì)減少了對(duì)計(jì)算資源的占用,實(shí)現(xiàn)了高效的資源利用。
53、2、本發(fā)明的引入了背景估計(jì)網(wǎng)絡(luò)生成陰影預(yù)測(cè)熱力圖,以此作為指導(dǎo)對(duì)低分辨率圖進(jìn)行局部修復(fù),增強(qiáng)了模型在不同背景下處理陰影的能力,提高了修復(fù)質(zhì)量;該網(wǎng)絡(luò)能夠充分考慮到全局背景和局部紋理特征,提供有力的陰影修復(fù)指導(dǎo),確保了修復(fù)后的圖像具有更加自然的視覺(jué)效果。
54、3、本發(fā)明在高分辨率陰影混合網(wǎng)絡(luò)的基礎(chǔ)上,進(jìn)一步引入高分辨率細(xì)化網(wǎng)絡(luò),結(jié)合低分辨率和高分辨率的去陰影圖像,并以解碼器特征圖補(bǔ)償局部信息,產(chǎn)生穩(wěn)健且高質(zhì)量的陰影修復(fù)結(jié)果。