本發(fā)明屬于字符識(shí)別,尤其涉及一種ocr智能影像分類處理平臺(tái)。
背景技術(shù):
1、影像資料中通常會(huì)包含文字及數(shù)字等多種類型的數(shù)據(jù)信息,并且影像資料的類型多樣且可能屬于不同的領(lǐng)域(如醫(yī)學(xué)領(lǐng)域、遙感領(lǐng)域、監(jiān)控視頻領(lǐng)域等),但由于不同領(lǐng)域的分類標(biāo)準(zhǔn)又會(huì)不同,因此導(dǎo)致影像資料的分類會(huì)因?yàn)轭愋团c領(lǐng)域不同而出現(xiàn)分類錯(cuò)誤,即使隨著人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展,許多領(lǐng)域開始使用自動(dòng)化工具進(jìn)行影像分類,然而,自動(dòng)分類技術(shù)仍面臨一些挑戰(zhàn),特別是在分類的準(zhǔn)確性、算法的適應(yīng)性和可解釋性方面,比如,圖像中的噪聲、模糊、不完整或復(fù)雜背景,可能會(huì)影響自動(dòng)分類系統(tǒng)的效果,并且還會(huì)進(jìn)一步影響ocr技術(shù)的應(yīng)用。
2、ocr(optical?character?recognition,光學(xué)字符識(shí)別)用于提取影像資料中的文字信息以及其他關(guān)鍵信息,包括文檔類型、內(nèi)容主題,甚至字體和語(yǔ)種等,因此影像資料的分類情況會(huì)影響到后續(xù)ocr進(jìn)行文本處理的準(zhǔn)確性和效率。
3、因此,如何提高影像資料分類的準(zhǔn)確性,并進(jìn)一步提高ocr技術(shù)的文本處理準(zhǔn)確性和效率,成為目前亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種ocr智能影像分類處理平臺(tái),通過(guò)集成先進(jìn)的人工智能和光學(xué)字符識(shí)別技術(shù),對(duì)各類影像資料進(jìn)行智能分類和ocr處理,以實(shí)現(xiàn)對(duì)影像中文字信息的快速、準(zhǔn)確提取,從而為用戶提供高效、便捷的數(shù)據(jù)處理服務(wù)。
2、其目的可以通過(guò)以下技術(shù)方案實(shí)現(xiàn):
3、第一方面,本技術(shù)實(shí)施例提供了一種ocr智能影像分類處理平臺(tái),包括:
4、影像綜合模型構(gòu)建模塊,用于建立影像綜合模型;
5、影像識(shí)別分析模塊,用于獲取待處理影像并將其輸入所述影像綜合模型中進(jìn)行識(shí)別和分析以分別輸出待識(shí)別影像和待分析影像;
6、ocr模型構(gòu)建模塊,用于構(gòu)建ocr模型并基于所述ocr模型對(duì)所述待識(shí)別影像進(jìn)行字符提取以輸出影像識(shí)別文本;
7、圖像分析模型構(gòu)建模塊,用于構(gòu)建圖像分析模型并基于所述圖像分析模型對(duì)所述待分析影像進(jìn)行內(nèi)容分析以輸出影像分析數(shù)據(jù);
8、影像文本填充模塊,基于所述影像分析數(shù)據(jù)對(duì)所述影像識(shí)別文本進(jìn)行文本內(nèi)容填充,并輸出填充后的綜合文本信息;
9、信息數(shù)據(jù)關(guān)聯(lián)存儲(chǔ)模塊,用于對(duì)所述影像識(shí)別文本、所述影像分析數(shù)據(jù)和所述綜合文本信息進(jìn)行關(guān)聯(lián)性分析并建立關(guān)聯(lián)規(guī)則,且將所述關(guān)聯(lián)規(guī)則輸入影像內(nèi)容數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ);
10、其中,所述建立影像綜合模型,包括:
11、獲取多個(gè)領(lǐng)域的影像資料并以此建立影像數(shù)據(jù)集;
12、基于所述影像數(shù)據(jù)集,采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建影像分類模型;
13、基于所述影像數(shù)據(jù)集,采用目標(biāo)檢測(cè)算法構(gòu)建影像識(shí)別模型;
14、結(jié)合所述影像分類模型和所述影像識(shí)別模型以形成所述影像綜合模型;
15、其中,多個(gè)領(lǐng)域的影像資料包括醫(yī)療類影像、遙感類影像、工業(yè)產(chǎn)品類影像、交通類影像和業(yè)務(wù)單據(jù)類影像。
16、優(yōu)選地,所述采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建影像分類模型,包括:
17、在所述影像數(shù)據(jù)集中對(duì)每張影像所屬的類型進(jìn)行標(biāo)注,形成每張影像對(duì)應(yīng)的類型標(biāo)簽;
18、獲取原始影像及所述原始影像對(duì)應(yīng)的類型標(biāo)簽;
19、將所述原始影像輸入預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型中,所述卷積神經(jīng)網(wǎng)絡(luò)模型包括特征提取網(wǎng)絡(luò)和類型預(yù)測(cè)網(wǎng)絡(luò),所述特征提取網(wǎng)絡(luò)包括n個(gè)依次串聯(lián)的卷積層;
20、利用所述特征提取網(wǎng)絡(luò)對(duì)所述原始影像進(jìn)行特征提取,得到第n個(gè)所述卷積層輸出的第一特征圖和第n-1個(gè)卷積層輸出的第二特征圖;
21、基于所述第一特征圖、所述原始影像的類型標(biāo)簽和預(yù)設(shè)的多個(gè)二值掩碼,生成第一訓(xùn)練集;
22、基于所述第二特征圖、所述原始影像的類型標(biāo)簽和所述多個(gè)二值掩碼,生成第二訓(xùn)練集;
23、利用所述第一訓(xùn)練集和所述第二訓(xùn)練集對(duì)所述類型預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練后的所述影像分類模型。
24、優(yōu)選地,所述利用所述第一訓(xùn)練集和所述第二訓(xùn)練集對(duì)所述類型預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:
25、將所述第一訓(xùn)練集和所述第二訓(xùn)練集融合為訓(xùn)練樣本集;
26、在所述訓(xùn)練樣本集中獲取已標(biāo)注類型標(biāo)簽的多張影像樣本;
27、針對(duì)每一張影像樣本,將影像樣本輸入至所述類型預(yù)測(cè)網(wǎng)絡(luò);
28、在所述類型預(yù)測(cè)網(wǎng)絡(luò)的任意一層卷積層中,從所述影像樣本中提取出多張?zhí)卣鲌D像并預(yù)測(cè)得到所述影像樣本的類型,以及多張?zhí)卣鲌D像的類型標(biāo)簽;
29、利用預(yù)測(cè)得到的所述影像樣本的類型和多張?zhí)卣鲌D像的類型標(biāo)簽,以及此影像樣本已標(biāo)注的類型標(biāo)簽,計(jì)算得到所述類型預(yù)測(cè)網(wǎng)絡(luò)的損失值;
30、判斷所述損失值是否達(dá)到預(yù)期訓(xùn)練目標(biāo),若否,則基于所述損失值調(diào)整所述類型預(yù)測(cè)網(wǎng)絡(luò)的參數(shù),并返回執(zhí)行針對(duì)每一張影像樣本,將影像樣本輸入至所述類型預(yù)測(cè)網(wǎng)絡(luò)的步驟,直至最新得到的損失值達(dá)到預(yù)期訓(xùn)練目標(biāo);
31、若是,則結(jié)束訓(xùn)練,得到訓(xùn)練后的所述影像分類模型;
32、其中,不同特征圖像表征缺少不同通道的影像樣本,不同通道表征影像樣本具有不同的圖像特征。
33、優(yōu)選地,所述采用目標(biāo)檢測(cè)算法構(gòu)建影像識(shí)別模型,包括:
34、數(shù)據(jù)準(zhǔn)備:基于所述影像數(shù)據(jù)集建立目標(biāo)檢測(cè)數(shù)據(jù)集;其中,所述目標(biāo)檢測(cè)數(shù)據(jù)集包含文本圖像和非文本圖像;
35、數(shù)據(jù)標(biāo)注:將所述文本圖像標(biāo)注為0,將所述非文本圖像標(biāo)注為1,且對(duì)所述文本圖像中文本區(qū)域的邊界框進(jìn)行標(biāo)注;
36、數(shù)據(jù)預(yù)處理:對(duì)所述目標(biāo)檢測(cè)數(shù)據(jù)集中的圖像進(jìn)行規(guī)格統(tǒng)一、圖像增強(qiáng)和圖像歸一化;
37、模型訓(xùn)練:基于所述目標(biāo)檢測(cè)數(shù)據(jù)集采用yolov5算法進(jìn)行模型訓(xùn)練并不斷優(yōu)化損失函數(shù),以生成所述影像識(shí)別模型;其中,所述損失函數(shù)包括分類損失、定位損失和置信度損失;
38、模型輸出:對(duì)于每一張輸入所述影像識(shí)別模型的圖像,經(jīng)過(guò)模型處理后輸出文本圖像類別和非文本圖像類別;若輸出文本圖像類別,則還輸出并標(biāo)記文本區(qū)域的邊界框。
39、優(yōu)選地,建立所述目標(biāo)檢測(cè)數(shù)據(jù)集,包括:
40、從所述影像數(shù)據(jù)集中獲取初始目標(biāo)圖像;
41、對(duì)所述初始目標(biāo)圖像進(jìn)行邊緣預(yù)識(shí)別,獲取所述初始目標(biāo)圖像中所包含的各局部圖像的邊緣信息;
42、根據(jù)所述邊緣信息判斷各局部圖像的邊緣范圍大小,將邊緣范圍超過(guò)一設(shè)定閾值的局部圖像劃分為非文本圖像,反之劃分為局部文本圖像,并將劃分出的局部文本圖像中相鄰邊緣間隔小于一設(shè)定閾值的局部文本圖像組合為文本圖像;
43、識(shí)別所述非文本圖像與所述文本圖像之間最靠近的邊緣之間的間距,若此邊緣間距低于一設(shè)定閾值,則將所述非文本圖像和所述文本圖像判定為關(guān)聯(lián)且標(biāo)記為相同的標(biāo)記,反之則將所述非文本圖像和所述文本圖像判定為不關(guān)聯(lián),標(biāo)記為不同的標(biāo)記;
44、將具有相同標(biāo)記的非文本圖像和文本圖像重組為圖文圖像,并用以代替所述圖文圖像所對(duì)應(yīng)的初始目標(biāo)圖像;
45、基于所述非文本圖像和所述文本圖像建立所述目標(biāo)檢測(cè)數(shù)據(jù)集。
46、優(yōu)選地,構(gòu)建所述ocr模型,包括:
47、分別建立文本矯正單元、文本框定位單元和文本提取單元;
48、將所述文本矯正單元、所述文本框定位單元和所述文本提取單元進(jìn)行單元融合以形成所述ocr模型;
49、其中,所述文本矯正單元包括:
50、圖像獲取子單元,用于獲取所述待識(shí)別影像并將所述待識(shí)別影像輸入文本行檢測(cè)網(wǎng)絡(luò)中,得到所述待識(shí)別影像對(duì)應(yīng)的文本掩碼圖;利用所述文本掩碼圖確定文本行輪廓及每個(gè)文本行輪廓對(duì)應(yīng)的文本中線;
51、采樣點(diǎn)構(gòu)建子單元,利用所述文本掩碼圖設(shè)置對(duì)應(yīng)所述待識(shí)別影像的第一控制點(diǎn);所述第一控制點(diǎn)包括文本采樣點(diǎn)和邊框采樣點(diǎn),在所述文本中線上選取多個(gè)文本采樣點(diǎn),構(gòu)建每個(gè)文本中線的文本采樣點(diǎn)集合;在所述文本掩碼圖中設(shè)置多個(gè)邊框采樣點(diǎn)以形成邊框采樣點(diǎn)集合;
52、控制點(diǎn)設(shè)置子單元,用于根據(jù)所述第一控制點(diǎn)設(shè)置第二控制點(diǎn);所述第二控制點(diǎn)包括第一源點(diǎn)集合和第二源點(diǎn)集合,所述第一源點(diǎn)集合包括多個(gè)文本源點(diǎn)子集合,且所述文本源點(diǎn)子集合和文本采樣點(diǎn)集合一一對(duì)應(yīng),每個(gè)文本源點(diǎn)子集合中文本源點(diǎn)的個(gè)數(shù)與對(duì)應(yīng)文本采樣點(diǎn)集合中的文本采樣點(diǎn)的個(gè)數(shù)相同,所述第二源點(diǎn)集合中源點(diǎn)個(gè)數(shù)與所述邊框采樣點(diǎn)集合中的邊框采樣點(diǎn)的個(gè)數(shù)相同;
53、矯正圖像獲取子單元,用于將所述待識(shí)別影像、所述第一控制點(diǎn)以及所述第二控制點(diǎn)輸入圖像矯正網(wǎng)絡(luò)以得到矯正文本圖像。
54、優(yōu)選地,所述文本框定位單元包括:
55、目標(biāo)檢測(cè)子單元,用于在所述矯正文本圖像中檢測(cè)第一目標(biāo),得到所述第一目標(biāo)所對(duì)應(yīng)的第一識(shí)別圖像;
56、特征提取子單元,利用文本特征提取網(wǎng)絡(luò)對(duì)所述第一識(shí)別圖像進(jìn)行處理,得到第一文本特征;所述第一文本特征用于表征所述第一識(shí)別圖像所對(duì)應(yīng)的文本框;
57、特征處理子單元,用于將所述第一文本特征進(jìn)行柵格化,生成第一柵格信息,對(duì)從所述第一柵格信息中檢測(cè)出的第二柵格信息按預(yù)設(shè)特征合并規(guī)則進(jìn)行處理,生成第三柵格信息;
58、定位計(jì)算子單元,用于根據(jù)所述第三柵格信息,確定所述文本框的頂點(diǎn)所對(duì)應(yīng)的位置信息和定位結(jié)果;
59、其中,所述第一柵格信息用于表征所述文本框的文本元素在所述文本框內(nèi)的位置;所述第二柵格信息包括與所述文本框內(nèi)的所述文本元素所對(duì)應(yīng)的所述第一柵格信息。
60、優(yōu)選地,所述文本提取單元包括:
61、定位信息歸集子單元,用于獲取一系列文本框的頂點(diǎn)所對(duì)應(yīng)的位置信息和定位結(jié)果,并以此建立定位信息集合;
62、文本框優(yōu)化子單元,用于基于所述定位信息集合對(duì)文本框進(jìn)行優(yōu)化并生成文本框數(shù)組,數(shù)組的每個(gè)元素為一個(gè)段落;
63、文本識(shí)別子單元,用于對(duì)所述文本框數(shù)組的每個(gè)元素依次識(shí)別,得到由段落組成的文本內(nèi)容;
64、文本輸出子單元,用于對(duì)所述文本內(nèi)容進(jìn)行內(nèi)容驗(yàn)證并將驗(yàn)證后的正確內(nèi)容作為影像識(shí)別文本進(jìn)行輸出。
65、優(yōu)選地,所述圖像分析模型包括:
66、圖像編碼子單元,用于對(duì)所述待分析影像進(jìn)行特征提取并獲得視覺(jué)特征和情感特征;
67、多模態(tài)映射子單元,用于將所述視覺(jué)特征轉(zhuǎn)換為文本特征嵌入空間的映射特征;
68、內(nèi)容理解子單元,用于獲取任務(wù)指示文本并將所述任務(wù)指示文本與所述映射特征輸入預(yù)訓(xùn)練的大語(yǔ)言模型進(jìn)行內(nèi)容理解,以獲取內(nèi)容理解特征和內(nèi)容描述文本;
69、上下文分析子單元,基于所述情感特征進(jìn)行情感感知和場(chǎng)景理解,并獲得上下文信息;
70、分析數(shù)據(jù)生成子單元,基于所述內(nèi)容描述文本和所述上下文信息生成所述影像分析數(shù)據(jù)并對(duì)其進(jìn)行輸出;
71、其中,所述內(nèi)容描述文本是基于所述大語(yǔ)言模型的輸出層對(duì)所述內(nèi)容理解特征進(jìn)行特征文本映射得到的。
72、第二方面,本技術(shù)實(shí)施例提供了一種ocr智能影像分類處理方法,應(yīng)用如上所述的一種ocr智能影像分類處理平臺(tái),包括如下步驟:
73、建立影像綜合模型;
74、獲取待處理影像并將其輸入所述影像綜合模型中進(jìn)行識(shí)別和分析以分別輸出待識(shí)別影像和待分析影像;
75、構(gòu)建ocr模型并基于所述ocr模型對(duì)所述待識(shí)別影像進(jìn)行字符提取以輸出影像識(shí)別文本;
76、構(gòu)建圖像分析模型并基于所述圖像分析模型對(duì)所述待分析影像進(jìn)行內(nèi)容分析以輸出影像分析數(shù)據(jù);
77、基于所述影像分析數(shù)據(jù)對(duì)所述影像識(shí)別文本進(jìn)行文本內(nèi)容填充,并輸出填充后的綜合文本信息;
78、對(duì)所述影像識(shí)別文本、所述影像分析數(shù)據(jù)和所述綜合文本信息進(jìn)行關(guān)聯(lián)性分析并建立關(guān)聯(lián)規(guī)則,且將所述關(guān)聯(lián)規(guī)則輸入影像內(nèi)容數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ)。
79、本發(fā)明的有益效果為:
80、(1)本發(fā)明的智能影像分類ocr處理平臺(tái)通過(guò)集成先進(jìn)的人工智能技術(shù)和ocr技術(shù),為用戶提供了高效、準(zhǔn)確的影像分類和ocr處理服務(wù)。無(wú)論是對(duì)于需要大量處理影像資料的行業(yè)還是對(duì)于追求高效辦公的個(gè)人用戶,該平臺(tái)都能提供有力的支持,助力用戶提升數(shù)據(jù)處理效率和工作效率。
81、(2)本發(fā)明提供的平臺(tái)專注于對(duì)各類影像資料進(jìn)行智能分類和ocr處理,以實(shí)現(xiàn)對(duì)影像中文字信息的快速、準(zhǔn)確提取,從而為用戶提供高效、便捷的數(shù)據(jù)處理服務(wù)。在影像智能分類方面,平臺(tái)利用深度學(xué)習(xí)算法,對(duì)輸入的影像資料進(jìn)行自動(dòng)分類。通過(guò)訓(xùn)練和優(yōu)化模型,平臺(tái)能夠準(zhǔn)確識(shí)別影像中的關(guān)鍵信息,如文檔類型、內(nèi)容主題等,并將它們歸類到相應(yīng)的類別中。這有助于用戶快速找到所需的影像資料,提高數(shù)據(jù)檢索的效率。在ocr處理方面,平臺(tái)采用先進(jìn)的ocr技術(shù),對(duì)影像中的文字進(jìn)行識(shí)別和提取。通過(guò)優(yōu)化算法和模型,平臺(tái)能夠?qū)崿F(xiàn)高準(zhǔn)確率的文字識(shí)別,包括印刷體、手寫體等多種字體。同時(shí),平臺(tái)還支持多語(yǔ)種識(shí)別,滿足不同用戶的需求。除此之外,該平臺(tái)還支持批量處理大量影像資料,能夠同時(shí)處理多個(gè)文件或圖像,提高處理效率。此外,平臺(tái)還具備高性能計(jì)算能力,確保在處理大量數(shù)據(jù)時(shí)能夠保持快速響應(yīng)和穩(wěn)定運(yùn)行;同時(shí),平臺(tái)還提供靈活的定制化開發(fā)服務(wù),可以根據(jù)用戶的特定需求進(jìn)行功能定制和擴(kuò)展。同時(shí),平臺(tái)還支持與其他系統(tǒng)的集成,實(shí)現(xiàn)數(shù)據(jù)的無(wú)縫對(duì)接和共享,方便用戶進(jìn)行跨平臺(tái)操作。