本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于大模型的線下資料數(shù)字化方法、系統(tǒng)及存儲介質(zhì)。
背景技術(shù):
1、在當(dāng)今信息時(shí)代,盡管電子信息技術(shù)飛速發(fā)展,但大量的線下資料仍然廣泛存在。線下資料涵蓋各類紙質(zhì)文檔,如書籍、檔案、合同、手稿等,線下資料承載著豐富的知識、歷史信息以及重要的業(yè)務(wù)數(shù)據(jù)。然而,線下資料在實(shí)際使用和管理過程中暴露出諸多問題。首先,在存儲方面,紙質(zhì)資料需要大量的物理空間,隨著資料數(shù)量的不斷增加,存儲場地的成本急劇上升。同時(shí),紙質(zhì)資料容易受到自然環(huán)境因素的影響,如潮濕、火災(zāi)、蟲蛀等,導(dǎo)致資料的損壞和信息的丟失,嚴(yán)重影響其長期保存的穩(wěn)定性。因此,將線下資料進(jìn)行數(shù)字化成為必然趨勢。
2、現(xiàn)有的線下資料數(shù)字化過程中,一般是采用人工的方式進(jìn)行資料數(shù)字化,導(dǎo)致人工操作繁瑣,降低了線下資料數(shù)字化效率。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例的目的在于提供一種基于大模型的線下資料數(shù)字化方法、系統(tǒng)及存儲介質(zhì),以解決現(xiàn)有技術(shù)中線下資料數(shù)字化效率低下的問題。
2、本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種基于大模型的線下資料數(shù)字化方法,所述方法包括:
3、獲取待數(shù)字化線下資料,并對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔;
4、獲取內(nèi)容抽取需求,并將所述內(nèi)容抽取需求與所述線下文檔進(jìn)行組合,得到資料數(shù)字化提示;
5、將所述資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取,得到資料抽取數(shù)據(jù),并對所述資料抽取數(shù)據(jù)進(jìn)行數(shù)據(jù)校驗(yàn);
6、獲取線上資料模板,并將數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)填充至所述線上資料模板中。
7、優(yōu)選的,對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔,包括:
8、對所述待數(shù)字化線下資料進(jìn)行灰度處理,得到資料灰度圖,并對所述資料灰度圖進(jìn)行歸一化處理,得到歸一化圖像;
9、根據(jù)不同卷積尺度,分別對所述歸一化圖像進(jìn)行卷積處理,得到卷積特征,并根據(jù)所述卷積尺度對所述卷積特征進(jìn)行特征融合,得到特征金字塔;
10、根據(jù)所述特征金字塔進(jìn)行文本預(yù)測,得到文本預(yù)測結(jié)果,并根據(jù)所述文本預(yù)測結(jié)果確定目標(biāo)文本框;
11、根據(jù)所述目標(biāo)文本框生成所述線下文檔。
12、優(yōu)選的,根據(jù)所述文本預(yù)測結(jié)果確定目標(biāo)文本框,包括:
13、獲取所述文本預(yù)測結(jié)果中的文本存在概率,并將所述文本存在概率與概率閾值進(jìn)行比對;
14、若所述文本存在概率大于所述概率閾值,則將所述文本存在概率對應(yīng)的文本框確定為候選文本框,并計(jì)算不同所述候選文本框之間的重疊度;
15、根據(jù)所述重疊度和所述文本存在概率確定所述候選文本框的文本框得分,并根據(jù)所述文本框得分確定所述目標(biāo)文本框。
16、優(yōu)選的,將所述資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取之前,還包括:
17、獲取數(shù)字化提示樣本,并將所述數(shù)字化提示樣本輸入所述大模型進(jìn)行內(nèi)容抽取,得到樣本抽取數(shù)據(jù),所述數(shù)字化提示樣本包括樣本文檔和樣本提示詞;
18、根據(jù)所述樣本抽取數(shù)據(jù)確定模型損失,并根據(jù)所述模型損失對所述大模型進(jìn)行參數(shù)更新,直至所述大模型收斂,得到預(yù)訓(xùn)練后的所述大模型。
19、優(yōu)選的,對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔之后,還包括:
20、對所述線下文檔中的文檔段落進(jìn)行實(shí)體識別,得到實(shí)體識別結(jié)果,并根據(jù)所述實(shí)體識別確定所述文檔段落的段落對象;
21、根據(jù)所述段落對象對所述文檔段落進(jìn)行分類,得到段落集合,并對所述文檔段落進(jìn)行語義識別,得到語義識別結(jié)果;
22、根據(jù)所述語義識別結(jié)果,確定同一所述段落集合中不同所述文檔段落之間的段落關(guān)聯(lián)度,并根據(jù)所述段落關(guān)聯(lián)度對同一所述段落集合中的所述文檔段落進(jìn)行排序。
23、優(yōu)選的,將所述內(nèi)容抽取需求與所述線下文檔進(jìn)行組合,得到資料數(shù)字化提示,包括:
24、根據(jù)所述文檔段落的排序結(jié)果,將同一所述段落集合中的所述文檔段落進(jìn)行組合,并在不同所述文檔段落中插入第一標(biāo)識符,得到段落串;
25、在所述段落串的首端插入對應(yīng)的所述段落對象,并將不同所述段落串進(jìn)行組合;
26、在組合后的不同所述段落串中插入第二標(biāo)識符,得到字符串組合,并在所述字符串組合的首端插入所述內(nèi)容抽取需求;
27、在所述內(nèi)容抽取需求與所述字符串組合的首端之間插入第三標(biāo)識符,得到所述資料數(shù)字化提示。
28、優(yōu)選的,將數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)填充至所述線上資料模板中,包括:
29、對數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)中的數(shù)據(jù)詞匯進(jìn)行類型識別,得到詞匯類型,并將所述詞匯類型與所述線上資料模板中的填充欄進(jìn)行類型匹配;
30、根據(jù)類型匹配結(jié)果將所述數(shù)據(jù)詞匯填寫至對應(yīng)的所述填充欄中。
31、本發(fā)明實(shí)施例的另一目的在于提供一種基于大模型的線下資料數(shù)字化系統(tǒng),所述系統(tǒng)包括:
32、文本識別模塊,用于獲取待數(shù)字化線下資料,并對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔;
33、提示生成模塊,用于獲取內(nèi)容抽取需求,并將所述內(nèi)容抽取需求與所述線下文檔進(jìn)行組合,得到資料數(shù)字化提示;
34、內(nèi)容抽取模塊,用于將所述資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取,得到資料抽取數(shù)據(jù),并對所述資料抽取數(shù)據(jù)進(jìn)行數(shù)據(jù)校驗(yàn);
35、數(shù)據(jù)填充模塊,用于獲取線上資料模板,并將數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)填充至所述線上資料模板中。
36、優(yōu)選的,所述文本識別模塊還用于:
37、對所述待數(shù)字化線下資料進(jìn)行灰度處理,得到資料灰度圖,并對所述資料灰度圖進(jìn)行歸一化處理,得到歸一化圖像;
38、根據(jù)不同卷積尺度,分別對所述歸一化圖像進(jìn)行卷積處理,得到卷積特征,并根據(jù)所述卷積尺度對所述卷積特征進(jìn)行特征融合,得到特征金字塔;
39、根據(jù)所述特征金字塔進(jìn)行文本預(yù)測,得到文本預(yù)測結(jié)果,并根據(jù)所述文本預(yù)測結(jié)果確定目標(biāo)文本框;
40、根據(jù)所述目標(biāo)文本框生成所述線下文檔。
41、本發(fā)明實(shí)施例,通過對待數(shù)字化線下資料進(jìn)行文本識別,使得無需采用人工的方式進(jìn)行文本的復(fù)制和粘貼,提高了線下資料數(shù)字化效率,通過將資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取,以基于大模型強(qiáng)大的推理能力對線下文檔進(jìn)行內(nèi)容的自動抽取,無需采用人工的方式進(jìn)行內(nèi)容抽取,更進(jìn)一步提高了下資料數(shù)字化效率。
1.一種基于大模型的線下資料數(shù)字化方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的基于大模型的線下資料數(shù)字化方法,其特征在于,對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔,包括:
3.如權(quán)利要求2所述的基于大模型的線下資料數(shù)字化方法,其特征在于,根據(jù)所述文本預(yù)測結(jié)果確定目標(biāo)文本框,包括:
4.如權(quán)利要求1所述的基于大模型的線下資料數(shù)字化方法,其特征在于,將所述資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取之前,還包括:
5.如權(quán)利要求1所述的基于大模型的線下資料數(shù)字化方法,其特征在于,對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔之后,還包括:
6.如權(quán)利要求5所述的基于大模型的線下資料數(shù)字化方法,其特征在于,將所述內(nèi)容抽取需求與所述線下文檔進(jìn)行組合,得到資料數(shù)字化提示,包括:
7.如權(quán)利要求1所述的基于大模型的線下資料數(shù)字化方法,其特征在于,將數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)填充至所述線上資料模板中,包括:
8.一種基于大模型的線下資料數(shù)字化系統(tǒng),其特征在于,所述系統(tǒng)包括:
9.如權(quán)利要求8所述的基于大模型的線下資料數(shù)字化系統(tǒng),其特征在于,所述文本識別模塊還用于:
10.一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述方法的步驟。