最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于大模型的線下資料數(shù)字化方法、系統(tǒng)及存儲介質(zhì)與流程

文檔序號:41955599發(fā)布日期:2025-05-16 14:22閱讀:4來源:國知局
基于大模型的線下資料數(shù)字化方法、系統(tǒng)及存儲介質(zhì)與流程

本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于大模型的線下資料數(shù)字化方法、系統(tǒng)及存儲介質(zhì)。


背景技術(shù):

1、在當(dāng)今信息時(shí)代,盡管電子信息技術(shù)飛速發(fā)展,但大量的線下資料仍然廣泛存在。線下資料涵蓋各類紙質(zhì)文檔,如書籍、檔案、合同、手稿等,線下資料承載著豐富的知識、歷史信息以及重要的業(yè)務(wù)數(shù)據(jù)。然而,線下資料在實(shí)際使用和管理過程中暴露出諸多問題。首先,在存儲方面,紙質(zhì)資料需要大量的物理空間,隨著資料數(shù)量的不斷增加,存儲場地的成本急劇上升。同時(shí),紙質(zhì)資料容易受到自然環(huán)境因素的影響,如潮濕、火災(zāi)、蟲蛀等,導(dǎo)致資料的損壞和信息的丟失,嚴(yán)重影響其長期保存的穩(wěn)定性。因此,將線下資料進(jìn)行數(shù)字化成為必然趨勢。

2、現(xiàn)有的線下資料數(shù)字化過程中,一般是采用人工的方式進(jìn)行資料數(shù)字化,導(dǎo)致人工操作繁瑣,降低了線下資料數(shù)字化效率。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例的目的在于提供一種基于大模型的線下資料數(shù)字化方法、系統(tǒng)及存儲介質(zhì),以解決現(xiàn)有技術(shù)中線下資料數(shù)字化效率低下的問題。

2、本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種基于大模型的線下資料數(shù)字化方法,所述方法包括:

3、獲取待數(shù)字化線下資料,并對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔;

4、獲取內(nèi)容抽取需求,并將所述內(nèi)容抽取需求與所述線下文檔進(jìn)行組合,得到資料數(shù)字化提示;

5、將所述資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取,得到資料抽取數(shù)據(jù),并對所述資料抽取數(shù)據(jù)進(jìn)行數(shù)據(jù)校驗(yàn);

6、獲取線上資料模板,并將數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)填充至所述線上資料模板中。

7、優(yōu)選的,對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔,包括:

8、對所述待數(shù)字化線下資料進(jìn)行灰度處理,得到資料灰度圖,并對所述資料灰度圖進(jìn)行歸一化處理,得到歸一化圖像;

9、根據(jù)不同卷積尺度,分別對所述歸一化圖像進(jìn)行卷積處理,得到卷積特征,并根據(jù)所述卷積尺度對所述卷積特征進(jìn)行特征融合,得到特征金字塔;

10、根據(jù)所述特征金字塔進(jìn)行文本預(yù)測,得到文本預(yù)測結(jié)果,并根據(jù)所述文本預(yù)測結(jié)果確定目標(biāo)文本框;

11、根據(jù)所述目標(biāo)文本框生成所述線下文檔。

12、優(yōu)選的,根據(jù)所述文本預(yù)測結(jié)果確定目標(biāo)文本框,包括:

13、獲取所述文本預(yù)測結(jié)果中的文本存在概率,并將所述文本存在概率與概率閾值進(jìn)行比對;

14、若所述文本存在概率大于所述概率閾值,則將所述文本存在概率對應(yīng)的文本框確定為候選文本框,并計(jì)算不同所述候選文本框之間的重疊度;

15、根據(jù)所述重疊度和所述文本存在概率確定所述候選文本框的文本框得分,并根據(jù)所述文本框得分確定所述目標(biāo)文本框。

16、優(yōu)選的,將所述資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取之前,還包括:

17、獲取數(shù)字化提示樣本,并將所述數(shù)字化提示樣本輸入所述大模型進(jìn)行內(nèi)容抽取,得到樣本抽取數(shù)據(jù),所述數(shù)字化提示樣本包括樣本文檔和樣本提示詞;

18、根據(jù)所述樣本抽取數(shù)據(jù)確定模型損失,并根據(jù)所述模型損失對所述大模型進(jìn)行參數(shù)更新,直至所述大模型收斂,得到預(yù)訓(xùn)練后的所述大模型。

19、優(yōu)選的,對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔之后,還包括:

20、對所述線下文檔中的文檔段落進(jìn)行實(shí)體識別,得到實(shí)體識別結(jié)果,并根據(jù)所述實(shí)體識別確定所述文檔段落的段落對象;

21、根據(jù)所述段落對象對所述文檔段落進(jìn)行分類,得到段落集合,并對所述文檔段落進(jìn)行語義識別,得到語義識別結(jié)果;

22、根據(jù)所述語義識別結(jié)果,確定同一所述段落集合中不同所述文檔段落之間的段落關(guān)聯(lián)度,并根據(jù)所述段落關(guān)聯(lián)度對同一所述段落集合中的所述文檔段落進(jìn)行排序。

23、優(yōu)選的,將所述內(nèi)容抽取需求與所述線下文檔進(jìn)行組合,得到資料數(shù)字化提示,包括:

24、根據(jù)所述文檔段落的排序結(jié)果,將同一所述段落集合中的所述文檔段落進(jìn)行組合,并在不同所述文檔段落中插入第一標(biāo)識符,得到段落串;

25、在所述段落串的首端插入對應(yīng)的所述段落對象,并將不同所述段落串進(jìn)行組合;

26、在組合后的不同所述段落串中插入第二標(biāo)識符,得到字符串組合,并在所述字符串組合的首端插入所述內(nèi)容抽取需求;

27、在所述內(nèi)容抽取需求與所述字符串組合的首端之間插入第三標(biāo)識符,得到所述資料數(shù)字化提示。

28、優(yōu)選的,將數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)填充至所述線上資料模板中,包括:

29、對數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)中的數(shù)據(jù)詞匯進(jìn)行類型識別,得到詞匯類型,并將所述詞匯類型與所述線上資料模板中的填充欄進(jìn)行類型匹配;

30、根據(jù)類型匹配結(jié)果將所述數(shù)據(jù)詞匯填寫至對應(yīng)的所述填充欄中。

31、本發(fā)明實(shí)施例的另一目的在于提供一種基于大模型的線下資料數(shù)字化系統(tǒng),所述系統(tǒng)包括:

32、文本識別模塊,用于獲取待數(shù)字化線下資料,并對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔;

33、提示生成模塊,用于獲取內(nèi)容抽取需求,并將所述內(nèi)容抽取需求與所述線下文檔進(jìn)行組合,得到資料數(shù)字化提示;

34、內(nèi)容抽取模塊,用于將所述資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取,得到資料抽取數(shù)據(jù),并對所述資料抽取數(shù)據(jù)進(jìn)行數(shù)據(jù)校驗(yàn);

35、數(shù)據(jù)填充模塊,用于獲取線上資料模板,并將數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)填充至所述線上資料模板中。

36、優(yōu)選的,所述文本識別模塊還用于:

37、對所述待數(shù)字化線下資料進(jìn)行灰度處理,得到資料灰度圖,并對所述資料灰度圖進(jìn)行歸一化處理,得到歸一化圖像;

38、根據(jù)不同卷積尺度,分別對所述歸一化圖像進(jìn)行卷積處理,得到卷積特征,并根據(jù)所述卷積尺度對所述卷積特征進(jìn)行特征融合,得到特征金字塔;

39、根據(jù)所述特征金字塔進(jìn)行文本預(yù)測,得到文本預(yù)測結(jié)果,并根據(jù)所述文本預(yù)測結(jié)果確定目標(biāo)文本框;

40、根據(jù)所述目標(biāo)文本框生成所述線下文檔。

41、本發(fā)明實(shí)施例,通過對待數(shù)字化線下資料進(jìn)行文本識別,使得無需采用人工的方式進(jìn)行文本的復(fù)制和粘貼,提高了線下資料數(shù)字化效率,通過將資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取,以基于大模型強(qiáng)大的推理能力對線下文檔進(jìn)行內(nèi)容的自動抽取,無需采用人工的方式進(jìn)行內(nèi)容抽取,更進(jìn)一步提高了下資料數(shù)字化效率。



技術(shù)特征:

1.一種基于大模型的線下資料數(shù)字化方法,其特征在于,所述方法包括:

2.如權(quán)利要求1所述的基于大模型的線下資料數(shù)字化方法,其特征在于,對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔,包括:

3.如權(quán)利要求2所述的基于大模型的線下資料數(shù)字化方法,其特征在于,根據(jù)所述文本預(yù)測結(jié)果確定目標(biāo)文本框,包括:

4.如權(quán)利要求1所述的基于大模型的線下資料數(shù)字化方法,其特征在于,將所述資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取之前,還包括:

5.如權(quán)利要求1所述的基于大模型的線下資料數(shù)字化方法,其特征在于,對所述待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔之后,還包括:

6.如權(quán)利要求5所述的基于大模型的線下資料數(shù)字化方法,其特征在于,將所述內(nèi)容抽取需求與所述線下文檔進(jìn)行組合,得到資料數(shù)字化提示,包括:

7.如權(quán)利要求1所述的基于大模型的線下資料數(shù)字化方法,其特征在于,將數(shù)據(jù)校驗(yàn)后的所述資料抽取數(shù)據(jù)填充至所述線上資料模板中,包括:

8.一種基于大模型的線下資料數(shù)字化系統(tǒng),其特征在于,所述系統(tǒng)包括:

9.如權(quán)利要求8所述的基于大模型的線下資料數(shù)字化系統(tǒng),其特征在于,所述文本識別模塊還用于:

10.一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述方法的步驟。


技術(shù)總結(jié)
本發(fā)明提供了一種基于大模型的線下資料數(shù)字化方法、系統(tǒng)及存儲介質(zhì),該方法包括:對待數(shù)字化線下資料進(jìn)行文本識別,得到線下文檔;將內(nèi)容抽取需求與線下文檔進(jìn)行組合,得到資料數(shù)字化提示;將資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取,得到資料抽取數(shù)據(jù),對資料抽取數(shù)據(jù)進(jìn)行數(shù)據(jù)校驗(yàn);將數(shù)據(jù)校驗(yàn)后的資料抽取數(shù)據(jù)填充至線上資料模板中。本發(fā)明實(shí)施例,通過對待數(shù)字化線下資料進(jìn)行文本識別,使得無需采用人工的方式進(jìn)行文本的復(fù)制和粘貼,通過將資料數(shù)字化提示輸入預(yù)訓(xùn)練后的大模型進(jìn)行內(nèi)容抽取,以基于大模型強(qiáng)大的推理能力對線下文檔進(jìn)行內(nèi)容的自動抽取,無需采用人工的方式進(jìn)行內(nèi)容抽取,提高了下資料數(shù)字化效率。

技術(shù)研發(fā)人員:楊興云,黃偉,陳吉勝
受保護(hù)的技術(shù)使用者:云知聲智能科技股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1