本發(fā)明涉及數(shù)據(jù)質(zhì)量檢核,尤其涉及一種基于大語言模型的政務(wù)數(shù)據(jù)質(zhì)量檢核規(guī)則生成方法及系統(tǒng)。
背景技術(shù):
1、數(shù)字經(jīng)濟(jì)的大背景下,政務(wù)數(shù)據(jù)具有廣泛性、權(quán)威性和實(shí)時(shí)性的顯著特點(diǎn),確保政務(wù)數(shù)據(jù)的質(zhì)量對(duì)于提高決策準(zhǔn)確性、提升公共服務(wù)水平以及促進(jìn)政務(wù)數(shù)字化轉(zhuǎn)型,推動(dòng)數(shù)據(jù)經(jīng)濟(jì)的發(fā)展至關(guān)重要。
2、傳統(tǒng)的數(shù)據(jù)質(zhì)量檢核規(guī)則主要依靠人工編寫,效率低下且容易出錯(cuò)。通常將數(shù)據(jù)質(zhì)量檢核規(guī)則配置成模板完成一些自動(dòng)化的處理,但如果需求變更,仍然需要技術(shù)人員深入了解數(shù)據(jù)倉庫或數(shù)據(jù)湖中的表結(jié)構(gòu)和字段之間的關(guān)系,才能編寫準(zhǔn)確的檢核規(guī)則對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢核,這導(dǎo)致整個(gè)過程的技術(shù)門檻較高,并且需要耗費(fèi)大量的時(shí)間和人力,從而導(dǎo)致數(shù)據(jù)處理和分析的效率較低。
3、隨著大語言模型呈現(xiàn)出強(qiáng)大的語言理解和生成能力,逐漸出現(xiàn)了利用大語言模型將自然語言描述轉(zhuǎn)換為結(jié)構(gòu)化sql檢索語句的技術(shù)方案,為用戶提供所需的數(shù)據(jù)記錄,現(xiàn)有的這些方案側(cè)重于對(duì)自然語言意圖的理解,未考慮到數(shù)據(jù)庫表結(jié)構(gòu)的規(guī)范性和數(shù)據(jù)的準(zhǔn)確性,因此,現(xiàn)有仍缺乏利用大語言模型生成檢核數(shù)據(jù)質(zhì)量的sql語句的方案。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述的分析,本發(fā)明實(shí)施例旨在提供一種基于大語言模型的政務(wù)數(shù)據(jù)質(zhì)量檢核規(guī)則生成方法及系統(tǒng),用以解決現(xiàn)有數(shù)據(jù)質(zhì)量檢核規(guī)則需要技術(shù)人員參與,無法自動(dòng)快速地生成和自適應(yīng)調(diào)整的問題。
2、一方面,本發(fā)明實(shí)施例提供了一種基于大語言模型的政務(wù)數(shù)據(jù)質(zhì)量檢核規(guī)則生成方法,包括以下步驟:
3、獲取待檢核的目標(biāo)表及其中各目標(biāo)字段的元數(shù)據(jù)信息;
4、依次取出每個(gè)目標(biāo)字段,根據(jù)目標(biāo)表和目標(biāo)字段的元數(shù)據(jù)信息獲取字段語義向量、聯(lián)合語義向量、字段結(jié)構(gòu)向量和/或枚舉值向量,進(jìn)而從政務(wù)知識(shí)圖譜中檢索相似度最大的歷史字段的知識(shí)片段;知識(shí)片段包括:歷史字段的元數(shù)據(jù)信息、歷史字段關(guān)聯(lián)的數(shù)據(jù)質(zhì)量檢核規(guī)則、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量檢核模板;
5、當(dāng)知識(shí)片段不為空時(shí),根據(jù)目標(biāo)表和目標(biāo)字段的元數(shù)據(jù)信息以及知識(shí)片段構(gòu)建動(dòng)態(tài)提示詞,傳入大語言模型中生成目標(biāo)字段的數(shù)據(jù)質(zhì)量檢核規(guī)則。
6、基于上述方法的進(jìn)一步改進(jìn),字段語義向量是利用嵌入模型獲取目標(biāo)字段注釋的嵌入向量而得到;聯(lián)合語義向量是利用嵌入模型獲取目標(biāo)表注釋和目標(biāo)字段注釋拼接后的嵌入向量而得到;字段結(jié)構(gòu)向量是利用嵌入模型獲取目標(biāo)字段多個(gè)元數(shù)據(jù)拼接后的嵌入向量而得到;枚舉值向量是如果目標(biāo)字段是枚舉類型時(shí),利用嵌入模型獲取枚舉值列表的嵌入向量而得到。
7、基于上述方法的進(jìn)一步改進(jìn),目標(biāo)表及其中各目標(biāo)字段的元數(shù)據(jù)信息包括:目標(biāo)表名、目標(biāo)表注釋、各目標(biāo)字段名、各目標(biāo)字段注釋、各目標(biāo)字段的基本屬性和約束條件;基本屬性包括:數(shù)據(jù)類型、長度、精度和枚舉值列表;約束條件包括:是否主鍵、是否外鍵、是否允許為空、唯一約束和取值范圍約束。
8、基于上述方法的進(jìn)一步改進(jìn),政務(wù)知識(shí)圖譜中各歷史字段具有多個(gè)索引,其中第一索引是根據(jù)歷史字段的聯(lián)合語義向量、字段結(jié)構(gòu)向量和/或枚舉值向量,以及各自的權(quán)重而計(jì)算的加權(quán)融合向量,第二索引是歷史字段的聯(lián)合語義向量,第三索引是歷史字段的字段語義向量。
9、基于上述方法的進(jìn)一步改進(jìn),從政務(wù)知識(shí)圖譜中檢索相似度最大的歷史字段的知識(shí)片段,包括:
10、根據(jù)目標(biāo)字段的聯(lián)合語義向量、字段結(jié)構(gòu)向量和/或枚舉值向量,以及各自的權(quán)重,計(jì)算出目標(biāo)字段的加權(quán)融合向量;
11、按順序依次計(jì)算目標(biāo)字段的加權(quán)融合向量、聯(lián)合語義向量和字段語義向量與政務(wù)知識(shí)圖譜中各歷史字段的第一索引、第二索引和第三索引之間的第一相似度、第二相似度和第三相似度,只要計(jì)算的相似度的最大值大于相似度閾值,則獲取對(duì)應(yīng)的知識(shí)片段后退出檢索。
12、基于上述方法的進(jìn)一步改進(jìn),根據(jù)字段的元數(shù)據(jù)信息對(duì)字段結(jié)構(gòu)向量的權(quán)重和枚舉值向量的初始權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整,公式如下所示:
13、
14、其中,ws和分別表示字段結(jié)構(gòu)向量調(diào)整后的權(quán)重和初始權(quán)重,we和分別表示枚舉值向量調(diào)整后的權(quán)重和初始權(quán)重,k表示枚舉系數(shù);r表示權(quán)重增長系數(shù),m表示字段元數(shù)據(jù)信息中不為0的數(shù)量。
15、基于上述方法的進(jìn)一步改進(jìn),如果第一相似度的最大值大于相似度閾值,則獲取對(duì)應(yīng)的知識(shí)片段包括:第一相似度最大值對(duì)應(yīng)的歷史字段的元數(shù)據(jù)信息,及其關(guān)聯(lián)的歷史數(shù)據(jù)質(zhì)量檢核規(guī)則;如果第二相似度的最大值大于相似度閾值,則獲取對(duì)應(yīng)的知識(shí)片段包括:第二相似度最大值對(duì)應(yīng)的歷史字段的元數(shù)據(jù)信息,以及數(shù)據(jù)質(zhì)量檢核模板中字段屬性一致性檢核模板;如果第三相似度的最大值大于相似度閾值,則獲取對(duì)應(yīng)的知識(shí)片段包括:第三相似度最大值對(duì)應(yīng)的歷史字段遵循的數(shù)據(jù)標(biāo)準(zhǔn),以及數(shù)據(jù)標(biāo)準(zhǔn)相關(guān)的數(shù)據(jù)質(zhì)量檢核模板。
16、基于上述方法的進(jìn)一步改進(jìn),根據(jù)目標(biāo)表和目標(biāo)字段的元數(shù)據(jù)信息以及知識(shí)片段構(gòu)建動(dòng)態(tài)提示詞,包括:
17、設(shè)定角色為數(shù)據(jù)質(zhì)量檢核規(guī)則生成專家;
18、如果知識(shí)片段中存在歷史數(shù)據(jù)質(zhì)量檢核規(guī)則,則對(duì)角色設(shè)定的任務(wù)目標(biāo)是:參考?xì)v史字段和歷史數(shù)據(jù)質(zhì)量檢核規(guī)則,對(duì)待檢核表中的當(dāng)前字段生成數(shù)據(jù)質(zhì)量檢核規(guī)則;如果知識(shí)片段中存在數(shù)據(jù)標(biāo)準(zhǔn),則對(duì)角色設(shè)定的任務(wù)目標(biāo)是:參考數(shù)據(jù)標(biāo)準(zhǔn)及其相關(guān)的數(shù)據(jù)質(zhì)量檢核模板,對(duì)待檢核表中的當(dāng)前字段生成其與數(shù)據(jù)標(biāo)準(zhǔn)是否一致的檢核規(guī)則;否則,對(duì)角色設(shè)定的任務(wù)目標(biāo)是:參考字段屬性一致性檢核模板,對(duì)待檢核表中的當(dāng)前字段生成其與歷史字段屬性一致性的檢核規(guī)則;
19、根據(jù)目標(biāo)表和目標(biāo)字段的元數(shù)據(jù)信息設(shè)定提示詞中的待檢核表和當(dāng)前字段;根據(jù)知識(shí)片段設(shè)定提示詞中任務(wù)目標(biāo)所需的參考信息。
20、基于上述方法的進(jìn)一步改進(jìn),大語言模型是在基座大模型的基礎(chǔ)上進(jìn)行有監(jiān)督微調(diào)訓(xùn)練而得到;大語言模型的損失函數(shù)包括sql生成損失和sql語法損失;sql生成損失采用交叉熵?fù)p失函數(shù)計(jì)算得到,sql語法損失是通過對(duì)大語言模型輸出的數(shù)據(jù)質(zhì)量檢核規(guī)則進(jìn)行語法錯(cuò)誤檢測(cè),根據(jù)語法檢測(cè)結(jié)果中各類型的語法錯(cuò)誤數(shù)量和權(quán)重計(jì)算得到。
21、另一方面,本發(fā)明實(shí)施例提供了一種基于大語言模型的政務(wù)數(shù)據(jù)質(zhì)量檢核規(guī)則生成系統(tǒng),包括:
22、元數(shù)據(jù)提取模塊,用于獲取待檢核的目標(biāo)表及其中各目標(biāo)字段的元數(shù)據(jù)信息;
23、知識(shí)片段檢索模塊,用于依次取出每個(gè)目標(biāo)字段,根據(jù)目標(biāo)表和目標(biāo)字段的元數(shù)據(jù)信息獲取字段語義向量、聯(lián)合語義向量、字段結(jié)構(gòu)向量和/或枚舉值向量,進(jìn)而從政務(wù)知識(shí)圖譜中檢索相似度最大的歷史字段的知識(shí)片段;知識(shí)片段包括:歷史字段的元數(shù)據(jù)信息、歷史字段關(guān)聯(lián)的數(shù)據(jù)質(zhì)量檢核規(guī)則、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量檢核模板;
24、檢核規(guī)則生成模塊,用于當(dāng)知識(shí)片段不為空時(shí),根據(jù)目標(biāo)表和目標(biāo)字段的元數(shù)據(jù)信息以及知識(shí)片段構(gòu)建動(dòng)態(tài)提示詞,傳入大語言模型中生成目標(biāo)字段的數(shù)據(jù)質(zhì)量檢核規(guī)則。
25、與現(xiàn)有技術(shù)相比,本發(fā)明至少可實(shí)現(xiàn)如下有益效果之一:
26、1、先基于元數(shù)據(jù)信息從不同維度和層次提取字段的特征向量,再結(jié)合政務(wù)知識(shí)圖譜自適應(yīng)檢索相關(guān)的知識(shí)片段,實(shí)現(xiàn)了自動(dòng)調(diào)整檢索策略和靈活選擇知識(shí)片段,最后利用大語言模型快速生成數(shù)據(jù)質(zhì)量檢核規(guī)則,形成了一套完整自動(dòng)化的數(shù)據(jù)質(zhì)量保障體系,能夠全面、深入地檢測(cè)和提升數(shù)據(jù)質(zhì)量,有效解決數(shù)據(jù)一致性、準(zhǔn)確性和完整性等問題,確保數(shù)據(jù)可靠。
27、2、根據(jù)字段的元數(shù)據(jù)信息實(shí)現(xiàn)了不同特征向量權(quán)重的動(dòng)態(tài)調(diào)整,加權(quán)融合字段的語義、結(jié)構(gòu)和枚舉值特征,提升了對(duì)字段的深度理解和精準(zhǔn)分析的能力,確保生成的語句與數(shù)據(jù)庫的實(shí)際結(jié)構(gòu)緊密匹配,提升了數(shù)據(jù)質(zhì)量規(guī)則的準(zhǔn)確性。
28、3、根據(jù)元數(shù)據(jù)信息和自適應(yīng)檢索的知識(shí)片段,構(gòu)建動(dòng)態(tài)高效的提示詞,提升大語言模型的生成能力;將數(shù)據(jù)質(zhì)量檢核規(guī)則的語法檢測(cè)結(jié)果引入損失函數(shù)中,引導(dǎo)模型在學(xué)習(xí)過程中不斷優(yōu)化對(duì)語法錯(cuò)誤的識(shí)別和糾正能力,從而提高模型在面對(duì)各種復(fù)雜語法錯(cuò)誤時(shí)的魯棒性和適應(yīng)性。
29、本發(fā)明中,上述各技術(shù)方案之間還可以相互組合,以實(shí)現(xiàn)更多的優(yōu)選組合方案。本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分優(yōu)點(diǎn)可從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過說明書以及附圖中所特別指出的內(nèi)容中來實(shí)現(xiàn)和獲得。