本發(fā)明涉及數(shù)據(jù)管理與知識圖譜,尤其涉及一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法、裝置。
背景技術(shù):
1、隨著民政業(yè)務(wù)數(shù)字化程度的提升,民政數(shù)據(jù)的規(guī)模與復(fù)雜性不斷增加。數(shù)據(jù)血緣作為數(shù)據(jù)治理的基石,是指數(shù)據(jù)從源頭到最終應(yīng)用的全鏈條記錄,對于確保數(shù)據(jù)質(zhì)量、提升數(shù)據(jù)價值、實現(xiàn)數(shù)據(jù)合規(guī)管理具有重要意義。數(shù)據(jù)血緣的追溯與管理不僅能夠幫助民政部門理解數(shù)據(jù)的來龍去脈,還能在數(shù)據(jù)出現(xiàn)問題時快速定位原因,有效避免數(shù)據(jù)錯誤和濫用。因此,數(shù)據(jù)血緣知識圖譜的構(gòu)建成為數(shù)據(jù)管理與知識圖譜技術(shù)領(lǐng)域的研究熱點。
2、在傳統(tǒng)的數(shù)據(jù)血緣分析中,主要依賴人工標(biāo)注或基于規(guī)則的系統(tǒng)日志解析方法。這些方法在一定程度上實現(xiàn)了數(shù)據(jù)血緣的追蹤,但在面對復(fù)雜多變的數(shù)據(jù)處理場景時,其局限性逐漸顯現(xiàn)。例如,傳統(tǒng)的基于規(guī)則的方法難以準(zhǔn)確識別異構(gòu)數(shù)據(jù)源的動態(tài)關(guān)聯(lián)關(guān)系,特別是在處理嵌套sql邏輯等復(fù)雜加工邏輯時,解析能力不足。此外,實體關(guān)系抽取多依賴固定規(guī)則庫,這使得系統(tǒng)難以適應(yīng)數(shù)據(jù)處理邏輯的動態(tài)變化,缺乏自適應(yīng)性。
3、隨著自然語言處理(nlp)技術(shù)的飛速發(fā)展,大語言模型(llm)作為nlp領(lǐng)域的突破性技術(shù),展現(xiàn)出了強大的語義理解和生成能力。llm通過學(xué)習(xí)海量文本數(shù)據(jù),能夠理解和生成語義豐富的語言信息,這為數(shù)據(jù)血緣的自動抽取提供了新的思路。然而,將llm應(yīng)用于數(shù)據(jù)血緣抽取領(lǐng)域仍面臨諸多挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法、裝置,解決了現(xiàn)有技術(shù)中難以準(zhǔn)確解析復(fù)雜sql語句、處理虛擬表冗余和數(shù)據(jù)節(jié)點重復(fù)問題的缺陷,實現(xiàn)了高精度、自動化的民政數(shù)據(jù)血緣知識圖譜構(gòu)建。
2、本發(fā)明提供一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法,包括如下步驟:
3、基于民政數(shù)據(jù)的元數(shù)據(jù)特征提取構(gòu)建基礎(chǔ)實體網(wǎng)絡(luò),所述基礎(chǔ)實體網(wǎng)絡(luò)包括數(shù)據(jù)表、字段;
4、基于所述基礎(chǔ)實體網(wǎng)絡(luò),對數(shù)據(jù)表結(jié)構(gòu)進(jìn)行解析,生成數(shù)據(jù)表結(jié)構(gòu)關(guān)系模型;
5、基于所述數(shù)據(jù)表結(jié)構(gòu)關(guān)系模型,通過大模型解析復(fù)雜結(jié)構(gòu)化查詢語言語句,識別字段級血緣關(guān)聯(lián),生成初步的血緣關(guān)系圖譜;
6、基于所述初步的血緣關(guān)系圖譜,遍歷所有物理源表,消除虛擬表冗余和數(shù)據(jù)節(jié)點重復(fù),生成優(yōu)化后的血緣關(guān)系圖譜;
7、基于所述優(yōu)化后的血緣關(guān)系圖譜,識別公共數(shù)據(jù)節(jié)點并合并字段級數(shù)據(jù)血緣,生成最終的民政數(shù)據(jù)血緣關(guān)系圖譜。
8、根據(jù)本發(fā)明提供的一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法,所述通過大模型解析復(fù)雜結(jié)構(gòu)化查詢語言語句,識別字段級血緣關(guān)聯(lián),生成初步的血緣關(guān)系圖譜,具體包括:將結(jié)構(gòu)化查詢語言語句解析為增強型抽象語法樹;根據(jù)所述增強型抽象語法樹生成結(jié)構(gòu)化查詢語言查詢的綜合復(fù)雜度得分;若復(fù)雜度得分超過預(yù)設(shè)閾值,則通過大模型將復(fù)雜結(jié)構(gòu)化查詢語言語句拆解為多個原子化的結(jié)構(gòu)化查詢語言查詢單元;從拆解后的結(jié)構(gòu)化查詢語言查詢單元中提取數(shù)據(jù)表生成路徑及字段級映射規(guī)則,生成初步的血緣關(guān)系圖譜。
9、根據(jù)本發(fā)明提供的一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法,所述將結(jié)構(gòu)化查詢語言語句解析為增強型抽象語法樹,具體包括:對結(jié)構(gòu)化查詢語言查詢字符串進(jìn)行預(yù)處理;對預(yù)處理后的結(jié)構(gòu)化查詢語言查詢字符串進(jìn)行初步解析,生成基礎(chǔ)的抽象語法樹;遍歷基礎(chǔ)的抽象語法樹的每個子節(jié)點,根據(jù)子節(jié)點的類型進(jìn)行不同的處理;在遍歷并處理完所有子節(jié)點后,返回增強型抽象語法樹。
10、根據(jù)本發(fā)明提供的一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法,所述根據(jù)所述增強型抽象語法樹生成結(jié)構(gòu)化查詢語言查詢的綜合復(fù)雜度得分,具體包括:提取增強型抽象語法樹中的復(fù)雜度特征,對提取的每個復(fù)雜度特征進(jìn)行歸一化處理,并計算每個復(fù)雜度特征的歸一化值;對每個歸一化后的復(fù)雜度特征分配相應(yīng)的權(quán)重;根據(jù)每個復(fù)雜度特征的歸一化值和相應(yīng)的權(quán)重計算綜合復(fù)雜度得分。
11、根據(jù)本發(fā)明提供的一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法,所述從拆解后的結(jié)構(gòu)化查詢語言查詢單元中提取數(shù)據(jù)表生成路徑及字段級映射規(guī)則,生成初步的血緣關(guān)系圖譜,具體包括:將拆解后的多個原子化的結(jié)構(gòu)化查詢語言查詢單元輸入到大模型中;對每個結(jié)構(gòu)化查詢語言查詢單元進(jìn)行解析,提取表級血緣關(guān)系和字段級血緣關(guān)系;將提取的所述表級血緣關(guān)系和所述字段級血緣關(guān)系整合,生成初步的血緣關(guān)系圖譜。
12、根據(jù)本發(fā)明提供的一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法,所述基于所述初步的血緣關(guān)系圖譜,遍歷所有物理源表,消除虛擬表冗余和數(shù)據(jù)節(jié)點重復(fù),生成優(yōu)化后的血緣關(guān)系圖譜,具體包括:根據(jù)初步的血緣關(guān)系圖譜,構(gòu)建表與字段的鄰接表;從所述鄰接表中標(biāo)記虛擬表并篩選物理源表;初始化廣度優(yōu)先搜索所需的隊列、已訪問節(jié)點集合和合并后的映射列表,并將物理源表加入隊列;通過廣度優(yōu)先搜索遍歷鄰接表,合并字段映射關(guān)系,并更新合并后的映射列表和已訪問節(jié)點集合;對合并后的映射列表進(jìn)行去重處理,去除冗余的映射關(guān)系;將去重后的映射列表轉(zhuǎn)換為優(yōu)化后的血緣關(guān)系圖譜。
13、根據(jù)本發(fā)明提供的一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法,所述基于所述優(yōu)化后的血緣關(guān)系圖譜,識別公共數(shù)據(jù)節(jié)點并合并字段級數(shù)據(jù)血緣,生成最終的民政數(shù)據(jù)血緣關(guān)系圖譜,具體包括:遍歷優(yōu)化后的血緣關(guān)系圖譜中的所有表節(jié)點,識別公共數(shù)據(jù)節(jié)點;對于每個識別出的公共數(shù)據(jù)節(jié)點,觸發(fā)字段級對齊流程進(jìn)行字段節(jié)點匹配;對于匹配成功的字段節(jié)點,合并其字段級數(shù)據(jù)血緣將合并后的字段級數(shù)據(jù)血緣整合到優(yōu)化后的血緣關(guān)系圖譜中,生成最終的民政數(shù)據(jù)血緣關(guān)系圖譜。
14、本發(fā)明還提供一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造裝置,包括如下模塊:
15、基礎(chǔ)實體網(wǎng)絡(luò)構(gòu)建模塊,用于基于民政數(shù)據(jù)的元數(shù)據(jù)特征提取構(gòu)建基礎(chǔ)實體網(wǎng)絡(luò),所述基礎(chǔ)實體網(wǎng)絡(luò)包括數(shù)據(jù)表、字段;
16、數(shù)據(jù)表結(jié)構(gòu)關(guān)系模型生成模塊,用于基于所述基礎(chǔ)實體網(wǎng)絡(luò),對數(shù)據(jù)表結(jié)構(gòu)進(jìn)行解析,生成數(shù)據(jù)表結(jié)構(gòu)關(guān)系模型;
17、初步的血緣關(guān)系圖譜生成模塊,用于基于所述數(shù)據(jù)表結(jié)構(gòu)關(guān)系模型,通過大模型解析復(fù)雜結(jié)構(gòu)化查詢語言語句,識別字段級血緣關(guān)聯(lián),生成初步的血緣關(guān)系圖譜;
18、優(yōu)化后的血緣關(guān)系圖譜生成模塊,用于基于所述初步的血緣關(guān)系圖譜,遍歷所有物理源表,消除虛擬表冗余和數(shù)據(jù)節(jié)點重復(fù),生成優(yōu)化后的血緣關(guān)系圖譜;
19、最終的血緣關(guān)系圖譜生成模塊,用于基于所述優(yōu)化后的血緣關(guān)系圖譜,識別公共數(shù)據(jù)節(jié)點并合并字段級數(shù)據(jù)血緣,生成最終的民政數(shù)據(jù)血緣關(guān)系圖譜。
20、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如上述任一種所述基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法。
21、本發(fā)明還提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法。
22、本發(fā)明還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法。
23、本發(fā)明提供的一種基于大模型的民政數(shù)據(jù)血緣知識圖譜的構(gòu)造方法、裝置,包括以下有益效果:通過構(gòu)建數(shù)據(jù)血緣知識圖譜,可以清晰地追蹤數(shù)據(jù)的來源和流向,從而提高數(shù)據(jù)管理的透明度,有助于組織更好地理解其數(shù)據(jù)資產(chǎn),并優(yōu)化數(shù)據(jù)的使用和管理。通過解析數(shù)據(jù)表結(jié)構(gòu)和sql語句,識別字段級血緣關(guān)聯(lián),可以幫助組織發(fā)現(xiàn)數(shù)據(jù)之間的依賴關(guān)系,進(jìn)而在數(shù)據(jù)出現(xiàn)問題時迅速定位并修復(fù),提高數(shù)據(jù)質(zhì)量。通過生成優(yōu)化后的血緣關(guān)系圖譜,可以消除虛擬表冗余和數(shù)據(jù)節(jié)點重復(fù),從而減少不必要的數(shù)據(jù)處理,提升數(shù)據(jù)處理效率。通過識別公共數(shù)據(jù)節(jié)點并合并字段級數(shù)據(jù)血緣,可以進(jìn)一步簡化數(shù)據(jù)關(guān)系網(wǎng)絡(luò),有助于組織更有效地進(jìn)行數(shù)據(jù)治理和決策。