最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種數(shù)據(jù)探查方法及系統(tǒng)與流程

文檔序號(hào):41954842發(fā)布日期:2025-05-16 14:20閱讀:3來源:國知局
一種數(shù)據(jù)探查方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)探查,具體而言,涉及一種數(shù)據(jù)探查方法及系統(tǒng)。


背景技術(shù):

1、隨著大數(shù)據(jù)在各行業(yè)中的應(yīng)用越來越廣泛,數(shù)據(jù)治理的重要性日益凸顯,尤其是隨著數(shù)據(jù)合規(guī)性和隱私保護(hù)要求的逐步加強(qiáng),數(shù)據(jù)治理在組織信息安全體系中的地位得到進(jìn)一步強(qiáng)化。

2、推動(dòng)數(shù)字化轉(zhuǎn)型、加速數(shù)據(jù)資產(chǎn)的管理與利用,必須將數(shù)據(jù)治理作為核心環(huán)節(jié)。數(shù)據(jù)治理的方法有多種,數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)清洗、數(shù)據(jù)整合等技術(shù)手段都能有效提升數(shù)據(jù)的可用性和可靠性;然而,在復(fù)雜的大數(shù)據(jù)環(huán)境中,如何全面摸底、深入評(píng)估數(shù)據(jù)資產(chǎn),保證數(shù)據(jù)的結(jié)構(gòu)、質(zhì)量和使用情況得到準(zhǔn)確識(shí)別,成為當(dāng)前一個(gè)亟需解決的問題。

3、數(shù)據(jù)探查是一種用于獲取、理解和評(píng)估數(shù)據(jù)庫信息和結(jié)構(gòu)的技術(shù),包括:數(shù)據(jù)庫結(jié)構(gòu)的探查,包括表的設(shè)計(jì)、關(guān)系模型、數(shù)據(jù)類型等;數(shù)據(jù)內(nèi)容的探查,包括數(shù)據(jù)的分布、異常值、缺失值等;性能優(yōu)化的探查,包括查詢優(yōu)化、索引優(yōu)化等;安全性的探查,包括訪問權(quán)限、數(shù)據(jù)加密等?,F(xiàn)有的數(shù)據(jù)探查技術(shù)雖然能夠幫助企業(yè)分析和識(shí)別數(shù)據(jù)庫中的數(shù)據(jù)資產(chǎn),但是存在以下一些明顯的缺點(diǎn):

4、1、現(xiàn)有的數(shù)據(jù)探查方法大多依賴人工或半自動(dòng)化手段進(jìn)行數(shù)據(jù)庫分析,效率較低,特別是在面對(duì)龐大且復(fù)雜的數(shù)據(jù)庫時(shí),無法快速完成全面的數(shù)據(jù)探查。

5、2、傳統(tǒng)的數(shù)據(jù)探查技術(shù)通常只能識(shí)別基本的數(shù)據(jù)問題,如空值、異常數(shù)據(jù)和重復(fù)記錄等,缺乏對(duì)數(shù)據(jù)之間復(fù)雜關(guān)系和潛在問題的深入分析。

6、3、現(xiàn)有的數(shù)據(jù)探查技術(shù)的智能化分析能力較弱,難以適應(yīng)于大規(guī)模數(shù)據(jù)和分布式數(shù)據(jù)庫環(huán)境的探查分析,并且無法實(shí)現(xiàn)全方位、實(shí)時(shí)的風(fēng)險(xiǎn)識(shí)別。


技術(shù)實(shí)現(xiàn)思路

1、鑒于此,本發(fā)明的目的在于提出一種數(shù)據(jù)探查方法及系統(tǒng),設(shè)計(jì)一種高效、智能的數(shù)據(jù)探查方法,該方法能夠自動(dòng)化識(shí)別數(shù)據(jù)庫中的各類數(shù)據(jù)資產(chǎn),快速發(fā)現(xiàn)數(shù)據(jù)中的潛在問題,并深入挖掘數(shù)據(jù)之間的關(guān)系和依賴;通過智能化分析,系統(tǒng)能夠高效處理大規(guī)模數(shù)據(jù),適應(yīng)分布式數(shù)據(jù)庫環(huán)境,并實(shí)時(shí)識(shí)別潛在的性能瓶頸和風(fēng)險(xiǎn);用戶只需提供數(shù)據(jù)庫連接信息和相關(guān)參數(shù),系統(tǒng)即可自動(dòng)完成數(shù)據(jù)探查過程,顯著提高工作效率,減少人為干預(yù),并為后續(xù)的數(shù)據(jù)治理提供有力支持。

2、本發(fā)明提供一種數(shù)據(jù)探查方法,包括以下步驟:

3、s1、元數(shù)據(jù)基礎(chǔ)信息探查:輸入數(shù)據(jù)庫連接信息和相關(guān)參數(shù),建立數(shù)據(jù)庫連接并獲取元數(shù)據(jù)信息,掃描數(shù)據(jù)庫中的核心表,獲取字段詳細(xì)信息,統(tǒng)計(jì)索引和約束信息,存儲(chǔ)元數(shù)據(jù);元數(shù)據(jù)字段安全屬性探查:標(biāo)識(shí)敏感字段,檢查字段的安全措施,檢測字段權(quán)限分配;元數(shù)據(jù)血緣關(guān)系探查:分析表與表的主外鍵關(guān)系,字段級(jí)依賴關(guān)系探查分析,構(gòu)建元數(shù)據(jù)血緣圖譜;

4、s2、空值、null值及非空占比探查:空值統(tǒng)計(jì),null值統(tǒng)計(jì),非空占比計(jì)算;數(shù)據(jù)量與分布探查:無數(shù)據(jù)統(tǒng)計(jì),數(shù)據(jù)量統(tǒng)計(jì),空值占比分析;字段屬性及分布探查:主鍵長度統(tǒng)計(jì),重復(fù)數(shù)據(jù)探查,數(shù)值分布探查,值域分析,維度分布分析,取值說明生成;安全性探查:安全掃描并推薦安全策略;

5、s3、數(shù)據(jù)安全性分析:敏感數(shù)據(jù)識(shí)別,安全措施建議;數(shù)據(jù)完整性及分布分析:數(shù)據(jù)空值分布分析,數(shù)據(jù)值域分布分析;數(shù)據(jù)關(guān)系及分布分析:數(shù)據(jù)關(guān)系分析,數(shù)據(jù)分布分析,數(shù)據(jù)量占比分析,無數(shù)據(jù)top分析。

6、進(jìn)一步地,所述s1步驟的輸入數(shù)據(jù)庫連接信息和相關(guān)參數(shù)中的所述數(shù)據(jù)庫連接信息是用戶提供的用于連接目標(biāo)數(shù)據(jù)庫的必要參數(shù),包括數(shù)據(jù)庫的ip地址、端口號(hào)、用戶名、密碼以及數(shù)據(jù)庫類型(如mysql、postgresql、oracle等);

7、所述相關(guān)參數(shù)為需用戶選擇的探查范圍(如具體數(shù)據(jù)庫名稱或表名稱),以便明確探查目標(biāo);

8、所述s1步驟的建立數(shù)據(jù)庫連接并獲取元數(shù)據(jù)信息的方法包括:

9、根據(jù)提供的數(shù)據(jù)庫連接信息,連接到目標(biāo)關(guān)系型數(shù)據(jù)庫;通過系統(tǒng)表或數(shù)據(jù)庫管理接口獲取數(shù)據(jù)庫的元數(shù)據(jù)信息;元數(shù)據(jù)信息如表結(jié)構(gòu)、字段定義、索引、主外鍵等;

10、所述s1步驟的掃描數(shù)據(jù)庫中的核心表的方法包括:

11、自動(dòng)識(shí)別用戶表、系統(tǒng)管理表及空間信息表,通過表名模式(如“user%”“sys%”“spatial%”)匹配篩選目標(biāo)表;提取表的基本信息,如表名、表類型、存儲(chǔ)引擎等。

12、進(jìn)一步地,所述s1步驟的獲取字段詳細(xì)信息的方法包括:

13、針對(duì)每張表,逐個(gè)掃描字段,提取字段的定義信息,所述定義信息包括字段名稱、數(shù)據(jù)類型(如varchar、int、decimal等)、字段長度、是否允許空值、默認(rèn)值、是否為主鍵或外鍵。

14、所述s1步驟的統(tǒng)計(jì)索引和約束信息的方法包括:

15、從表的定義中提取主鍵索引、唯一索引及普通索引信息,統(tǒng)計(jì)每種索引的覆蓋率和數(shù)量;同時(shí)檢查表的約束定義,例如外鍵約束是否關(guān)聯(lián)到有效的主鍵字段。優(yōu)選地,分析表中使用的索引類型、約束信息,并評(píng)估索引覆蓋率和冗余。

16、所述s1步驟的存儲(chǔ)元數(shù)據(jù)的方法包括:

17、將表和字段的信息存儲(chǔ)到管理元數(shù)據(jù)的存儲(chǔ)庫,生成元數(shù)據(jù)清單,包含表的基本信息、字段定義、索引及約束等,以支持后續(xù)探查分析。

18、進(jìn)一步地,所述s1步驟的標(biāo)識(shí)敏感字段的方法包括:通過字段名稱匹配敏感詞(如“身份證號(hào)”“銀行卡號(hào)”)和字段類型(如varchar,長度超過20),篩選可能包含敏感信息的字段;優(yōu)選地,通過字段名稱和數(shù)據(jù)類型,識(shí)別并標(biāo)記可能包含敏感數(shù)據(jù)的字段(如身份證號(hào)、手機(jī)號(hào)等)。

19、所述s1步驟的檢查字段的安全措施的方法包括:

20、檢測敏感字段是否進(jìn)行了加密存儲(chǔ)(如檢查是否為密文格式)、是否采用了脫敏處理(如部分顯示“****”)、是否設(shè)置了訪問權(quán)限。具體地,分析敏感字段是否進(jìn)行了加密、脫敏或訪問權(quán)限限制。

21、所述s1步驟的檢測字段權(quán)限分配的方法包括:從權(quán)限配置中提取敏感字段的訪問權(quán)限,檢查是否存在不合理分配(如普通用戶組擁有寫權(quán)限);具體地,評(píng)估字段的訪問權(quán)限是否過大或分配不合理,尤其是敏感字段。

22、所述s1步驟的分析表與表的主外鍵關(guān)系的方法包括:

23、根據(jù)主鍵和外鍵定義,提取表與表之間的關(guān)聯(lián)關(guān)系,構(gòu)建表級(jí)血緣關(guān)系;具體地,分析表與表之間的主外鍵關(guān)系,生成表級(jí)的血緣關(guān)系圖;

24、所述s1步驟的字段級(jí)依賴關(guān)系探查分析的方法包括:

25、分析字段之間的派生關(guān)系和計(jì)算邏輯,標(biāo)記字段的來源;具體地,分析字段之間的依賴關(guān)系,生成字段級(jí)的血緣關(guān)系圖;

26、所述s1步驟的構(gòu)建元數(shù)據(jù)血緣圖譜的方法包括:

27、根據(jù)表和字段的依賴關(guān)系,生成可視化的血緣圖譜。優(yōu)選地,生成完整的數(shù)據(jù)庫血緣圖譜,展示表和字段的依賴關(guān)系。

28、進(jìn)一步地,所述s2步驟的空值統(tǒng)計(jì)的方法包括:

29、統(tǒng)計(jì)每個(gè)字段中空值(null值和空字符串)的數(shù)量,并計(jì)算空值在字段的占比,幫助識(shí)別哪些字段存在大量空值,標(biāo)記出可能影響數(shù)據(jù)完整性的字段。

30、所述s2步驟的null值統(tǒng)計(jì)的方法包括:

31、區(qū)分字段中的顯式null值和隱式空值(例如空字符串與null的區(qū)別),并分別計(jì)算顯式null值和隱式空值的總量和占比,保證null值統(tǒng)計(jì)、特別是對(duì)于數(shù)據(jù)質(zhì)量的評(píng)估的準(zhǔn)確性。

32、所述s2步驟的非空占比計(jì)算的方法包括:

33、計(jì)算每個(gè)字段的非空值占比,通過比較非空值占比,評(píng)估字段的實(shí)際數(shù)據(jù)利用率;優(yōu)選地,特別關(guān)注核心業(yè)務(wù)字段的非空比例,以保證數(shù)據(jù)的可用性。

34、所述s2步驟的無數(shù)據(jù)統(tǒng)計(jì)的方法包括:

35、檢查每個(gè)字段是否存在完全沒有數(shù)據(jù)的情況(即所有值都是null或空字符串),并標(biāo)記出這些異常字段,對(duì)于完全無數(shù)據(jù)的字段,生成警告提示并列出表名和字段。

36、所述s2步驟的數(shù)據(jù)量統(tǒng)計(jì)的方法包括:

37、統(tǒng)計(jì)每個(gè)表中記錄的總數(shù),分析每個(gè)字段的記錄量分布情況,幫助發(fā)現(xiàn)數(shù)據(jù)量過大或過小的表或字段,識(shí)別數(shù)據(jù)量異常的字段;此步驟對(duì)于檢測性能瓶頸、存儲(chǔ)容量問題和數(shù)據(jù)缺失有重要意義。

38、所述s2步驟的空值占比分析的方法包括:

39、根據(jù)字段的空值比例,記錄空值比例較高的字段和對(duì)業(yè)務(wù)邏輯至關(guān)重要的字段,這些字段的空值占比超過預(yù)設(shè)閾值時(shí),生成警告信息。優(yōu)選地,分析空值占比高的字段,標(biāo)記可能影響業(yè)務(wù)的異常字段。

40、進(jìn)一步地,所述s2步驟的主鍵長度統(tǒng)計(jì)的方法包括:

41、檢查所有主鍵字段的長度,分析該主鍵字段的長度是否影響數(shù)據(jù)庫的性能或存儲(chǔ)效率;具體地,統(tǒng)計(jì)主鍵字段的長度及合理性,檢查是否存在冗余或過長的主鍵字段。

42、所述s2步驟的重復(fù)數(shù)據(jù)探查的方法包括:

43、檢測表中重復(fù)記錄的數(shù)量和非主鍵字段的重復(fù)值,保證表中不存在不必要的冗余數(shù)據(jù),通過查找重復(fù)記錄,標(biāo)記含有大量重復(fù)數(shù)據(jù)(重復(fù)數(shù)據(jù)嚴(yán)重)的表和字段。

44、所述s2步驟的數(shù)值分布探查的方法包括:

45、對(duì)所有數(shù)值型字段(如?int、decimal)進(jìn)行分布分析,計(jì)算字段的最小值、最大值、平均值、標(biāo)準(zhǔn)差的統(tǒng)計(jì)信息,并標(biāo)記出不符合預(yù)期的極端值或異常值;

46、所述s2步驟的值域分析的方法包括:

47、分析枚舉類型或有限取值字段的值域,并統(tǒng)計(jì)這些字段的不同取值情況,通過值域范圍,發(fā)現(xiàn)字段中存在的異常值或者值域之外的數(shù)據(jù)。

48、所述s2步驟的維度分布分析的方法包括:

49、分析維度字段(如?city、product_category?等)的取值分布情況,并標(biāo)記值分布過于集中或分散的字段(異常分布)。

50、所述s2步驟的取值說明生成的方法包括:

51、根據(jù)字段的取值范圍、頻率分析,為每個(gè)字段生成取值說明;對(duì)于枚舉型字段,列出字段的值域范圍及主要取值占比,幫助用戶理解字段內(nèi)容。

52、所述s2步驟的安全掃描并推薦安全策略的方法包括:

53、根據(jù)數(shù)據(jù)探查結(jié)果,針對(duì)敏感字段提供安全建議策略,所述安全建議策略包括是否需要進(jìn)行加密、脫敏處理,是否需要增加訪問控制;為每個(gè)敏感字段生成安全掃描報(bào)告,并推薦安全措施。

54、進(jìn)一步地,所述s3步驟的敏感數(shù)據(jù)識(shí)別的方法包括:

55、結(jié)合業(yè)務(wù)探查結(jié)果和敏感字段標(biāo)記,分析敏感數(shù)據(jù)的分布情況,評(píng)估敏感數(shù)據(jù)的安全性(潛在的數(shù)據(jù)安全隱患)。

56、所述s3步驟的安全措施建議的方法包括:

57、根據(jù)敏感數(shù)據(jù)的分布和現(xiàn)有的安全措施,生成針對(duì)性的安全優(yōu)化建議;具體地,根據(jù)安全掃描報(bào)告結(jié)果,生成安全優(yōu)化建議。

58、所述s3步驟的數(shù)據(jù)空值分布分析的方法包括:

59、統(tǒng)計(jì)所有表和字段的空值分布情況,生成空值熱力圖,并標(biāo)記出空值過高的字段;對(duì)于業(yè)務(wù)關(guān)鍵字段,將空值分布不均的情況標(biāo)記為異常。

60、所述s3步驟的數(shù)據(jù)值域分布分析的方法包括:

61、分析字段值域的集中度,計(jì)算標(biāo)準(zhǔn)差、最大值、最小值等,識(shí)別出極端值和異常值;優(yōu)選地,發(fā)現(xiàn)異常值進(jìn)行標(biāo)記。

62、所述s3步驟的數(shù)據(jù)關(guān)系分析的方法包括:

63、結(jié)合元數(shù)據(jù)血緣關(guān)系圖,分析表與表之間的邏輯關(guān)系(分析數(shù)據(jù)間的依賴和潛在沖突),通過追溯字段之間的依賴關(guān)系,標(biāo)記潛在的冗余字段、沖突數(shù)據(jù)或不必要的表間依賴。

64、所述s3步驟的數(shù)據(jù)分布分析的方法包括:

65、統(tǒng)計(jì)表中各字段的數(shù)據(jù)量占比,識(shí)別出數(shù)據(jù)量大的表或字段,分析可能的性能瓶頸。通過分析數(shù)據(jù)表或字段在整體數(shù)據(jù)量中的占比,發(fā)現(xiàn)性能瓶頸。

66、所述s3步驟的數(shù)據(jù)量占比分析的方法包括:

67、生成字段數(shù)據(jù)量占比圖,標(biāo)識(shí)數(shù)據(jù)量嚴(yán)重不均衡的字段,識(shí)別不平衡的數(shù)據(jù)分布。

68、所述s3步驟的無數(shù)據(jù)top分析的方法包括:統(tǒng)計(jì)無數(shù)據(jù)的字段數(shù)量,生成無數(shù)據(jù)字段,供后續(xù)優(yōu)化使用。

69、本發(fā)明還提供一種數(shù)據(jù)探查系統(tǒng),執(zhí)行如上述所述的數(shù)據(jù)探查方法,包括:

70、元數(shù)據(jù)技術(shù)信息探查模塊:用于元數(shù)據(jù)基礎(chǔ)信息探查:輸入數(shù)據(jù)庫連接信息和相關(guān)參數(shù),建立數(shù)據(jù)庫連接并獲取元數(shù)據(jù)信息,掃描數(shù)據(jù)庫中的核心表,獲取字段詳細(xì)信息,統(tǒng)計(jì)索引和約束信息,存儲(chǔ)元數(shù)據(jù);元數(shù)據(jù)字段安全屬性探查:標(biāo)識(shí)敏感字段,檢查字段的安全措施,檢測字段權(quán)限分配;元數(shù)據(jù)血緣關(guān)系探查:分析表與表的主外鍵關(guān)系,字段級(jí)依賴關(guān)系探查分析,構(gòu)建元數(shù)據(jù)血緣圖譜;

71、業(yè)務(wù)信息探查模塊:用于空值、null值及非空占比探查:空值統(tǒng)計(jì),null值統(tǒng)計(jì),非空占比計(jì)算;數(shù)據(jù)量與分布探查:無數(shù)據(jù)統(tǒng)計(jì),數(shù)據(jù)量統(tǒng)計(jì),空值占比分析;字段屬性及分布探查:主鍵長度統(tǒng)計(jì),重復(fù)數(shù)據(jù)探查,數(shù)值分布探查,值域分析,維度分布分析,取值說明生成;安全性探查:安全掃描并推薦安全策略;

72、探查分析模塊:用于數(shù)據(jù)安全性分析:敏感數(shù)據(jù)識(shí)別,安全措施建議;數(shù)據(jù)完整性及分布分析:數(shù)據(jù)空值分布分析,數(shù)據(jù)值域分布分析;數(shù)據(jù)關(guān)系及分布分析:數(shù)據(jù)關(guān)系分析,數(shù)據(jù)分布分析,數(shù)據(jù)量占比分析,無數(shù)據(jù)top分析。

73、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的數(shù)據(jù)探查方法的步驟。

74、本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述所述的數(shù)據(jù)探查方法的步驟。

75、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:

76、本發(fā)明提供的數(shù)據(jù)探查方法及系統(tǒng)通過智能化的自動(dòng)分析和識(shí)別,能夠自動(dòng)化識(shí)別數(shù)據(jù)庫中的各類數(shù)據(jù)資產(chǎn),快速發(fā)現(xiàn)數(shù)據(jù)中的潛在問題,并深入挖掘數(shù)據(jù)之間的關(guān)系和依賴;通過智能化分析,能夠高效處理大規(guī)模數(shù)據(jù),適應(yīng)于分布式數(shù)據(jù)庫環(huán)境,能夠?qū)崟r(shí)發(fā)現(xiàn)數(shù)據(jù)中的空值、冗余信息以及性能瓶頸等問題,為后續(xù)的數(shù)據(jù)治理提供精準(zhǔn)支持;只需用戶輸入基本的數(shù)據(jù)庫連接信息和相關(guān)參數(shù),便可自動(dòng)完成探查任務(wù),極大地提高了工作效率,減少了人工干預(yù);并且,該數(shù)據(jù)探查方法具有較強(qiáng)的通用性,能夠適應(yīng)不同數(shù)據(jù)庫環(huán)境和數(shù)據(jù)規(guī)模,保證了探查過程的高效性和準(zhǔn)確性;通過該數(shù)據(jù)探查方法,能夠深入了解企業(yè)數(shù)據(jù)資產(chǎn)的結(jié)構(gòu)、使用情況以及潛在風(fēng)險(xiǎn),提高了數(shù)據(jù)治理的精準(zhǔn)性和高效性,推動(dòng)了數(shù)字化轉(zhuǎn)型和智能決策。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1