本發(fā)明涉及主動(dòng)元數(shù)據(jù)管理,具體涉及一種基于主動(dòng)元數(shù)據(jù)的智能數(shù)據(jù)治理方法及系統(tǒng)。
背景技術(shù):
1、主動(dòng)元數(shù)據(jù)是一種能夠自動(dòng)更新、管理、解釋并與系統(tǒng)中的數(shù)據(jù)和操作進(jìn)行交互的主動(dòng)元數(shù)據(jù),是描述數(shù)據(jù)的數(shù)據(jù),提供關(guān)于數(shù)據(jù)的信息。目前通常通過(guò)智能化手段對(duì)各種不同的主動(dòng)元數(shù)據(jù)進(jìn)行有效的治理,進(jìn)而提升數(shù)據(jù)質(zhì)量、安全性和合規(guī)性,尤其是在跨系統(tǒng)、跨業(yè)務(wù)、跨數(shù)據(jù)源的環(huán)境中更需要對(duì)主動(dòng)元數(shù)據(jù)進(jìn)行治理。在這樣的環(huán)境中,主動(dòng)元數(shù)據(jù)涉及多個(gè)系統(tǒng)或平臺(tái),數(shù)據(jù)結(jié)構(gòu)或?qū)傩猿34嬖诓町?,因此需要通過(guò)對(duì)主動(dòng)元數(shù)據(jù)進(jìn)行匹配與映射實(shí)現(xiàn)多源數(shù)據(jù)的一致性治理。
2、在現(xiàn)有技術(shù)中,針對(duì)于跨數(shù)據(jù)源的異構(gòu)主動(dòng)元數(shù)據(jù)的匹配與映射中,通常使用dtw算法(動(dòng)態(tài)時(shí)間規(guī)整算法,dynamic?time?warping)來(lái)解決數(shù)據(jù)匹配與映射中的異構(gòu)主動(dòng)元數(shù)據(jù)對(duì)齊和比較問(wèn)題。通過(guò)數(shù)據(jù)匹配與映射高效的整合數(shù)據(jù),消除信息孤島,提升數(shù)據(jù)質(zhì)量,從而促進(jìn)智能數(shù)據(jù)治理的發(fā)展,提升數(shù)據(jù)驅(qū)動(dòng)決策的準(zhǔn)確性和效率。
3、但dtw算法在處理多源異構(gòu)主動(dòng)元數(shù)據(jù)時(shí),對(duì)具有不同屬性、不同量綱的主動(dòng)元數(shù)據(jù),在進(jìn)行距離累計(jì)矩陣的構(gòu)建時(shí),不同量綱的差異會(huì)在計(jì)算距離時(shí)引入誤差,另外dtw算法只考慮序列中單個(gè)點(diǎn)對(duì)的距離信息,沒有考慮序列局部變化特征,數(shù)據(jù)的局部特征對(duì)距離計(jì)算的貢獻(xiàn)被低估,容易導(dǎo)致不合理的路徑匹配。其次,跨系統(tǒng)、跨業(yè)務(wù)、跨數(shù)據(jù)源的主動(dòng)元數(shù)據(jù)通過(guò)dtw算法完成數(shù)據(jù)的匹配與映射目的是為了實(shí)現(xiàn)跨數(shù)據(jù)源的整合和分析,這是主動(dòng)元數(shù)據(jù)治理方法及系統(tǒng)的主要目的,因此就需要在保留數(shù)據(jù)原始單位和范圍的前提下,在主動(dòng)元數(shù)據(jù)之間進(jìn)行dtw算法計(jì)算來(lái)完成多源數(shù)據(jù)的整合,發(fā)現(xiàn)潛在的關(guān)聯(lián)模式。dtw算法運(yùn)行過(guò)程中,通常選擇歐幾里得距離度量方法,而這樣則會(huì)在本方案場(chǎng)景下由于多源的主動(dòng)元數(shù)據(jù)的復(fù)雜性及dtw算法自身未考慮序列局部變化特征,最終產(chǎn)生了效果不佳的最優(yōu)彎曲路徑,使得最終的數(shù)據(jù)匹配質(zhì)量不佳,系統(tǒng)可能無(wú)法提供準(zhǔn)確的數(shù)據(jù)映射,影響后續(xù)的數(shù)據(jù)治理、分析和決策。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問(wèn)題,本發(fā)明的目的在于提供一種基于主動(dòng)元數(shù)據(jù)的智能數(shù)據(jù)治理方法及系統(tǒng),所采用的技術(shù)方案具體如下:
2、第一方面,本發(fā)明一個(gè)實(shí)施例提供了一種基于主動(dòng)元數(shù)據(jù)的智能數(shù)據(jù)治理方法,該方法包括:
3、獲得數(shù)據(jù)源不同的主動(dòng)元數(shù)據(jù)并進(jìn)行預(yù)處理得到不同組的主動(dòng)元數(shù)據(jù);
4、根據(jù)兩組主動(dòng)元數(shù)據(jù)的屬性的個(gè)數(shù)、相關(guān)性度量值和組合熵值計(jì)算兩組主動(dòng)元數(shù)據(jù)的結(jié)構(gòu)性復(fù)雜程度;
5、根據(jù)一組主動(dòng)元數(shù)據(jù)的平均值和極大值點(diǎn)計(jì)算該組主動(dòng)元數(shù)據(jù)的平穩(wěn)性度量值;根據(jù)一組主動(dòng)元數(shù)據(jù)的平穩(wěn)性度量值和歸一化后的采樣頻率得到數(shù)據(jù)特征度量值;
6、基于兩組主動(dòng)元數(shù)據(jù)的數(shù)據(jù)特征度量值的差值得到兩組主動(dòng)元數(shù)據(jù)的變化特征度量差異值;對(duì)兩組主動(dòng)元數(shù)據(jù)的結(jié)構(gòu)性復(fù)雜程度和變化特征度量差異值進(jìn)行加權(quán)求和得到復(fù)雜差異程度值;
7、設(shè)定dtw算法的參考距離的計(jì)算方式,根據(jù)兩組主動(dòng)元數(shù)據(jù)的復(fù)雜差異程度值選擇參考距離的計(jì)算方式利用dtw算法對(duì)兩組主動(dòng)元數(shù)據(jù)進(jìn)行處理。
8、優(yōu)選地,獲得數(shù)據(jù)源不同的主動(dòng)元數(shù)據(jù)并進(jìn)行預(yù)處理得到不同組的主動(dòng)元數(shù)據(jù),包括:
9、所述預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)格式轉(zhuǎn)換和數(shù)據(jù)分組;將進(jìn)行過(guò)數(shù)據(jù)清洗和格式轉(zhuǎn)換的主動(dòng)元數(shù)據(jù)按照數(shù)據(jù)源的不同進(jìn)行數(shù)據(jù)分組得到不同組的主動(dòng)元數(shù)據(jù)。
10、優(yōu)選地,根據(jù)兩組主動(dòng)元數(shù)據(jù)的屬性的個(gè)數(shù)、相關(guān)性度量值和組合熵值計(jì)算兩組主動(dòng)元數(shù)據(jù)的結(jié)構(gòu)性復(fù)雜程度,包括:
11、將兩組主動(dòng)元數(shù)據(jù)中的數(shù)據(jù)的屬性的個(gè)數(shù)進(jìn)行歸一化得到屬性特征值;利用兩組主動(dòng)元數(shù)據(jù)分別進(jìn)行直線擬合得到兩條直線,根據(jù)兩條直線的斜率獲得兩組主動(dòng)元數(shù)據(jù)的相關(guān)性度量值;利用以自然常數(shù)為底的指數(shù)函數(shù)對(duì)相關(guān)性度量值進(jìn)行負(fù)相關(guān)映射得到相關(guān)性特征值;對(duì)兩組主動(dòng)元數(shù)據(jù)的聯(lián)合熵值進(jìn)行歸一化得到熵值特征值;兩組主動(dòng)元數(shù)據(jù)的屬性特征值、相關(guān)性特征值和熵值特征值的平均值為兩組主動(dòng)元數(shù)據(jù)的結(jié)構(gòu)性復(fù)雜程度。
12、優(yōu)選地,相關(guān)性度量值的計(jì)算公式為:
13、,
14、其中,表示第i組主動(dòng)元數(shù)據(jù)和第j組主動(dòng)元數(shù)據(jù)的相關(guān)性度量值;和分別表示利用第i組主動(dòng)元數(shù)據(jù)進(jìn)行直線擬合得到的直線的斜率和利用第j組主動(dòng)元數(shù)據(jù)進(jìn)行直線擬合得到的直線的斜率。
15、優(yōu)選地,根據(jù)一組主動(dòng)元數(shù)據(jù)的平均值和極大值點(diǎn)計(jì)算該組主動(dòng)元數(shù)據(jù)的平穩(wěn)性度量值,包括:
16、求取一組主動(dòng)元數(shù)據(jù)中每個(gè)數(shù)據(jù)值與平均值的差值的絕對(duì)值并求和,得到離散程度;分別將該組主動(dòng)元數(shù)據(jù)中一個(gè)極大值點(diǎn)與左側(cè)相鄰的數(shù)據(jù)和右側(cè)相鄰的數(shù)據(jù)相減并求和,獲得該極大值點(diǎn)的局部數(shù)據(jù)變化值;將該組主動(dòng)元數(shù)據(jù)中的所有極大值點(diǎn)的局部數(shù)據(jù)變化值進(jìn)行求和得到波動(dòng)變化特征值;將該組主動(dòng)元數(shù)據(jù)的離散程度與波動(dòng)變化特征值的和進(jìn)行歸一化得到該組主動(dòng)元數(shù)據(jù)的平穩(wěn)性度量值。
17、優(yōu)選地,基于兩組主動(dòng)元數(shù)據(jù)的數(shù)據(jù)特征度量值的差值得到兩組主動(dòng)元數(shù)據(jù)的變化特征度量差異值,包括:
18、將兩組主動(dòng)元數(shù)據(jù)的數(shù)據(jù)特征度量值的差值的絕對(duì)值歸一化得到兩組主動(dòng)元數(shù)據(jù)的變化特征度量差異值。
19、優(yōu)選地,設(shè)定dtw算法的參考距離的計(jì)算方式,包括:
20、dtw算法的參考距離的計(jì)算方式包括兩種計(jì)算方式,分別為傳統(tǒng)方式和相對(duì)變化距離計(jì)算方式;傳統(tǒng)方式為將歐幾里得距離作為參考距離;相對(duì)變化距離計(jì)算方式為:
21、,
22、其中,表示第i個(gè)數(shù)據(jù)點(diǎn)和第j個(gè)數(shù)據(jù)點(diǎn)的相對(duì)變化距離;和分別表示第i個(gè)數(shù)據(jù)點(diǎn)和第i-1個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)值;和分別表示第j個(gè)數(shù)據(jù)點(diǎn)和第j-1個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)值。
23、優(yōu)選地,根據(jù)兩組主動(dòng)元數(shù)據(jù)的復(fù)雜差異程度值選擇參考距離的計(jì)算方式利用dtw算法對(duì)兩組主動(dòng)元數(shù)據(jù)進(jìn)行處理,包括:
24、設(shè)定閾值,若兩組主動(dòng)元數(shù)據(jù)的復(fù)雜差異程度值小于或者等于閾值,則選擇傳統(tǒng)方式計(jì)算參考距離;若兩組主動(dòng)元數(shù)據(jù)的復(fù)雜差異程度值大于閾值,則選擇相對(duì)變化距離計(jì)算方式。
25、優(yōu)選地,得到數(shù)據(jù)特征度量值,包括:
26、將一組主動(dòng)元數(shù)據(jù)的平穩(wěn)性度量值和歸一化后的采樣頻率相加得到數(shù)據(jù)特征度量值。
27、第二方面,本發(fā)明還提供了一種基于主動(dòng)元數(shù)據(jù)的智能數(shù)據(jù)治理系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)一種基于主動(dòng)元數(shù)據(jù)的智能數(shù)據(jù)治理方法的步驟。
28、本發(fā)明實(shí)施例至少具有如下有益效果:本發(fā)明對(duì)不同來(lái)源的主動(dòng)元數(shù)據(jù)進(jìn)行預(yù)處理,獲得不同分組的主動(dòng)元數(shù)據(jù),提高了主動(dòng)元數(shù)據(jù)的質(zhì)量,使得后續(xù)分析結(jié)果更加精準(zhǔn);進(jìn)一步的,通過(guò)將要進(jìn)行dtw算法的兩組主動(dòng)元數(shù)據(jù)的屬性的個(gè)數(shù)、相關(guān)性度量值和組合熵值分析兩組主動(dòng)元數(shù)據(jù)的復(fù)雜程度,得到結(jié)構(gòu)性復(fù)雜程度,從三個(gè)維度進(jìn)行分析能夠幫助分析dtw算法在進(jìn)行時(shí)使用傳統(tǒng)方式計(jì)算參考距離是否會(huì)受到影響;接著,獲取一組主動(dòng)元數(shù)據(jù)的平穩(wěn)性度量值,再結(jié)合采樣頻率從數(shù)據(jù)的變化分布特征進(jìn)行分析,得到數(shù)據(jù)特征度量值,進(jìn)而度量?jī)山M主動(dòng)元數(shù)據(jù)的數(shù)據(jù)特征的差異,得到變化特征度量差異值,用于評(píng)估兩組主動(dòng)元數(shù)據(jù)平穩(wěn)性與采樣頻率的綜合差異;然后將兩組主動(dòng)元數(shù)據(jù)的結(jié)構(gòu)性復(fù)雜程度和變化特征度量差異值進(jìn)行綜合,得到復(fù)雜差異程度值,表明兩組主動(dòng)元數(shù)據(jù)之間的復(fù)雜程度以及差異程度,最后設(shè)定dtw算法的參考距離的計(jì)算方式,進(jìn)而基于復(fù)雜差異程度值自適應(yīng)選擇dtw算法中合適的參考距離的計(jì)算方式,獲得更加合適的參考距離,構(gòu)建準(zhǔn)確的距離矩陣以得到更為合理的路徑匹配,提高主動(dòng)元數(shù)據(jù)的匹配與映射效果,實(shí)現(xiàn)多源的主動(dòng)元數(shù)據(jù)的一致性治理,確保主動(dòng)元數(shù)據(jù)的高效整合、準(zhǔn)確分析和有效利用。