最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

主鍵確定方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41959278發(fā)布日期:2025-05-20 16:53閱讀:2來(lái)源:國(guó)知局
主鍵確定方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種主鍵確定方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。


背景技術(shù):

1、流式數(shù)據(jù)是指在連續(xù)不斷的時(shí)間序列中產(chǎn)生的數(shù)據(jù),這類數(shù)據(jù)具有很強(qiáng)的時(shí)效性,反映著業(yè)務(wù)狀態(tài)的變化,包含了大量的實(shí)時(shí)信息和事件記錄,例如氣象觀測(cè)站實(shí)時(shí)采集的氣象觀測(cè)數(shù)據(jù)記錄、企業(yè)的打卡系統(tǒng)實(shí)時(shí)采集的員工打卡記錄、企業(yè)的服務(wù)系統(tǒng)實(shí)時(shí)采集的用戶登錄記錄、企業(yè)的交易系統(tǒng)實(shí)時(shí)采集的商品交易記錄等,實(shí)時(shí)集成處理流式數(shù)據(jù)能有效幫助進(jìn)行業(yè)務(wù)決策。

2、然而,流式數(shù)據(jù)的主鍵情況非常復(fù)雜,例如,流式數(shù)據(jù)沒(méi)有主鍵,或者有的有主鍵,有的沒(méi)主鍵,又或者主鍵不相同,沒(méi)法進(jìn)行集成。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提供一種主鍵確定方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),能夠?qū)崿F(xiàn)主鍵情況非常復(fù)雜的流式數(shù)據(jù)集成。

2、第一方面,提供一種主鍵確定方法,該方法包括如下步驟:

3、主鍵生成系統(tǒng)獲取多個(gè)數(shù)據(jù)記錄,多個(gè)數(shù)據(jù)記錄包括相同的多個(gè)字段;對(duì)多個(gè)數(shù)據(jù)記錄進(jìn)行采樣,將采樣的數(shù)據(jù)記錄中存在重復(fù)值的字段和/或字段組合,確定為第一非候選鍵;將全集中除第一非候選鍵之外剩余的元素,確定為多個(gè)第一可能候選鍵,其中,全集包括多個(gè)字段和多個(gè)字段中至少兩個(gè)字段的組合;在基于多個(gè)數(shù)據(jù)記錄,確定多個(gè)第一可能候選鍵均可作為候選鍵的情況下,從多個(gè)第一可能候選鍵中選擇出第一目標(biāo)候選鍵,或者,在基于多個(gè)數(shù)據(jù)記錄,確定多個(gè)第一可能候選鍵中至少一個(gè)第一可能候選鍵可作為候選鍵的情況下,從至少一個(gè)第一可能候選鍵中選擇出第一目標(biāo)候選鍵;基于每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值,生成每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

4、上述多個(gè)數(shù)據(jù)記錄屬于同一條數(shù)據(jù)流(也可以稱為流式數(shù)據(jù)),或者,屬于不同數(shù)據(jù)流。

5、在一些可能的實(shí)現(xiàn)方式中,上述方法還包括如下步驟:

6、主鍵生成系統(tǒng)將每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值添加到每個(gè)數(shù)據(jù)記錄中,并向數(shù)據(jù)集成系統(tǒng)發(fā)送每個(gè)數(shù)據(jù)記錄進(jìn)行集成。

7、上述方案,可以對(duì)流式數(shù)據(jù)中包括相同的多個(gè)字段的多個(gè)數(shù)據(jù)記錄進(jìn)行分析,確定可能的候選鍵,并在對(duì)可能的候選鍵進(jìn)行驗(yàn)證后選擇出目標(biāo)候選鍵,然后基于多個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)目標(biāo)候選鍵的值,為多個(gè)數(shù)據(jù)記錄生成統(tǒng)一主鍵的值,這樣便可以使得后續(xù)數(shù)據(jù)集成系統(tǒng)基于多個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵,集成多個(gè)數(shù)據(jù)記錄,從而實(shí)現(xiàn)流式數(shù)據(jù)的集成。

8、在一些可能的實(shí)現(xiàn)方式中,上述多個(gè)數(shù)據(jù)記錄均未攜帶主鍵,或者,多個(gè)數(shù)據(jù)記錄攜帶不同主鍵,或者,多個(gè)數(shù)據(jù)記錄中的部分?jǐn)y帶主鍵剩余部分未攜帶主鍵。

9、在一些可能的實(shí)現(xiàn)方式中,上述方法還包括如下步驟:

10、主鍵生成系統(tǒng)在基于多個(gè)數(shù)據(jù)記錄,確定多個(gè)第一可能候選鍵不能均作為候選鍵的情況下,繼續(xù)對(duì)多個(gè)數(shù)據(jù)記錄進(jìn)行采樣,將繼續(xù)采樣的數(shù)據(jù)記錄中存在重復(fù)值的字段和/或字段組合,確定為第二非候選鍵;將全集中除第一非候選鍵和第二非候選鍵之外剩余的元素,確定為多個(gè)第二可能候選鍵;在基于多個(gè)數(shù)據(jù)記錄,確定多個(gè)第二可能候選鍵均可作為候選鍵的情況下,從多個(gè)第二可能候選鍵中選擇出第二目標(biāo)候選鍵;基于每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第二目標(biāo)候選鍵的值,生成每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

11、基于上述方案進(jìn)行類推,主鍵生成系統(tǒng)在基于多個(gè)數(shù)據(jù)記錄,確定多個(gè)第二可能候選鍵不能均作為候選鍵的情況下,可以繼續(xù)對(duì)多個(gè)數(shù)據(jù)記錄進(jìn)行采樣,將繼續(xù)采樣的數(shù)據(jù)記錄中存在重復(fù)值的字段和/或字段組合,確定為第三非候選鍵,…,生成每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

12、可以看出,上述方案能夠?qū)崿F(xiàn)從全集中過(guò)濾掉全部的非候選鍵,留下全部的候選鍵,并從留下的候選鍵中選擇出合適的候選鍵,基于合適的候選鍵為每個(gè)數(shù)據(jù)記錄生成統(tǒng)一主鍵的值。

13、在一些可能的實(shí)現(xiàn)方式中,主鍵生成系統(tǒng)可以通過(guò)如下方式實(shí)現(xiàn)從多個(gè)第一可能候選鍵中選擇出第一目標(biāo)候選鍵:將多個(gè)第一可能候選鍵中數(shù)據(jù)分布最均勻的第一可能候選鍵,作為第一目標(biāo)候選鍵。

14、由于在數(shù)據(jù)庫(kù)中,主鍵通常用于索引,以加速數(shù)據(jù)的檢索,如果主鍵的值分布均勻,那么索引的效果會(huì)更好,查詢的速度也會(huì)更快。

15、上述方案中,由于從多個(gè)第一可能候選鍵中選擇出的第一目標(biāo)候選鍵的數(shù)據(jù)分布均勻,可以理解,這樣可以使得基于第一目標(biāo)候選鍵的值,為多個(gè)數(shù)據(jù)記錄生成的統(tǒng)一主鍵的值的分布也比較均勻,那么數(shù)據(jù)集成系統(tǒng)在將統(tǒng)一主鍵的值作為多個(gè)數(shù)據(jù)記錄的索引時(shí),索引的效果會(huì)更好,查詢的速度也會(huì)更快。

16、在一些可能的實(shí)現(xiàn)方式中,主鍵生成系統(tǒng)可以對(duì)每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值進(jìn)行哈希,將得到的哈希值作為每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

17、可選地,主鍵生成系統(tǒng)也可以將每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值,作為每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

18、可以理解,主鍵生成系統(tǒng)對(duì)每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值進(jìn)行哈希,將得到的哈希值作為每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值,相較于將每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值作為每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值,由于哈希函數(shù)是一種單向函數(shù),即無(wú)法從哈希值反推出原始值,因此,可以避免每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值直接暴露,提高數(shù)據(jù)的安全性。

19、此外,由于哈希函數(shù)通常能夠?qū)⑤斎氲臄?shù)據(jù)均勻地映射到輸出空間中,這樣可以保證生成的哈希值在統(tǒng)一主鍵中的分布相對(duì)均勻,均勻分布的主鍵有助于提高數(shù)據(jù)的查詢性能和索引效率。再者,由于哈希函數(shù)生成的哈希值通常具有固定的長(zhǎng)度,不受輸入數(shù)據(jù)長(zhǎng)度的影響,這樣可以確保統(tǒng)一主鍵的值在存儲(chǔ)和索引時(shí)占用固定的空間,提高數(shù)據(jù)庫(kù)的存儲(chǔ)效率和查詢性能。進(jìn)一步地,由于哈希值是根據(jù)每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值計(jì)算得到的,與每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值本身無(wú)關(guān),這意味著即使后續(xù)每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值發(fā)生變化,生成的哈希值也不會(huì)受到影響,因此主鍵字段的值可以保持不變,這對(duì)于數(shù)據(jù)的更新和維護(hù)非常有用,可以避免因原始數(shù)據(jù)變化,而出現(xiàn)主鍵沖突和數(shù)據(jù)一致性問(wèn)題。簡(jiǎn)而言之,使用哈希值作為統(tǒng)一主鍵的值相較于直接使用原始數(shù)據(jù)作為統(tǒng)一主鍵的值,具有數(shù)據(jù)保護(hù)、唯一性保證、均勻分布、固定長(zhǎng)度和無(wú)關(guān)性等好處,這些好處可以提高數(shù)據(jù)庫(kù)的安全性、性能和可維護(hù)性。

20、在一些可能的實(shí)現(xiàn)方式中,上述方法還包括如下步驟:

21、主鍵生成系統(tǒng)在接收到新的數(shù)據(jù)記錄時(shí),基于新的數(shù)據(jù)記錄中對(duì)應(yīng)第一目標(biāo)候選鍵的值,生成新的數(shù)據(jù)記錄的統(tǒng)一主鍵的值,其中,新的數(shù)據(jù)記錄也包括多個(gè)字段。

22、在一些可能的實(shí)現(xiàn)方式中,在多個(gè)數(shù)據(jù)記錄屬于不同數(shù)據(jù)流的情況下,不同數(shù)據(jù)流來(lái)源于同一源端或者不同源端。

23、可以看出,本技術(shù)提供的主鍵確定方法可以為同源流式數(shù)據(jù)生成統(tǒng)一的主鍵,也可以為跨源流式數(shù)據(jù)生成統(tǒng)一的主鍵。

24、第二方面,提供一種主鍵確定裝置,所述裝置包括:

25、獲取模塊,用于獲取多個(gè)數(shù)據(jù)記錄,所述多個(gè)數(shù)據(jù)記錄包括相同的多個(gè)字段;

26、采樣模塊,用于對(duì)所述多個(gè)數(shù)據(jù)記錄進(jìn)行采樣;

27、處理模塊,用于將采樣的數(shù)據(jù)記錄中存在重復(fù)值的字段和/或字段組合,確定為第一非候選鍵;

28、所述處理模塊,用于將全集中除所述第一非候選鍵之外剩余的元素,確定為多個(gè)第一可能候選鍵,其中,所述全集包括所述多個(gè)字段和所述多個(gè)字段中至少兩個(gè)字段的組合;

29、所述處理模塊,還用于在基于所述多個(gè)數(shù)據(jù)記錄,確定所述多個(gè)第一可能候選鍵均可作為候選鍵的情況下,從所述多個(gè)第一可能候選鍵中選擇出第一目標(biāo)候選鍵,或者,在基于所述多個(gè)數(shù)據(jù)記錄,確定所述多個(gè)第一可能候選鍵中至少一個(gè)第一可能候選鍵可作為候選鍵的情況下,從所述至少一個(gè)第一可能候選鍵中選擇出第一目標(biāo)候選鍵;

30、所述處理模塊,還用于基于所述每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)所述第一目標(biāo)候選鍵的數(shù)據(jù),生成所述每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

31、在一些可能的實(shí)現(xiàn)方式中,所述多個(gè)數(shù)據(jù)記錄均未攜帶主鍵,或者,所述多個(gè)數(shù)據(jù)記錄攜帶不同主鍵,或者,所述多個(gè)數(shù)據(jù)記錄中的部分?jǐn)y帶主鍵剩余部分未攜帶主鍵。

32、在一些可能的實(shí)現(xiàn)方式中,所述采樣模塊還用于在基于所述多個(gè)數(shù)據(jù)記錄,確定所述多個(gè)第一可能候選鍵不能均作為候選鍵的情況下,繼續(xù)對(duì)所述多個(gè)數(shù)據(jù)記錄進(jìn)行采樣;

33、所述處理模塊還用于將繼續(xù)采樣的數(shù)據(jù)記錄中存在重復(fù)值的字段和/或字段組合,確定為第二非候選鍵;

34、所述處理模塊還用于將所述全集中除所述第一非候選鍵和所述第二非候選鍵之外剩余的元素,確定為多個(gè)第二可能候選鍵;

35、所述處理模塊還用于在基于所述多個(gè)數(shù)據(jù)記錄,確定所述多個(gè)第二可能候選鍵均可作為所述候選鍵的情況下,從所述多個(gè)第二可能候選鍵中選擇出第二目標(biāo)候選鍵;

36、所述處理模塊還用于基于所述每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)所述第二目標(biāo)候選鍵的值,生成所述每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

37、在一些可能的實(shí)現(xiàn)方式中,所述處理模塊用于將所述多個(gè)第一可能候選鍵中數(shù)據(jù)分布最均勻的第一可能候選鍵,作為所述第一目標(biāo)候選鍵。

38、在一些可能的實(shí)現(xiàn)方式中,所述處理模塊用于對(duì)所述每個(gè)數(shù)據(jù)記錄中對(duì)應(yīng)所述第一目標(biāo)候選鍵的數(shù)據(jù)進(jìn)行哈希,將得到的哈希值作為所述每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

39、在一些可能的實(shí)現(xiàn)方式中,所述獲取模塊,還用于獲取新的數(shù)據(jù)記錄,其中,所述新的數(shù)據(jù)記錄也包括所述多個(gè)字段;所述處理模塊,還用于基于所述新的數(shù)據(jù)記錄中對(duì)應(yīng)所述第一目標(biāo)候選鍵的值,生成所述新的數(shù)據(jù)記錄的統(tǒng)一主鍵的值。

40、在一些可能的實(shí)現(xiàn)方式中,所述裝置還包括:發(fā)送模塊;所述處理模塊還用于將所述每個(gè)數(shù)據(jù)記錄的統(tǒng)一主鍵的值添加到所述每個(gè)數(shù)據(jù)記錄中;所述發(fā)送模塊,用于向數(shù)據(jù)集成系統(tǒng)發(fā)送所述每個(gè)數(shù)據(jù)記錄進(jìn)行集成。

41、在一些可能的實(shí)現(xiàn)方式中,所述多個(gè)數(shù)據(jù)記錄屬于同一條數(shù)據(jù)流,或者,屬于不同數(shù)據(jù)流。

42、在一些可能的實(shí)現(xiàn)方式中,在所述多個(gè)數(shù)據(jù)記錄屬于不同數(shù)據(jù)流的情況下,所述不同數(shù)據(jù)流來(lái)源于同一源端或者不同源端。

43、第三方面,提供一種計(jì)算設(shè)備,該計(jì)算設(shè)備包括處理器和存儲(chǔ)器,存儲(chǔ)器用于存儲(chǔ)指令,處理器用于執(zhí)行指令,以使得計(jì)算設(shè)備實(shí)現(xiàn)如第一方面以及第一方面的任一實(shí)現(xiàn)方式描述的方法。

44、第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,指令被計(jì)算設(shè)備或者計(jì)算設(shè)備集群運(yùn)行時(shí)實(shí)現(xiàn)如第一方面以及第一方面的任一實(shí)現(xiàn)方式描述的方法。

45、第五方面,提供一種計(jì)算設(shè)備集群,該計(jì)算設(shè)備集群包括至少一個(gè)計(jì)算設(shè)備,至少一個(gè)計(jì)算設(shè)備中的每個(gè)計(jì)算設(shè)備包括處理器和存儲(chǔ)器,至少一個(gè)計(jì)算設(shè)備的處理器用于執(zhí)行至少一個(gè)計(jì)算設(shè)備的存儲(chǔ)器中存儲(chǔ)的指令,以使得計(jì)算設(shè)備集群實(shí)現(xiàn)如第一方面以及第一方面的任一實(shí)現(xiàn)方式描述的方法。

46、第六方面,提供一種包含指令的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括指令,該指令能夠運(yùn)行在計(jì)算設(shè)備上或被儲(chǔ)存在任何可用介質(zhì)中的軟件或程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品在計(jì)算設(shè)備或者計(jì)算設(shè)備集群上運(yùn)行時(shí),使得計(jì)算設(shè)備或者計(jì)算設(shè)備集群執(zhí)行第一方面以及第一方面的任一實(shí)現(xiàn)方式描述的方法。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1