最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種分布式流數(shù)據(jù)分配方法及裝置

文檔序號(hào):41944507發(fā)布日期:2025-05-16 14:01閱讀:5來(lái)源:國(guó)知局
一種分布式流數(shù)據(jù)分配方法及裝置

本發(fā)明涉及流式大數(shù)據(jù),尤其涉及一種分布式流數(shù)據(jù)分配方法及裝置。


背景技術(shù):

1、流數(shù)據(jù)指一系列不斷產(chǎn)生的數(shù)據(jù)序列。隨著軟硬件技術(shù)成熟和應(yīng)用的發(fā)展,流數(shù)據(jù)呈爆發(fā)式增長(zhǎng)。為了滿足大量流數(shù)據(jù)的高時(shí)效處理需求,流式大數(shù)據(jù)處理系統(tǒng)應(yīng)運(yùn)而生。實(shí)際應(yīng)用中系統(tǒng)通常需要通過(guò)實(shí)時(shí)處理連續(xù)的流數(shù)據(jù)來(lái)提供高質(zhì)量的服務(wù),如算法交易、廣告投資決策、網(wǎng)約車。這些應(yīng)用依賴流連接操作,用以比較來(lái)自兩個(gè)數(shù)據(jù)流的元組并輸出合適的結(jié)果。與傳統(tǒng)的數(shù)據(jù)庫(kù)連接操作相比,持續(xù)高速實(shí)時(shí)的數(shù)據(jù)流使得執(zhí)行高效的數(shù)據(jù)流連接操作更具挑戰(zhàn)性。現(xiàn)有的大數(shù)據(jù)流連接方法與裝置主要分為并行流連接和分布式流連接兩類。

2、現(xiàn)在廣泛使用的分布式流連接模型,二部圖模型,需要大規(guī)模地廣播連接元組,以及網(wǎng)絡(luò)傳輸時(shí)會(huì)導(dǎo)致流元組亂序,從而導(dǎo)致到達(dá)處理單元的元組順序不一致,進(jìn)而造成連接結(jié)果不完整。一種有序傳播樹模型解決了元組亂序的問(wèn)題,需要將元組依次地在不同地處理單元之間傳輸,將每一個(gè)元組隨機(jī)地存儲(chǔ)在處理單元中,連接新到達(dá)元組與另一條流的存儲(chǔ)元組,并將元組發(fā)送到下游處理單元。大規(guī)模分布式流連接系統(tǒng)將部署大量的處理單元,這些處理單元可能分布在相同的、不同的計(jì)算機(jī)節(jié)點(diǎn)中,不同的計(jì)算機(jī)還可能分布在不同機(jī)架、不同物理位置中。系統(tǒng)將處理單元隨機(jī)分配到不同結(jié)點(diǎn)。流元組在這些隨機(jī)分布的處理單元中傳輸和處理,會(huì)導(dǎo)致網(wǎng)絡(luò)開(kāi)銷大,增加流元組的處理延遲。

3、因此,急需提出一種分布式流數(shù)據(jù)分配方法及裝置,解決現(xiàn)有技術(shù)中流元組在隨機(jī)分布的處理單元中傳輸和處理時(shí),會(huì)導(dǎo)致網(wǎng)絡(luò)開(kāi)銷大,流元組的處理延遲的技術(shù)問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,有必要提供一種分布式流數(shù)據(jù)分配方法及裝置,用以解決現(xiàn)有技術(shù)中流元組在隨機(jī)分布的處理單元中傳輸和處理時(shí),會(huì)導(dǎo)致網(wǎng)絡(luò)開(kāi)銷大,流元組的處理延遲的技術(shù)問(wèn)題。

2、為了解決上述問(wèn)題,本發(fā)明提供一種分布式流數(shù)據(jù)分配方法,包括:

3、將分布式系統(tǒng)中的多個(gè)處理單元隨機(jī)分配至集群的多個(gè)節(jié)點(diǎn)中,并基于排隊(duì)論對(duì)所述多個(gè)處理單元之間發(fā)送元組的延遲進(jìn)行計(jì)算,得到每個(gè)節(jié)點(diǎn)的第一傳輸延遲;

4、根據(jù)聚類算法和所述第一傳輸延遲對(duì)所述多個(gè)節(jié)點(diǎn)進(jìn)行聚類劃分,得到多個(gè)初始簇和每個(gè)初始簇的多個(gè)初始節(jié)點(diǎn);

5、基于有序傳播樹對(duì)所述每個(gè)初始簇的所述多個(gè)初始節(jié)點(diǎn)中的所有處理單元進(jìn)行分配調(diào)整,得到多個(gè)目標(biāo)簇。

6、在一種可能的實(shí)現(xiàn)方式中,所述基于排隊(duì)論對(duì)所述多個(gè)處理單元之間發(fā)送元組的延遲進(jìn)行計(jì)算,得到每個(gè)節(jié)點(diǎn)的第一傳輸延遲,包括:

7、基于排隊(duì)論對(duì)所述多個(gè)處理單元之間發(fā)送元組的延遲進(jìn)行計(jì)算,得到每個(gè)處理單元的初始延遲;

8、根據(jù)每個(gè)節(jié)點(diǎn)中所述元組在所述多個(gè)處理單元之間的初始延遲,得到所述每個(gè)節(jié)點(diǎn)的第一傳輸延遲。

9、在一種可能的實(shí)現(xiàn)方式中,根據(jù)聚類算法和所述第一傳輸延遲對(duì)所述多個(gè)節(jié)點(diǎn)進(jìn)行聚類劃分,得到多個(gè)初始簇和每個(gè)初始簇的多個(gè)初始節(jié)點(diǎn),包括:

10、根據(jù)預(yù)設(shè)范圍確定多個(gè)第一簇中心;

11、根據(jù)所述聚類算法對(duì)所述多個(gè)第一簇中心和所述多個(gè)節(jié)點(diǎn)進(jìn)行聚類和計(jì)算,得到多個(gè)簇,并確定每個(gè)簇的初始簇中心;

12、根據(jù)所述第一傳輸延遲中所述每個(gè)簇的每個(gè)節(jié)點(diǎn)分別與每個(gè)簇中心的距離進(jìn)行計(jì)算,得到所述每個(gè)節(jié)點(diǎn)的最短距離;

13、根據(jù)所述最短距離對(duì)所述每個(gè)簇中的節(jié)點(diǎn)和對(duì)應(yīng)的簇中心進(jìn)行更新,得到多個(gè)初始簇和每個(gè)初始簇的多個(gè)初始節(jié)點(diǎn)。

14、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述聚類算法對(duì)所述多個(gè)第一簇中心和所述多個(gè)節(jié)點(diǎn)進(jìn)行聚類和計(jì)算,得到多個(gè)簇,并確定每個(gè)簇的初始簇中心,包括:

15、根據(jù)所述聚類算法對(duì)所述多個(gè)第一簇中心和所述多個(gè)節(jié)點(diǎn)進(jìn)行聚類,得到多個(gè)原始簇;

16、對(duì)每個(gè)原始簇中的節(jié)點(diǎn)進(jìn)行平方和計(jì)算,得到誤差平方和;

17、根據(jù)所述每個(gè)原始簇和所述誤差平方和,繪制平方和曲線圖;

18、根據(jù)所述平方和曲線圖中的肘部,確定簇?cái)?shù)量;

19、根據(jù)所述簇?cái)?shù)量,得到多個(gè)簇,并確定每個(gè)簇的初始簇中心。

20、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述最短距離對(duì)所述每個(gè)簇中的節(jié)點(diǎn)和對(duì)應(yīng)的簇中心進(jìn)行更新,得到多個(gè)初始簇和每個(gè)初始簇的多個(gè)初始節(jié)點(diǎn),包括:

21、根據(jù)所述每個(gè)節(jié)點(diǎn)的所述最短距離,將節(jié)點(diǎn)分配至對(duì)應(yīng)的初始簇中心的簇中,得到更新之后的多個(gè)目標(biāo)最佳簇;

22、分別對(duì)所述多個(gè)目標(biāo)最佳簇中的節(jié)點(diǎn)的距離進(jìn)行計(jì)算,得到簇距離;

23、根據(jù)每個(gè)目標(biāo)最佳簇的所述簇距離確定更新之后的目標(biāo)簇中心;

24、當(dāng)所述每個(gè)目標(biāo)最佳簇的所述目標(biāo)簇中心與所述初始簇中心一樣,并且所述每個(gè)目標(biāo)最佳簇中的節(jié)點(diǎn)與對(duì)應(yīng)簇的節(jié)點(diǎn)一樣時(shí),確定所述多個(gè)目標(biāo)最佳簇為多個(gè)初始簇,并確定所述每個(gè)目標(biāo)最佳簇中的節(jié)點(diǎn)為每個(gè)初始簇的多個(gè)初始節(jié)點(diǎn)。

25、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)每個(gè)目標(biāo)最佳簇的所述簇距離確定更新之后的目標(biāo)簇中心之后,還包括:

26、當(dāng)所述每個(gè)目標(biāo)最佳簇的所述目標(biāo)簇中心與所述初始簇中心不一樣,或者所述每個(gè)目標(biāo)最佳簇中的節(jié)點(diǎn)與對(duì)應(yīng)簇的節(jié)點(diǎn)不一樣時(shí),根據(jù)所述第一傳輸延遲重新對(duì)所述多個(gè)目標(biāo)最佳簇進(jìn)行節(jié)點(diǎn)分配,并計(jì)算對(duì)應(yīng)的簇距離再次進(jìn)行更新操作,直到滿足“當(dāng)所述每個(gè)目標(biāo)最佳簇的所述目標(biāo)簇中心與所述初始簇中心一樣,并且所述每個(gè)目標(biāo)最佳簇中的節(jié)點(diǎn)與對(duì)應(yīng)簇的節(jié)點(diǎn)一樣”的條件。

27、在一種可能的實(shí)現(xiàn)方式中,所述對(duì)每個(gè)原始簇中的節(jié)點(diǎn)進(jìn)行平方和計(jì)算,得到誤差平方和,包括:

28、基于迪杰斯特拉算法對(duì)所述每個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的最短距離進(jìn)行計(jì)算,得到所述每個(gè)節(jié)點(diǎn)的路徑距離;

29、對(duì)所述每個(gè)原始簇中的節(jié)點(diǎn)的所有路徑距離進(jìn)行計(jì)算,得到所述每個(gè)原始簇的誤差平方和。

30、在一種可能的實(shí)現(xiàn)方式中,所述基于有序傳播樹對(duì)所述每個(gè)初始簇的所述多個(gè)初始節(jié)點(diǎn)中的所有處理單元進(jìn)行分配調(diào)整,得到多個(gè)目標(biāo)簇,包括:

31、根據(jù)所述排隊(duì)論對(duì)每個(gè)初始簇的每個(gè)初始節(jié)點(diǎn)中的所有處理單元之間發(fā)送元組的延遲進(jìn)行計(jì)算,得到每個(gè)初始節(jié)點(diǎn)的第二傳輸延遲;

32、根據(jù)預(yù)設(shè)節(jié)點(diǎn)負(fù)載將所述每個(gè)初始節(jié)點(diǎn)的所述所有處理單元分配到不同的初始簇的初始節(jié)點(diǎn)中,并計(jì)算得到對(duì)應(yīng)初始節(jié)點(diǎn)的第三傳輸延遲;

33、當(dāng)所述第二傳輸延遲小于等于所述第三傳輸延遲時(shí),確定分配得到的多個(gè)初始簇為多個(gè)目標(biāo)簇。

34、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)預(yù)設(shè)節(jié)點(diǎn)負(fù)載將所述每個(gè)初始節(jié)點(diǎn)的所述所有處理單元分配到不同的初始簇的初始節(jié)點(diǎn)中,并計(jì)算得到對(duì)應(yīng)初始節(jié)點(diǎn)的第三傳輸延遲之后,還包括:

35、當(dāng)所述第二傳輸延遲大于所述第三傳輸延遲時(shí),根據(jù)所述第三傳輸延遲對(duì)所述第二傳輸延遲進(jìn)行更新,得到更新之后的第二傳輸延遲;

36、根據(jù)所述預(yù)設(shè)節(jié)點(diǎn)負(fù)載對(duì)所述分配得到的多個(gè)初始簇的初始節(jié)點(diǎn)的處理單元進(jìn)行分配,并計(jì)算得到對(duì)應(yīng)初始節(jié)點(diǎn)的第四傳輸延遲;

37、當(dāng)所述更新之后的第二傳輸延遲小于等于所述第四傳輸延遲時(shí),確定分配得到的多個(gè)初始簇為多個(gè)目標(biāo)簇。

38、另一方面,本發(fā)明還提供了一種分布式流數(shù)據(jù)分配裝置,包括:

39、隨機(jī)分配模塊,用于將分布式系統(tǒng)中的多個(gè)處理單元隨機(jī)分配至集群的多個(gè)節(jié)點(diǎn)中,并基于排隊(duì)論對(duì)所述多個(gè)處理單元之間發(fā)送元組的延遲進(jìn)行計(jì)算,得到每個(gè)節(jié)點(diǎn)的第一傳輸延遲;

40、聚類劃分模塊,用于根據(jù)聚類算法和所述第一傳輸延遲對(duì)所述多個(gè)節(jié)點(diǎn)進(jìn)行聚類劃分,得到多個(gè)初始簇和每個(gè)初始簇的多個(gè)初始節(jié)點(diǎn);

41、分配調(diào)整模塊,用于基于有序傳播樹對(duì)所述每個(gè)初始簇的所述多個(gè)初始節(jié)點(diǎn)中的所有處理單元進(jìn)行分配調(diào)整,得到多個(gè)目標(biāo)簇。

42、本發(fā)明的有益效果是:將分布式系統(tǒng)中的多個(gè)處理單元隨機(jī)分配至集群的多個(gè)節(jié)點(diǎn)中,并基于排隊(duì)論對(duì)多個(gè)處理單元之間發(fā)送元組的延遲進(jìn)行計(jì)算,得到每個(gè)節(jié)點(diǎn)的第一傳輸延遲;根據(jù)聚類算法和第一傳輸延遲對(duì)多個(gè)節(jié)點(diǎn)進(jìn)行聚類劃分,得到多個(gè)初始簇和每個(gè)初始簇的多個(gè)初始節(jié)點(diǎn);基于有序傳播樹對(duì)每個(gè)初始簇的多個(gè)初始節(jié)點(diǎn)中的所有處理單元進(jìn)行分配調(diào)整,得到多個(gè)目標(biāo)簇;本發(fā)明通過(guò)排隊(duì)論估算處理單元之間傳輸延遲,利用聚類算法和傳輸延遲對(duì)計(jì)算機(jī)節(jié)點(diǎn)進(jìn)行分配,得到多個(gè)初始簇,據(jù)此將有序傳播樹各節(jié)點(diǎn)分配最佳傳輸順序,對(duì)初始簇的節(jié)點(diǎn)中處理單元進(jìn)行調(diào)整,從而節(jié)省了網(wǎng)絡(luò)開(kāi)銷。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1