本發(fā)明涉及云計算和數(shù)據(jù)處理,特別是涉及一種基于云計算的數(shù)據(jù)處理方法。
背景技術(shù):
1、云計算是通過網(wǎng)絡(luò)“云”將巨大的數(shù)據(jù)計算處理程序分解成無數(shù)個小程序,然后通過多部服務(wù)器組成的系統(tǒng)進行處理結(jié)果并返回給用戶,通過這項技術(shù),可以在很短的時間內(nèi)完成對數(shù)以萬計的數(shù)據(jù)的處理,
2、隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸式增長對數(shù)據(jù)處理能力提出了更高要求。傳統(tǒng)數(shù)據(jù)處理方法在處理大規(guī)模數(shù)據(jù)時存在處理速度慢、資源利用率低等問題。云計算作為一種新興的計算模式,以其強大的計算能力和靈活的資源調(diào)度能力,為數(shù)據(jù)處理提供了新的解決方案。
3、目前的云計算系統(tǒng)的數(shù)據(jù)處理方法在處理數(shù)據(jù)時,公開號“cn116232808a”,公開的一種基于邊緣計算的智慧園區(qū)接入網(wǎng)關(guān)系統(tǒng),對園區(qū)內(nèi)各系統(tǒng)的不同協(xié)議數(shù)據(jù)的集中采集和處理,首先,將所有數(shù)據(jù)傳輸?shù)皆贫藭?dǎo)致網(wǎng)絡(luò)帶寬壓力大,特別是在處理實時數(shù)據(jù)時,容易出現(xiàn)延遲和擁塞。其次,集中式的數(shù)據(jù)處理方式存在單點故障風(fēng)險,一旦數(shù)據(jù)中心出現(xiàn)問題,整個系統(tǒng)將陷入癱瘓。
4、因此,如何結(jié)合云計算的優(yōu)勢,設(shè)計一種高效的數(shù)據(jù)處理方法,仍是當(dāng)前技術(shù)領(lǐng)域的熱點和難點問題。
技術(shù)實現(xiàn)思路
1、鑒于此,本發(fā)明為了解決技術(shù)背景中存在的問題,提出了一種基于云計算的數(shù)據(jù)處理方法,具體技術(shù)方案如下:一種基于云計算的數(shù)據(jù)處理方法,包括部署邊緣計算節(jié)點,配置硬件和軟件環(huán)境,數(shù)據(jù)預(yù)處理將數(shù)據(jù)采集到的數(shù)據(jù)進行清洗、去重、格式化操作,所述預(yù)處理步驟在邊緣節(jié)點完成;將數(shù)據(jù)處理任務(wù)分散到邊緣節(jié)點和云端,形成一個分布式的計算網(wǎng)絡(luò);運用邊緣計算技術(shù)使邊緣設(shè)備自主處理部分數(shù)據(jù),減少對云端的依賴,利用數(shù)據(jù)分片均勻分配數(shù)據(jù)和并行處理,最后將各個云計算節(jié)點上的處理結(jié)果進行聚合,生成最終的數(shù)據(jù)處理結(jié)果。
2、進一步的,所述任務(wù)分配根據(jù)預(yù)處理后的數(shù)據(jù)特點和處理需求,將數(shù)據(jù)處理任務(wù)拆分為多個子任務(wù),并根據(jù)云計算資源的可用情況和任務(wù)優(yōu)先級,將子任務(wù)分配給不同的云計算節(jié)點進行并行處理。
3、進一步的,所述并行處理采用mapreduce算法,第一階段每個云計算節(jié)點讀取分配給自己的數(shù)據(jù)塊,對數(shù)據(jù)進行映射處理,生成鍵值對。映射處理的具體操作根據(jù)數(shù)據(jù)處理任務(wù)的需求而定,例如,對于詞頻統(tǒng)計任務(wù),可以將每個單詞作為鍵,出現(xiàn)次數(shù)作為值,第二階段將第一階段生成的鍵值對按照鍵進行排序和分組,確保相同鍵的鍵值對被發(fā)送到同一個云計算節(jié)點進行reduce函數(shù)處理,每個云計算節(jié)點接收第二階段發(fā)送過來的鍵值對,對相同鍵的值進行歸約處理,生成最終的處理結(jié)果。
4、進一步的,所述每個云計算節(jié)點都具有一定的計算能力和存儲資源的能力。
5、進一步的,所述數(shù)據(jù)采集通過http、mqtt、ftp中的其中一種途徑從數(shù)據(jù)源實時采集數(shù)據(jù)。
6、進一步的,所述數(shù)據(jù)分片包括數(shù)據(jù)分片劃分、節(jié)點性能評估、片分配優(yōu)化以及動態(tài)負載調(diào)整,將數(shù)據(jù)劃分為n個數(shù)據(jù)分片,對集群中的每個云計算節(jié)點進行性能評估,獲取其計算能力和當(dāng)前負載,計算其可用資源權(quán)重;其中,?為平滑因子,根據(jù)節(jié)點權(quán)重,將數(shù)據(jù)分片?分配到計算節(jié)點,使得每個云計算節(jié)點的負載均衡,目標函數(shù)為:。
7、進一步的,所述動態(tài)負載調(diào)整為在任務(wù)執(zhí)行過程中,實時監(jiān)控各云計算節(jié)點的負載狀態(tài),若發(fā)現(xiàn)云計算節(jié)點負載過高,則將其部分分片遷移至負載較低的云計算節(jié)點,遷移條件為:;其中? β?為負載差異閾值,為集群平均負載,其中表示云計算節(jié)點的當(dāng)前負載,表示云計算節(jié)點的當(dāng)前負載。
8、進一步的,所述計算能力 pj?的評估方法為通過計算能力p1、內(nèi)存容量p2 、網(wǎng)絡(luò)帶寬 p3來計算綜合計算能力;其中,,?為權(quán)重系數(shù),滿足?,?,?的三項總和為1。
9、進一步的,所述邊緣計算處理數(shù)據(jù)通過在數(shù)據(jù)源附近部署邊緣設(shè)備和邊緣節(jié)點負責(zé)實時收集數(shù)據(jù),并在本地進行預(yù)處理、分析和決策,邊緣設(shè)備通過物聯(lián)網(wǎng)接口收集原始數(shù)據(jù),利用內(nèi)置或部署在邊緣節(jié)點的軟件對數(shù)據(jù)進行處理。
10、一種云計算平臺,其特征在于,包括:處理器和存儲器;其中:所述處理器用于從所述存儲器中讀取計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述的方法。
11、一種計算機用存儲介質(zhì),其特征在于,其上存儲有計算機程序,所述計算機程序在運行時實現(xiàn)上述的方法。
12、本發(fā)明采用多層次的數(shù)據(jù)處理架構(gòu),將邊緣計算、云計算等有機結(jié)合,實現(xiàn)了數(shù)據(jù)的分層處理,所述預(yù)處理步驟在邊緣節(jié)點完成,減少傳輸?shù)皆贫说臄?shù)據(jù)量,采用高效的數(shù)據(jù)分片和任務(wù)調(diào)度算法,以實現(xiàn)負載均衡和資源優(yōu)化,實現(xiàn)高效、可擴展的數(shù)據(jù)處理。
1.一種基于云計算的數(shù)據(jù)處理方法,其特征在于,包括部署邊緣計算節(jié)點,配置硬件和軟件環(huán)境,數(shù)據(jù)預(yù)處理將數(shù)據(jù)采集到的數(shù)據(jù)進行清洗、去重、格式化操作,所述預(yù)處理步驟在邊緣節(jié)點完成;
2.根據(jù)權(quán)利要求1所述的一種基于云計算的數(shù)據(jù)處理方法,其特征在于,所述動態(tài)負載調(diào)整為在任務(wù)執(zhí)行過程中,實時監(jiān)控各云計算節(jié)點的負載狀態(tài),若發(fā)現(xiàn)云計算節(jié)點負載過高,則將其部分分片遷移至負載較低的云計算節(jié)點,遷移條件為:;其中?β?為負載差異閾值,為集群平均負載,其中表示云計算節(jié)點的當(dāng)前負載,表示云計算節(jié)點的當(dāng)前負載。
3.根據(jù)權(quán)利要求1所述的一種基于云計算的數(shù)據(jù)處理方法,其特征在于,所述計算能力pj?的評估方法為通過計算能力p1、內(nèi)存容量p2、網(wǎng)絡(luò)帶寬p3來計算綜合計算能力;其中,,?為權(quán)重系數(shù),滿足?,?,的三項總和為1。
4.根據(jù)權(quán)利要求1所述的一種基于云計算的數(shù)據(jù)處理方法,其特征在于,所述邊緣計算處理數(shù)據(jù)通過在數(shù)據(jù)源附近部署邊緣設(shè)備和邊緣節(jié)點負責(zé)實時收集數(shù)據(jù),并在本地進行預(yù)處理、分析和決策,邊緣設(shè)備通過物聯(lián)網(wǎng)接口收集原始數(shù)據(jù),利用內(nèi)置或部署在邊緣節(jié)點的軟件對數(shù)據(jù)進行處理。
5.一種云計算平臺,其特征在于,包括:處理器和存儲器;其中:所述處理器用于從所述存儲器中讀取計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1-4任一項所述的方法。
6.一種計算機用存儲介質(zhì),其特征在于,其上存儲有計算機程序,所述計算機程序在運行時實現(xiàn)權(quán)利要求1-4任一項所述的方法。