本發(fā)明涉及經(jīng)濟(jì)數(shù)據(jù)處理,更具體地說,本發(fā)明涉及一種分布式統(tǒng)計(jì)數(shù)據(jù)分析優(yōu)化系統(tǒng)及方法。
背景技術(shù):
1、申請(qǐng)公開號(hào)為cn114840641a的專利公開了一種統(tǒng)計(jì)數(shù)據(jù)分析分類系統(tǒng)及方法,包括數(shù)據(jù)處理系統(tǒng),所述數(shù)據(jù)處理系統(tǒng)包括可信度劃分單元、來源定義單元、數(shù)據(jù)初篩單元和分析整合單元,可信度劃分單元用于定義為信任端,并設(shè)定信任端數(shù)據(jù)準(zhǔn)確度評(píng)級(jí)標(biāo)準(zhǔn),劃分出危險(xiǎn)集成區(qū)和黑名單,所述可信度劃分單元與來源定義單元對(duì)接,其中來源定義單元用于對(duì)定義目錄和子目錄數(shù)據(jù),涉及數(shù)據(jù)處理技術(shù)領(lǐng)域。該統(tǒng)計(jì)數(shù)據(jù)分析分類系統(tǒng)及方法,通過對(duì)數(shù)據(jù)源對(duì)應(yīng)的信息獲取點(diǎn)進(jìn)行信任度授權(quán)劃分,并且設(shè)定信任端數(shù)據(jù)準(zhǔn)確度評(píng)級(jí)標(biāo)準(zhǔn),利用積分的形式,鼓勵(lì)不同的信任端進(jìn)行互相糾錯(cuò),從而篩選出低錯(cuò)誤的信息獲取點(diǎn),降低處理難度的同時(shí),實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)的高準(zhǔn)確度分類。
2、企業(yè)營收的經(jīng)濟(jì)數(shù)據(jù)在采集過程中可能由于系統(tǒng)發(fā)生錯(cuò)誤或者網(wǎng)絡(luò)延遲等因素導(dǎo)致出現(xiàn)缺失值或者噪聲數(shù)據(jù),然而現(xiàn)有技術(shù)針對(duì)經(jīng)濟(jì)數(shù)據(jù)的預(yù)處理方法不夠精準(zhǔn),例如在處理缺失值時(shí)無法考慮到由于缺失數(shù)據(jù)點(diǎn)的位置不同對(duì)缺失值處理結(jié)果產(chǎn)生的影響,過濾噪聲時(shí)使用單一的傳統(tǒng)濾波器去除噪聲,而且還頻繁需要人工干預(yù),大大降低了數(shù)據(jù)預(yù)處理的效率;在對(duì)數(shù)據(jù)進(jìn)行分配時(shí)難以靈活調(diào)整分配策略,往往采取固定規(guī)則對(duì)數(shù)據(jù)進(jìn)行分配,例如規(guī)定每個(gè)節(jié)點(diǎn)處理固定數(shù)據(jù)量的數(shù)據(jù),導(dǎo)致資源浪費(fèi),降低了工作效率;利用數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)時(shí)缺乏合理的安全保障,導(dǎo)致系統(tǒng)安全性不足。
3、鑒于此,本發(fā)明提出一種分布式統(tǒng)計(jì)數(shù)據(jù)分析優(yōu)化系統(tǒng)及方法以解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種分布式統(tǒng)計(jì)數(shù)據(jù)分析優(yōu)化方法,包括:
2、s1.采集經(jīng)濟(jì)數(shù)據(jù)集,經(jīng)濟(jì)數(shù)據(jù)集包括經(jīng)濟(jì)數(shù)值數(shù)據(jù)和經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)集;
3、s2.對(duì)經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行預(yù)處理,得到預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集;
4、s3.對(duì)預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)分片,得到分片經(jīng)濟(jì)數(shù)據(jù)集;對(duì)分片經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行任務(wù)分配處理,得到最優(yōu)分配數(shù)據(jù)集;
5、s4.對(duì)最優(yōu)分配數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析,得到預(yù)測(cè)分析結(jié)果;將最優(yōu)分配數(shù)據(jù)集和預(yù)測(cè)分析結(jié)果合并為預(yù)測(cè)分析數(shù)據(jù)集;利用加密算法對(duì)預(yù)測(cè)分析數(shù)據(jù)集進(jìn)行加密處理,得到加密數(shù)據(jù)集;將加密數(shù)據(jù)集發(fā)送到預(yù)設(shè)的數(shù)據(jù)庫進(jìn)行存儲(chǔ)。
6、進(jìn)一步地,利用爬蟲方法獲取預(yù)先選擇的企業(yè)營收數(shù)據(jù)平臺(tái)的經(jīng)濟(jì)數(shù)值數(shù)據(jù)和預(yù)設(shè)時(shí)間周期內(nèi)的經(jīng)濟(jì)時(shí)間序列數(shù)據(jù);經(jīng)濟(jì)數(shù)值數(shù)據(jù)包括每個(gè)客戶的平均消費(fèi)金額,經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)包括每日營收金額;為經(jīng)濟(jì)數(shù)值數(shù)據(jù)中的任意一個(gè)數(shù)值數(shù)據(jù)點(diǎn)添加編號(hào),并將經(jīng)濟(jì)數(shù)值數(shù)據(jù)的所有數(shù)值數(shù)據(jù)點(diǎn)按照編號(hào)大小升序排列;將經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)所屬的預(yù)設(shè)時(shí)間周期分成y份時(shí)間周期區(qū)間,將每個(gè)時(shí)間周期區(qū)間內(nèi)的所有時(shí)序數(shù)據(jù)點(diǎn)視為一份經(jīng)濟(jì)時(shí)間序列數(shù)據(jù);對(duì)每一份經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)按照時(shí)間周期區(qū)間的順序進(jìn)行編號(hào),整合所有編號(hào)后的經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)得到經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)集;任意一份經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)中的任意一個(gè)時(shí)序數(shù)據(jù)點(diǎn)有一個(gè)時(shí)間戳與其對(duì)應(yīng);將經(jīng)濟(jì)數(shù)值數(shù)據(jù)和經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)集整合得到經(jīng)濟(jì)數(shù)據(jù)集。
7、進(jìn)一步地,所述對(duì)經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行預(yù)處理的方式包括:
8、對(duì)經(jīng)濟(jì)數(shù)值數(shù)據(jù)進(jìn)行缺失值處理,得到完整數(shù)值數(shù)據(jù);對(duì)經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)集進(jìn)行缺失值處理,得到完整時(shí)序數(shù)據(jù);對(duì)完整時(shí)序數(shù)據(jù)進(jìn)行濾波處理,得到過濾時(shí)序數(shù)據(jù);將完整數(shù)值數(shù)據(jù)和過濾時(shí)序數(shù)據(jù)組合得到預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集;
9、對(duì)經(jīng)濟(jì)數(shù)值數(shù)據(jù)進(jìn)行缺失值處理的方式包括:
10、對(duì)經(jīng)濟(jì)數(shù)值數(shù)據(jù)進(jìn)行遍歷,若編號(hào)對(duì)應(yīng)的數(shù)值數(shù)據(jù)點(diǎn)中的平均消費(fèi)金額數(shù)值缺失,則將該數(shù)值數(shù)據(jù)點(diǎn)判定為缺失數(shù)值數(shù)據(jù)點(diǎn),基于編號(hào)確定缺失數(shù)值數(shù)據(jù)點(diǎn)的位置;按照遍歷順序?qū)θ笔?shù)值數(shù)據(jù)點(diǎn)進(jìn)行額外標(biāo)號(hào);
11、計(jì)算每個(gè)缺失數(shù)值數(shù)據(jù)點(diǎn)與其他任意一個(gè)數(shù)值數(shù)據(jù)點(diǎn)的歐氏距離,基于該歐氏距離利用聚類算法對(duì)經(jīng)濟(jì)數(shù)值數(shù)據(jù)中的所有數(shù)值數(shù)據(jù)點(diǎn)進(jìn)行聚類處理;將額外標(biāo)號(hào)對(duì)應(yīng)的缺失數(shù)值數(shù)據(jù)點(diǎn)作為聚類中心,若任意一個(gè)數(shù)值數(shù)據(jù)點(diǎn)與任意一個(gè)聚類中心的歐氏距離小于預(yù)設(shè)的歐氏距離閾值,則將所述數(shù)值數(shù)據(jù)點(diǎn)分類到所述聚類中心對(duì)應(yīng)的簇類中;若經(jīng)過聚類處理后存在不屬于任何一個(gè)簇類的數(shù)值數(shù)據(jù)點(diǎn),則將該數(shù)值數(shù)據(jù)點(diǎn)歸入與其歐氏距離最近的簇類中;基于每個(gè)簇類中的數(shù)值數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)值數(shù)據(jù)點(diǎn)進(jìn)行平均消費(fèi)金額缺失值擬合,得到每個(gè)缺失數(shù)值數(shù)據(jù)點(diǎn)的平均消費(fèi)金額擬合值;利用每個(gè)缺失數(shù)值數(shù)據(jù)點(diǎn)的平均消費(fèi)金額擬合值填充缺失數(shù)值數(shù)據(jù)點(diǎn)的值,得到完整數(shù)值數(shù)據(jù)。
12、進(jìn)一步地,所述對(duì)缺失數(shù)值數(shù)據(jù)點(diǎn)進(jìn)行平均消費(fèi)金額缺失值擬合的方式包括:
13、利用線性插值方法對(duì)所有缺失數(shù)值數(shù)據(jù)點(diǎn)的值進(jìn)行初步估計(jì),得到每個(gè)缺失數(shù)值數(shù)據(jù)點(diǎn)的初始值;
14、將缺失數(shù)值數(shù)據(jù)點(diǎn)的位置分布分成兩類,包括一類位置分布和二類位置分布;一類位置分布為任意兩個(gè)缺失數(shù)值數(shù)據(jù)點(diǎn)互不相鄰,二類位置分布為存在兩個(gè)或者兩個(gè)以上的缺失數(shù)值數(shù)據(jù)點(diǎn)相鄰;當(dāng)任意兩個(gè)缺失數(shù)值數(shù)據(jù)點(diǎn)互不相鄰時(shí),構(gòu)建一類目標(biāo)函數(shù);通過最小化一類目標(biāo)函數(shù)計(jì)算缺失數(shù)值數(shù)據(jù)點(diǎn)屬于一類位置分布時(shí)的平均消費(fèi)金額擬合值;
15、一類目標(biāo)函數(shù);其中,表示額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)的初始值;表示額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)對(duì)應(yīng)的簇中所有數(shù)值數(shù)據(jù)點(diǎn)的集合;表示集合中任意一個(gè)數(shù)值數(shù)據(jù)點(diǎn);表示額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)與集合中任意一個(gè)數(shù)值數(shù)據(jù)點(diǎn)的權(quán)重;是一個(gè)常數(shù);
16、利用梯度下降法對(duì)額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)的初始值進(jìn)行更新,直到一類目標(biāo)函數(shù)的函數(shù)值不再減小,此時(shí)得到缺失數(shù)值數(shù)據(jù)點(diǎn)屬于一類位置分布時(shí)的平均消費(fèi)金額擬合值;
17、當(dāng)存在兩個(gè)或者兩個(gè)以上的缺失數(shù)值數(shù)據(jù)點(diǎn)相鄰時(shí),構(gòu)建二類目標(biāo)函數(shù);
18、二類目標(biāo)函數(shù);其中,表示從額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)到額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)之間任意一個(gè)缺失數(shù)值數(shù)據(jù)點(diǎn)的初始值;表示從額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)到額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)所形成的所有簇中所有數(shù)值數(shù)據(jù)點(diǎn)的集合;表示集合中的任意一個(gè)數(shù)值數(shù)據(jù)點(diǎn);表示從額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)到額外標(biāo)號(hào)為的缺失數(shù)值數(shù)據(jù)點(diǎn)之間任意一個(gè)缺失數(shù)值數(shù)據(jù)點(diǎn)與集合中的任意一個(gè)數(shù)值數(shù)據(jù)點(diǎn)的歐氏距離;是一個(gè)常數(shù);
19、通過對(duì)二類目標(biāo)函數(shù)中每一個(gè)求偏導(dǎo)得到聯(lián)立方程組;對(duì)聯(lián)立方程組進(jìn)行求解得到每個(gè)屬于二類位置分布的缺失數(shù)值數(shù)據(jù)點(diǎn)的平均消費(fèi)金額擬合值。
20、進(jìn)一步地,所述對(duì)經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)集進(jìn)行缺失值處理的方式包括:
21、構(gòu)建深度學(xué)習(xí)模型,將gan網(wǎng)絡(luò)模型作為深度學(xué)習(xí)模型的基本框架;采集歷史完整時(shí)間序列數(shù)據(jù)集,將該數(shù)據(jù)集作為深度學(xué)習(xí)模型的驗(yàn)證集;隨機(jī)選擇歷史時(shí)間序列數(shù)據(jù)集中個(gè)歷史時(shí)序數(shù)據(jù)點(diǎn)進(jìn)行標(biāo)記,同時(shí)掩蓋這些歷史時(shí)序數(shù)據(jù)點(diǎn)的值,得到模糊時(shí)間序列數(shù)據(jù)集,將該數(shù)據(jù)集作為深度學(xué)習(xí)模型的訓(xùn)練集;
22、構(gòu)建原始矩陣,其中原始矩陣的行表示模糊時(shí)間序列數(shù)據(jù)集中的任意一份經(jīng)濟(jì)時(shí)間序列數(shù)據(jù),原始矩陣的列表示模糊時(shí)間序列數(shù)據(jù)集中的任意一份經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)中的時(shí)間戳;利用原始矩陣表示模糊時(shí)間序列數(shù)據(jù)集,其中利用0表示缺失時(shí)序數(shù)據(jù)點(diǎn),利用1表示已知時(shí)序數(shù)據(jù)點(diǎn);
23、將訓(xùn)練集、原始矩陣和一個(gè)基于高斯分布生成的隨機(jī)噪聲向量輸入深度學(xué)習(xí)模型的生成器;定義注意力分?jǐn)?shù),計(jì)算每一份經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)中的每一個(gè)時(shí)序數(shù)據(jù)點(diǎn)的注意力分?jǐn)?shù),并對(duì)所有時(shí)序數(shù)據(jù)點(diǎn)的注意力分?jǐn)?shù)進(jìn)行求和,得到注意力向量;生成器基于輸入數(shù)據(jù)和注意力向量生成缺失時(shí)序數(shù)據(jù)點(diǎn)的預(yù)測(cè)值,并利用該預(yù)測(cè)值對(duì)模糊時(shí)間序列數(shù)據(jù)集進(jìn)行填充,得到初步處理數(shù)據(jù)集;判別器通過對(duì)比驗(yàn)證集和初步處理數(shù)據(jù)集輸出一個(gè)判別概率,同時(shí)計(jì)算深度學(xué)習(xí)模型的損失函數(shù);重復(fù)生成和判別的過程,直到判別器輸出的判別概率大于或等于預(yù)設(shè)的判斷閾值且此時(shí)深度學(xué)習(xí)模型的損失函數(shù)的函數(shù)值不再減小,此時(shí)得到訓(xùn)練完成的深度學(xué)習(xí)模型;
24、利用訓(xùn)練完成的深度學(xué)習(xí)模型對(duì)經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)集進(jìn)行缺失值處理,得到完整時(shí)序數(shù)據(jù)。
25、進(jìn)一步地,所述對(duì)完整時(shí)序數(shù)據(jù)進(jìn)行濾波處理的方式包括:
26、利用小波分解將完整時(shí)序數(shù)據(jù)分解為n個(gè)時(shí)序信號(hào)分量,預(yù)設(shè)時(shí)序噪聲閾值,通過軟閾值法處理每個(gè)時(shí)序信號(hào)分量中的高頻噪聲,得到初步去噪時(shí)序數(shù)據(jù);構(gòu)造自適應(yīng)濾波器,并對(duì)自適應(yīng)濾波器進(jìn)行優(yōu)化,得到最優(yōu)性能自適應(yīng)濾波器;利用最優(yōu)性能自適應(yīng)濾波器對(duì)初步去噪時(shí)序數(shù)據(jù)進(jìn)行去噪處理,得到過濾時(shí)序數(shù)據(jù);
27、構(gòu)造自適應(yīng)濾波器對(duì)初步去噪時(shí)序數(shù)據(jù)進(jìn)行去噪處理的方式包括:
28、初始化自適應(yīng)濾波器性能參數(shù),該性能參數(shù)包括自適應(yīng)濾波器的權(quán)重向量和性能指標(biāo);
29、基于去噪時(shí)序數(shù)據(jù)中第個(gè)時(shí)間戳對(duì)應(yīng)的值和第個(gè)時(shí)間戳對(duì)應(yīng)的權(quán)重向量計(jì)算第個(gè)時(shí)間戳對(duì)應(yīng)的濾波誤差;
30、構(gòu)造更新協(xié)方差矩陣;基于第個(gè)時(shí)間戳對(duì)應(yīng)的濾波誤差和更新協(xié)方差矩陣對(duì)自適應(yīng)濾波器的權(quán)重向量進(jìn)行更新,得到第個(gè)時(shí)間戳對(duì)應(yīng)的更新權(quán)重;
31、基于第個(gè)時(shí)間戳對(duì)應(yīng)的更新權(quán)重和去噪時(shí)序數(shù)據(jù)中第個(gè)時(shí)間戳對(duì)應(yīng)的值計(jì)算第個(gè)時(shí)間戳對(duì)應(yīng)的濾波誤差,并基于第個(gè)時(shí)間戳對(duì)應(yīng)的濾波誤差計(jì)算第個(gè)時(shí)間戳對(duì)應(yīng)的性能指標(biāo);
32、重復(fù)更新權(quán)重向量和性能指標(biāo),直到性能指標(biāo)的值小于或等于預(yù)設(shè)的性能指標(biāo)閾值;固定此時(shí)參數(shù),得到最優(yōu)性能自適應(yīng)濾波器。
33、進(jìn)一步地,所述對(duì)預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)分片的方式包括:
34、基于預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集中的不同類型數(shù)據(jù),利用不同分片策略對(duì)預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)分片;
35、對(duì)于預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集中的完整數(shù)值數(shù)據(jù)利用均勻分片方法進(jìn)行數(shù)據(jù)分片;統(tǒng)計(jì)完整數(shù)值數(shù)據(jù)中的數(shù)據(jù)量,基于數(shù)據(jù)量將完整數(shù)值數(shù)據(jù)分為u組;將每一組完整數(shù)值數(shù)據(jù)寫入一份數(shù)值任務(wù)分片中,并為每一份數(shù)值任務(wù)分片編號(hào),直到完整數(shù)值數(shù)據(jù)全部寫入u份數(shù)值任務(wù)分片中,得到數(shù)值任務(wù)分片集合;
36、對(duì)于預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集中的過濾時(shí)序數(shù)據(jù)利用時(shí)間段分片方法進(jìn)行數(shù)據(jù)分片;查詢過濾時(shí)序數(shù)據(jù)中每一個(gè)過濾時(shí)序數(shù)據(jù)點(diǎn)所屬的時(shí)間周期區(qū)間,基于時(shí)間周期區(qū)間將過濾時(shí)序數(shù)據(jù)分為y組;將每一組過濾時(shí)序數(shù)據(jù)寫入一份時(shí)序任務(wù)分片中,并利用時(shí)間周期區(qū)間對(duì)每一份時(shí)序任務(wù)分片進(jìn)行標(biāo)記,直到過濾時(shí)序數(shù)據(jù)全部寫入y份時(shí)序任務(wù)分片中,得到時(shí)序任務(wù)分片集合;將時(shí)序任務(wù)分片集合和數(shù)值任務(wù)分片集合組合得到分片經(jīng)濟(jì)數(shù)據(jù)集。
37、進(jìn)一步地,所述對(duì)分片經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行任務(wù)分配處理的方式包括:
38、定義節(jié)點(diǎn)集合和節(jié)點(diǎn)參數(shù),其中分別表示節(jié)點(diǎn)集合中的每個(gè)節(jié)點(diǎn);節(jié)點(diǎn)參數(shù)包括任何一個(gè)節(jié)點(diǎn)的負(fù)載上限;其中,表示節(jié)點(diǎn)集合中任何一個(gè)節(jié)點(diǎn)的計(jì)算負(fù)載上限;表示節(jié)點(diǎn)集合中任何一個(gè)節(jié)點(diǎn)的內(nèi)存負(fù)載上限;
39、查詢分片經(jīng)濟(jì)數(shù)據(jù)集中每份任務(wù)分片的數(shù)據(jù)復(fù)雜度和內(nèi)存占用量;基于數(shù)據(jù)復(fù)雜度和內(nèi)存占用量計(jì)算每份任務(wù)分片的負(fù)載;
40、每份任務(wù)分片的負(fù)載;其中,表示任意一份任務(wù)分片的數(shù)據(jù)復(fù)雜度;表示任意一份任務(wù)分片的內(nèi)存占用量;表示數(shù)據(jù)復(fù)雜度的權(quán)重;表示內(nèi)存占用量的權(quán)重;
41、對(duì)數(shù)據(jù)復(fù)雜度的權(quán)重和內(nèi)存占用量的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整,動(dòng)態(tài)調(diào)整的計(jì)算公式為:
42、;其中,表示所有任務(wù)分片的數(shù)據(jù)復(fù)雜度的均值;表示數(shù)據(jù)復(fù)雜度的方差;表示內(nèi)存占用量的方差;表示所有節(jié)點(diǎn)的計(jì)算負(fù)載上限總和;表示已被使用的計(jì)算負(fù)載總和;
43、;其中,表示所有任務(wù)分片的內(nèi)存占用量的均值;表示所有節(jié)點(diǎn)的內(nèi)存負(fù)載上限總和;表示已被使用的內(nèi)存負(fù)載總和;
44、基于每份任務(wù)分片的負(fù)載對(duì)所有任務(wù)分片進(jìn)行負(fù)載從大到小的降序排列,得到排序分片數(shù)據(jù)集;為排序分片數(shù)據(jù)集中的每份任務(wù)分片分配一個(gè)節(jié)點(diǎn),得到分配節(jié)點(diǎn)序列;從第一個(gè)節(jié)點(diǎn)開始對(duì)分配節(jié)點(diǎn)序列進(jìn)行遍歷,檢查第二個(gè)節(jié)點(diǎn)中的任務(wù)分片的負(fù)載,若將第二個(gè)節(jié)點(diǎn)中任務(wù)分片的負(fù)載與第一個(gè)節(jié)點(diǎn)中任務(wù)分片的負(fù)載相加所得的負(fù)載總和小于或等于節(jié)點(diǎn)的負(fù)載上限,則將第二個(gè)節(jié)點(diǎn)中的任務(wù)分片添加到第一個(gè)節(jié)點(diǎn)中,同時(shí)釋放第二個(gè)節(jié)點(diǎn);反之則計(jì)算第三個(gè)節(jié)點(diǎn)與第一個(gè)節(jié)點(diǎn)的任務(wù)分片的負(fù)載總和,直到第一個(gè)節(jié)點(diǎn)的負(fù)載達(dá)到負(fù)載上限或者無法容納其余任何一個(gè)任務(wù)分片時(shí),此時(shí)從第二個(gè)節(jié)點(diǎn)開始遍歷,重復(fù)計(jì)算負(fù)載總和填充節(jié)點(diǎn)的過程;計(jì)算每個(gè)節(jié)點(diǎn)的資源利用率,若存在節(jié)點(diǎn)的資源利用率低于預(yù)設(shè)的利用率閾值,則將該節(jié)點(diǎn)的任務(wù)分片添加到其他節(jié)點(diǎn)中,直到所有任務(wù)分片全部被分配且包含任務(wù)分片的節(jié)點(diǎn)數(shù)量達(dá)到最小,此時(shí)得到最優(yōu)節(jié)點(diǎn)序列,即為最優(yōu)分配數(shù)據(jù)集。
45、進(jìn)一步地,所述對(duì)最優(yōu)分配數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析的方式包括:
46、對(duì)最優(yōu)分配數(shù)據(jù)集進(jìn)行特征提取,得到最優(yōu)分配數(shù)據(jù)集的經(jīng)濟(jì)數(shù)值數(shù)據(jù)特征和經(jīng)濟(jì)時(shí)序數(shù)據(jù)特征;基于經(jīng)濟(jì)數(shù)值數(shù)據(jù)特征和經(jīng)濟(jì)時(shí)序數(shù)據(jù)特征構(gòu)建機(jī)器學(xué)習(xí)模型對(duì)最優(yōu)分配數(shù)據(jù)集進(jìn)行處理,分別得到平均消費(fèi)金額預(yù)測(cè)結(jié)果和每日營收金額預(yù)測(cè)結(jié)果,將平均消費(fèi)金額預(yù)測(cè)結(jié)果和每日營收金額預(yù)測(cè)結(jié)果組合得到預(yù)測(cè)分析結(jié)果。
47、一種分布式統(tǒng)計(jì)數(shù)據(jù)分析優(yōu)化系統(tǒng),其用于實(shí)現(xiàn)一種分布式統(tǒng)計(jì)數(shù)據(jù)分析優(yōu)化方法,包括:
48、數(shù)據(jù)采集模塊,用于采集經(jīng)濟(jì)數(shù)據(jù)集,經(jīng)濟(jì)數(shù)據(jù)集包括經(jīng)濟(jì)數(shù)值數(shù)據(jù)和經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)集;
49、預(yù)處理模塊,用于對(duì)經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行預(yù)處理,得到預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集;
50、分配模塊,用于對(duì)預(yù)處理后經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)分片,得到分片經(jīng)濟(jì)數(shù)據(jù)集;對(duì)分片經(jīng)濟(jì)數(shù)據(jù)集進(jìn)行任務(wù)分配處理,得到最優(yōu)分配數(shù)據(jù)集;
51、分析模塊,用于對(duì)最優(yōu)分配數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析,得到預(yù)測(cè)分析結(jié)果;將最優(yōu)分配數(shù)據(jù)集和預(yù)測(cè)分析結(jié)果合并為預(yù)測(cè)分析數(shù)據(jù)集;利用加密算法對(duì)預(yù)測(cè)分析數(shù)據(jù)集進(jìn)行加密處理,得到加密數(shù)據(jù)集;將加密數(shù)據(jù)集發(fā)送到預(yù)設(shè)的數(shù)據(jù)庫進(jìn)行存儲(chǔ);各個(gè)模塊之間通過有線和/或無線的方式進(jìn)行連接。
52、本發(fā)明一種分布式統(tǒng)計(jì)數(shù)據(jù)分析優(yōu)化系統(tǒng)及方法的技術(shù)效果和優(yōu)點(diǎn):
53、通過采集統(tǒng)計(jì)數(shù)據(jù),該統(tǒng)計(jì)數(shù)據(jù)包括企業(yè)營收經(jīng)濟(jì)數(shù)據(jù)中每個(gè)客戶的平均消費(fèi)金額數(shù)據(jù)和企業(yè)的每日營收金額數(shù)據(jù);對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行了精細(xì)的預(yù)處理,同時(shí)對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行合理分配,完成了對(duì)統(tǒng)計(jì)數(shù)據(jù)的數(shù)據(jù)分析,并對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行加密存儲(chǔ),實(shí)現(xiàn)了對(duì)企業(yè)營收經(jīng)濟(jì)數(shù)據(jù)領(lǐng)域的統(tǒng)計(jì)數(shù)據(jù)分析過程的優(yōu)化;與現(xiàn)有經(jīng)驗(yàn)相比,針對(duì)不同類型的數(shù)據(jù)利用合適的方法完成了預(yù)處理,在數(shù)據(jù)量龐大的數(shù)據(jù)集中相比較于傳統(tǒng)方法更為精準(zhǔn),間接提高了數(shù)據(jù)分析的效率;考慮到系統(tǒng)的負(fù)載和存儲(chǔ)空間對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行了數(shù)據(jù)分片,提出了有效的任務(wù)分配策略,優(yōu)化了系統(tǒng)的資源利用率,避免了產(chǎn)生資源浪費(fèi)或者超載情況的發(fā)生;構(gòu)建模型對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行了數(shù)值和發(fā)展趨勢(shì)方面的預(yù)測(cè),同時(shí)利用加密算法對(duì)統(tǒng)計(jì)數(shù)據(jù)和預(yù)測(cè)結(jié)果進(jìn)行加密存儲(chǔ),保證了統(tǒng)計(jì)數(shù)據(jù)在大數(shù)據(jù)環(huán)境下的安全性和隱私性。