本發(fā)明屬于多數(shù)據(jù)處理,具體涉及到一種數(shù)字孿生模型的孿生體多數(shù)據(jù)處理方法及系統(tǒng)。
背景技術(shù):
1、數(shù)字孿生是充分利用物理模型、傳感器更新、運(yùn)行歷史等數(shù)據(jù),集成多學(xué)科、多物理量、多尺度、多概率的仿真過程,在虛擬空間中完成映射,從而反映相對(duì)應(yīng)的實(shí)體裝備的全生命周期過程。在構(gòu)建數(shù)字孿生模型的過程中,需要通過許多傳感器采集許多數(shù)據(jù),然而在數(shù)字孿生系統(tǒng)中,可能包含多個(gè)子系統(tǒng),如數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)存儲(chǔ)子系統(tǒng)、數(shù)據(jù)處理子系統(tǒng)等。如果這些子系統(tǒng)之間的接口集成出現(xiàn)問題,就可能導(dǎo)致數(shù)據(jù)傳輸不暢,采集到的數(shù)據(jù)無法正確地傳輸?shù)酱鎯?chǔ)設(shè)備,容易造成數(shù)據(jù)缺失。
2、同時(shí)現(xiàn)有的數(shù)據(jù)處理算法是基于小規(guī)模數(shù)據(jù)設(shè)計(jì)的,當(dāng)面對(duì)大量數(shù)據(jù)時(shí),這些算法可能會(huì)失效,系統(tǒng)在獲取大量高質(zhì)量的標(biāo)注數(shù)據(jù)可能很困難。而且,當(dāng)數(shù)據(jù)量不斷增加時(shí),模型訓(xùn)練的時(shí)間會(huì)大幅增加,同時(shí)還可能出現(xiàn)過擬合等問題,使得模型無法有效處理新的數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于克服上述現(xiàn)有技術(shù)的缺點(diǎn),提供一種數(shù)字孿生模型的孿生體多數(shù)據(jù)處理方法及系統(tǒng)。
2、解決上述技術(shù)問題所采用的技術(shù)方案是:一種數(shù)字孿生模型的孿生體多數(shù)據(jù)處理方法及系統(tǒng),包括多協(xié)議支持模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)處理核心模塊、數(shù)據(jù)存儲(chǔ)與管理模塊四大子系統(tǒng),多協(xié)議支持模塊負(fù)責(zé)與各種數(shù)據(jù)源和外部系統(tǒng)進(jìn)行通信連接,確保能夠接收和發(fā)送符合不同協(xié)議的數(shù)據(jù);數(shù)據(jù)預(yù)處理模塊負(fù)責(zé)將不同格式的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式;數(shù)據(jù)處理核心模塊負(fù)責(zé)將數(shù)據(jù)預(yù)處理模塊傳送的數(shù)據(jù)融合在一起;數(shù)據(jù)存儲(chǔ)與管理模塊負(fù)責(zé)存儲(chǔ)數(shù)字孿生模型的狀態(tài)數(shù)據(jù)和歷史數(shù)據(jù)。
3、所述多協(xié)議支持模塊對(duì)傳入的數(shù)據(jù)連接請(qǐng)求進(jìn)行掃描,掃描過程通過檢查數(shù)據(jù)包頭中的特定字段,掃描到的協(xié)議特征信息會(huì)與模塊內(nèi)部的協(xié)議注冊(cè)庫進(jìn)行匹配,多協(xié)議支持模塊會(huì)啟動(dòng)對(duì)應(yīng)的協(xié)議適配層,且適配層在轉(zhuǎn)換數(shù)據(jù)格式的同時(shí),會(huì)根據(jù)協(xié)議的要求建立與數(shù)據(jù)源的連接,連接建立成功后,多協(xié)議支持模塊開始接收來自數(shù)據(jù)源的數(shù)據(jù),接收到的數(shù)據(jù)會(huì)被轉(zhuǎn)換為系統(tǒng)內(nèi)部統(tǒng)一的數(shù)據(jù)格式傳遞至下一模塊或數(shù)據(jù)緩沖單元。
4、所述多協(xié)議支持模塊包括數(shù)據(jù)緩沖單元,用于暫時(shí)存儲(chǔ)大量涌入的數(shù)據(jù),當(dāng)數(shù)據(jù)量急劇增加時(shí),數(shù)據(jù)緩沖單元先存儲(chǔ)數(shù)據(jù),再按照系統(tǒng)的處理能力逐步將數(shù)據(jù)傳遞給后續(xù)的數(shù)據(jù)預(yù)處理模塊,避免數(shù)據(jù)丟失和系統(tǒng)崩潰。
5、所述數(shù)據(jù)預(yù)處理模塊包括數(shù)據(jù)清洗單元、數(shù)據(jù)標(biāo)準(zhǔn)化與歸一化單元和數(shù)據(jù)集成與轉(zhuǎn)換單元,所述數(shù)據(jù)清洗單元通過檢查數(shù)據(jù)集中每列的值來確定是否存在缺失數(shù)據(jù),根據(jù)數(shù)據(jù)的分布情況,使用均值和中位數(shù)來填充缺失值。
6、所述數(shù)據(jù)標(biāo)準(zhǔn)化與歸一化單元對(duì)于每個(gè)需要標(biāo)準(zhǔn)化的列,計(jì)算其均值μ和標(biāo)準(zhǔn)差σ,使用公式:
7、
8、將每個(gè)數(shù)據(jù)點(diǎn)x轉(zhuǎn)換為標(biāo)準(zhǔn)化后的z值,其中,z值表示該數(shù)據(jù)點(diǎn)距離均值有多少個(gè)標(biāo)準(zhǔn)差;
9、找到每個(gè)需要?dú)w一化的列的最小值min和最大值max,使用公式
10、
11、將每個(gè)數(shù)據(jù)點(diǎn)x轉(zhuǎn)換為歸一化后的值xnorm,其范圍在0到1之間;
12、所述數(shù)據(jù)集成與轉(zhuǎn)換單元將不同數(shù)據(jù)源中關(guān)于同一實(shí)體的屬性進(jìn)行匹配和合并,同時(shí)將不同數(shù)據(jù)類型的數(shù)據(jù)轉(zhuǎn)換為適合后續(xù)分析的類型。
13、所述數(shù)據(jù)處理核心模塊包括分布式計(jì)算框架單元、并行處理算法單元和數(shù)據(jù)融合算法單元,所述分布式計(jì)算框架單元采用分布式計(jì)算框架,將數(shù)據(jù)處理任務(wù)分解并分配到多個(gè)計(jì)算節(jié)點(diǎn)集群上,每個(gè)集群負(fù)責(zé)處理一部分區(qū)域的數(shù)據(jù)再匯總結(jié)果;
14、所述并行處理算法單元能夠同時(shí)利用多個(gè)處理器或計(jì)算核心來處理數(shù)據(jù),并行處理算法單元將大量數(shù)據(jù)分割成多個(gè)小塊,同時(shí)進(jìn)行處理。
15、所述數(shù)據(jù)融合算法單元通過皮爾遜相關(guān)系數(shù)計(jì)算不同數(shù)據(jù)源數(shù)據(jù)之間的相關(guān)性,通過公式:
16、
17、γ為皮爾遜相關(guān)系數(shù),其中n是數(shù)據(jù)點(diǎn)的數(shù)量,和分別是x和y的均值,根據(jù)應(yīng)用需求設(shè)定相關(guān)性閾值,當(dāng)相關(guān)性系數(shù)高于閾值,則認(rèn)為數(shù)據(jù)之間具有較強(qiáng)的相關(guān)性,進(jìn)行進(jìn)一步的融合;
18、根據(jù)數(shù)據(jù)的質(zhì)量、可靠性和重要性確定每個(gè)數(shù)據(jù)源數(shù)據(jù)在融合中的權(quán)重,對(duì)于要融合的多個(gè)數(shù)據(jù)源的數(shù)據(jù)x1,x2,…,xn,其權(quán)重分別為ω1,ω2,…,ωn(且),融合后的結(jié)果y通過公式計(jì)算y=ω1x1+ω2x2+…+ωnxn計(jì)算;
19、進(jìn)行數(shù)據(jù)融合時(shí),根據(jù)系統(tǒng)的動(dòng)態(tài)模型,對(duì)系統(tǒng)的狀態(tài)進(jìn)行估計(jì)和預(yù)測,假設(shè)系統(tǒng)的狀態(tài)方程為
20、xk=axk-1+bμk-1+ωk-1
21、其中xk是k時(shí)刻的系統(tǒng)狀態(tài)向量,a是狀態(tài)轉(zhuǎn)移矩陣,b是控制輸入矩陣,μk-1是控制輸入向量,ωk-1是過程噪聲向量,通過上一時(shí)刻的狀態(tài)估計(jì)和已知的系統(tǒng)模型,預(yù)測當(dāng)前時(shí)刻的狀態(tài);
22、同時(shí),根據(jù)觀測方程
23、zk=hxk+vk
24、其中zk是k時(shí)刻的觀測向量,h是觀測矩陣,vk是觀測噪聲向量,結(jié)合預(yù)測的狀態(tài)和實(shí)際觀測值,利用卡爾曼增益kk來更新狀態(tài)估計(jì),卡爾曼增益的計(jì)算公式為
25、kk=pk/k-1ht(hpk/k-1ht+r)-1
26、其中pk/k-1是預(yù)測協(xié)方差矩陣,r是觀測噪聲協(xié)方差矩陣,更新后的狀態(tài)估計(jì)公式為
27、xk/k=xk/k-1+kk(zk-hxk/k-1)
28、通過不斷地預(yù)測和觀測更新,實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)的融合和狀態(tài)估計(jì)。
29、所述數(shù)據(jù)存儲(chǔ)與管理模塊包括分布式存儲(chǔ)單元和數(shù)據(jù)索引與元數(shù)據(jù)管理單元,所述分布式存儲(chǔ)單元將數(shù)據(jù)分散存儲(chǔ)在多個(gè)存儲(chǔ)節(jié)點(diǎn)上,提高存儲(chǔ)容量和數(shù)據(jù)可靠性;
30、所述數(shù)據(jù)索引與元數(shù)據(jù)管理單元建立有效的索引,快速定位所需的數(shù)據(jù),同時(shí)記錄數(shù)據(jù)的來源、采集時(shí)間和處理歷史的信息。
31、包括下述具體步驟:
32、步驟一:針對(duì)物理實(shí)體,在關(guān)鍵部位和關(guān)鍵流程中部署豐富多樣的傳感器,同時(shí)還從物聯(lián)網(wǎng)設(shè)備和網(wǎng)絡(luò)平臺(tái)收集相關(guān)數(shù)據(jù),挖掘并整合與物理實(shí)體相關(guān)的歷史數(shù)據(jù),包括過往的運(yùn)行記錄、維護(hù)數(shù)據(jù)和故障日志,這些歷史數(shù)據(jù)為分析物理實(shí)體的長期趨勢(shì)和行為模式提供基礎(chǔ);
33、步驟二:通過統(tǒng)計(jì)分析方法,識(shí)別并處理數(shù)據(jù)中的異常值,采用刪除異常值、用臨近值替代和基于模型預(yù)測進(jìn)行修正處理,對(duì)于存在缺失值的數(shù)據(jù),采用均值和中位數(shù)填補(bǔ),提取不同數(shù)據(jù)源數(shù)據(jù)的特征,然后將這些特征進(jìn)行融合,再將不同數(shù)據(jù)源的原始數(shù)據(jù)進(jìn)行融合,按一定順序排列組合成新的數(shù)據(jù)集合,最后通過加權(quán)平均的方式綜合結(jié)果得出最終數(shù)據(jù)融合結(jié)果;
34、步驟三:大規(guī)模的多源數(shù)據(jù),采用分布式存儲(chǔ)技術(shù),將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,對(duì)于結(jié)構(gòu)化數(shù)據(jù),選用關(guān)系型數(shù)據(jù)庫mysql,對(duì)于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),采用nosql數(shù)據(jù)庫。
35、本發(fā)明的有益效果如下:本發(fā)明通過數(shù)據(jù)的分布式計(jì)算、并行處理算法和融合處理使得數(shù)據(jù)信息的處理效率得到顯著提升,挖掘數(shù)據(jù)價(jià)值的能力增強(qiáng),減少了數(shù)據(jù)冗余處理的時(shí)間,同時(shí)融合處理還整合了高質(zhì)量數(shù)據(jù)資源,挖掘多源數(shù)據(jù)的潛在關(guān)聯(lián),且系統(tǒng)通過數(shù)據(jù)處理核心模塊能夠處理多種數(shù)據(jù),進(jìn)而能夠構(gòu)建一個(gè)更完整的設(shè)備狀態(tài)畫像,同時(shí)系統(tǒng)利用不同數(shù)據(jù)之間的內(nèi)在邏輯關(guān)系進(jìn)行相互驗(yàn)證,提高數(shù)據(jù)可信度和準(zhǔn)確性,利用數(shù)據(jù)分析算法,對(duì)海量數(shù)據(jù)進(jìn)行深度挖掘,從而構(gòu)建高精度的數(shù)字模型。