本發(fā)明涉及醫(yī)療健康大數(shù)據(jù)分析,尤其涉及一種基于大數(shù)據(jù)分析的糖尿病腎病風(fēng)險(xiǎn)識(shí)別方法及系統(tǒng)。
背景技術(shù):
1、醫(yī)療健康大數(shù)據(jù)分析技術(shù)領(lǐng)域包含對(duì)與健康相關(guān)的大規(guī)模數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、分析和利用的技術(shù),該技術(shù)領(lǐng)域的核心內(nèi)容是通過對(duì)來自多種來源的大量健康數(shù)據(jù)進(jìn)行處理和分析,揭示潛在的健康風(fēng)險(xiǎn)因素、預(yù)測(cè)個(gè)體或群體的健康發(fā)展趨勢(shì),從而為疾病預(yù)防和健康管理提供決策支持,醫(yī)療健康大數(shù)據(jù)分析技術(shù)領(lǐng)域包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、特征提取、模型構(gòu)建及風(fēng)險(xiǎn)評(píng)估等多個(gè)方面,涉及對(duì)不同形式的健康數(shù)據(jù)進(jìn)行精準(zhǔn)分析和科學(xué)建模,以支持健康風(fēng)險(xiǎn)識(shí)別與干預(yù)的實(shí)施。
2、其中,糖尿病腎病風(fēng)險(xiǎn)識(shí)別方法是指通過對(duì)與糖尿病腎病相關(guān)的大規(guī)模數(shù)據(jù)進(jìn)行特定分析,以發(fā)現(xiàn)引發(fā)該疾病的風(fēng)險(xiǎn)因素,并對(duì)個(gè)體或群體的患病風(fēng)險(xiǎn)進(jìn)行評(píng)估的方法,該方法主要針對(duì)糖尿病患者的健康數(shù)據(jù),通過分析關(guān)鍵指標(biāo)如血糖水平、腎功能指標(biāo)及相關(guān)時(shí)間序列數(shù)據(jù),利用計(jì)算機(jī)化建模技術(shù)和特征提取算法對(duì)數(shù)據(jù)進(jìn)行深度分析,此類方法以大數(shù)據(jù)技術(shù)為基礎(chǔ),通過對(duì)患者的健康數(shù)據(jù)進(jìn)行精確的模式識(shí)別和特征匹配,實(shí)現(xiàn)糖尿病腎病風(fēng)險(xiǎn)的評(píng)估。
3、現(xiàn)有技術(shù)在健康數(shù)據(jù)分析中對(duì)于關(guān)鍵指標(biāo)的特征篩選不足,難以全面捕捉高風(fēng)險(xiǎn)指標(biāo)間的復(fù)雜交互關(guān)系,導(dǎo)致特征構(gòu)建過程中的細(xì)節(jié)缺失,對(duì)樣本數(shù)據(jù)的處理多集中于原始數(shù)據(jù)的直接分析,未能充分解決樣本不平衡和數(shù)據(jù)分布偏差的問題,這種不足限制數(shù)據(jù)的覆蓋性與代表性,在時(shí)間序列數(shù)據(jù)分析方面,現(xiàn)有技術(shù)未充分應(yīng)對(duì)非平穩(wěn)性帶來的誤差,導(dǎo)致分布切變點(diǎn)的識(shí)別不夠精準(zhǔn),影響分段數(shù)據(jù)特征的提取,在動(dòng)態(tài)預(yù)測(cè)環(huán)節(jié),現(xiàn)有技術(shù)對(duì)于時(shí)間序列參數(shù)的變化趨勢(shì)與偏移率的捕捉能力較弱,造成預(yù)測(cè)結(jié)果的靈敏度和精確性不足,現(xiàn)有技術(shù)在綜合風(fēng)險(xiǎn)評(píng)估時(shí)缺乏對(duì)區(qū)間數(shù)據(jù)權(quán)重的精準(zhǔn)量化,難以準(zhǔn)確識(shí)別患者的總體風(fēng)險(xiǎn)等級(jí),影響風(fēng)險(xiǎn)識(shí)別的全面性與可靠性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是解決現(xiàn)有技術(shù)中存在的缺點(diǎn),而提出的一種基于大數(shù)據(jù)分析的糖尿病腎病風(fēng)險(xiǎn)識(shí)別方法及系統(tǒng)。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:一種基于大數(shù)據(jù)分析的糖尿病腎病風(fēng)險(xiǎn)識(shí)別方法,包括以下步驟:
3、s1:基于糖尿病腎病患者的健康風(fēng)險(xiǎn)數(shù)據(jù),通過大數(shù)據(jù)分析篩選風(fēng)險(xiǎn)患者的關(guān)鍵指標(biāo)特征,分析風(fēng)險(xiǎn)患者關(guān)鍵指標(biāo)的關(guān)聯(lián),提取風(fēng)險(xiǎn)指標(biāo)交互特征,確定風(fēng)險(xiǎn)特征約束條件,通過多維數(shù)據(jù)關(guān)聯(lián)識(shí)別虛擬樣本參數(shù),建立風(fēng)險(xiǎn)患者虛擬樣本集;
4、s2:基于所述風(fēng)險(xiǎn)患者虛擬樣本集,提取患者血糖、血壓、尿微量白蛋白、血尿素氮的時(shí)間序列數(shù)據(jù),結(jié)合大數(shù)據(jù)分析識(shí)別序列中關(guān)鍵變化率,提取波動(dòng)位置并判斷分布切變點(diǎn),劃分時(shí)間序列穩(wěn)定區(qū)間,提取每個(gè)區(qū)間內(nèi)數(shù)據(jù)特征集,獲取分段特征區(qū)間數(shù)據(jù);
5、s3:基于所述分段特征區(qū)間數(shù)據(jù),解析每個(gè)區(qū)間的變化趨勢(shì),分析參數(shù)的交互變化與偏移率,依據(jù)區(qū)間分布規(guī)律計(jì)算區(qū)間動(dòng)態(tài)預(yù)測(cè)值,通過對(duì)風(fēng)險(xiǎn)指標(biāo)的逐步分析擴(kuò)展?jié)撛谔卣?,建立?dòng)態(tài)特征風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集;
6、s4:通過所述動(dòng)態(tài)特征風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集分析每個(gè)區(qū)間的風(fēng)險(xiǎn)貢獻(xiàn),對(duì)分段特征區(qū)間權(quán)重的分配比例進(jìn)行加權(quán),整合區(qū)間數(shù)據(jù)并進(jìn)行全局風(fēng)險(xiǎn)量化,依據(jù)區(qū)間特性評(píng)估患者總體風(fēng)險(xiǎn),得到糖尿病腎病患者風(fēng)險(xiǎn)評(píng)估結(jié)果。
7、作為本發(fā)明的進(jìn)一步方案,所述風(fēng)險(xiǎn)指標(biāo)交互特征的獲取步驟具體為:
8、s111:基于糖尿病腎病患者的健康風(fēng)險(xiǎn)數(shù)據(jù),進(jìn)行數(shù)據(jù)的結(jié)構(gòu)化解析,包括分類歸納患者的多維度健康指標(biāo),按類型分組針對(duì)分組后的指標(biāo)計(jì)算每項(xiàng)統(tǒng)計(jì)特性,獲取分組指標(biāo)統(tǒng)計(jì)數(shù)據(jù);
9、s112:基于所述分組指標(biāo)統(tǒng)計(jì)數(shù)據(jù),對(duì)篩選的風(fēng)險(xiǎn)患者關(guān)鍵指標(biāo)進(jìn)行差異性分析,采用歸納性策略評(píng)估指標(biāo)間的關(guān)聯(lián)程度,識(shí)別并標(biāo)記關(guān)鍵風(fēng)險(xiǎn)指標(biāo)間的關(guān)聯(lián),獲取關(guān)鍵指標(biāo)關(guān)聯(lián)信息;
10、s113:基于所述關(guān)鍵指標(biāo)關(guān)聯(lián)信息,提取潛在風(fēng)險(xiǎn)指標(biāo)間的交互特征,按照特征互補(bǔ)性與風(fēng)險(xiǎn)增益值對(duì)提取結(jié)果進(jìn)行優(yōu)先級(jí)排序,篩選實(shí)時(shí)意義的交互特征,得到風(fēng)險(xiǎn)指標(biāo)交互特征。
11、作為本發(fā)明的進(jìn)一步方案,所述風(fēng)險(xiǎn)患者虛擬樣本集的獲取步驟具體為:
12、s121:根據(jù)所述風(fēng)險(xiǎn)指標(biāo)交互特征,提取多維數(shù)據(jù)中與糖尿病腎病關(guān)聯(lián)的風(fēng)險(xiǎn)指標(biāo),分析每個(gè)指標(biāo)間的交互特征,通過關(guān)聯(lián)系數(shù)與動(dòng)態(tài)變化趨勢(shì)量化交互水平,結(jié)合特征間依賴關(guān)系與權(quán)重分配值設(shè)定約束條件,得到初步風(fēng)險(xiǎn)特征約束條件;
13、s122:調(diào)用所述初步風(fēng)險(xiǎn)特征約束條件與患者風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行交互運(yùn)算,通過對(duì)多維度交互特征動(dòng)態(tài)變化率進(jìn)行擬合,采用公式:
14、
15、計(jì)算得到多維交互約束條件;
16、其中,fs代表多維交互約束條件值,wi代表第i維特征的權(quán)重,ti代表理論約束值,ri代表實(shí)時(shí)計(jì)算值,k為調(diào)整因子用于優(yōu)化特征擬合度,n代表交互特征的總維度;
17、s123:將所述多維交互約束條件應(yīng)用于虛擬樣本參數(shù)篩選,判斷樣本參數(shù)組合是否滿足約束條件,采用逐維參數(shù)遞歸匹配進(jìn)行參數(shù)約束組合,通過對(duì)參數(shù)組合的多維數(shù)據(jù)關(guān)聯(lián)與動(dòng)態(tài)趨勢(shì)擬合進(jìn)行分析,建立風(fēng)險(xiǎn)患者虛擬樣本集。
18、作為本發(fā)明的進(jìn)一步方案,所述分段特征區(qū)間數(shù)據(jù)的獲取步驟具體為:
19、s211:基于所述風(fēng)險(xiǎn)患者虛擬樣本集,提取患者的血糖、血壓、尿微量白蛋白、血尿素氮的時(shí)間序列數(shù)據(jù),分析時(shí)間序列中每個(gè)時(shí)間點(diǎn)的對(duì)應(yīng)變化率,通過比較變化率超過關(guān)鍵閾值的點(diǎn),識(shí)別時(shí)間序列中的關(guān)鍵變化率,生成初步的變化率集合;
20、s212:根據(jù)所述初步的變化率集合定位時(shí)間序列中波動(dòng)的位置,結(jié)合變化率與數(shù)據(jù)分布差異,識(shí)別數(shù)據(jù)中的切變點(diǎn),采用公式:
21、
22、計(jì)算切變點(diǎn)的分布權(quán)重值,生成波動(dòng)位置的分布切變點(diǎn);
23、其中,ck代表切變點(diǎn)的分布權(quán)重值,vj代表波動(dòng)點(diǎn)的值,μ為時(shí)間序列的均值,δj為波動(dòng)點(diǎn)的權(quán)重系數(shù),m為波動(dòng)點(diǎn)總數(shù);
24、s213:根據(jù)所述波動(dòng)位置的分布切變點(diǎn)對(duì)時(shí)間序列進(jìn)行分段,識(shí)別段落的穩(wěn)定區(qū)間并提取對(duì)應(yīng)數(shù)據(jù)特征集合,結(jié)合區(qū)間內(nèi)數(shù)據(jù)特征的均值、方差和變化率分布分析分段特征,利用特征匹配驗(yàn)證區(qū)間劃分的合理性,獲取分段特征區(qū)間數(shù)據(jù)。
25、作為本發(fā)明的進(jìn)一步方案,所述區(qū)間動(dòng)態(tài)預(yù)測(cè)值的獲取步驟具體為:
26、s311:調(diào)用所述分段特征區(qū)間數(shù)據(jù),提取每個(gè)區(qū)間的均值、方差和變化率,分析區(qū)間內(nèi)參數(shù)的時(shí)間變化趨勢(shì),通過趨勢(shì)擬合識(shí)別參數(shù)變化曲線,生成變化趨勢(shì)解析結(jié)果;
27、s312:根據(jù)所述變化趨勢(shì)解析結(jié)果,分析參數(shù)之間的交互關(guān)系與偏移率,采用公式:
28、
29、計(jì)算區(qū)間的偏移權(quán)重值,生成交互變化與偏移率分布結(jié)果;
30、其中,pk代表區(qū)間的偏移權(quán)重值,λu為第u參數(shù)的權(quán)重系數(shù),mu為參數(shù)的實(shí)時(shí)值,au為理論參考值,q為參數(shù)總數(shù);
31、s313:根據(jù)所述交互變化與偏移率分布結(jié)果,通過區(qū)間分布規(guī)律構(gòu)建預(yù)測(cè)模型,分析偏移權(quán)重值與趨勢(shì)曲線擬合結(jié)果,并識(shí)別區(qū)間中每個(gè)時(shí)間段的預(yù)測(cè)需求,得到區(qū)間動(dòng)態(tài)預(yù)測(cè)值。
32、作為本發(fā)明的進(jìn)一步方案,所述動(dòng)態(tài)特征風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集的獲取步驟具體為:
33、s321:基于所述區(qū)間動(dòng)態(tài)預(yù)測(cè)值,進(jìn)行差異化時(shí)間區(qū)間內(nèi)的風(fēng)險(xiǎn)指標(biāo)數(shù)據(jù)提取,按時(shí)間序列分組處理,解析數(shù)據(jù)結(jié)構(gòu)并匹配起止點(diǎn),檢測(cè)指標(biāo)值變化趨勢(shì)得到數(shù)據(jù)序列關(guān)系,對(duì)序列關(guān)系進(jìn)行標(biāo)記與分類,獲取時(shí)間區(qū)間指標(biāo)數(shù)據(jù);
34、s322:基于所述時(shí)間區(qū)間指標(biāo)數(shù)據(jù),進(jìn)行區(qū)間指標(biāo)變化特征值提取,分析時(shí)間序列中相鄰點(diǎn)變化幅度,提取趨勢(shì)分布數(shù)據(jù),對(duì)趨勢(shì)分布數(shù)據(jù)進(jìn)行對(duì)比判斷和多區(qū)間關(guān)聯(lián)分析,獲取特征變化參數(shù)數(shù)據(jù);
35、s323:基于所述特征變化參數(shù)數(shù)據(jù),提取特征分布關(guān)系核心數(shù)據(jù),按時(shí)間序列出現(xiàn)頻率和關(guān)聯(lián)指標(biāo)變化模式重新排列,對(duì)排列后的特征數(shù)據(jù)整體歸類整合,優(yōu)化特征分布特性與數(shù)據(jù)完整性,建立動(dòng)態(tài)特征風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集。
36、作為本發(fā)明的進(jìn)一步方案,所述糖尿病腎病患者風(fēng)險(xiǎn)評(píng)估結(jié)果的獲取步驟具體為:
37、s411:基于所述動(dòng)態(tài)特征風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集,提取每個(gè)區(qū)間的風(fēng)險(xiǎn)值,分析區(qū)間特征值分布并統(tǒng)計(jì)數(shù)據(jù)特性,量化區(qū)間特征值差異并調(diào)整范圍,生成調(diào)整后的區(qū)間特征值;
38、s412:利用所述調(diào)整后的區(qū)間特征值和對(duì)應(yīng)權(quán)重比例,提取風(fēng)險(xiǎn)貢獻(xiàn)并分析參數(shù)對(duì)應(yīng)關(guān)系,評(píng)估區(qū)間特征值對(duì)風(fēng)險(xiǎn)貢獻(xiàn)的比例關(guān)系,采用公式:
39、z=(a·b+c·d)e;
40、計(jì)算得到區(qū)間的風(fēng)險(xiǎn)貢獻(xiàn)值;
41、其中,z代表區(qū)間的風(fēng)險(xiǎn)貢獻(xiàn)值,a代表調(diào)整后的區(qū)間特征值,b代表權(quán)重比例,c代表風(fēng)險(xiǎn)評(píng)估值,d代表與特征值關(guān)聯(lián)的動(dòng)態(tài)因子,e為調(diào)整系數(shù);
42、s413:對(duì)所述區(qū)間的風(fēng)險(xiǎn)貢獻(xiàn)值進(jìn)行加權(quán)整合,識(shí)別全局風(fēng)險(xiǎn)量化指標(biāo),調(diào)用風(fēng)險(xiǎn)貢獻(xiàn)值通過全局比重調(diào)整區(qū)間特性參數(shù),評(píng)估患者總體風(fēng)險(xiǎn)值,得到糖尿病腎病患者風(fēng)險(xiǎn)評(píng)估結(jié)果。
43、一種基于大數(shù)據(jù)分析的糖尿病腎病風(fēng)險(xiǎn)識(shí)別系統(tǒng),所述基于大數(shù)據(jù)分析的糖尿病腎病風(fēng)險(xiǎn)識(shí)別系統(tǒng)用于執(zhí)行上述基于大數(shù)據(jù)分析的糖尿病腎病風(fēng)險(xiǎn)識(shí)別方法,所述系統(tǒng)包括:
44、健康指標(biāo)關(guān)聯(lián)分析模塊基于糖尿病腎病患者的健康風(fēng)險(xiǎn)數(shù)據(jù),并對(duì)健康風(fēng)險(xiǎn)數(shù)據(jù)的血糖、血壓、尿微量白蛋白、血尿素氮進(jìn)行交互分析,識(shí)別指標(biāo)間的關(guān)聯(lián)性,依據(jù)分布趨勢(shì)分析參數(shù)交互強(qiáng)度,識(shí)別強(qiáng)度指標(biāo)組合,分類后歸集每組波動(dòng)范圍,提取交互特性,獲取關(guān)鍵交互特征組合數(shù)據(jù);
45、風(fēng)險(xiǎn)特征分區(qū)模塊基于所述關(guān)鍵交互特征組合數(shù)據(jù),將參數(shù)組合的波動(dòng)范圍劃分為多個(gè)分區(qū),計(jì)算分區(qū)內(nèi)參數(shù)偏移值與趨勢(shì)偏差,分析偏移值組合特征,歸集趨勢(shì)偏差分布,整合為虛擬特征集,建立虛擬患者特征參數(shù)集;
46、特征動(dòng)態(tài)解析模塊基于所述虛擬患者特征參數(shù)集,對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行分段劃分,分析每段內(nèi)數(shù)據(jù)波動(dòng)范圍和變化率,解析參數(shù)的動(dòng)態(tài)特性,提取變化模式與偏移結(jié)構(gòu),整合分段解析與動(dòng)態(tài)表現(xiàn),獲取特征區(qū)域偏移解析結(jié)果;
47、風(fēng)險(xiǎn)貢獻(xiàn)量化模塊基于所述特征區(qū)域偏移解析結(jié)果,提取區(qū)域內(nèi)參數(shù)的動(dòng)態(tài)特性與偏移結(jié)構(gòu),評(píng)估全局特征偏移范圍與貢獻(xiàn)值分布,整合區(qū)域參數(shù)對(duì)全局動(dòng)態(tài)的貢獻(xiàn),定量化分析風(fēng)險(xiǎn)水平,歸集分布數(shù)據(jù),生成糖尿病腎病患者風(fēng)險(xiǎn)評(píng)估結(jié)果。
48、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)和積極效果在于:
49、本發(fā)明中,通過分析風(fēng)險(xiǎn)患者的關(guān)鍵指標(biāo),篩選特征并提取交互特征值,能夠準(zhǔn)確捕捉高風(fēng)險(xiǎn)指標(biāo)之間的關(guān)聯(lián)變化,從而為特征構(gòu)建提供精準(zhǔn)依據(jù),基于多維數(shù)據(jù)的關(guān)聯(lián)計(jì)算和虛擬樣本參數(shù)識(shí)別,擴(kuò)展數(shù)據(jù)分布范圍,顯著增強(qiáng)數(shù)據(jù)的覆蓋性和樣本平衡性,在提取時(shí)間序列特征的過程中,結(jié)合關(guān)鍵變化率和分布切變點(diǎn)的識(shí)別,有效解決時(shí)間序列數(shù)據(jù)非平穩(wěn)性對(duì)分析精度的影響,通過對(duì)分段數(shù)據(jù)特征區(qū)間的細(xì)化分析,優(yōu)化分段特性參數(shù)的識(shí)別與整合能力,為后續(xù)動(dòng)態(tài)預(yù)測(cè)提供了更加穩(wěn)定的輸入,在動(dòng)態(tài)預(yù)測(cè)中,通過對(duì)區(qū)間參數(shù)的偏移率和變化趨勢(shì)分析,實(shí)現(xiàn)動(dòng)態(tài)特征的精準(zhǔn)匹配,增強(qiáng)風(fēng)險(xiǎn)貢獻(xiàn)識(shí)別的靈敏度與準(zhǔn)確性,綜合各區(qū)間數(shù)據(jù)的加權(quán)整合與全局量化,能夠有效評(píng)估患者的總體風(fēng)險(xiǎn)等級(jí),顯著提高風(fēng)險(xiǎn)識(shí)別的全面性與結(jié)果的可靠性。