本發(fā)明涉及人工智能領(lǐng)域,具體而言,涉及一種基于自然語言處理和集成訓(xùn)練的慢性病數(shù)據(jù)分析方法及系統(tǒng)。
背景技術(shù):
1、隨著醫(yī)療信息化發(fā)展,大量非結(jié)構(gòu)化醫(yī)療文本數(shù)據(jù)蘊(yùn)含著豐富慢性病信息,但難以直接利用。傳統(tǒng)慢性病數(shù)據(jù)分析方法在處理此類復(fù)雜數(shù)據(jù)時(shí)存在局限,如無法充分挖掘文本中的潛在信息,模型準(zhǔn)確性和泛化能力不足。同時(shí),單一模型難以全面分析慢性病數(shù)據(jù)的多樣性和復(fù)雜性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于自然語言處理和集成訓(xùn)練的慢性病數(shù)據(jù)分析方法及系統(tǒng)。
2、第一方面,本發(fā)明實(shí)施例提供一種基于自然語言處理和集成訓(xùn)練的慢性病數(shù)據(jù)分析方法,包括:
3、通過自然語言處理技術(shù)對(duì)非結(jié)構(gòu)化醫(yī)療文本進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,生成未標(biāo)注慢性病目標(biāo)值的第一慢性病實(shí)例;
4、獲取經(jīng)過先期訓(xùn)練的初始分析模型,所述經(jīng)過先期訓(xùn)練的初始分析模型是基于所述第一慢性病實(shí)例通過集成訓(xùn)練框架進(jìn)行對(duì)比學(xué)習(xí)獲得的,所述集成訓(xùn)練框架整合多個(gè)異構(gòu)模型輸出的特征表示;
5、獲取疾病分析指標(biāo)對(duì)應(yīng)的第二慢性病實(shí)例,所述第二慢性病實(shí)例為已標(biāo)注慢性病目標(biāo)值的慢性病實(shí)例;
6、基于所述第二慢性病實(shí)例對(duì)所述經(jīng)過先期訓(xùn)練的初始分析模型進(jìn)行多模型集成優(yōu)化,獲得所述疾病分析指標(biāo)對(duì)應(yīng)的完成訓(xùn)練的慢性病識(shí)別模型;
7、獲取待分析慢性病癥狀,并基于所述完成訓(xùn)練的慢性病識(shí)別模型對(duì)待分析慢性病癥狀進(jìn)行識(shí)別處理,獲得所述待分析慢性病癥狀的慢性病數(shù)據(jù)分析結(jié)果。
8、在一種可能的實(shí)施方式中,所述方法還包括:
9、獲取第一慢性病實(shí)例,所述第一慢性病實(shí)例包括多個(gè)第一慢性病癥狀實(shí)例;
10、根據(jù)每個(gè)第一慢性病癥狀實(shí)例的病癥描述信息確定所述每個(gè)第一慢性病癥狀實(shí)例的第一慢性病癥狀實(shí)例拓?fù)?,并根?jù)所述每個(gè)第一慢性病癥狀實(shí)例拓?fù)浯_定所述每個(gè)第一慢性病癥狀實(shí)例的對(duì)比學(xué)習(xí)特征編碼;
11、基于預(yù)置基礎(chǔ)模型對(duì)每個(gè)第一慢性病癥狀實(shí)例拓?fù)溥M(jìn)行識(shí)別處理,獲得所述每個(gè)第一慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的第一特征向量實(shí)例;
12、基于完成訓(xùn)練的特征識(shí)別組件對(duì)每個(gè)第一特征向量實(shí)例進(jìn)行識(shí)別,獲得所述每個(gè)第一慢性病癥狀實(shí)例對(duì)應(yīng)的第一癥狀推斷結(jié)果;
13、根據(jù)所述每個(gè)第一慢性病癥狀實(shí)例的對(duì)比學(xué)習(xí)特征編碼和所述第一癥狀推斷結(jié)果對(duì)所述預(yù)置基礎(chǔ)模型進(jìn)行集成優(yōu)化訓(xùn)練,獲得完成訓(xùn)練的初始分析模型。
14、在一種可能的實(shí)施方式中,所述根據(jù)所述每個(gè)第一慢性病癥狀實(shí)例拓?fù)浯_定所述每個(gè)第一慢性病癥狀實(shí)例的對(duì)比學(xué)習(xí)特征編碼,包括:
15、獲取預(yù)先設(shè)置的多個(gè)癥狀拓?fù)淠J?,其中,每個(gè)癥狀拓?fù)淠J綄?duì)應(yīng)一個(gè)具有臨床診斷意義的癥狀組合結(jié)構(gòu);
16、將每個(gè)第一慢性病癥狀實(shí)例拓?fù)渑c所述多個(gè)癥狀拓?fù)淠J竭M(jìn)行關(guān)聯(lián),獲得所述每個(gè)第一慢性病癥狀實(shí)例拓?fù)涞年P(guān)聯(lián)系數(shù)參數(shù);
17、根據(jù)所述每個(gè)第一慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的關(guān)聯(lián)系數(shù)參數(shù),確定所述每個(gè)第一慢性病癥狀實(shí)例的對(duì)比學(xué)習(xí)特征編碼。
18、在一種可能的實(shí)施方式中,所述將每個(gè)第一慢性病癥狀實(shí)例拓?fù)渑c所述多個(gè)癥狀拓?fù)淠J竭M(jìn)行關(guān)聯(lián),獲得所述每個(gè)第一慢性病癥狀實(shí)例拓?fù)涞年P(guān)聯(lián)系數(shù)參數(shù),包括:
19、將目標(biāo)第一慢性病癥狀實(shí)例拓?fù)渑c每個(gè)癥狀拓?fù)淠J竭M(jìn)行關(guān)聯(lián),獲得所述每個(gè)癥狀拓?fù)淠J綄?duì)應(yīng)的關(guān)聯(lián)系數(shù);
20、將關(guān)聯(lián)系數(shù)超過關(guān)聯(lián)系數(shù)閾值的癥狀拓?fù)淠J阶鳛樗瞿繕?biāo)第一慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的目標(biāo)癥狀拓?fù)淠J剑?/p>
21、將所述目標(biāo)第一慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的目標(biāo)癥狀拓?fù)淠J阶鳛樗瞿繕?biāo)第一慢性病癥狀實(shí)例拓?fù)涞年P(guān)聯(lián)系數(shù)參數(shù)。
22、在一種可能的實(shí)施方式中,所述根據(jù)所述每個(gè)第一慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的關(guān)聯(lián)系數(shù)參數(shù),確定所述每個(gè)第一慢性病癥狀實(shí)例的對(duì)比學(xué)習(xí)特征編碼,包括:
23、獲取所述目標(biāo)第一慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的目標(biāo)癥狀拓?fù)淠J降暮诵奶卣骶幋a;
24、根據(jù)所述核心特征編碼確定所述多個(gè)癥狀拓?fù)淠J街信c目標(biāo)慢性病癥狀實(shí)例拓?fù)洳魂P(guān)聯(lián)的對(duì)照特征編碼;
25、對(duì)所述核心特征編碼和所述對(duì)照特征編碼進(jìn)行特征耦合處理,獲得所述目標(biāo)第一慢性病癥狀實(shí)例拓?fù)涞膶?duì)比學(xué)習(xí)特征編碼。
26、在一種可能的實(shí)施方式中,所述預(yù)置基礎(chǔ)模型包括多個(gè)體征交互網(wǎng)絡(luò)和至少一個(gè)體征融合網(wǎng)絡(luò),所述基于預(yù)置基礎(chǔ)模型對(duì)每個(gè)第一慢性病癥狀實(shí)例拓?fù)溥M(jìn)行識(shí)別處理,獲得所述每個(gè)第一慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的第一特征向量實(shí)例,包括:
27、根據(jù)目標(biāo)慢性病癥狀實(shí)例的病癥描述信息,獲取目標(biāo)第一慢性病癥狀實(shí)例拓?fù)渲忻總€(gè)癥狀實(shí)體的體征特征向量、所述每個(gè)癥狀實(shí)體的關(guān)聯(lián)體征實(shí)體和所述每個(gè)癥狀實(shí)體與關(guān)聯(lián)體征實(shí)體之間病理關(guān)聯(lián)關(guān)系的關(guān)聯(lián)強(qiáng)度向量;
28、對(duì)所述每個(gè)癥狀實(shí)體的體征特征向量進(jìn)行特征轉(zhuǎn)換操作,獲得所述每個(gè)癥狀實(shí)體的基礎(chǔ)體征向量;
29、將所述關(guān)聯(lián)體征實(shí)體的基礎(chǔ)體征向量和所述關(guān)聯(lián)強(qiáng)度向量進(jìn)行特征融合,獲得融合向量;
30、獲取用于交互聚合處理的第一特征聚合模塊的第一權(quán)重張量,將所述第一權(quán)重張量和所述融合向量進(jìn)行線性變換操作,獲得第一變換系數(shù)張量;
31、基于預(yù)先設(shè)置的第一非線性映射函數(shù)對(duì)所述第一變換系數(shù)張量進(jìn)行處理,獲得癥狀實(shí)體的首階交互聚合向量;
32、對(duì)所述每個(gè)癥狀實(shí)體的輸入體征向量和所述首階交互聚合向量進(jìn)行體征聚合處理,獲得所述每個(gè)癥狀實(shí)體的首階體征向量;
33、基于目標(biāo)體征交互網(wǎng)絡(luò)對(duì)所述關(guān)聯(lián)體征實(shí)體的前序階體征向量和所述關(guān)聯(lián)強(qiáng)度向量進(jìn)行交互聚合處理,獲得所述每個(gè)癥狀實(shí)體的目標(biāo)階交互聚合向量;
34、對(duì)所述每個(gè)癥狀實(shí)體的前序階體征向量和所述目標(biāo)階交互聚合向量進(jìn)行體征聚合處理,獲得所述每個(gè)癥狀實(shí)體的目標(biāo)階體征向量;
35、將所述每個(gè)癥狀實(shí)體的目標(biāo)階體征向量作為所述每個(gè)癥狀實(shí)體的特征向量;
36、基于所述體征融合網(wǎng)絡(luò)對(duì)所述每個(gè)癥狀實(shí)體的特征向量進(jìn)行處理,獲得所述目標(biāo)第一慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的第一特征向量實(shí)例。
37、在一種可能的實(shí)施方式中,所述對(duì)所述每個(gè)癥狀實(shí)體的輸入體征向量和所述首階交互聚合向量進(jìn)行體征聚合處理,獲得所述每個(gè)癥狀實(shí)體的首階體征向量,包括:
38、獲取用于進(jìn)行體征聚合處理的第二特征聚合模塊的第二權(quán)重張量;
39、將所述第二權(quán)重張量和所述首階交互聚合向量進(jìn)行線性變換操作,獲得第二變換系數(shù)張量;
40、基于預(yù)先設(shè)置的第二非線性映射函數(shù)對(duì)所述每個(gè)癥狀實(shí)體的輸入體征向量和所述第二變換系數(shù)張量進(jìn)行處理,獲得所述每個(gè)癥狀實(shí)體的首階體征向量。
41、在一種可能的實(shí)施方式中,所述根據(jù)目標(biāo)慢性病癥狀實(shí)例的病癥描述信息,獲取目標(biāo)第一慢性病癥狀實(shí)例拓?fù)渲忻總€(gè)癥狀實(shí)體的體征特征向量、所述每個(gè)癥狀實(shí)體的關(guān)聯(lián)體征實(shí)體和所述每個(gè)癥狀實(shí)體與關(guān)聯(lián)體征實(shí)體之間病理關(guān)聯(lián)關(guān)系的關(guān)聯(lián)強(qiáng)度向量,包括:
42、根據(jù)所述目標(biāo)第一慢性病癥狀實(shí)例的病癥描述信息,獲取所述目標(biāo)第一慢性病癥狀實(shí)例中每個(gè)子癥狀實(shí)例的臨床指標(biāo)數(shù)據(jù);
43、對(duì)所述每個(gè)子癥狀實(shí)例的臨床指標(biāo)數(shù)據(jù)進(jìn)行特征耦合處理,獲得所述目標(biāo)第一慢性病癥狀實(shí)例拓?fù)渲忻總€(gè)癥狀實(shí)體的體征特征向量;
44、將與所述每個(gè)子癥狀實(shí)例之間具有臨床關(guān)聯(lián)路徑的對(duì)照子癥狀作為所述每個(gè)子癥狀實(shí)例的關(guān)聯(lián)子癥狀;
45、獲取所述每個(gè)子癥狀實(shí)例與所述關(guān)聯(lián)子癥狀之間臨床關(guān)聯(lián)路徑的臨床指標(biāo)數(shù)據(jù);
46、對(duì)所述臨床關(guān)聯(lián)路徑的臨床指標(biāo)數(shù)據(jù)進(jìn)行特征耦合處理,獲得所述每個(gè)癥狀實(shí)體與關(guān)聯(lián)體征實(shí)體之間病理關(guān)聯(lián)關(guān)系的關(guān)聯(lián)強(qiáng)度向量。
47、在一種可能的實(shí)施方式中,所述基于所述第二慢性病實(shí)例對(duì)所述經(jīng)過先期訓(xùn)練的初始分析模型進(jìn)行模型優(yōu)化,獲得所述疾病分析指標(biāo)對(duì)應(yīng)的完成訓(xùn)練的慢性病識(shí)別模型,包括:
48、獲取所述第二慢性病實(shí)例中每個(gè)第二慢性病癥狀實(shí)例的第二慢性病癥狀實(shí)例拓?fù)洌?/p>
49、基于所述經(jīng)過先期訓(xùn)練的初始分析模型對(duì)每個(gè)第二慢性病癥狀實(shí)例拓?fù)溥M(jìn)行識(shí)別處理,獲得所述每個(gè)第二慢性病癥狀實(shí)例拓?fù)鋵?duì)應(yīng)的第二特征向量實(shí)例;
50、基于完成訓(xùn)練的特征識(shí)別組件對(duì)每個(gè)第二特征向量實(shí)例進(jìn)行識(shí)別,獲得所述每個(gè)第二慢性病癥狀實(shí)例對(duì)應(yīng)的第二癥狀推斷結(jié)果;
51、根據(jù)所述每個(gè)第二慢性病癥狀實(shí)例的慢性病目標(biāo)值和所述第二癥狀推斷結(jié)果對(duì)所述經(jīng)過先期訓(xùn)練的初始分析模型進(jìn)行集成優(yōu)化訓(xùn)練,獲得所述疾病分析指標(biāo)對(duì)應(yīng)的完成訓(xùn)練的慢性病識(shí)別模型。
52、第二方面,本發(fā)明實(shí)施例提供一種服務(wù)器系統(tǒng),包括服務(wù)器,所述服務(wù)器用于執(zhí)行第一方面所述的方法。
53、相比現(xiàn)有技術(shù),本發(fā)明提供的有益效果包括:采用本發(fā)明公開的一種基于自然語言處理和集成訓(xùn)練的慢性病數(shù)據(jù)分析方法及系統(tǒng),通過利用自然語言處理技術(shù)從非結(jié)構(gòu)化醫(yī)療文本生成未標(biāo)注慢性病目標(biāo)值的第一慢性病實(shí)例,基于此經(jīng)集成訓(xùn)練框架對(duì)比學(xué)習(xí)獲得先期訓(xùn)練的初始分析模型。再獲取已標(biāo)注慢性病目標(biāo)值的第二慢性病實(shí)例,對(duì)初始分析模型多模型集成優(yōu)化,得到完成訓(xùn)練的慢性病識(shí)別模型。最后用該模型識(shí)別待分析慢性病癥狀,獲取慢性病數(shù)據(jù)分析結(jié)果,實(shí)現(xiàn)對(duì)慢性病數(shù)據(jù)的有效分析。