最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

電子病歷實(shí)體關(guān)系抽取方法及裝置與流程

文檔序號(hào):12271913閱讀:621來源:國(guó)知局
電子病歷實(shí)體關(guān)系抽取方法及裝置與流程

本公開涉及醫(yī)療數(shù)據(jù)挖掘領(lǐng)域,具體地,涉及一種電子病歷實(shí)體關(guān)系抽取方法及裝置。



背景技術(shù):

隨著信息時(shí)代數(shù)據(jù)量的爆炸式增長(zhǎng),臨床醫(yī)療數(shù)據(jù)也展現(xiàn)出其容量大、增速快、形式多樣和潛在價(jià)值高的特點(diǎn)。而在臨床醫(yī)療領(lǐng)域,以自然語(yǔ)言文本形式存在的電子病歷數(shù)據(jù)占有重要地位。在這種背景下,使用計(jì)算機(jī)從非結(jié)構(gòu)化的電子病歷文本數(shù)據(jù)中自動(dòng)抽取出結(jié)構(gòu)化的信息,即信息抽取技術(shù),受到了廣泛的關(guān)注,具有重要的應(yīng)用價(jià)值。電子病歷實(shí)體關(guān)系抽取是其信息提取的核心任務(wù)。

目前,用于文本實(shí)體關(guān)系抽取主要是有監(jiān)督方法,這類方法將實(shí)體關(guān)系抽取視為一個(gè)分類問題,將句子中實(shí)體之間的關(guān)系劃分到預(yù)先定義好的類別中,從而完成關(guān)系抽取任務(wù)。這類方法有兩個(gè)主流研究方向:(a)人工提取特征,如詞性、語(yǔ)義角色、依存句法樹等,然后使用支持向量機(jī)或者最大熵等分類器進(jìn)行分類;(b)基于核函數(shù)的方法,計(jì)算輸入字符的核函數(shù),根據(jù)核函數(shù)的相似度來判定關(guān)系類型。但是,由于這些方法的分類性能很大程度上依賴于基礎(chǔ)自然語(yǔ)言處理工具,如詞性標(biāo)注、語(yǔ)法分析等,至少存在以下缺陷:

(1)這些基礎(chǔ)工具都存在錯(cuò)誤;

(2)特征集的選擇依靠經(jīng)驗(yàn)和專家知識(shí);

(3)有些語(yǔ)言沒有完善的基礎(chǔ)處理工具。



技術(shù)實(shí)現(xiàn)要素:

本公開的目的是提供一種電子病歷實(shí)體關(guān)系抽取方法及裝置,能夠挖掘出電子病歷中實(shí)體之間的關(guān)系。

為了實(shí)現(xiàn)上述目的,本公開提供一種電子病歷實(shí)體關(guān)系抽取方法,所述方法包括:通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣;將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量;將所述特征向量輸入至已訓(xùn)練的分類器,抽取所述測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系。

可選地,所述通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣的步驟包括:分割每條電子病歷自然語(yǔ)句的詞;將每個(gè)詞映射為一個(gè)m維的向量;將映射后的所述每條電子病歷自然語(yǔ)句表示為n×m的矩陣,其中,矩陣的列維數(shù)為m,行維數(shù)為所述詞的個(gè)數(shù)n。

可選地,在所述將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量的步驟之前,所述方法還包括:滑動(dòng)卷積核,得到與映射后的所述電子病歷自然語(yǔ)句的矩陣的卷積結(jié)果;根據(jù)所述卷積結(jié)果,經(jīng)過最大池化層得到所述電子病歷自然語(yǔ)句的特征;利用已有的電子病歷訓(xùn)練集數(shù)據(jù)和所述特征,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到卷積核參數(shù)和分類器參數(shù)。

可選地,在所述滑動(dòng)卷積核,得到與映射后的所述電子病歷自然語(yǔ)句的矩陣的卷積結(jié)果的步驟之前,所述方法還包括:設(shè)置所述電子病歷自然語(yǔ)句中多個(gè)相鄰詞的行維數(shù)的卷積核的值為隨機(jī)值。

可選地,所述利用已有的電子病歷訓(xùn)練集數(shù)據(jù)和所述特征,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到卷積核參數(shù)和分類器參數(shù)的步驟包括:選取已有的電子病歷訓(xùn)練集數(shù)據(jù),將所述已有的電子病歷訓(xùn)練集數(shù)據(jù)的實(shí)體關(guān)系進(jìn)行分類標(biāo)注;根據(jù)所述分類批注和經(jīng)過最大池化層得到的特征,訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)模型,得到卷積核參數(shù)和分類器參數(shù)。

此外,為實(shí)現(xiàn)上述目的,本公開還提供一種電子病歷實(shí)體關(guān)系抽取裝置,所述裝置包括:矩陣獲取模塊,用于通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣;計(jì)算模塊,用于將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量;抽取模塊,用于將所述特征向量輸入至已訓(xùn)練的分類器,抽取所述測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系。

可選地,所述矩陣獲取模塊包括:分割子模塊,用于分割每條電子病歷自然語(yǔ)句的詞;映射子模塊,用于將每個(gè)詞映射為一個(gè)m維的向量;矩陣輸出子模塊,用于將映射后的所述每條電子病歷自然語(yǔ)句表示為n×m的矩陣,其中,矩陣的列維數(shù)為m,行維數(shù)為所述詞的個(gè)數(shù)n。

可選地,所述裝置還包括:卷積模塊,用于滑動(dòng)卷積核,得到與映射后的所述電子病歷自然語(yǔ)句的矩陣的卷積結(jié)果;特征計(jì)算模塊,用于根據(jù)所述卷積結(jié)果,經(jīng)過最大池化層得到所述電子病歷自然語(yǔ)句的特征;參數(shù)計(jì)算模塊,用于利用已有的電子病歷訓(xùn)練集數(shù)據(jù)和所述特征,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到卷積核參數(shù)和分類器參數(shù)。

可選地,所述裝置還包括:設(shè)置模塊,用于設(shè)置所述電子病歷自然語(yǔ)句中多個(gè)相鄰詞的行維數(shù)的卷積核的值為隨機(jī)值。

可選地,所述參數(shù)計(jì)算模塊包括:分類標(biāo)注子模塊,用于選取已有的電子病歷訓(xùn)練集數(shù)據(jù),將所述已有的電子病歷訓(xùn)練集數(shù)據(jù)的實(shí)體關(guān)系進(jìn)行分類標(biāo)注;參數(shù)計(jì)算子模塊,用于根據(jù)所述分類批注和經(jīng)過最大池化層得到的特征,訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)模型,得到卷積核參數(shù)和分類器參數(shù)。

通過上述技術(shù)方案,通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣,將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量,將特征向量輸入至已訓(xùn)練的分類器,抽取所述測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系。這樣,利用了卷積神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì),挖掘出電子病歷自然語(yǔ)言中實(shí)體之間的關(guān)系,為自動(dòng)學(xué)習(xí)電子病歷信息提供了技術(shù)途徑。

本公開的其他特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說明。

附圖說明

附圖是用來提供對(duì)本公開的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與下面的具體實(shí)施方式一起用于解釋本公開,但并不構(gòu)成對(duì)本公開的限制。在附圖中:

圖1是本公開一實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取方法的流程示意圖;

圖2是本公開一實(shí)施例提供的獲取電子病歷自然語(yǔ)句映射后的矩陣的流程示意圖;

圖3是本公開另一實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取方法的流程示意圖;

圖4是本公開一實(shí)施例提供的對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練的流程示意圖;

圖5是本公開一實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取裝置的框圖;

圖6是本公開一實(shí)施例提供的矩陣獲取模塊的框圖;

圖7是本公開另一實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取裝置的框圖;

圖8是本公開一實(shí)施例提供的參數(shù)計(jì)算模塊的框圖。

具體實(shí)施方式

以下結(jié)合附圖對(duì)本公開的具體實(shí)施方式進(jìn)行詳細(xì)說明。應(yīng)當(dāng)理解的是,此處所描述的具體實(shí)施方式僅用于說明和解釋本公開,并不用于限制本公開。

本公開提出的電子病歷實(shí)體關(guān)系抽取方法及裝置是基于卷積神經(jīng)網(wǎng)絡(luò)。所謂卷積神經(jīng)網(wǎng)是一種特殊的深層神經(jīng)網(wǎng)絡(luò),也是第一個(gè)成功應(yīng)用的深層網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)利用空間相對(duì)關(guān)系減少參數(shù)數(shù)目,成為當(dāng)今很多計(jì)算機(jī)視覺系統(tǒng),如圖像識(shí)別、自動(dòng)駕駛等的核心部分。

卷積的概念來自于數(shù)字信號(hào)處理,一維形式的卷積定義如下:

公式(1)的物理含義是一個(gè)信號(hào)通過一個(gè)系統(tǒng)后的輸出形式,數(shù)學(xué)形式上是求信號(hào)的加權(quán)平均值。

二維形式的卷積定義如下:

二維卷積常用于圖像處理,在公式(2)中,f(x,y)是圖像上點(diǎn)的灰度值,w(x,y)則是卷積核,也稱為濾波器。卷積操作就相當(dāng)于將圖像通過濾波器進(jìn)行濾波。在卷積神經(jīng)網(wǎng)絡(luò)中,并不是所有上下層神經(jīng)元都能直接相連,而是通過“卷積核”作為中介,同一個(gè)卷積核在所有圖像內(nèi)是共享的。

卷積神經(jīng)網(wǎng)絡(luò)每層都由特征提取層和其后用來求局部平均與二次提取的計(jì)算層,這種特有的兩層特征提取結(jié)構(gòu)使網(wǎng)絡(luò)在識(shí)別時(shí)有較高的畸變?nèi)萑棠芰Α>矸e神經(jīng)網(wǎng)有三個(gè)主要優(yōu)點(diǎn):一是通過權(quán)值共享機(jī)制,減少了網(wǎng)絡(luò)參數(shù);二是卷積的操作非???;三是通過下采樣機(jī)制,使得提取的特征具有旋轉(zhuǎn)不變性和平移不變性。卷積神經(jīng)網(wǎng)幾乎覆蓋所有識(shí)別和檢測(cè)任務(wù)。

圖1是本公開一實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取方法的流程示意圖。請(qǐng)參照?qǐng)D1,所述方法可以包括以下步驟。

在步驟S110中,通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣。

具體地,在卷積神經(jīng)網(wǎng)絡(luò)模型中,使用詞向量將電子病歷自然語(yǔ)句進(jìn)行映射,每條語(yǔ)句表示為矩陣。

示例性地,使用詞向量模型工具將每條電子病歷自然語(yǔ)句的詞映射為一個(gè)400維的向量,每條語(yǔ)句表示為矩陣。其中,矩陣列維數(shù)為400,行維數(shù)為該語(yǔ)句中詞的個(gè)數(shù)。

圖2是本公開一實(shí)施例提供的獲取電子病歷自然語(yǔ)句映射后的矩陣的流程示意圖。請(qǐng)參照?qǐng)D2,通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣的步驟(步驟S110)可以包括以下步驟。

在步驟S210中,分割每條電子病歷自然語(yǔ)句的詞。

具體地,將每條電子病歷自然語(yǔ)句的詞都獨(dú)立分割出來,可表示為:

Wn={w1,w2,w3,…,wn} (3)

在公式(3),Wn表示一條語(yǔ)句分割后的詞向量表達(dá)式,n表示語(yǔ)句中詞的個(gè)數(shù)。

在步驟S220中,將每個(gè)詞映射為一個(gè)m維的向量。

具體地,利用詞向量模型工具將每個(gè)詞映射為一個(gè)m維的向量,可表示為:

在公式(4)中,表示詞wi經(jīng)過詞向量模型工具映射后的詞向量,D表示詞向量模型工具的字典函數(shù)。

可選地,所述的詞向量模型工具至少包括谷歌的開源詞向量訓(xùn)練工具Word2vec和斯坦福大學(xué)的GloVe。

示例性地,取m為400,即:將每個(gè)詞映射為一個(gè)維數(shù)為400的向量。

在步驟S230中,將映射后的所述每條電子病歷自然語(yǔ)句表示為n×m的矩陣,其中,矩陣的列維數(shù)為m,行維數(shù)為所述詞的個(gè)數(shù)n。

示例性地,取矩陣的列維數(shù)m為400,行維數(shù)為所述詞的個(gè)數(shù)n,則每條映射后的電子病歷自然語(yǔ)句表示為矩陣Vn×400。

返回圖1,在步驟S120中,將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量。

具體地,將電子病歷自然語(yǔ)句映射后的矩陣經(jīng)過卷積層和最大池化層,再進(jìn)行非線性映射,得到特征,輸入測(cè)試的電子病歷自然語(yǔ)句,利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型得到該自然語(yǔ)句的特征向量。

在訓(xùn)練的時(shí)候,對(duì)連續(xù)n個(gè)詞的窗口進(jìn)行打分f(wt-n+1,…,wt-1,wt),分?jǐn)?shù)越高則這句話越正常。在此假設(shè)條件下,卷積神經(jīng)網(wǎng)絡(luò)模型的最小化目標(biāo)函數(shù)為:

在公式(5)中,χ是訓(xùn)練語(yǔ)料中所有連續(xù)n元短語(yǔ),D是包含所有單詞的詞典。第一個(gè)求和使用訓(xùn)練語(yǔ)料中全部的n元短語(yǔ)作為正樣本。第二個(gè)求和通過對(duì)詞典中詞的替換獲取負(fù)樣本。x(w)是將短語(yǔ)x中最中間的詞,隨機(jī)替換成w。在絕大部分情況下,用隨機(jī)的一個(gè)詞替換正常的一段短語(yǔ)中的詞,這段短語(yǔ)將變得不再合理,所以x(w)構(gòu)成了負(fù)樣本。

在步驟S130中,將所述特征向量輸入至已訓(xùn)練的分類器,抽取所述測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系。

具體地,將特征向量輸入到已訓(xùn)練的分類器,根據(jù)最大概率原則抽取測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系。

可選地,所述分類器可以是Softmax分類器。

本實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取方法,通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣,將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量,將特征向量輸入至已訓(xùn)練的分類器,抽取所述測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系,從而利用了卷積神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì),挖掘出電子病歷自然語(yǔ)言中實(shí)體之間的關(guān)系,為自動(dòng)學(xué)習(xí)電子病歷信息提供了技術(shù)途徑。

圖3是本公開另一實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取方法的流程示意圖。參照?qǐng)D3,在圖1的基礎(chǔ)上,在所述將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量的步驟(步驟S120)之前,所述方法還包括以下步驟。

步驟S310,滑動(dòng)卷積核,得到與映射后的所述電子病歷自然語(yǔ)句的矩陣的卷積結(jié)果。

具體地,縱向滑動(dòng)卷積核,得到與映射后的電子病歷自然語(yǔ)句矩陣Vn×400的卷積結(jié)果,可表示為:

C={c1,c2,…,cn-h+1} (7)

在公式(6)中,Vn×400代表每條映射后的電子病歷自然語(yǔ)句的矩陣,L代表卷積核,C代表卷積結(jié)果。在公式(7)中,C的維數(shù)為n-h+1,n為語(yǔ)句中詞的個(gè)數(shù),h為卷積核的行維數(shù)。

在步驟S320中,根據(jù)所述卷積結(jié)果,經(jīng)過最大池化層得到所述電子病歷自然語(yǔ)句的特征。

具體地,根據(jù)每個(gè)卷積核得到的多個(gè)卷積結(jié)果,經(jīng)過最大池化層得到電子病歷自然語(yǔ)句的特征。

在步驟S330中,利用已有的電子病歷訓(xùn)練集數(shù)據(jù)和所述特征,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到卷積核參數(shù)和分類器參數(shù)。

在本公開的一實(shí)施例中,在圖3的基礎(chǔ)上,滑動(dòng)卷積核,得到與映射后的所述電子病歷自然語(yǔ)句的矩陣的卷積結(jié)果的步驟(步驟S310)之前,所述方法還可以包括:設(shè)置所述電子病歷自然語(yǔ)句中多個(gè)相鄰詞的行維數(shù)的卷積核的值為隨機(jī)值。

示例性地,在電子病歷自然語(yǔ)句中,選擇多個(gè)相鄰詞的行維數(shù)分別為3、4、5的卷積核各100個(gè),所有卷積核的列維數(shù)為400,卷積核的值為隨機(jī)值,則三種卷積核分別表示為L(zhǎng)3×400、L4×400、L5×400。

圖4是本公開一實(shí)施例提供的對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練的流程示意圖。請(qǐng)參照?qǐng)D4,在圖3的基礎(chǔ)上,利用已有的電子病歷訓(xùn)練集數(shù)據(jù)和所述特征,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到卷積核參數(shù)和分類器參數(shù)的步驟(步驟S330)可以包括以下步驟。

在步驟S410中,選取已有的電子病歷訓(xùn)練集數(shù)據(jù),將所述已有的電子病歷訓(xùn)練集數(shù)據(jù)的實(shí)體關(guān)系進(jìn)行分類標(biāo)注。

在步驟S420中,根據(jù)所述分類批注和經(jīng)過最大池化層得到的特征,訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)模型,得到卷積核參數(shù)和分類器參數(shù)。

具體地,根據(jù)梯度下降方法對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到卷積核參數(shù)和分類器參數(shù)。

進(jìn)一步地,上述參數(shù)可以表示為:θ=(F,S),其中,F(xiàn)代表卷積核參數(shù),S代表分類器參數(shù)。

可選地,分類器為Softmax分類器。

本實(shí)施例的電子病歷實(shí)體關(guān)系抽取方法,使用淺層網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入層由詞向量將自然語(yǔ)句映射后構(gòu)成一個(gè)矩陣,該矩陣經(jīng)過卷積層和池化層之后,得到特征,使用Softmax分類器,輸出分類后的類別標(biāo)簽,從而利用卷積神經(jīng)網(wǎng)絡(luò)模型,挖掘出電子病歷中實(shí)體之間的關(guān)系,為自動(dòng)學(xué)習(xí)電子病歷信息提供了技術(shù)途徑。

圖5是本公開一實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取裝置的框圖。請(qǐng)參照?qǐng)D5,所述電子病歷實(shí)體關(guān)系抽取裝置500可以包括矩陣獲取模塊510、計(jì)算模塊520和抽取模塊530。

矩陣獲取模塊510,用于通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣。

具體地,在卷積神經(jīng)網(wǎng)絡(luò)模型中,矩陣獲取模塊510使用詞向量將電子病歷自然語(yǔ)句進(jìn)行映射,每條語(yǔ)句表示為矩陣。

示例性地,使用詞向量模型工具將每條電子病歷自然語(yǔ)句的詞映射為一個(gè)400維的向量,每條語(yǔ)句表示為矩陣,其中,矩陣列維數(shù)為400,行維數(shù)為該語(yǔ)句中詞的個(gè)數(shù)。

圖6是本公開一實(shí)施例提供的矩陣獲取模塊510的框圖。請(qǐng)參照?qǐng)D6,矩陣獲取模塊510可以包括分割子模塊610、映射子模塊620和矩陣輸出子模塊630。

分割子模塊610用于分割每條電子病歷自然語(yǔ)句的詞。

具體地,分割子模塊610將每條電子病歷自然語(yǔ)句的詞都獨(dú)立分割出來,可表示為:

Wn={w1,w2,w3,…,wn} (3)

在公式(3)中,Wn表示一條語(yǔ)句分割后的詞向量表達(dá)式,n表示語(yǔ)句中詞的個(gè)數(shù)。

映射子模塊620用于將每個(gè)詞映射為一個(gè)m維的向量。

具體地,映射子模塊620利用詞向量模型工具將每個(gè)詞映射為一個(gè)m維的向量,可表示為:

在公式(4)中,表示詞wi經(jīng)過詞向量模型工具映射后的詞向量,D表示詞向量模型工具的字典函數(shù)。

可選地,所述的詞向量模型工具至少包括谷歌的開源詞向量訓(xùn)練工具Word2vec和斯坦福大學(xué)的GloVe。

示例性地,取m為400,即:將每個(gè)詞映射為一個(gè)維數(shù)為400的向量。

矩陣輸出子模塊630用于將映射后的所述每條電子病歷自然語(yǔ)句表示為n×m的矩陣,其中,矩陣的列維數(shù)為m,行維數(shù)為所述詞的個(gè)數(shù)n。

示例性地,取矩陣的列維數(shù)m為400,行維數(shù)為所述詞的個(gè)數(shù)n,則矩陣輸出子模塊630將每條映射后的電子病歷自然語(yǔ)句表示為矩陣Vn×400。

返回圖5,計(jì)算模塊520用于將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量。

具體地,計(jì)算模塊520將電子病歷自然語(yǔ)句映射后的矩陣經(jīng)過卷積層和最大池化層,再進(jìn)行非線性映射,得到特征,輸入測(cè)試的電子病歷自然語(yǔ)句,計(jì)算模塊520利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型得到該自然語(yǔ)句的特征向量。

在訓(xùn)練的時(shí)候,對(duì)連續(xù)n個(gè)詞的窗口進(jìn)行打分f(wt-n+1,…,wt-1,wt),分?jǐn)?shù)越高則這句話越正常。在此假設(shè)條件下,卷積神經(jīng)網(wǎng)絡(luò)模型的最小化目標(biāo)函數(shù)為:

在公式(5)中,χ是訓(xùn)練語(yǔ)料中所有連續(xù)n元短語(yǔ),D是包含所有單詞的詞典。第一個(gè)求和使用訓(xùn)練語(yǔ)料中全部的n元短語(yǔ)作為正樣本。第二個(gè)求和通過對(duì)詞典中詞的替換獲取負(fù)樣本。x(w)是將短語(yǔ)x中最中間的詞,隨機(jī)替換成w。在絕大部分情況下,用隨機(jī)的一個(gè)詞替換正常的一段短語(yǔ)中的詞,這段短語(yǔ)將變得不再合理,所以x(w)構(gòu)成了負(fù)樣本。

抽取模塊530,用于將所述特征向量輸入至已訓(xùn)練的分類器,抽取所述測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系。

具體地,將特征向量輸入到已訓(xùn)練的分類器,抽取模塊530根據(jù)最大概率原則抽取測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系。

可選地,所述分類器可以是Softmax分類器。

本實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取裝置,矩陣獲取模塊510通過卷積神經(jīng)網(wǎng)絡(luò)模型和詞向量化表示,獲取電子病歷自然語(yǔ)句映射后的矩陣,計(jì)算模塊520將測(cè)試的電子病歷自然語(yǔ)句輸入至已訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,得到特征向量,抽取模塊530將特征向量輸入至已訓(xùn)練的分類器,抽取所述測(cè)試的電子病歷自然語(yǔ)句的實(shí)體關(guān)系,從而利用了卷積神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì),挖掘出電子病歷自然語(yǔ)言中實(shí)體之間的關(guān)系,為自動(dòng)學(xué)習(xí)電子病歷信息提供了技術(shù)途徑。

圖7是本公開另一實(shí)施例提供的電子病歷實(shí)體關(guān)系抽取裝置的框圖。請(qǐng)參照?qǐng)D7,在圖5的基礎(chǔ)上,所述裝置還包括卷積模塊710、特征計(jì)算模塊720、參數(shù)計(jì)算模塊730。

卷積模塊710用于滑動(dòng)卷積核,得到與映射后的所述電子病歷自然語(yǔ)句的矩陣的卷積結(jié)果。

具體地,縱向滑動(dòng)卷積核,卷積模塊710得到與映射后的電子病歷自然語(yǔ)句矩陣Vn×400的卷積結(jié)果,可表示為:

C={c1,c2,…,cn-h+1} (7)

在公式(6)中,Vn×400代表每條映射后的電子病歷自然語(yǔ)句的矩陣,L代表卷積核,C代表卷積結(jié)果。在公式(7)中,C的維數(shù)為n-h+1,n為語(yǔ)句中詞的個(gè)數(shù),h為卷積核的行維數(shù)。

特征計(jì)算模塊720用于根據(jù)所述卷積結(jié)果,經(jīng)過最大池化層得到所述電子病歷自然語(yǔ)句的特征。

具體地,特征計(jì)算模塊730根據(jù)每個(gè)卷積核得到的多個(gè)卷積結(jié)果,經(jīng)過最大池化層得到電子病歷自然語(yǔ)句的特征。

參數(shù)計(jì)算模塊730用于利用已有的電子病歷訓(xùn)練集數(shù)據(jù)和所述特征,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到卷積核參數(shù)和分類器參數(shù)。

可選地,在圖7的基礎(chǔ)上,所述裝置還可以包括設(shè)置模塊。

設(shè)置模塊用于設(shè)置所述電子病歷自然語(yǔ)句中多個(gè)相鄰詞的行維數(shù)的卷積核的值為隨機(jī)值。

示例性地,在電子病歷自然語(yǔ)句中,設(shè)置模塊選擇多個(gè)相鄰詞的行維數(shù)分別為3、4、5的卷積核各100個(gè),所有卷積核的列維數(shù)為400,卷積核的值為隨機(jī)值,則三種卷積核分別表示為L(zhǎng)3×400、L4×400、L5×400。

圖8是本公開一實(shí)施例提供的參數(shù)計(jì)算模塊730的框圖。請(qǐng)參照?qǐng)D8,參數(shù)計(jì)算模塊730可以包括分類標(biāo)注子模塊810和參數(shù)計(jì)算子模塊820。

分類標(biāo)注子模塊810用于選取已有的電子病歷訓(xùn)練集數(shù)據(jù),將所述已有的電子病歷訓(xùn)練集數(shù)據(jù)的實(shí)體關(guān)系進(jìn)行分類標(biāo)注。

參數(shù)計(jì)算子模塊820用于根據(jù)所述分類批注和經(jīng)過最大池化層得到的特征,訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)模型,得到卷積核參數(shù)和分類器參數(shù)。

具體地,參數(shù)計(jì)算子模塊820根據(jù)梯度下降方法對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到卷積核參數(shù)和分類器參數(shù)。

進(jìn)一步地,上述參數(shù)可以表示為:θ=(F,S),其中,F(xiàn)代表卷積核參數(shù),S代表分類器參數(shù)。

可選地,分類器為Softmax分類器。

本實(shí)施例的電子病歷實(shí)體關(guān)系抽取裝置,使用淺層網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入層由詞向量將自然語(yǔ)句映射后構(gòu)成一個(gè)矩陣,該矩陣經(jīng)過卷積層和池化層之后,得到特征,使用Softmax分類器,輸出分類后的類別標(biāo)簽,從而利用卷積神經(jīng)網(wǎng)絡(luò)模型,挖掘出電子病歷中實(shí)體之間的關(guān)系,為自動(dòng)學(xué)習(xí)電子病歷信息提供了技術(shù)途徑。

以上結(jié)合附圖詳細(xì)描述了本公開的優(yōu)選實(shí)施方式,但是,本公開并不限于上述實(shí)施方式中的具體細(xì)節(jié),在本公開的技術(shù)構(gòu)思范圍內(nèi),可以對(duì)本公開的技術(shù)方案進(jìn)行多種簡(jiǎn)單變型,這些簡(jiǎn)單變型均屬于本公開的保護(hù)范圍。

另外需要說明的是,在上述具體實(shí)施方式中所描述的各個(gè)具體技術(shù)特征,在不矛盾的情況下,可以通過任何合適的方式進(jìn)行組合,為了避免不必要的重復(fù),本公開對(duì)各種可能的組合方式不再另行說明。

此外,本公開的各種不同的實(shí)施方式之間也可以進(jìn)行任意組合,只要其不違背本公開的思想,其同樣應(yīng)當(dāng)視為本公開所公開的內(nèi)容。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1