本發(fā)明涉及一種自然語(yǔ)言處理技術(shù),具體地說(shuō)是一種基于大模型指令微調(diào)的非結(jié)構(gòu)化顳骨影像報(bào)告語(yǔ)義標(biāo)簽建模與抽取的方法。
背景技術(shù):
1、耳鳴、耳聾、眩暈等耳科疾病容易引起精神抑郁、嚴(yán)重影響人們的身體和精神健康。耳部ct檢查是查明病因的重要技術(shù)手段之一。
2、顳骨ct可顯示中耳、內(nèi)耳等細(xì)微結(jié)構(gòu),如乳突氣化情況、聽(tīng)小骨、面神經(jīng)、咽鼓管、耳蝸及半規(guī)管、頸靜脈球、乙狀竇等結(jié)構(gòu),可了解有無(wú)軟組織腫塊及部位、范圍,有無(wú)先天性異常,如先天畸形如外耳道閉鎖、聽(tīng)小骨發(fā)育異常、中耳腔發(fā)育不良、內(nèi)耳畸形等。顳骨ct檢查對(duì)慢性中耳炎的分型、手術(shù)進(jìn)路和術(shù)式的選擇有一定的指導(dǎo)意義。
3、耳部放射科醫(yī)生的主要工作就是閱讀醫(yī)學(xué)影像(ct),發(fā)現(xiàn)其中的病變并在放射學(xué)影像報(bào)告中進(jìn)行完整詳細(xì)的描述。而現(xiàn)實(shí)中面對(duì)大量的待檢查醫(yī)學(xué)影像。放射科醫(yī)生的判讀壓力急劇增加,也無(wú)形中提升了潛在漏診和誤診的發(fā)生概率?;诜派淇漆t(yī)師常規(guī)診斷流程,研究基于面向全病癥診斷的顳骨ct影像的智能輔助分析技術(shù)有望有效減輕醫(yī)生工作負(fù)擔(dān)。
4、隨著科技的發(fā)展,我國(guó)醫(yī)療領(lǐng)域己經(jīng)步入了信息化的時(shí)代。在大數(shù)據(jù)的研究浪潮下,醫(yī)療數(shù)據(jù)呈現(xiàn)著爆炸式的増長(zhǎng),影像報(bào)告信息化以及文本數(shù)據(jù)挖掘越來(lái)越吸引人們的關(guān)注和研究。顳骨影像報(bào)告為醫(yī)務(wù)人員在臨床治療中進(jìn)行診斷和采取合理的手段提供了基礎(chǔ)和依據(jù)。而將醫(yī)療信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)處理,是實(shí)現(xiàn)臨床研究數(shù)據(jù)再利用的有效方法,具有重要的理論意義和實(shí)際應(yīng)用價(jià)值。
5、現(xiàn)有的自然語(yǔ)言處理中的機(jī)器學(xué)習(xí)模型在應(yīng)用于顳骨的醫(yī)學(xué)影像報(bào)告的結(jié)構(gòu)化特征提取時(shí),通常面臨以下問(wèn)題:
6、(1)不同于傳統(tǒng)機(jī)器學(xué)習(xí)模型,醫(yī)療報(bào)告的術(shù)語(yǔ)專(zhuān)業(yè)性較強(qiáng),很多醫(yī)學(xué)術(shù)語(yǔ)并非通用概念,如何將這類(lèi)術(shù)語(yǔ)加入至現(xiàn)有知識(shí)庫(kù)中,并將它們關(guān)聯(lián)起來(lái),是需要解決的問(wèn)題。
7、(2)傳統(tǒng)的機(jī)器學(xué)習(xí)模型是基于大量標(biāo)注的數(shù)據(jù)集之上訓(xùn)練得到的,然而醫(yī)學(xué)圖像報(bào)告的標(biāo)注工作量大,不同科室醫(yī)生對(duì)疾病的認(rèn)知和表述也存在差異,因此如何利用少標(biāo)記的數(shù)據(jù)來(lái)輔助模型提升性能,是一個(gè)亟需解決的難點(diǎn)。
8、(3)現(xiàn)有的基于大模型微調(diào)的命名實(shí)體識(shí)別方法,使用全量微調(diào)需要的顯存資源較多,使用低秩微調(diào)(lora)可以節(jié)約顯存,但準(zhǔn)確率和召回率指標(biāo)距離全量微調(diào)有一定差距。
9、現(xiàn)有的自然語(yǔ)言處理中的機(jī)器學(xué)習(xí)方法的局限:缺乏對(duì)醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)和的模式層的構(gòu)建,需要大量的醫(yī)療相關(guān)專(zhuān)家完成標(biāo)記,而且耗時(shí)的臨床數(shù)據(jù)采集過(guò)程可能無(wú)法完全涵蓋所有所需的實(shí)體和關(guān)系類(lèi)型。此外,由于規(guī)模和技術(shù)限制,當(dāng)前的模型不能充分理解復(fù)雜多樣的醫(yī)療術(shù)語(yǔ)和關(guān)系類(lèi)型,結(jié)構(gòu)化抽取效果和準(zhǔn)確率達(dá)不到要求。
10、本發(fā)明提出了一種基于大模型指令微調(diào)的非結(jié)構(gòu)化顳骨影像報(bào)告語(yǔ)義標(biāo)簽建模與抽取的方法。我們對(duì)顳骨影像報(bào)告進(jìn)行了本體構(gòu)建,采用大模型微調(diào)方法進(jìn)行命名實(shí)體抽取,依靠本體構(gòu)建的模式層按照層級(jí)關(guān)系對(duì)影像報(bào)告實(shí)體進(jìn)行關(guān)系抽取,輸出最終的結(jié)構(gòu)化信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于,面向顳骨影像報(bào)告結(jié)構(gòu)化問(wèn)題,采用一種基于大模型指令微調(diào)的非結(jié)構(gòu)化顳骨影像報(bào)告語(yǔ)義標(biāo)簽建模與抽取方法,完成了顳骨影像報(bào)告模式層和數(shù)據(jù)層的構(gòu)建。提出了基于梯度優(yōu)化的低秩微調(diào)的算法,此算法可以提高結(jié)構(gòu)化信息抽取的效果,提升準(zhǔn)確率和召回率,并減少在實(shí)體識(shí)別過(guò)程中模型訓(xùn)練的顯存占用和訓(xùn)練耗時(shí),并基于此優(yōu)化算法完成了顳骨實(shí)體識(shí)別模型的訓(xùn)練,再利用顳骨模式層定義的層級(jí)關(guān)系完成關(guān)系抽取,輸出最終的結(jié)構(gòu)化信息。
2、本發(fā)明是采用以下技術(shù)手段實(shí)現(xiàn)的:
3、1.一種顳骨影像報(bào)告的本體構(gòu)建方法,構(gòu)建本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定領(lǐng)域內(nèi)共同認(rèn)可的詞匯,提供該領(lǐng)域特定的概念定義和概念之間的關(guān)系,提供該領(lǐng)域中發(fā)生的活動(dòng)以及該領(lǐng)域的主要理論和基本原理,達(dá)到人機(jī)交流的效果,主要用途包括信息的交流、共享、互操作、重用等,用于指導(dǎo)我們?cè)谔囟ǖ念I(lǐng)域范圍內(nèi),對(duì)真實(shí)世界存在的事物和領(lǐng)域內(nèi)的術(shù)語(yǔ)及概念,進(jìn)行認(rèn)知建模,定義圖譜知識(shí)的schema。
4、本體有五個(gè)元素構(gòu)成,包括:①類(lèi)(classes);②關(guān)系(relations);③函數(shù)(functions);④公理(axioms);⑤實(shí)例(instances)。
5、詳細(xì)程度和領(lǐng)域依賴(lài)度:頂級(jí)本體(top-level?ontologies)、領(lǐng)域本體(domainontologies)、任務(wù)本體(task?ontologies)和應(yīng)用本體(application?ontologies)。本發(fā)明要構(gòu)建的是領(lǐng)域本體,采用的是自頂向下的方法。
6、所述顳骨影像報(bào)告本體構(gòu)建方法總共分為7個(gè)步驟:
7、(1)確定本體的專(zhuān)業(yè)領(lǐng)域和范疇:顳骨相關(guān)疾病本體描述了事實(shí)性知識(shí)(如顳骨疾病的病癥表現(xiàn))、經(jīng)驗(yàn)性知識(shí)(如明確表達(dá)癥狀、疾病、病因之間因果關(guān)系)和描述病理過(guò)程的病理知識(shí)。顳骨影像報(bào)告本體是關(guān)于顳骨疾病診斷過(guò)程的知識(shí),是對(duì)顳骨疾病診斷知識(shí)的控制與運(yùn)用策略。
8、(2)考查復(fù)用現(xiàn)有本體的可能性:由于顳骨影像報(bào)告領(lǐng)域較為小眾,目前尚無(wú)公開(kāi)可用的本體數(shù)據(jù)集。
9、(3)列出本體中的重要術(shù)語(yǔ):顳鱗、巖部、乳突、鼓室、內(nèi)耳道、聽(tīng)小骨(錘骨、砧骨)、耳蝸外壁、耳蝸內(nèi)腔、外半規(guī)管、后半規(guī)管、前半規(guī)管、前庭和內(nèi)聽(tīng)道。
10、(4)定義類(lèi)和類(lèi)的等級(jí)體系:采用自頂向下法構(gòu)建類(lèi)的等級(jí)體系。
11、(5)定義類(lèi)的屬性:包括側(cè)別、否定詞、病變范圍、異常密度、病變定位等。
12、(6)定義屬性的分面:對(duì)屬性進(jìn)行更精細(xì)的劃分。
13、(7)創(chuàng)建實(shí)例:基于上述定義創(chuàng)建具體的實(shí)例。
14、2.一種基于大模型梯度優(yōu)化微調(diào)的命名實(shí)體識(shí)別模型
15、本發(fā)明提出了一種基于梯度優(yōu)化的微調(diào)算法,此算法對(duì)lora微調(diào)算法進(jìn)行了改進(jìn)。具體為在初始化階段對(duì)一批樣本的梯度進(jìn)行奇異值分解(svd);對(duì)矩陣a和b進(jìn)行初始化,訓(xùn)練過(guò)程中對(duì)每一步梯度計(jì)算都和全量微調(diào)的梯度對(duì)齊,旨在提高參數(shù)高效微調(diào)的性能,使其更接近于全量微調(diào)的效果。算法主要流程如下:
16、1)模型參數(shù)初始化:
17、-選取一批樣本,計(jì)算初始梯度其中w0為全量微調(diào)下的初始梯度,是損失函數(shù)。
18、-對(duì)梯度g0進(jìn)行svd(奇異值分解)得到g0=uσv。
19、-將原始的權(quán)重矩陣w被分解為兩個(gè)較小的矩陣a和b,其中a的尺寸為n×r,b的尺寸為r×m,這里n是輸入維度,m是輸出維度,而r是一個(gè)小于n和m的數(shù),稱(chēng)為秩,本發(fā)明中設(shè)置為8。
20、-取u的前r列初始化矩陣a,取v的第r+1至2r行初始化矩陣b。
21、2)進(jìn)行估計(jì)梯度計(jì)算
22、
23、其中是損失函數(shù),本發(fā)明采用交叉熵?fù)p失函數(shù),η是學(xué)習(xí)率,取值范圍為(0,1),ga為矩陣a進(jìn)行梯度計(jì)算的優(yōu)化器,gb為矩陣b進(jìn)行梯度計(jì)算的優(yōu)化器,t為梯度計(jì)算次數(shù),at+1為矩陣a經(jīng)過(guò)t+1次梯度計(jì)算后的結(jié)果,bt+1為矩陣b經(jīng)過(guò)t+1次梯度計(jì)算后的結(jié)果
24、3)修改優(yōu)化器
25、-在每次更新a和b時(shí),不是直接使用ga和gb,而是計(jì)算新的ha和hb來(lái)替代。
26、
27、其中,hahb是本發(fā)明修改后的優(yōu)化器,x和y是通過(guò)求解特定優(yōu)化問(wèn)題得到的矩陣,x=ac,y=cb,c是一個(gè)r×r維度的參數(shù)矩陣,r為8。
28、-計(jì)算矩陣c的最優(yōu)解:
29、
30、4)更新規(guī)則修改
31、-使用ha和hb替代ga和gb進(jìn)行a和b的更新:
32、at+1=at-ηha,t?(7)
33、bt+1=bt-ηhb,t?(8)
34、其中,ha,thb,t分別是使用h優(yōu)化器對(duì)a,b矩陣進(jìn)行t次梯度計(jì)算后的結(jié)果
35、5)對(duì)模型進(jìn)行微調(diào)過(guò)程
36、-在微調(diào)過(guò)程中,使用修改后的優(yōu)化器進(jìn)行a和b的更新,但在更新a和b時(shí)使用ha和hb。
37、通過(guò)以上優(yōu)化過(guò)程,我們可以得到一種基于梯度優(yōu)化的lora微調(diào)實(shí)現(xiàn),它在初始化階段利用梯度svd對(duì)a和b進(jìn)行初始化,在微調(diào)過(guò)程中通過(guò)修改優(yōu)化器的更新規(guī)則來(lái)確保每一步更新都接近全量微調(diào)的效果。這種方法在命名實(shí)體識(shí)別模型訓(xùn)練中可以提高參數(shù)高效微調(diào)的性能,使其更接近于全量微調(diào)的效果,同時(shí)保持較低的計(jì)算和存儲(chǔ)成本。
38、3.一種多層級(jí)非結(jié)構(gòu)化數(shù)據(jù)關(guān)系抽取方法
39、一種常用的方法是使用自然語(yǔ)言處理技術(shù),例如依存句法分析等來(lái)提取關(guān)系。這些技術(shù)可以幫助我們識(shí)別出文本中的實(shí)體和它們之間的關(guān)系。另一種方法是使用機(jī)器學(xué)習(xí)技術(shù),例如關(guān)系抽取模型來(lái)自動(dòng)學(xué)習(xí)提取關(guān)系的模式。這種方法通常需要大量的手動(dòng)標(biāo)注的數(shù)據(jù)來(lái)訓(xùn)練模型,但是可以在訓(xùn)練完成后快速提取大量數(shù)據(jù)中的關(guān)系。此外,還可以使用基于模板的方法,即使用預(yù)定義的模板來(lái)提取特定類(lèi)型的關(guān)系。這種方法通常較為簡(jiǎn)單,但是可能無(wú)法提取到所有的關(guān)系。最后,還可以使用人工手動(dòng)提取的方法,即人工審查數(shù)據(jù)并標(biāo)注關(guān)系。這種方法最為準(zhǔn)確,但是耗時(shí)較長(zhǎng)。
40、由于顳骨影像報(bào)告關(guān)系較為固定,本發(fā)明采取預(yù)定義模板方法進(jìn)行關(guān)系抽取定位。根據(jù)顳骨影像本體中定義的層級(jí)關(guān)系,按照側(cè)別→部位→屬性(正常/異常)進(jìn)行層級(jí)關(guān)系抽取,提取出三元組,輸出最終的多層級(jí)結(jié)構(gòu)化報(bào)告數(shù)據(jù)。
41、本發(fā)明與現(xiàn)有技術(shù)相比,具有以下明顯的優(yōu)勢(shì)和有益效果:
42、本發(fā)明提出了一種基于大模型指令微調(diào)的非結(jié)構(gòu)化顳骨影像報(bào)告語(yǔ)義標(biāo)簽建模與抽取的方法。我們對(duì)顳骨影像報(bào)告進(jìn)行了本體構(gòu)建,采用大模型微調(diào)方法進(jìn)行命名實(shí)體抽取,依靠本體構(gòu)建的模式層按照層級(jí)關(guān)系對(duì)影像報(bào)告實(shí)體進(jìn)行關(guān)系抽取,輸出最終的結(jié)構(gòu)化信息
43、本發(fā)明的特點(diǎn):
44、1、提出了端到端的完整顳骨影像報(bào)告結(jié)構(gòu)化抽取方法,該方法能夠從脫敏的非結(jié)構(gòu)化顳骨影像報(bào)告中抽取出包含多層級(jí)關(guān)系的結(jié)構(gòu)化數(shù)據(jù);
45、2、根據(jù)顳骨先驗(yàn)知識(shí),實(shí)現(xiàn)了顳骨影像報(bào)告模式層和數(shù)據(jù)層的構(gòu)建;
46、3、提出了一種改進(jìn)的基于大模型梯度優(yōu)化微調(diào)的命名實(shí)體識(shí)別方法,針對(duì)顳骨影像報(bào)告實(shí)體命名任務(wù),在模型訓(xùn)練中可以提高參數(shù)高效微調(diào)的性能,使其更接近于全量微調(diào)的效果,同時(shí)保持較低的計(jì)算和gpu顯存成本;
47、4、根據(jù)顳骨影像本體中定義的層級(jí)關(guān)系,提出了基于模板進(jìn)行層級(jí)關(guān)系抽取的簡(jiǎn)單高效方法。
48、下面結(jié)合實(shí)例參照附圖進(jìn)行詳細(xì)說(shuō)明,以求對(duì)本發(fā)明的目的、特征和優(yōu)點(diǎn)得到更深入的理解。