本發(fā)明涉及一種深度法律要素提取的層次化重答推理方法與系統(tǒng),屬于法律人工智能中自然語言處理、深度學(xué)習(xí)。
背景技術(shù):
1、法律要素是指司法文件中可能影響司法裁決的關(guān)鍵事實(shí)細(xì)節(jié),例如刑事案件中確定有罪的具體組成部分和民事案件中的關(guān)鍵事實(shí)。從本質(zhì)上講,提取法律要素涉及對(duì)案件中的有效信息進(jìn)行結(jié)構(gòu)化和壓縮,是提高人機(jī)協(xié)同處理案件效率的重要途徑。同時(shí),法律要素可以有效地提升模型在下游應(yīng)用中的性能和可解釋性,例如法律判決預(yù)測(cè)和案例檢索等任務(wù)。
2、目前,法律要素提取任務(wù)按方法主要可分為兩類。一種方法借鑒了通用領(lǐng)域要素提取的成功,其要素是根據(jù)專家預(yù)先定義的注釋或根據(jù)規(guī)則從法律文件中提取的。例如,legal?element?extraction數(shù)據(jù)集提供了一個(gè)包含159個(gè)法律要素標(biāo)簽的全面犯罪要素提取數(shù)據(jù)集。另一種方法將法律要素視為分類標(biāo)簽,將文檔中的段落或句子映射到相關(guān)要素標(biāo)簽。例如,2019年中國法研杯司法人工智能挑戰(zhàn)賽(cail-2019)要素識(shí)別數(shù)據(jù)集旨在識(shí)別給定事實(shí)描述中的法律要素,每種類型的案件(離婚、勞動(dòng)和民間借貸案件)各有20個(gè)標(biāo)簽。然而,這兩種方法都有其缺點(diǎn)。前者直接從文書中提取要素,這只是對(duì)案件的結(jié)構(gòu)性總結(jié),很難直接應(yīng)用這些要素來協(xié)助司法判決。后者基本上確定了案例匹配的要素,但無法對(duì)案例進(jìn)行全面深入的分析。事實(shí)上,現(xiàn)有研究多集中在淺層法律要素的提取上,缺乏對(duì)深層次語義理解和復(fù)雜關(guān)系挖掘的能力。
3、為了進(jìn)一步提升法律要素提取的準(zhǔn)確率和效率,提高大語言模型(llm)的推理能力尤為關(guān)鍵,現(xiàn)有l(wèi)lm推理增強(qiáng)的方法大致可分為兩類。一類以思維鏈(cot)為代表,該方法通過將任務(wù)分解為若干步驟并依次解決,從而降低推理的復(fù)雜度。基于cot的方法利用了模型推理輸出的一致性,有效提高了數(shù)學(xué)和邏輯推理等任務(wù)的性能。但在缺乏知識(shí)或使用弱llm的情況下,該方法表現(xiàn)不佳。另一類旨在使模型通過“響應(yīng)-反饋-改進(jìn)”三階段范式來修正自己的輸出,即自我校正。根據(jù)反饋的校正時(shí)間,自我校正分為兩類:事后校正和生成時(shí)校正。事后校正發(fā)生在響應(yīng)生成后,更靈活,可以在生成后使用多種方法進(jìn)行修正;而生成時(shí)校正通過提供反饋來逐步改進(jìn)中間的推理步驟。自我糾正的關(guān)鍵在于如何提供有效的反饋。一般來說,利用額外信息的反饋優(yōu)于僅依賴模型自身能力的反饋。與較強(qiáng)的llm相比,由于弱llm有時(shí)會(huì)誤解反饋和改進(jìn)說明,弱llm的自我校正效果往往不太突出。
4、綜上所述,現(xiàn)有的法律要素提取方法未能準(zhǔn)確高效地提取接近法律條款且蘊(yùn)含層次邏輯關(guān)系的要素,難以智能化輔助法官?zèng)Q策。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種深度法律要素提取的層次化重答推理方法與系統(tǒng),旨在通過層次化重答推理進(jìn)行深度法律要素提取,側(cè)重于案件中的直接有助于法官的裁決的信息,提取了具有邏輯、更規(guī)范化的法律要素。
2、術(shù)語解釋:
3、1、重答推理:本發(fā)明提到的重答推理方法,具體是指在對(duì)用戶問題系統(tǒng)完成第一次回答后,將問題和第一次答案打包為一組對(duì)話,作為系統(tǒng)第二次回答的參考,系統(tǒng)參考對(duì)話和額外的問題解釋,再次回答問題。具體示例可見附圖2。
4、2、qwen2.5-14b模型:qwen2.5-14b模型是由阿里巴巴云開發(fā)的一款大規(guī)模預(yù)訓(xùn)練語言模型,基于通義千問系列模型進(jìn)行進(jìn)一步優(yōu)化和擴(kuò)展。該模型擁有140億參數(shù),旨在提供強(qiáng)大的自然語言理解和生成能力,特別針對(duì)多模態(tài)和長(zhǎng)文本處理進(jìn)行了優(yōu)化。
5、3、qwen-turbo模型:qwen-turbo模型是通義千問模型的商業(yè)版。相較于開源的qwen2.5-14b模型,商業(yè)版的qwen-turbo模型具有最新的能力和改進(jìn),是通義千問系列速度最快、成本較低的模型。
6、4、零樣本提示詞:提示詞(prompt)指的是用來引導(dǎo)模型生成特定類型輸出的輸入文本,具體內(nèi)容根據(jù)目標(biāo)任務(wù)的不同而各異,零樣本提示詞是指在編寫提示詞過程中,并未給模型提供任何額外示例或訓(xùn)練數(shù)據(jù)。
7、本發(fā)明采用如下技術(shù)方案:
8、一種深度法律要素提取的層次化重答推理方法,包括如下步驟;
9、(1)將要素提取任務(wù)轉(zhuǎn)化為問答(qa)任務(wù),使問題列表依據(jù)從屬邏輯重構(gòu)為一個(gè)層次化問題樹;
10、(2)通過多輪問答對(duì)話對(duì)層次化問題樹進(jìn)行深度優(yōu)先遍歷,根據(jù)對(duì)父節(jié)點(diǎn)的響應(yīng)依序回答問題;其中,回答問題的過程采用了重答推理方法,即得到初始回答后,再根據(jù)問題解釋改進(jìn)初始回答,輸出最終答案。
11、優(yōu)選的,步驟(1)中,問答任務(wù)為是/否問答格式,一個(gè)要素對(duì)應(yīng)一個(gè)問題;
12、利用要素問題之間的內(nèi)在邏輯建立層次化問題樹,層次化問題樹包括頂層節(jié)點(diǎn)和問題節(jié)點(diǎn),頂層節(jié)點(diǎn)(level?0)為問題類別,例如“訴訟請(qǐng)求”、“借款人”等,每個(gè)問題節(jié)點(diǎn)代表一個(gè)單獨(dú)的要素問題。本發(fā)明中父節(jié)點(diǎn)為子節(jié)點(diǎn)的前提問題,子節(jié)點(diǎn)為父節(jié)點(diǎn)問題的進(jìn)一步細(xì)化和展開,例如父節(jié)點(diǎn)問題“是否主張償還利息”,其子節(jié)點(diǎn)問題“是否說明利息計(jì)算基數(shù)、期間和計(jì)算過程”。
13、與傳統(tǒng)直接從法律文書中提取要素不同,本發(fā)明旨在提取更接近法律條款和具有分類和層次關(guān)系等內(nèi)在邏輯的要素,將該任務(wù)轉(zhuǎn)換為是/否的qa格式這一思路至關(guān)重要,由此可以利用llm的知識(shí)和推理能力來回答每個(gè)與要素相關(guān)的問題。
14、優(yōu)選的,層次化問題樹的構(gòu)建方法為:
15、對(duì)于t個(gè)要素問題{q1,q2,…,qt},根據(jù)從屬關(guān)系分為s個(gè)類別每個(gè)類別下又細(xì)分為若干層,此時(shí)要素問題{q1,q2,…,qt}被重寫為其中qi表示第一層(level?1)問題中的第i個(gè)問題,qij表示第一層中的第i個(gè)問題下的第二層(level?2)中第j個(gè)問題,qijk表示問題qij下的第三層(level?3)中第k個(gè)問題。
16、優(yōu)選的,步驟(2)中的實(shí)現(xiàn)過程為:
17、遍歷問題類別;
18、對(duì)于給定的問題類別,遍歷第一層(level?1),將第一層問題分別輸入重答推理器中,得到對(duì)應(yīng)答案;
19、將第一層問題分別作為父節(jié)點(diǎn),判斷是否存在對(duì)應(yīng)的子節(jié)點(diǎn),若不存在對(duì)應(yīng)的子節(jié)點(diǎn),則結(jié)束;若存在對(duì)應(yīng)的子節(jié)點(diǎn),則將第一層問題的答案進(jìn)行后處理,即將第一層問題的qa對(duì)話進(jìn)入歷史對(duì)話列表中,作為第二層(level?2)問題的參考,具體的:當(dāng)?shù)谝粚訂栴}的答案為“否”時(shí),第二層問題的答案直接輸出“否”;當(dāng)?shù)谝粚訂栴}的答案為“是”,將歷史對(duì)話列表與第二層(level?2)問題輸入重答推理器中,得到對(duì)應(yīng)答案;
20、將第二層問題分別作為父節(jié)點(diǎn),判斷是否存在對(duì)應(yīng)的子節(jié)點(diǎn),若不存在對(duì)應(yīng)的子節(jié)點(diǎn),則結(jié)束;若存在對(duì)應(yīng)的子節(jié)點(diǎn),則將第二層問題的答案進(jìn)行后處理,即將第二層問題的qa對(duì)話進(jìn)入歷史對(duì)話列表中,作為第三層(level?3)問題的參考,具體的:當(dāng)?shù)诙訂栴}的答案為“否”時(shí),第三層問題的答案直接輸出“否”;當(dāng)?shù)诙訂栴}的答案為“是”,將歷史對(duì)話列表與第三層(level?3)問題輸入重答推理器中,得到對(duì)應(yīng)答案;
21、依次類推,知道遍歷所有層次化問題樹的所有層。
22、為了充分利用要素問題之間的內(nèi)在邏輯,本發(fā)明并未直接回答上述問題列表,而是將其構(gòu)建為層次化問題樹,通過整合llm的多輪qa格式,對(duì)層次化問題樹進(jìn)行深度優(yōu)先遍歷,根據(jù)對(duì)父節(jié)點(diǎn)的響應(yīng)按順序回答每個(gè)問題。層次化qa結(jié)構(gòu)是本發(fā)明高效準(zhǔn)確完成要素提取的核心。
23、優(yōu)選的,對(duì)于給定的問題類別ch,通過重答推理器生成第一層(level?1)問題qi的答案ri,表示為:
24、
25、其中,表示重答推理器,d表示法律文書,表示文本連接函數(shù);
26、將答案ri進(jìn)行后處理,當(dāng)ri=“是”時(shí),將qa對(duì)話[qi,ri]加入歷史對(duì)話列表pre1中;
27、對(duì)于給定的第一層(level?1)問題qi,遍歷第二層問題,當(dāng)ri=“否”時(shí),第二層(level?2)問題直接輸出“否”,當(dāng)ri=“是”時(shí),將第二層(level?2)問題qij和pre1輸入重答推理器中,得到qij的答案rij:
28、
29、其中,pre1=[qi,ri];
30、將答案rij進(jìn)行后處理,當(dāng)rij=“是”時(shí),將qa對(duì)話[qij,rij]添加進(jìn)歷史對(duì)話列表pre2中;
31、對(duì)于給定的第二層(level?2)問題qij,遍歷第二層(level?3)問題,當(dāng)rij=“否”時(shí),第二層(level?3)問題直接輸出“否”,當(dāng)rij=“是”時(shí),將第三層(level?3)問題qijk和pre2輸入重答推理器中,得到qijk的答案rijk:
32、
33、其中,pre2=[qi,ri,qij,rij];
34、當(dāng)層次化問題樹層數(shù)大于三時(shí),亦可以以此類推。
35、優(yōu)選的,重答推理器包括llm推理器和llm重答器,通過重答推理方法生成答案的過程為:
36、首先將某一層中的某個(gè)問題,或者某一層中的某個(gè)問題及其對(duì)應(yīng)父節(jié)點(diǎn)的歷史對(duì)話列表輸入llm推理器,得到初始答案;
37、使用性能更強(qiáng)的llm和人工修正為每個(gè)要素問題生成問題解釋,將初始答案與問題解釋輸入llm重答器中,重新推理生成答案,作為最終答案輸出。
38、為了進(jìn)一步提高模型推理能力,本發(fā)明采用重答推理改進(jìn)回答,作為法律要素提取的關(guān)鍵步驟。與以往的自我修正方法不同,本發(fā)明將反饋和改進(jìn)階段整合到一個(gè)統(tǒng)一的程序中,即重答推理模塊,從而減輕了弱llm指令遵循的難度,并且提升了回答的準(zhǔn)確率和效率。
39、優(yōu)選的,llm推理器和llm重答器均采用qwen2.5-14b模型,性能更強(qiáng)的llm采用qwen-turbo模型。本發(fā)明利用性能更強(qiáng)的llm生成問題解釋,輔助性能較弱的llm完成任務(wù),降低了弱llm指令遵循的難度,有效提升了llm回答的準(zhǔn)確性。
40、優(yōu)選的,對(duì)于給定的問題q,利用llm推理器得到初始答案rinit,表示為:
41、
42、其中,表示llm推理器,pinit表示一個(gè)零樣本提示詞,用于指導(dǎo)llm推理器生成初始回答,具體內(nèi)容為“你是一名資深法律從業(yè)者,根據(jù)案件內(nèi)容,回答用戶問題”,||表示一種連接關(guān)系,d表示法律文書,pre3表示父節(jié)點(diǎn)問題的qa對(duì)話,c表示問題類別,表示文本連接函數(shù);
43、將[q,rinit]加入歷史對(duì)話pre′中;
44、將pre′和q輸入llm重答器得到最終答案rfinal,表示:
45、
46、其中,表示llm重答器,e表示對(duì)應(yīng)的問題解釋,pre′=[q,rinit],pfinal表示一個(gè)零樣本提示詞,用于指導(dǎo)llm重答器遵循e重新回答q生成最終回答,具體內(nèi)容為“以下為一組對(duì)話,a向b提問關(guān)于案件問題,b進(jìn)行回答。請(qǐng)嚴(yán)格遵循額外的問題解釋定義,重新回答a的問題,先輸出理由,后輸出答案”。
47、相較于僅從法律文書中提取淺層要素,本發(fā)明聚焦深度法律要素提取,側(cè)重于案件中的哪些信息直接有助于法官的裁決,為了實(shí)現(xiàn)這一目標(biāo),本發(fā)明將其轉(zhuǎn)化為是/否形式的問答任務(wù),并使用llm高效地輸出答案,大大減少對(duì)人工的依賴。在執(zhí)行問答任務(wù)時(shí),區(qū)別于一般文本問題解答任務(wù)的分解復(fù)雜問題構(gòu)建問題樹的方法,針對(duì)是/否問答的二元特性,本發(fā)明構(gòu)建了層次化問題樹,其中父問題是子問題判決的前提條件,當(dāng)父節(jié)點(diǎn)問題答案為否定時(shí)可以直接得到子節(jié)點(diǎn)問題的否定答案,節(jié)省了時(shí)間,父節(jié)點(diǎn)問題答案為肯定時(shí)亦可以輔助子節(jié)點(diǎn)問題的回答,確保推理過程更加連貫和準(zhǔn)確。另外在利用llm回答問題時(shí),本發(fā)明提出了重答推理的新方法,在初次使用llm得到初始回答后,通過重答環(huán)節(jié)進(jìn)一步優(yōu)化初始回答,該方法區(qū)別于通常的自我校正方法,沒有冗長(zhǎng)的步驟和提示詞,降低了弱llm指令遵循的難度,有效提升了llm回答的準(zhǔn)確性。
48、一種深度法律要素提取的層次化重答推理系統(tǒng),用于實(shí)現(xiàn)上述的深度法律要素提取的層次化重答推理方法,包括:
49、層次化問題樹構(gòu)建模塊,被配置為:將要素提取任務(wù)轉(zhuǎn)化為問答(qa)任務(wù),使問題列表依據(jù)從屬邏輯重構(gòu)為一個(gè)層次化問題樹;
50、問答模塊,被配置為:通過多輪問答對(duì)話對(duì)層次化問題樹進(jìn)行深度優(yōu)先遍歷,根據(jù)對(duì)父節(jié)點(diǎn)的響應(yīng)依序回答問題,得到答案;
51、重答推理模塊,被配置為:實(shí)現(xiàn)回答問題的過程,即得到初始回答后,再根據(jù)問題解釋改進(jìn)初始回答,輸出最終答案。
52、本發(fā)明未詳盡之處,均可參見現(xiàn)有技術(shù)。
53、本發(fā)明的有益效果為:
54、本發(fā)明提出的一種深度法律要素提取的層次化重答推理方法及系統(tǒng),為審判提供深入的案件信息。本方法將要素提取任務(wù)轉(zhuǎn)化為qa任務(wù),以利用llm的強(qiáng)大知識(shí)和推理能力,通過層次化重答推理,改善了法律要素的內(nèi)在邏輯缺失、法律知識(shí)的缺乏和弱llm的指令跟蹤能力等問題。通過深度法律要素提取,不僅提高法律服務(wù)的效率,而且輔助法官做出更加準(zhǔn)確的判斷,為法律實(shí)踐提供更加精準(zhǔn)和有力的支持。