最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

評(píng)估大型語言模型的輸出的方法、裝置、介質(zhì)及產(chǎn)品與流程

文檔序號(hào):41950942發(fā)布日期:2025-05-16 14:11閱讀:3來源:國知局
評(píng)估大型語言模型的輸出的方法、裝置、介質(zhì)及產(chǎn)品與流程

本公開涉及人工智能領(lǐng)域,更具體地,涉及一種評(píng)估大型語言模型的輸出的方法、裝置、介質(zhì)及產(chǎn)品。


背景技術(shù):

1、當(dāng)前大型語言模型(large?language?model,llm)已廣泛應(yīng)用于各個(gè)領(lǐng)域,在各種任務(wù)中都表現(xiàn)出色。然而,它們?cè)卺t(yī)學(xué)領(lǐng)域的應(yīng)用帶來了獨(dú)特的挑戰(zhàn),特別是在幻覺(即,錯(cuò)誤或虛構(gòu)的輸出)的產(chǎn)生方面。

2、開放式長醫(yī)學(xué)文本中的幻覺表現(xiàn)為誤導(dǎo)性的關(guān)鍵觀點(diǎn)(claims),由于兩個(gè)原因,這些觀點(diǎn)難以驗(yàn)證。首先,關(guān)鍵觀點(diǎn)通常深深糾纏在文本中,無法僅基于表面層次的呈現(xiàn)來提取。其次,驗(yàn)證這些觀點(diǎn)具有挑戰(zhàn)性,因?yàn)榛诒砻鎸哟蔚臉?biāo)記檢索通常缺乏精確或具體的證據(jù),如果沒有更深層次的基于機(jī)制的分析,這些觀點(diǎn)就無法驗(yàn)證。

3、基于llm的qa系統(tǒng)的快速發(fā)展,已經(jīng)提出了許多用于生成準(zhǔn)確答案和觀點(diǎn)的解決方案。然而,事實(shí)性驗(yàn)證仍然是一項(xiàng)重大挑戰(zhàn),特別是在醫(yī)學(xué)等領(lǐng)域。由于醫(yī)學(xué)概念、癥狀和治療等之間的復(fù)雜關(guān)系,醫(yī)學(xué)事實(shí)驗(yàn)證尤其具有挑戰(zhàn)性,這些關(guān)系通常無法通過簡(jiǎn)單的查詢進(jìn)行驗(yàn)證。這個(gè)過程需要理解隱含的因果關(guān)系并構(gòu)建詳細(xì)的證據(jù)鏈?,F(xiàn)有的自動(dòng)化方法,如事實(shí)核查和基于知識(shí)的系統(tǒng),通常將觀點(diǎn)與靜態(tài)數(shù)據(jù)庫或預(yù)定義的參考答案進(jìn)行比較。雖然這些方法對(duì)于簡(jiǎn)單的觀點(diǎn)有效,但它們難以應(yīng)對(duì)長醫(yī)學(xué)文本的復(fù)雜性和相互關(guān)聯(lián)性。

4、因此,需要一種新的方法來解決上述問題,以提高長醫(yī)學(xué)文本驗(yàn)證的可靠性和準(zhǔn)確性,最終提高醫(yī)學(xué)應(yīng)用的質(zhì)量。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述問題,本公開提供了一種基于迭代樹分析(iterative?tree?analysis,ita)的評(píng)估大型語言模型的輸出的方法。根據(jù)本公開提供的ita方法旨在從長醫(yī)學(xué)文本中提取隱含的觀點(diǎn),并通過迭代和自適應(yīng)的樹狀推理過程驗(yàn)證每個(gè)觀點(diǎn)。ita方法的過程結(jié)合了自上而下的任務(wù)拆分和自下而上的證據(jù)整合,通過詳細(xì)的機(jī)制級(jí)推理實(shí)現(xiàn)對(duì)復(fù)雜醫(yī)療觀點(diǎn)的精確驗(yàn)證。

2、本公開實(shí)施例提供了一種評(píng)估大型語言模型的輸出的方法,包括:從大型語言模型的輸出中提取一個(gè)或多個(gè)關(guān)鍵觀點(diǎn),所述關(guān)鍵觀點(diǎn)的每個(gè)包括自洽的事實(shí)陳述;基于提取的關(guān)鍵觀點(diǎn)構(gòu)造自適應(yīng)思維樹結(jié)構(gòu),以將每個(gè)關(guān)鍵觀點(diǎn)拆分為可驗(yàn)證的多個(gè)子觀點(diǎn);從一個(gè)或多個(gè)外部信息源檢索與所述多個(gè)子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù),并且根據(jù)檢索的證據(jù)數(shù)據(jù)對(duì)所述多個(gè)子觀點(diǎn)進(jìn)行驗(yàn)證;響應(yīng)于所述多個(gè)子觀點(diǎn)的驗(yàn)證已經(jīng)結(jié)束,整合所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果,并且根據(jù)整合后的所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果;以及輸出所述關(guān)鍵觀點(diǎn)的每個(gè)的評(píng)估結(jié)果以及對(duì)應(yīng)的證據(jù)數(shù)據(jù)。

3、根據(jù)本公開實(shí)施例,所述大型語言模型的輸出包括響應(yīng)于輸入查詢產(chǎn)生的輸出文本,以及所述輸出文本包括醫(yī)學(xué)長文本。

4、根據(jù)本公開實(shí)施例,所述關(guān)鍵觀點(diǎn)是相互獨(dú)立的,以及所述樹結(jié)構(gòu)圖形中的根節(jié)點(diǎn)是所述關(guān)鍵觀點(diǎn),所述樹結(jié)構(gòu)的子節(jié)點(diǎn)是所述子觀點(diǎn),并且所述樹結(jié)構(gòu)圖形中的邊指示各節(jié)點(diǎn)之間的關(guān)系。

5、根據(jù)本公開實(shí)施例,所述方法還包括:響應(yīng)于所述子觀點(diǎn)的驗(yàn)證指示所述子觀點(diǎn)的顆粒度較低,迭代地將所述子觀點(diǎn)進(jìn)一步拆分為顆粒度較高的多個(gè)原子觀點(diǎn);從一個(gè)或多個(gè)外部信息源檢索與所述多個(gè)原子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù),并且根據(jù)檢索的證據(jù)數(shù)據(jù)對(duì)所述多個(gè)原子觀點(diǎn)進(jìn)行驗(yàn)證。

6、根據(jù)本公開實(shí)施例,響應(yīng)于所述多個(gè)子觀點(diǎn)的驗(yàn)證已經(jīng)結(jié)束還包括:確定所述多個(gè)子觀點(diǎn)不需要進(jìn)一步拆分或確定子觀點(diǎn)已經(jīng)達(dá)到最高顆粒度。

7、根據(jù)本公開實(shí)施例,整合所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果,并且根據(jù)整合后的所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果還包括:整合所述多個(gè)子觀點(diǎn)的每個(gè)子觀點(diǎn)對(duì)應(yīng)的多個(gè)原子觀點(diǎn)的驗(yàn)證結(jié)果,并根據(jù)整合后的所述多個(gè)原子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的每個(gè)子節(jié)點(diǎn)的驗(yàn)證結(jié)果;根據(jù)整合后的所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果。

8、根據(jù)本公開實(shí)施例,每個(gè)節(jié)點(diǎn)包括的初始參數(shù)包括觀點(diǎn)和指示該觀點(diǎn)是否可接受的狀態(tài)的標(biāo)量值。整合所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果,并且根據(jù)整合后的所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果還包括:從所述樹結(jié)構(gòu)圖形的葉節(jié)點(diǎn)開始,將已經(jīng)驗(yàn)證的子觀點(diǎn)的標(biāo)量值和提供判斷的證據(jù)數(shù)據(jù)傳遞給父節(jié)點(diǎn);整合多個(gè)子節(jié)點(diǎn)的標(biāo)量值修改父節(jié)點(diǎn)的狀態(tài);以及使用更新的父節(jié)點(diǎn)的狀態(tài)修改根節(jié)點(diǎn)的狀態(tài),并根據(jù)跟節(jié)點(diǎn)的狀態(tài)確定關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果。

9、根據(jù)本公開實(shí)施例,所述大型語言模型包括一組預(yù)先設(shè)置的檢索工具,每個(gè)檢索工具被配置檢索特定類型的信息或調(diào)用外部計(jì)算器來評(píng)估,以及針對(duì)每個(gè)子觀點(diǎn),選擇適當(dāng)?shù)臋z索工具來檢索與所述多個(gè)子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù)。

10、根據(jù)本公開實(shí)施例,選擇適當(dāng)?shù)臋z索工具來檢索與所述多個(gè)子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù)包括:使用子觀點(diǎn)的父節(jié)點(diǎn)的觀點(diǎn)作為上下文來確定適當(dāng)?shù)臋z索工具;生成檢索查詢?nèi)蝿?wù)以開始檢索與所述多個(gè)子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù);以及根據(jù)與觀點(diǎn)的相關(guān)性以及信息源的來源和類型,對(duì)檢索的證據(jù)數(shù)據(jù)進(jìn)行排序和選擇。

11、根據(jù)本公開實(shí)施例,所述方法還包括:使用基于llm-as-a-judge的檢查列表分?jǐn)?shù)來系統(tǒng)地評(píng)價(jià)關(guān)鍵觀點(diǎn)。

12、根據(jù)本公開實(shí)施例,所述方法還包括:構(gòu)造測(cè)試數(shù)據(jù)集,所述基準(zhǔn)測(cè)試數(shù)據(jù)集包括一組正確觀點(diǎn)、以及一組偽造觀點(diǎn)、事實(shí)文本以及非事實(shí)文本;使用構(gòu)造的測(cè)試數(shù)據(jù)集對(duì)所述關(guān)鍵觀點(diǎn)的每個(gè)的評(píng)估結(jié)果進(jìn)行評(píng)估。

13、根據(jù)本公開實(shí)施例,構(gòu)造測(cè)試數(shù)據(jù)集還包括:從給定的醫(yī)學(xué)指南文本中的一段語句中提取一系列原子觀點(diǎn)作為正確觀點(diǎn);對(duì)正確觀點(diǎn)添加隨機(jī)錯(cuò)誤,以生成偽造觀點(diǎn);基于正確觀點(diǎn)和偽造觀點(diǎn)生成原始文本的釋義作為事實(shí)文本;通過合并偽造觀點(diǎn)來創(chuàng)建事實(shí)文本的替代版本作為非事實(shí)文本。

14、根據(jù)本公開實(shí)施例,所述測(cè)試數(shù)據(jù)集中的測(cè)試數(shù)據(jù)的類別包括以下的病理生理學(xué)、藥物治療、診斷、癥狀、治療以及預(yù)防。

15、根據(jù)本公開另一實(shí)施例,提供了一種評(píng)估大型語言模型的輸出的裝置,包括:處理器,和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令當(dāng)由處理器執(zhí)行時(shí)促使處理器執(zhí)行如上面描述的方法。

16、根據(jù)本公開另一實(shí)施例,提供了一種計(jì)算機(jī)可讀記錄介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,其中,所述計(jì)算機(jī)可執(zhí)行指令當(dāng)由處理器執(zhí)行時(shí)促使處理器執(zhí)行如上面描述的方法。

17、根據(jù)本公開另一實(shí)施例,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可執(zhí)行指令,其中,所述計(jì)算機(jī)可執(zhí)行指令當(dāng)由處理器執(zhí)行時(shí)促使所述處理器執(zhí)行如上面描述的方法。

18、根據(jù)本公開實(shí)施例的ita方法,可以通過使用自適應(yīng)思維樹推理來增強(qiáng)醫(yī)療事實(shí)驗(yàn)證。ita方法可以有效地從原始文本中提取原子觀點(diǎn),并構(gòu)建證據(jù)樹來支持真假判斷,從而提高觀點(diǎn)驗(yàn)證的準(zhǔn)確性和可靠性。ita方法還可以通過使用檢索到的外部參考信息生成和合并子樹,為醫(yī)療觀點(diǎn)檢測(cè)提供了一個(gè)統(tǒng)一且通用的框架,這允許全面說明和驗(yàn)證輸入查詢文本中的不同重要觀點(diǎn),從而促進(jìn)對(duì)醫(yī)療信息進(jìn)行更細(xì)致和詳細(xì)的分析。此外,本公開實(shí)施例還構(gòu)造了驗(yàn)證數(shù)據(jù)集,包括一個(gè)細(xì)粒度的檢查表,可以支持對(duì)驗(yàn)證任務(wù)的評(píng)估。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1