評(píng)估大型語言模型的輸出的方法、裝置、介質(zhì)及產(chǎn)品與流程

文檔序號(hào)：41950942發(fā)布日期：2025-05-16 14:11閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

評(píng)估大型語言模型的輸出的方法、裝置、介質(zhì)及產(chǎn)品與流程

本公開涉及人工智能領(lǐng)域，更具體地，涉及一種評(píng)估大型語言模型的輸出的方法、裝置、介質(zhì)及產(chǎn)品。

背景技術(shù)：

1、當(dāng)前大型語言模型(large?language?model，llm)已廣泛應(yīng)用于各個(gè)領(lǐng)域，在各種任務(wù)中都表現(xiàn)出色。然而，它們?cè)卺t(yī)學(xué)領(lǐng)域的應(yīng)用帶來了獨(dú)特的挑戰(zhàn)，特別是在幻覺(即，錯(cuò)誤或虛構(gòu)的輸出)的產(chǎn)生方面。

2、開放式長醫(yī)學(xué)文本中的幻覺表現(xiàn)為誤導(dǎo)性的關(guān)鍵觀點(diǎn)(claims)，由于兩個(gè)原因，這些觀點(diǎn)難以驗(yàn)證。首先，關(guān)鍵觀點(diǎn)通常深深糾纏在文本中，無法僅基于表面層次的呈現(xiàn)來提取。其次，驗(yàn)證這些觀點(diǎn)具有挑戰(zhàn)性，因?yàn)榛诒砻鎸哟蔚臉?biāo)記檢索通常缺乏精確或具體的證據(jù)，如果沒有更深層次的基于機(jī)制的分析，這些觀點(diǎn)就無法驗(yàn)證。

3、基于llm的qa系統(tǒng)的快速發(fā)展，已經(jīng)提出了許多用于生成準(zhǔn)確答案和觀點(diǎn)的解決方案。然而，事實(shí)性驗(yàn)證仍然是一項(xiàng)重大挑戰(zhàn)，特別是在醫(yī)學(xué)等領(lǐng)域。由于醫(yī)學(xué)概念、癥狀和治療等之間的復(fù)雜關(guān)系，醫(yī)學(xué)事實(shí)驗(yàn)證尤其具有挑戰(zhàn)性，這些關(guān)系通常無法通過簡(jiǎn)單的查詢進(jìn)行驗(yàn)證。這個(gè)過程需要理解隱含的因果關(guān)系并構(gòu)建詳細(xì)的證據(jù)鏈?，F(xiàn)有的自動(dòng)化方法，如事實(shí)核查和基于知識(shí)的系統(tǒng)，通常將觀點(diǎn)與靜態(tài)數(shù)據(jù)庫或預(yù)定義的參考答案進(jìn)行比較。雖然這些方法對(duì)于簡(jiǎn)單的觀點(diǎn)有效，但它們難以應(yīng)對(duì)長醫(yī)學(xué)文本的復(fù)雜性和相互關(guān)聯(lián)性。

4、因此，需要一種新的方法來解決上述問題，以提高長醫(yī)學(xué)文本驗(yàn)證的可靠性和準(zhǔn)確性，最終提高醫(yī)學(xué)應(yīng)用的質(zhì)量。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述問題，本公開提供了一種基于迭代樹分析(iterative?tree?analysis，ita)的評(píng)估大型語言模型的輸出的方法。根據(jù)本公開提供的ita方法旨在從長醫(yī)學(xué)文本中提取隱含的觀點(diǎn)，并通過迭代和自適應(yīng)的樹狀推理過程驗(yàn)證每個(gè)觀點(diǎn)。ita方法的過程結(jié)合了自上而下的任務(wù)拆分和自下而上的證據(jù)整合，通過詳細(xì)的機(jī)制級(jí)推理實(shí)現(xiàn)對(duì)復(fù)雜醫(yī)療觀點(diǎn)的精確驗(yàn)證。

2、本公開實(shí)施例提供了一種評(píng)估大型語言模型的輸出的方法，包括：從大型語言模型的輸出中提取一個(gè)或多個(gè)關(guān)鍵觀點(diǎn)，所述關(guān)鍵觀點(diǎn)的每個(gè)包括自洽的事實(shí)陳述；基于提取的關(guān)鍵觀點(diǎn)構(gòu)造自適應(yīng)思維樹結(jié)構(gòu)，以將每個(gè)關(guān)鍵觀點(diǎn)拆分為可驗(yàn)證的多個(gè)子觀點(diǎn)；從一個(gè)或多個(gè)外部信息源檢索與所述多個(gè)子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù)，并且根據(jù)檢索的證據(jù)數(shù)據(jù)對(duì)所述多個(gè)子觀點(diǎn)進(jìn)行驗(yàn)證；響應(yīng)于所述多個(gè)子觀點(diǎn)的驗(yàn)證已經(jīng)結(jié)束，整合所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果，并且根據(jù)整合后的所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果；以及輸出所述關(guān)鍵觀點(diǎn)的每個(gè)的評(píng)估結(jié)果以及對(duì)應(yīng)的證據(jù)數(shù)據(jù)。

3、根據(jù)本公開實(shí)施例，所述大型語言模型的輸出包括響應(yīng)于輸入查詢產(chǎn)生的輸出文本，以及所述輸出文本包括醫(yī)學(xué)長文本。

4、根據(jù)本公開實(shí)施例，所述關(guān)鍵觀點(diǎn)是相互獨(dú)立的，以及所述樹結(jié)構(gòu)圖形中的根節(jié)點(diǎn)是所述關(guān)鍵觀點(diǎn)，所述樹結(jié)構(gòu)的子節(jié)點(diǎn)是所述子觀點(diǎn)，并且所述樹結(jié)構(gòu)圖形中的邊指示各節(jié)點(diǎn)之間的關(guān)系。

5、根據(jù)本公開實(shí)施例，所述方法還包括：響應(yīng)于所述子觀點(diǎn)的驗(yàn)證指示所述子觀點(diǎn)的顆粒度較低，迭代地將所述子觀點(diǎn)進(jìn)一步拆分為顆粒度較高的多個(gè)原子觀點(diǎn)；從一個(gè)或多個(gè)外部信息源檢索與所述多個(gè)原子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù)，并且根據(jù)檢索的證據(jù)數(shù)據(jù)對(duì)所述多個(gè)原子觀點(diǎn)進(jìn)行驗(yàn)證。

6、根據(jù)本公開實(shí)施例，響應(yīng)于所述多個(gè)子觀點(diǎn)的驗(yàn)證已經(jīng)結(jié)束還包括：確定所述多個(gè)子觀點(diǎn)不需要進(jìn)一步拆分或確定子觀點(diǎn)已經(jīng)達(dá)到最高顆粒度。

7、根據(jù)本公開實(shí)施例，整合所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果，并且根據(jù)整合后的所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果還包括：整合所述多個(gè)子觀點(diǎn)的每個(gè)子觀點(diǎn)對(duì)應(yīng)的多個(gè)原子觀點(diǎn)的驗(yàn)證結(jié)果，并根據(jù)整合后的所述多個(gè)原子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的每個(gè)子節(jié)點(diǎn)的驗(yàn)證結(jié)果；根據(jù)整合后的所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果。

8、根據(jù)本公開實(shí)施例，每個(gè)節(jié)點(diǎn)包括的初始參數(shù)包括觀點(diǎn)和指示該觀點(diǎn)是否可接受的狀態(tài)的標(biāo)量值。整合所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果，并且根據(jù)整合后的所述多個(gè)子觀點(diǎn)的驗(yàn)證結(jié)果確定對(duì)應(yīng)的關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果還包括：從所述樹結(jié)構(gòu)圖形的葉節(jié)點(diǎn)開始，將已經(jīng)驗(yàn)證的子觀點(diǎn)的標(biāo)量值和提供判斷的證據(jù)數(shù)據(jù)傳遞給父節(jié)點(diǎn)；整合多個(gè)子節(jié)點(diǎn)的標(biāo)量值修改父節(jié)點(diǎn)的狀態(tài)；以及使用更新的父節(jié)點(diǎn)的狀態(tài)修改根節(jié)點(diǎn)的狀態(tài)，并根據(jù)跟節(jié)點(diǎn)的狀態(tài)確定關(guān)鍵觀點(diǎn)的評(píng)估結(jié)果。

9、根據(jù)本公開實(shí)施例，所述大型語言模型包括一組預(yù)先設(shè)置的檢索工具，每個(gè)檢索工具被配置檢索特定類型的信息或調(diào)用外部計(jì)算器來評(píng)估，以及針對(duì)每個(gè)子觀點(diǎn)，選擇適當(dāng)?shù)臋z索工具來檢索與所述多個(gè)子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù)。

10、根據(jù)本公開實(shí)施例，選擇適當(dāng)?shù)臋z索工具來檢索與所述多個(gè)子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù)包括：使用子觀點(diǎn)的父節(jié)點(diǎn)的觀點(diǎn)作為上下文來確定適當(dāng)?shù)臋z索工具；生成檢索查詢?nèi)蝿?wù)以開始檢索與所述多個(gè)子觀點(diǎn)相關(guān)聯(lián)的證據(jù)數(shù)據(jù)；以及根據(jù)與觀點(diǎn)的相關(guān)性以及信息源的來源和類型，對(duì)檢索的證據(jù)數(shù)據(jù)進(jìn)行排序和選擇。

11、根據(jù)本公開實(shí)施例，所述方法還包括：使用基于llm-as-a-judge的檢查列表分?jǐn)?shù)來系統(tǒng)地評(píng)價(jià)關(guān)鍵觀點(diǎn)。

12、根據(jù)本公開實(shí)施例，所述方法還包括：構(gòu)造測(cè)試數(shù)據(jù)集，所述基準(zhǔn)測(cè)試數(shù)據(jù)集包括一組正確觀點(diǎn)、以及一組偽造觀點(diǎn)、事實(shí)文本以及非事實(shí)文本；使用構(gòu)造的測(cè)試數(shù)據(jù)集對(duì)所述關(guān)鍵觀點(diǎn)的每個(gè)的評(píng)估結(jié)果進(jìn)行評(píng)估。

13、根據(jù)本公開實(shí)施例，構(gòu)造測(cè)試數(shù)據(jù)集還包括：從給定的醫(yī)學(xué)指南文本中的一段語句中提取一系列原子觀點(diǎn)作為正確觀點(diǎn)；對(duì)正確觀點(diǎn)添加隨機(jī)錯(cuò)誤，以生成偽造觀點(diǎn)；基于正確觀點(diǎn)和偽造觀點(diǎn)生成原始文本的釋義作為事實(shí)文本；通過合并偽造觀點(diǎn)來創(chuàng)建事實(shí)文本的替代版本作為非事實(shí)文本。

14、根據(jù)本公開實(shí)施例，所述測(cè)試數(shù)據(jù)集中的測(cè)試數(shù)據(jù)的類別包括以下的病理生理學(xué)、藥物治療、診斷、癥狀、治療以及預(yù)防。

15、根據(jù)本公開另一實(shí)施例，提供了一種評(píng)估大型語言模型的輸出的裝置，包括：處理器，和存儲(chǔ)器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，所述計(jì)算機(jī)可執(zhí)行指令當(dāng)由處理器執(zhí)行時(shí)促使處理器執(zhí)行如上面描述的方法。

16、根據(jù)本公開另一實(shí)施例，提供了一種計(jì)算機(jī)可讀記錄介質(zhì)，存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，其中，所述計(jì)算機(jī)可執(zhí)行指令當(dāng)由處理器執(zhí)行時(shí)促使處理器執(zhí)行如上面描述的方法。

17、根據(jù)本公開另一實(shí)施例，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)可執(zhí)行指令，其中，所述計(jì)算機(jī)可執(zhí)行指令當(dāng)由處理器執(zhí)行時(shí)促使所述處理器執(zhí)行如上面描述的方法。

18、根據(jù)本公開實(shí)施例的ita方法，可以通過使用自適應(yīng)思維樹推理來增強(qiáng)醫(yī)療事實(shí)驗(yàn)證。ita方法可以有效地從原始文本中提取原子觀點(diǎn)，并構(gòu)建證據(jù)樹來支持真假判斷，從而提高觀點(diǎn)驗(yàn)證的準(zhǔn)確性和可靠性。ita方法還可以通過使用檢索到的外部參考信息生成和合并子樹，為醫(yī)療觀點(diǎn)檢測(cè)提供了一個(gè)統(tǒng)一且通用的框架，這允許全面說明和驗(yàn)證輸入查詢文本中的不同重要觀點(diǎn)，從而促進(jìn)對(duì)醫(yī)療信息進(jìn)行更細(xì)致和詳細(xì)的分析。此外，本公開實(shí)施例還構(gòu)造了驗(yàn)證數(shù)據(jù)集，包括一個(gè)細(xì)粒度的檢查表，可以支持對(duì)驗(yàn)證任務(wù)的評(píng)估。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李明蔚,郭淼,黃澤楠,李雪梅,潘國勛,龔治溧,陳冠宇,周正,蔣又新
技術(shù)所有人：北京百川智能科技有限公司
我是此專利的發(fā)明人

上一篇：基于薄血膜的瘧原蟲類別識(shí)別方法和裝置
上一篇：一種基于鹽度偏好的熊本牡蠣活體鑒定方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

評(píng)估大型語言模型的輸出的方法、裝置、介質(zhì)及產(chǎn)品與流程

評(píng)估大型語言模型的輸出的方法、裝置、介質(zhì)及產(chǎn)品與流程