最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種文檔問答系統(tǒng)的答案溯源方法、裝置、終端設(shè)備及存儲介質(zhì)與流程

文檔序號:41950662發(fā)布日期:2025-05-16 14:10閱讀:4來源:國知局
一種文檔問答系統(tǒng)的答案溯源方法、裝置、終端設(shè)備及存儲介質(zhì)與流程

本發(fā)明涉及自然語言處理,具體涉及一種文檔問答系統(tǒng)的答案溯源方法、裝置、終端設(shè)備及存儲介質(zhì)


背景技術(shù):

1、現(xiàn)有的文檔問答系統(tǒng)大多采用黑盒模式工作,即系統(tǒng)直接輸出最終答案,而沒有提供足夠的解釋來說明答案是如何得出的。這種缺乏透明度的方式不僅降低了用戶的信任感,而且在需要驗(yàn)證答案正確性或理解答案背后的邏輯時帶來了困難。此外,當(dāng)答案出現(xiàn)錯誤時,也很難追蹤到錯誤的源頭,這對于提高系統(tǒng)的可靠性和可維護(hù)性構(gòu)成了挑戰(zhàn)。

2、而目前目前現(xiàn)有的溯源標(biāo)記主流技術(shù)是:通過從數(shù)據(jù)庫檢索出來的每一條context,與answer回答中的每一句話,經(jīng)過嵌入模型對context和answer的每一句話計(jì)算分?jǐn)?shù),context和answer的每一句話兩兩進(jìn)行嵌入的相似度匹配。當(dāng)相似度超過一個閾值后,則判定為answer中的這句話是從該context中推理出來。

3、上述現(xiàn)有技術(shù)的缺點(diǎn)在于,因?yàn)榍度肽P偷膮?shù)量比較少,有些時候未能充分理解復(fù)雜的語義關(guān)系。僅依賴嵌入模型,可能會出現(xiàn)context和answer中的某句話相似度很高,但實(shí)際上并沒有關(guān)聯(lián)。導(dǎo)致答案溯源的準(zhǔn)確性較低。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例提供了一種文檔問答系統(tǒng)的答案溯源方法、裝置、終端設(shè)備及存儲介質(zhì),能夠提高文檔問答系統(tǒng)進(jìn)行答案溯源的準(zhǔn)確性。

2、本發(fā)明一實(shí)施例提供了一種文檔問答系統(tǒng)的答案溯源方法,包括:

3、獲取若干候選文檔以及文檔問答系統(tǒng)針對用戶所輸入的問題所生成的答案;

4、提取所述候選文檔和所述答案中的關(guān)鍵詞,并根據(jù)所提取的關(guān)鍵詞計(jì)算各候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率;

5、計(jì)算答案與各候選文檔的語義相似度;

6、根據(jù)所述覆蓋率以及所述語義相似度,確定各候選文檔與所述答案的相關(guān)程度,將相關(guān)程度最高的候選文檔,作為所述答案的來源。

7、進(jìn)一步的,所述獲取若干候選文檔,包括:

8、通過預(yù)設(shè)的大語言模型,對所述問題與數(shù)據(jù)庫中存儲的各文檔之間的相關(guān)性進(jìn)行檢測,將相關(guān)性超過預(yù)設(shè)閾值的文檔,作為所述候選文檔。

9、進(jìn)一步的,所述根據(jù)所提取的關(guān)鍵詞計(jì)算各候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率,包括:

10、對于每一候選文檔,將候選文檔中的關(guān)鍵詞與對答案中的關(guān)鍵詞進(jìn)行比對,將相同的關(guān)鍵詞,作為共有關(guān)鍵詞;

11、計(jì)算共有關(guān)鍵詞的個數(shù),與候選文檔中所有關(guān)鍵詞的個數(shù)的比值,得到所述覆蓋率。

12、進(jìn)一步的,所述計(jì)算答案與各候選文檔的語義相似度,包括:

13、對于每一候選文檔,使用預(yù)設(shè)的嵌入模型分別對答案中的句子和候選文檔進(jìn)行向量化,得到答案所對應(yīng)的第一向量以及候選文檔所對應(yīng)的第二向量;

14、計(jì)算所述第一向量與所述第二向量的余弦相似度,得到所述語義相似度。

15、進(jìn)一步的,所述根據(jù)所述覆蓋率以及所述語義相似度,確定各候選文檔與所述答案的相關(guān)程度,包括:

16、對于每一候選文檔,通過以下公式計(jì)算候選文檔與所述答案的相關(guān)程度:

17、y=a*a+b*b;

18、其中,y為候選文檔與所述答案的相關(guān)程度,a為候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率,a為預(yù)設(shè)的第一權(quán)重,b為答案與候選文檔的語義相似度,b為預(yù)設(shè)的第二權(quán)重。

19、在上述方法項(xiàng)實(shí)施例的基礎(chǔ)上,本發(fā)明對應(yīng)提供了裝置項(xiàng)實(shí)施例;

20、本發(fā)明一實(shí)施例提供了一種文檔問答系統(tǒng)的答案溯源裝置,包括:數(shù)據(jù)獲取模塊、覆蓋率計(jì)算模塊、相似度比對模塊以及答案來源確定模塊;

21、所述數(shù)據(jù)獲取模塊,用于獲取若干候選文檔以及文檔問答系統(tǒng)針對用戶所輸入的問題所生成的答案;

22、所述覆蓋率計(jì)算模塊,用于提取所述候選文檔和所述答案中的關(guān)鍵詞,并根據(jù)所提取的關(guān)鍵詞計(jì)算各候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率;

23、所述相似度比對模塊,用于計(jì)算答案與各候選文檔的語義相似度;

24、所述答案來源確定模塊,用于根據(jù)所述覆蓋率以及所述語義相似度,確定各候選文檔與所述答案的相關(guān)程度,將相關(guān)程度最高的候選文檔,作為所述答案的來源。

25、進(jìn)一步的,所述數(shù)據(jù)獲取模塊,通過以下方式獲取若干候選文檔:

26、通過預(yù)設(shè)的大語言模型,對所述問題與數(shù)據(jù)庫中存儲的各文檔之間的相關(guān)性進(jìn)行檢測,將相關(guān)性超過預(yù)設(shè)閾值的文檔,作為所述候選文檔。

27、進(jìn)一步的,所述覆蓋率計(jì)算模塊,通過以下方式計(jì)算候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率:

28、將候選文檔中的關(guān)鍵詞與對答案中的關(guān)鍵詞進(jìn)行比對,將相同的關(guān)鍵詞,作為共有關(guān)鍵詞;

29、計(jì)算共有關(guān)鍵詞的個數(shù),與候選文檔中所有關(guān)鍵詞的個數(shù)的比值,得到所述覆蓋率。

30、在上述方法項(xiàng)實(shí)施例的基礎(chǔ)上本發(fā)明對應(yīng)提供了終端設(shè)備項(xiàng)實(shí)施例;

31、本發(fā)明另一實(shí)施例提供了一種終端設(shè)備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如所述任意一項(xiàng)實(shí)施例所述的一種文檔問答系統(tǒng)的答案溯源方法。

32、在上述方法項(xiàng)實(shí)施例的基礎(chǔ)上本發(fā)明對應(yīng)提供了存儲介質(zhì)項(xiàng)實(shí)施例;

33、本發(fā)明另一實(shí)施例提供了一種存儲介質(zhì),所述存儲介質(zhì)包括存儲的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時控制所述存儲介質(zhì)所在設(shè)備執(zhí)行如上述任意一項(xiàng)實(shí)施例所述的一種文檔問答系統(tǒng)的答案溯源方法。

34、通過實(shí)施本發(fā)明具有如下有益效果:

35、本發(fā)明公開了一種文檔問答系統(tǒng)的答案溯源方法、裝置、終端設(shè)備及存儲介質(zhì),所述方法首先獲取若干候選文檔以及文檔問答系統(tǒng)針對用戶所輸入的問題所生成的答案;提取所述候選文檔和所述答案中的關(guān)鍵詞,并根據(jù)所提取的關(guān)鍵詞計(jì)算各候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率;計(jì)算答案與各候選文檔的語義相似度;根據(jù)所述覆蓋率以及所述語義相似度,確定各候選文檔與所述答案的相關(guān)程度,將相關(guān)程度最高的候選文檔,作為所述答案的來源。與現(xiàn)有技術(shù)相比,本申請基于候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率,以及答案與候選文檔的語義相似度兩個維度,對答案進(jìn)行溯源,提高答案溯源的準(zhǔn)確性,避免,因?yàn)榍度肽P偷膮?shù)量比較少,有些時候未能充分理解復(fù)雜的語義關(guān)系進(jìn)而導(dǎo)致答案溯源出錯的問題。



技術(shù)特征:

1.一種文檔問答系統(tǒng)的答案溯源方法,其特征在于,包括:

2.如權(quán)利要求1所述的文檔問答系統(tǒng)的答案溯源方法,其特征在于,所述獲取若干候選文檔,包括:

3.如權(quán)利要求2所述的文檔問答系統(tǒng)的答案溯源方法,其特征在于,所述根據(jù)所提取的關(guān)鍵詞計(jì)算各候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率,包括:

4.如權(quán)利要求3所述的文檔問答系統(tǒng)的答案溯源方法,其特征在于,所述計(jì)算答案與各候選文檔的語義相似度,包括:

5.如權(quán)利要求4所述的文檔問答系統(tǒng)的答案溯源方法,其特征在于,所述根據(jù)所述覆蓋率以及所述語義相似度,確定各候選文檔與所述答案的相關(guān)程度,包括:

6.一種文檔問答系統(tǒng)的答案溯源裝置,其特征在于,包括:數(shù)據(jù)獲取模塊、覆蓋率計(jì)算模塊、相似度比對模塊以及答案來源確定模塊;

7.如權(quán)利要求6所述的文檔問答系統(tǒng)的答案溯源裝置,其特征在于,所述數(shù)據(jù)獲取模塊,通過以下方式獲取若干候選文檔:

8.如權(quán)利要求7所述的文檔問答系統(tǒng)的答案溯源裝置,其特征在于,所述覆蓋率計(jì)算模塊,通過以下方式計(jì)算候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率:

9.一種終端設(shè)備,其特征在于,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如權(quán)利要求1至5中任意一項(xiàng)所述的文檔問答系統(tǒng)的答案溯源方法。

10.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)包括存儲的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時控制所述存儲介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1至5中任意一項(xiàng)所述的文檔問答系統(tǒng)的答案溯源方法。


技術(shù)總結(jié)
本發(fā)明公開了一種文檔問答系統(tǒng)的答案溯源方法、裝置、終端設(shè)備及存儲介質(zhì),所述方法包括:獲取若干候選文檔以及文檔問答系統(tǒng)針對用戶所輸入的問題所生成的答案;提取候選文檔和答案中的關(guān)鍵詞,并根據(jù)所提取的關(guān)鍵詞計(jì)算各候選文檔中的關(guān)鍵詞對答案中的關(guān)鍵詞的覆蓋率;計(jì)算答案與各候選文檔的語義相似度;根據(jù)覆蓋率以及語義相似度,確定各候選文檔與答案的相關(guān)程度,將相關(guān)程度最高的候選文檔,作為答案的來源。通過實(shí)施本發(fā)明能夠提高答案溯源的準(zhǔn)確性。

技術(shù)研發(fā)人員:鄭偉鋒,胡冠鏘
受保護(hù)的技術(shù)使用者:廣東金賦科技股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1