本發(fā)明涉及自然語言處理和知識圖譜,具體的涉及一種基于圖譜增強的多層次檢索生成方法。
背景技術(shù):
1、在自然語言處理領(lǐng)域,檢索增強生成(rag,retrieval-augmented?generation)技術(shù)已成為解決開放域問答任務(wù)的重要方法。rag通常通過將知識庫文本切分并向量化,以計算文本之間的向量相似度來衡量語義關(guān)聯(lián)度,從而檢索出與問題相關(guān)的知識點,再將這些知識點輸入到大型語言模型(llm)中生成答案。這種方式在處理一般問答場景時表現(xiàn)良好,尤其是在知識庫結(jié)構(gòu)簡單、信息直接可查的情況下,能夠滿足大多數(shù)用戶需求。
2、然而,當知識庫內(nèi)容較為復雜,如包含新聞報道、長篇小說、專業(yè)分析報告等長篇非結(jié)構(gòu)化文本時,普通的rag方法往往面臨局限性。對于這些復雜的內(nèi)容,用戶需求可能涉及深層次的關(guān)聯(lián)信息、跨章節(jié)內(nèi)容的綜合分析,甚至是多個知識點間的關(guān)聯(lián)性挖掘。例如,在航運分析領(lǐng)域,用戶可能希望查詢某一事件的演變過程或多個關(guān)聯(lián)因素的影響;在文學作品中,用戶可能希望了解某一情節(jié)中的人物關(guān)系及其演變。普通rag在處理這種復雜查詢時難以有效應對,因為其單一的語義相似度匹配方式無法深入挖掘文本之間的多層次關(guān)聯(lián)。
3、具體包括以下問題:
4、1.非結(jié)構(gòu)化文本的關(guān)聯(lián)信息提取不足:傳統(tǒng)rag方法僅依賴向量相似度進行檢索,難以有效提取文本中多層次的關(guān)聯(lián)信息,尤其是當知識庫內(nèi)容涉及跨段落、跨章節(jié)乃至跨篇章的關(guān)聯(lián)時,信息提取的精準性和全面性較低。
5、2.缺乏全局信息視角的支持:在復雜問題的回答過程中,用戶不僅可能需要直接匹配的知識點,還需要跨越多個知識單元的宏觀信息進行分析?,F(xiàn)有rag技術(shù)難以有效整合全局信息,導致對于復雜查詢(如總結(jié)性問題)的答案不夠全面。
6、3.知識庫中多義實體的消歧與統(tǒng)一:復雜文本往往包含不同名稱或描述的同一實體,如文學作品中同一人物的多重稱謂,或航運報告中同一事件的多次提及。傳統(tǒng)rag缺乏有效的機制統(tǒng)一處理多義實體,導致回答過程出現(xiàn)信息缺失或重復。
7、4.缺乏本地與全局查詢的協(xié)同機制:當前rag方法主要依賴本地相似度匹配,未能建立針對本地和全局查詢的協(xié)同檢索機制。用戶在需要綜合局部和全局信息以回答復雜問題時,現(xiàn)有方法無法靈活地通過全局信息篩選來提高檢索精度。
8、為此,現(xiàn)有技術(shù)逐步引入了知識圖譜(knowledge?graph,kg)來提升信息的結(jié)構(gòu)化程度。知識圖譜通過抽取實體及其關(guān)系,為復雜內(nèi)容構(gòu)建出多層次的關(guān)聯(lián)網(wǎng)絡(luò)。然而,現(xiàn)有的知識圖譜應用仍然存在不足之處,主要體現(xiàn)在對長篇復雜文本的分段處理、語義一致性維護、跨知識點關(guān)聯(lián)分析方面的欠缺。普通的知識圖譜通常僅支持本地實體的直接匹配,難以提供全局性的關(guān)聯(lián)信息整合,尤其是在應對跨段落、跨章節(jié)甚至跨篇章的復雜關(guān)聯(lián)問題時,缺乏全局視角的支持。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)的以上問題,本發(fā)明提供了一種基于圖譜增強的多層次檢索生成方法。
2、本發(fā)明的技術(shù)方案如下:
3、一種基于圖譜增強的多層次檢索生成方法,其特征在于包括知識圖譜構(gòu)建階段和運行查詢引擎階段;
4、所述運行查詢引擎階段包括以下步驟:
5、(1)文本切分:將待處理文檔分割為多個文本單元,便于后續(xù)處理;
6、(2)實體信息抽?。横槍γ總€文本單元,利用大型語言模型抽取其中的實體信息,包括實體的名字、類型和描述;
7、(3)關(guān)系信息抽?。涸诔槿嶓w信息的同時,使用大型語言模型識別并提取文本單元中實體之間的關(guān)系信息,包括源實體、目標實體和描述信息;
8、(4)實體和關(guān)系描述總結(jié):通過大型語言模型對提取出的描述信息進行總結(jié),將多個描述歸納為簡潔的一句話;
9、(5)事件信息抽?。菏褂么笮驼Z言模型抽取文本單元中發(fā)生的事件信息,包括事件的發(fā)起者、報告者、事件類型、狀態(tài)、開始與結(jié)束日期、描述信息及事件來源;
10、(6)社群分類:對抽取的實體進行分類,以構(gòu)建社群信息;
11、(7)生成社群報告:生成社群報告,描述社群的構(gòu)成,包含社群中的實體、關(guān)系和事件信息;
12、(8)向量化處理:對實體、關(guān)系和社群中的描述信息進行向量化,同時對原始文本單元進行向量化;
13、(9)本地查詢與全局查詢機制:
14、本地查詢:基于向量相似度,檢索與問題相關(guān)的實體信息、關(guān)系信息、事件信息及社群信息,選取匹配度最高的知識點輸入大型語言模型生成答案;
15、全局查詢:通過大型語言模型分析社群的重要性,評估社群與問題的匹配度,篩選出與問題相關(guān)的社群及其信息,再由大型語言模型生成答案;
16、(10)多層次信息整合:將本地查詢和全局查詢的結(jié)果進行整合,結(jié)合具體問題需求,從不同層面提供多樣化的信息支持,確保答案的全面性和精準性。
17、優(yōu)選的,步驟(1)中,每個所述文本單元的最大長度默認為300個tokens。
18、優(yōu)選的,步驟(2)中,所述描述信息采用列表形式存儲。
19、優(yōu)選的,步驟(3)中,所述關(guān)系信息采用列表形式存儲。
20、優(yōu)選的,所述知識圖譜構(gòu)建階段具體包括:
21、(1)數(shù)據(jù)準備:確保所有待處理的文檔均為txt格式,對于非txt格式的文檔,需要進行格式轉(zhuǎn)換以適應系統(tǒng)的要求;
22、(2)數(shù)據(jù)輸入:在項目目錄中創(chuàng)建一個名為input的文件夾,并將所有準備好的數(shù)據(jù)文件放入此文件夾中;
23、(3)初始化工作區(qū):在項目目錄中運行初始化命令,將創(chuàng)建兩個文件:.env和settings.yaml;
24、(4)運行索引流程:配置完成settings.yaml文件后,運行索引命令來啟動索引流程;流程完成后,將在項目目錄中生成一個名為output/<timestamp>/artifacts的新文件夾,其中包含一系列parquet文件,即構(gòu)建知識圖譜成功。
25、優(yōu)選的,所述知識圖譜構(gòu)建階段的步驟(3)中,所述.env文件包含環(huán)境變量,用于訪問相應的api服務(wù);所述settings.yaml文件包含流程配置設(shè)置。
26、本發(fā)明的技術(shù)效果如下:
27、1.提高信息檢索的準確性:通過對文本進行切分和抽取實體、關(guān)系、事件等信息,系統(tǒng)能夠更精確地理解用戶查詢的語義,從而提高知識點檢索的準確性。這種精確的匹配方式使得系統(tǒng)能夠快速定位相關(guān)信息,避免了信息檢索過程中的模糊性和歧義。
28、2.豐富的知識結(jié)構(gòu):本發(fā)明通過社群分類和多層次信息整合,將非結(jié)構(gòu)化知識轉(zhuǎn)化為結(jié)構(gòu)化知識圖譜,形成清晰的知識層次結(jié)構(gòu)。這種結(jié)構(gòu)化的信息使得用戶在查詢時能夠獲得更為全面和關(guān)聯(lián)性強的知識點,提升了用戶的使用體驗。
29、3.靈活的查詢方式:結(jié)合本地查詢和全局查詢機制,系統(tǒng)能夠針對不同類型的查詢需求提供適配的檢索策略。用戶可以根據(jù)問題的具體性質(zhì)選擇相應的查詢方式,從而獲得更加準確和相關(guān)的答案。
30、4.高效的信息整合能力:本發(fā)明不僅能從具體實體層面提供答案,還能夠從宏觀社群層面進行知識整合,適用于多種復雜查詢場景。這種信息整合能力使得用戶能夠快速獲取與問題相關(guān)的綜合信息,滿足了對復雜查詢的需求。
31、5.支持多種應用場景:由于本發(fā)明能夠處理不同類型的文本數(shù)據(jù)(如新聞報道、小說、學術(shù)文獻等),因此適用于多種應用場景,包括教育、科研、商業(yè)分析等領(lǐng)域,為用戶提供更為廣泛的信息支持。
32、6.提升用戶決策能力:通過提供高質(zhì)量的知識支持,本發(fā)明幫助用戶在復雜情況下做出更為明智的決策。這種決策支持能力為用戶在各類實際應用中提供了有力的輔助。
33、本發(fā)明提出了一種基于圖譜增強的多層次檢索生成方法,結(jié)合圖譜技術(shù)與多層次檢索方式,實現(xiàn)了本地查詢與全局查詢相結(jié)合的多維度信息檢索方案。該方法通過圖譜構(gòu)建實現(xiàn)了復雜關(guān)聯(lián)信息的高效存儲與管理,同時在查詢過程中通過局部匹配和全局篩選的方式,為用戶提供高質(zhì)量的知識關(guān)聯(lián)和問答支持,特別適用于處理結(jié)構(gòu)復雜的長篇非結(jié)構(gòu)化文本知識庫。
34、該方法適用于從復雜的非結(jié)構(gòu)化文本數(shù)據(jù)中構(gòu)建和檢索知識,以提供高質(zhì)量的問答支持。通過將檢索生成(rag)技術(shù)與知識圖譜構(gòu)建相結(jié)合,本發(fā)明能夠在長文本和跨領(lǐng)域知識庫中實現(xiàn)更加精準的知識點定位和關(guān)聯(lián)信息的查詢。
35、綜上,本發(fā)明的實施能夠顯著提升知識檢索與生成的效率和質(zhì)量,為用戶提供更為豐富和精準的信息服務(wù),推動相關(guān)領(lǐng)域的技術(shù)進步和應用拓展。