最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

文檔序號(hào):41945084發(fā)布日期:2025-05-16 14:02閱讀:2來(lái)源:國(guó)知局
基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

本發(fā)明涉及人工智能大模型多模態(tài)分析,具體地說(shuō)是一種基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì)。


背景技術(shù):

1、在當(dāng)今大數(shù)據(jù)時(shí)代,信息的數(shù)據(jù)呈爆炸式增長(zhǎng),隨著信息技術(shù)在工作中不斷深入和廣泛的應(yīng)用,在實(shí)際工作中積累了海量的數(shù)據(jù)和信息,這些海量的數(shù)據(jù)和信息中蘊(yùn)藏著大量有待發(fā)掘的信息??焖儆行У厮阉骱头治龊A繑?shù)據(jù)成為了許多企業(yè)和組織的重要需求,僅靠傳統(tǒng)的人工分析方法是遠(yuǎn)遠(yuǎn)不能滿足工作的實(shí)戰(zhàn)需求,必須有專(zhuān)門(mén)的分析工具幫助,通過(guò)有效的工具才能極大地提高的工作效率,減輕工作壓力。尤其在實(shí)際工作中,非結(jié)構(gòu)化數(shù)據(jù)要比結(jié)構(gòu)化數(shù)據(jù)豐富得多。如果不能對(duì)這些海量數(shù)據(jù)進(jìn)行解析,就無(wú)法實(shí)現(xiàn)其巨大價(jià)值。在非結(jié)構(gòu)化數(shù)據(jù)中,文檔占大多數(shù),有效處理非結(jié)構(gòu)化文檔對(duì)管理其他類(lèi)型的非結(jié)構(gòu)化數(shù)據(jù)也大有幫助。

2、大模型雖然在訓(xùn)練過(guò)程中學(xué)習(xí)了大量的知識(shí),但是不具備長(zhǎng)期記憶能力,對(duì)于低頻事件或者非常專(zhuān)業(yè)領(lǐng)域的知識(shí),無(wú)法基于有限的訓(xùn)練數(shù)據(jù)進(jìn)行準(zhǔn)確預(yù)測(cè)。對(duì)于開(kāi)放領(lǐng)域內(nèi)的事實(shí)性問(wèn)題有時(shí)會(huì)出現(xiàn)錯(cuò)誤或模糊的答案,尤其設(shè)計(jì)具體數(shù)值,日期等細(xì)節(jié)時(shí),通過(guò)借助外部的知識(shí)庫(kù),模型可以直接檢索到權(quán)威、更新鮮的數(shù)據(jù),從而提高生成答案的準(zhǔn)確性。

3、故如何將非結(jié)構(gòu)化知識(shí)納入知識(shí)庫(kù)供知識(shí)庫(kù)工大模型檢索以及如何將圖片可視化展示到問(wèn)答界面,提高知識(shí)的直觀性和可讀性是目前亟待解決的技術(shù)問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的技術(shù)任務(wù)是提供一種基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì),來(lái)解決如何將非結(jié)構(gòu)化知識(shí)納入知識(shí)庫(kù)供知識(shí)庫(kù)工大模型檢索以及如何將圖片可視化展示到問(wèn)答界面,提高知識(shí)的直觀性和可讀性的問(wèn)題。

2、本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,一種基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理方法,該方法具體如下:

3、數(shù)據(jù)治理:通過(guò)數(shù)據(jù)提取技術(shù)提取并保存非結(jié)構(gòu)化文檔中的文本和圖片,同時(shí)使圖片與文本對(duì)應(yīng)信息與非結(jié)構(gòu)化文檔中信息一致;

4、搭建知識(shí)庫(kù):搭建存儲(chǔ)數(shù)據(jù)治理后的非結(jié)構(gòu)化文檔的文本信息的知識(shí)庫(kù);

5、檢索問(wèn)答及可視化展示:基于大模型對(duì)提問(wèn)問(wèn)題采用向量化檢索技術(shù)從搭建好的知識(shí)庫(kù)中獲取符合要求的答案,并經(jīng)過(guò)agent服務(wù)對(duì)大模型返回的帶有圖片信息處理后答案按自定義協(xié)議返回到http服務(wù)端進(jìn)行可視化展示。

6、作為優(yōu)選,數(shù)據(jù)治理具體如下:

7、利用第三方庫(kù)從非結(jié)構(gòu)化文檔中提取文本、圖像及圖表的不同對(duì)象類(lèi)型的數(shù)據(jù)信息分別存儲(chǔ);其中,將文字按順序保存到對(duì)應(yīng)的文本中;將圖片原圖按照統(tǒng)一的圖片格式保存到分布式文件存儲(chǔ)minio中進(jìn)行存儲(chǔ),并將保存到minio中的圖片按唯一標(biāo)識(shí)命名,并將唯一標(biāo)識(shí)存到文本中原圖片所在位置,保證圖片存儲(chǔ)位置與文本的順序關(guān)系跟原文保持一致;

8、將獲取到的整篇文本數(shù)據(jù)經(jīng)過(guò)去重、去除不必要的換行和字符的數(shù)據(jù)清洗操作,完成重要的數(shù)據(jù)治理流程。

9、更優(yōu)地,搭建知識(shí)庫(kù)具體如下:

10、創(chuàng)建知識(shí)庫(kù)獲取對(duì)應(yīng)的名稱(chēng)和索引;

11、將治理后的文本數(shù)據(jù)經(jīng)過(guò)大模型的文本分割、向量化處理后存入到知識(shí)庫(kù)中。

12、更優(yōu)地,檢索問(wèn)答及可視化展示具體如下:

13、獲取到查詢(xún)問(wèn)題,經(jīng)過(guò)語(yǔ)言處理及詞法分析對(duì)查詢(xún)問(wèn)題進(jìn)行向量化處理;

14、大模型依據(jù)向量化處理后的查詢(xún)問(wèn)題從知識(shí)庫(kù)中進(jìn)行向量相似度檢索,并判斷是否檢索到符合相似度要求的知識(shí):

15、若知識(shí)庫(kù)中未檢索符合相似度要求的知識(shí),則大模型將根據(jù)自身學(xué)習(xí)能力對(duì)相應(yīng)的查詢(xún)問(wèn)題進(jìn)行整合處理后返回到agent服務(wù);

16、若知識(shí)庫(kù)中檢索到符合相似度要求的知識(shí),則大模型獲取相似度高的前k條知識(shí)記錄,并判斷大模型召回的知識(shí)中是否包含圖片唯一標(biāo)識(shí):

17、若是大模型召回的知識(shí)中含有圖片唯一標(biāo)識(shí),則agent服務(wù)根據(jù)圖片唯一標(biāo)識(shí)以及圖片存儲(chǔ)的minio中的位置組合成圖片url,將文本知識(shí)以及圖片url按照自定義協(xié)議以流式方式返回給http服務(wù)端展示;

18、若是大模型召回的數(shù)據(jù)中無(wú)圖片唯一標(biāo)識(shí),則agent服務(wù)將知識(shí)文本按照自定義協(xié)議以流式返回到http服務(wù)端。

19、更優(yōu)地,http服務(wù)端將獲取到的文本數(shù)據(jù)按照順序展示到問(wèn)答框中,

20、若是檢測(cè)到圖片url,則從minio中直接獲取對(duì)應(yīng)名稱(chēng)的圖片渲染到問(wèn)答框中圖片對(duì)應(yīng)的位置中,實(shí)現(xiàn)圖片的可視化展示。

21、一種基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理系統(tǒng),該系統(tǒng)包括:

22、數(shù)據(jù)治理模塊,用于通過(guò)數(shù)據(jù)提取技術(shù)提取并保存非結(jié)構(gòu)化文檔中的文本和圖片,同時(shí)使圖片與文本對(duì)應(yīng)信息與非結(jié)構(gòu)化文檔中信息一致;

23、知識(shí)庫(kù)搭建模塊,用于搭建存儲(chǔ)數(shù)據(jù)治理后的非結(jié)構(gòu)化文檔的文本信息的知識(shí)庫(kù);

24、檢索問(wèn)答及可視化展示模塊,用于基于大模型對(duì)提問(wèn)問(wèn)題采用向量化檢索技術(shù)從搭建好的知識(shí)庫(kù)中獲取符合要求的答案,并經(jīng)過(guò)agent服務(wù)對(duì)大模型返回的帶有圖片信息處理后答案按自定義協(xié)議返回到http服務(wù)端進(jìn)行可視化展示。

25、作為優(yōu)選,數(shù)據(jù)治理模塊包括:

26、存儲(chǔ)子模塊,用于利用第三方庫(kù)從非結(jié)構(gòu)化文檔中提取文本、圖像及圖表的不同對(duì)象類(lèi)型的數(shù)據(jù)信息分別存儲(chǔ);其中,將文字按順序保存到對(duì)應(yīng)的文本中;將圖片原圖按照統(tǒng)一的圖片格式保存到分布式文件存儲(chǔ)minio中進(jìn)行存儲(chǔ),并將保存到minio中的圖片按唯一標(biāo)識(shí)命名,并將唯一標(biāo)識(shí)存到文本中原圖片所在位置,保證圖片存儲(chǔ)位置與文本的順序關(guān)系跟原文保持一致;

27、數(shù)據(jù)清洗子模塊,用于將獲取到的整篇文本數(shù)據(jù)經(jīng)過(guò)去重、去除不必要的換行和字符的數(shù)據(jù)清洗操作,完成重要的數(shù)據(jù)治理流;

28、知識(shí)庫(kù)搭建模塊包括:

29、創(chuàng)建子模塊,用于創(chuàng)建知識(shí)庫(kù)獲取對(duì)應(yīng)的名稱(chēng)和索引;

30、分割機(jī)向量化處理子模塊,用于將治理后的文本數(shù)據(jù)經(jīng)過(guò)大模型的文本分割、向量化處理后存入到知識(shí)庫(kù)中。

31、更優(yōu)地,檢索問(wèn)答及可視化展示模塊包括:

32、獲取問(wèn)題及問(wèn)題處理子模塊,用于獲取到查詢(xún)問(wèn)題,經(jīng)過(guò)語(yǔ)言處理及詞法分析對(duì)查詢(xún)問(wèn)題進(jìn)行向量化處理;

33、判斷子模塊一,用于大模型依據(jù)向量化處理后的查詢(xún)問(wèn)題從知識(shí)庫(kù)中進(jìn)行向量相似度檢索,并判斷是否檢索到符合相似度要求的知識(shí):

34、若知識(shí)庫(kù)中未檢索符合相似度要求的知識(shí),則大模型將根據(jù)自身學(xué)習(xí)能力對(duì)相應(yīng)的查詢(xún)問(wèn)題進(jìn)行整合處理后返回到agent服務(wù);

35、若知識(shí)庫(kù)中檢索到符合相似度要求的知識(shí),則大模型獲取相似度高的前k條知識(shí)記錄;

36、判斷子模塊二,用于判斷大模型召回的知識(shí)中是否包含圖片唯一標(biāo)識(shí):

37、若是大模型召回的知識(shí)中含有圖片唯一標(biāo)識(shí),則agent服務(wù)根據(jù)圖片唯一標(biāo)識(shí)以及圖片存儲(chǔ)的minio中的位置組合成圖片url,將文本知識(shí)以及圖片url按照自定義協(xié)議以流式方式返回給http服務(wù)端展示;

38、若是大模型召回的數(shù)據(jù)中無(wú)圖片唯一標(biāo)識(shí),則agent服務(wù)將知識(shí)文本按照自定義協(xié)議以流式返回到http服務(wù)端。

39、一種電子設(shè)備,包括:存儲(chǔ)器和至少一個(gè)處理器;

40、其中,所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)執(zhí)行指令;

41、所述至少一個(gè)處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,使得所述至少一個(gè)處理器執(zhí)行如上述的基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理方法。

42、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)執(zhí)行指令,當(dāng)處理器執(zhí)行所述計(jì)算機(jī)執(zhí)行時(shí),實(shí)現(xiàn)如上述的基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理方法。

43、本發(fā)明的基于非結(jié)構(gòu)化文檔的問(wèn)答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì)具有以下優(yōu)點(diǎn):

44、(一)本發(fā)明采用基于掛載知識(shí)庫(kù)技術(shù)對(duì)非結(jié)構(gòu)化文檔進(jìn)行文本與圖片擴(kuò)展,利用數(shù)據(jù)提取與治理技術(shù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行去重、過(guò)濾、提取保存等數(shù)據(jù)清洗流程,將圖片以唯一標(biāo)簽作為名稱(chēng)保存到minio中,將治理后的含圖片標(biāo)簽的文本數(shù)據(jù)通過(guò)文本分割、向量化等處理存入到掛載的向量知識(shí)庫(kù)中;同時(shí)基于大模型向量相似度檢索,對(duì)給定的問(wèn)題向量化處理后從掛載的知識(shí)庫(kù)中匹配到相似度最高的答案,如果該回答中包含圖片標(biāo)簽,則將圖片在minio中存儲(chǔ)的url以及答案中的文本按自定義協(xié)議以流式返回給http服務(wù)端進(jìn)行可視化展示;與現(xiàn)有問(wèn)答系統(tǒng)相比不僅解決了檢索非結(jié)構(gòu)化數(shù)據(jù),又解決了圖可視化這一復(fù)雜可視化類(lèi)型的自動(dòng)問(wèn)答問(wèn)題;

45、(二)本發(fā)明首先對(duì)非結(jié)構(gòu)化文檔內(nèi)容進(jìn)行提取,對(duì)源數(shù)據(jù)進(jìn)行相應(yīng)的清洗和處理,將圖片單獨(dú)存儲(chǔ),將處理后的文本內(nèi)容通過(guò)文本分割和向量化處理存儲(chǔ)到掛載的大模型知識(shí)庫(kù)中;當(dāng)大模型問(wèn)答時(shí)將問(wèn)題向量化處理后到掛載的知識(shí)庫(kù)中進(jìn)行向量相似度檢索,獲取到相似度高的答案,如果該答案中包含圖片標(biāo)簽,則大模型返回給agent處理成自定義協(xié)議格式并返回給http服務(wù)端進(jìn)行可視化展示,與傳統(tǒng)的大模型問(wèn)答方法相比,本發(fā)明掛載知識(shí)庫(kù)既保證了數(shù)據(jù)時(shí)效性和安全性,又避免大模型“幻覺(jué)”問(wèn)題,同時(shí)更全面的反饋出文檔的內(nèi)容,尤其對(duì)圖片進(jìn)行可視化展示,增加知識(shí)的可讀性與直觀簡(jiǎn)潔性,具有良好的推廣使用價(jià)值;

46、(三)本發(fā)明利用數(shù)據(jù)提取技術(shù)對(duì)非結(jié)構(gòu)化文檔內(nèi)容進(jìn)行數(shù)據(jù)治理,將包含圖片標(biāo)識(shí)的文本經(jīng)過(guò)大模型向量化后存入知識(shí)庫(kù),圖片存入minio中。在進(jìn)行問(wèn)答查詢(xún)時(shí),如果查詢(xún)內(nèi)容命中知識(shí)庫(kù)中帶圖片的知識(shí),agent服務(wù)則從知識(shí)庫(kù)召回文本知識(shí),并從minio獲取圖片信息,最后按自定義協(xié)議返回到http服務(wù)端,有效處理非結(jié)構(gòu)化文檔知識(shí)進(jìn)行內(nèi)容擴(kuò)展與功能增強(qiáng),更多樣的模態(tài)支撐可以增強(qiáng)知識(shí)庫(kù)理解和處理不同來(lái)源信息的能力,提高知識(shí)庫(kù)的可及性,為企業(yè)打造更具包容性的人工智能系統(tǒng);

47、(四)本發(fā)明充分利用了非結(jié)構(gòu)化文檔解析庫(kù)對(duì)文本和圖片分離提取技術(shù),并在文本中原圖片位置添加圖片唯一標(biāo)識(shí),保證了圖片與文本信息的關(guān)聯(lián)性;并基于知識(shí)庫(kù)擴(kuò)展模塊將所依賴(lài)的非結(jié)構(gòu)化知識(shí)提供給大模型使用,既充分利用了豐富的非結(jié)構(gòu)化數(shù)據(jù),又提高了大模型的知識(shí)面和回答問(wèn)題的準(zhǔn)確性;尤其是相比于現(xiàn)有技術(shù)解決了圖可視化這一復(fù)雜可視化類(lèi)型的自動(dòng)問(wèn)答問(wèn)題,提高了提問(wèn)問(wèn)答的泛化能力和易讀性,具有良好的推廣使用價(jià)值;

48、(五)本發(fā)明充分利用非結(jié)構(gòu)化文檔解析庫(kù)對(duì)文本和圖片的處理技術(shù),既保證了圖片與文本的關(guān)聯(lián)關(guān)系,又保證了圖片的單獨(dú)存儲(chǔ);并基于大模型知識(shí)庫(kù)擴(kuò)展模塊和agent服務(wù)解決了圖片可視化這一復(fù)雜可視化類(lèi)型的自動(dòng)問(wèn)答問(wèn)題,具有良好的使用價(jià)值和推廣意義;

49、(六)本發(fā)明充分利用非結(jié)構(gòu)化文檔數(shù)據(jù)提取技術(shù)、大模型知識(shí)庫(kù)擴(kuò)展和agent服務(wù),完成了非結(jié)構(gòu)化數(shù)據(jù)豐富大模型知識(shí),同時(shí)解決了圖片可視化這一復(fù)雜的可視化類(lèi)型的自動(dòng)問(wèn)答問(wèn)題;

50、(七)本發(fā)明利用非結(jié)構(gòu)化文檔解析庫(kù)將非結(jié)構(gòu)化文檔中的文本和圖片提取出來(lái),將圖片按唯一標(biāo)識(shí)命名存儲(chǔ)到minio中,將文本中原圖片位置添加上唯一標(biāo)識(shí)保證文本與圖片的有效關(guān)聯(lián);

51、(八)本發(fā)明利用大模型知識(shí)庫(kù)擴(kuò)展模塊以及agent服務(wù),將問(wèn)答答案中的圖片標(biāo)識(shí)換成http服務(wù)端識(shí)別的圖片url,并按自定義協(xié)議以流式返回到http服務(wù)端進(jìn)行可視化展示。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1