最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取方法及裝置與流程

文檔序號(hào):41936202發(fā)布日期:2025-05-16 13:52閱讀:4來(lái)源:國(guó)知局
一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取方法及裝置與流程

本申請(qǐng)涉及科學(xué)文獻(xiàn)處理,特別是涉及一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取方法及裝置。


背景技術(shù):

1、在科學(xué)研究領(lǐng)域,文獻(xiàn)分析是獲取關(guān)鍵數(shù)據(jù)、指導(dǎo)實(shí)驗(yàn)設(shè)計(jì)的重要環(huán)節(jié)。然而,隨著各學(xué)科領(lǐng)域論文數(shù)量的迅速增長(zhǎng),手動(dòng)篩選、提取論文中的實(shí)驗(yàn)數(shù)據(jù)和關(guān)鍵信息變得極為耗時(shí)且低效。

2、目前,傳統(tǒng)的文獻(xiàn)分析方法主要包括以下兩種:一種是基于關(guān)鍵詞檢索的人工篩選,即研究人員通過(guò)文獻(xiàn)數(shù)據(jù)庫(kù)使用關(guān)鍵詞檢索相關(guān)論文,并通過(guò)人工閱讀論文內(nèi)容提取實(shí)驗(yàn)數(shù)據(jù)。這種方法依賴(lài)研究人員的經(jīng)驗(yàn)和精力,容易因疏漏而遺漏關(guān)鍵數(shù)據(jù);同時(shí),面對(duì)海量文獻(xiàn),處理效率較低且成本較高。另一種是基于規(guī)則的自動(dòng)化數(shù)據(jù)挖掘,例如基于自然語(yǔ)言處理的文獻(xiàn)分析軟件,可通過(guò)預(yù)定義規(guī)則和算法,從pdf或html格式的論文中自動(dòng)提取表格、圖像或?qū)嶒?yàn)段落中的信息。然而,這類(lèi)方法無(wú)法有效解析復(fù)雜的自然語(yǔ)言表達(dá)和多義性問(wèn)題,導(dǎo)致數(shù)據(jù)提取不夠準(zhǔn)確;同時(shí),規(guī)則化的流程對(duì)領(lǐng)域知識(shí)的適應(yīng)能力有限,缺乏靈活性,往往僅適用于某些特定領(lǐng)域或特定格式的文獻(xiàn),無(wú)法處理跨領(lǐng)域或新興研究方向的內(nèi)容;而且對(duì)非結(jié)構(gòu)化數(shù)據(jù)提取能力不足,導(dǎo)致關(guān)鍵實(shí)驗(yàn)信息常常丟失。

3、綜上所述,現(xiàn)有技術(shù)在處理大量文獻(xiàn)時(shí)數(shù)據(jù)提取的效率低、準(zhǔn)確性不足,且靈活性差,無(wú)法滿(mǎn)足跨領(lǐng)域的需求。


技術(shù)實(shí)現(xiàn)思路

1、基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取方法及裝置,能夠自動(dòng)、高效、精確地從科學(xué)文獻(xiàn)中提取實(shí)驗(yàn)數(shù)據(jù)。

2、一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取方法,該方法包括:

3、通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn);

4、通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù);

5、對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù);

6、將清洗后數(shù)據(jù)以預(yù)設(shè)導(dǎo)出格式導(dǎo)出。

7、在其中一個(gè)實(shí)施例中,通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn),包括:通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞在預(yù)設(shè)的科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中進(jìn)行檢索,確定目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn);通過(guò)腳本代碼將相關(guān)文獻(xiàn)下載并存儲(chǔ)至本地存儲(chǔ)器或云端服務(wù)器中。

8、在其中一個(gè)實(shí)施例中,通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù),包括:通過(guò)格式轉(zhuǎn)換工具將獲取到的相關(guān)文獻(xiàn)轉(zhuǎn)換成預(yù)處理格式;通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析預(yù)處理格式的相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù)。

9、在其中一個(gè)實(shí)施例中,在通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù)之前,該方法還包括:獲取用戶(hù)輸入的預(yù)設(shè)提示詞;以及,在通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn)之前,該方法還包括:獲取用戶(hù)輸入的預(yù)設(shè)關(guān)鍵詞。

10、在其中一個(gè)實(shí)施例中,對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù),包括:根據(jù)預(yù)設(shè)的規(guī)則對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù)。

11、在其中一個(gè)實(shí)施例中,該方法還包括:在對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證時(shí),如果發(fā)現(xiàn)異常數(shù)據(jù),則重新進(jìn)入通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù)的步驟,或者,將異常數(shù)據(jù)輸出顯示,以供人工核查。

12、在其中一個(gè)實(shí)施例中,將清洗后數(shù)據(jù)以預(yù)設(shè)導(dǎo)出格式導(dǎo)出,包括:對(duì)清洗后數(shù)據(jù)進(jìn)行處理,生成預(yù)設(shè)導(dǎo)出格式的數(shù)據(jù)結(jié)果,數(shù)據(jù)結(jié)果為結(jié)構(gòu)化數(shù)據(jù)文件;將數(shù)據(jù)結(jié)果導(dǎo)出。

13、一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取裝置,該裝置包括:

14、文獻(xiàn)獲取模塊,用于通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn);

15、數(shù)據(jù)提取模塊,用于通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù);

16、數(shù)據(jù)清洗驗(yàn)證模塊,用于對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù);

17、結(jié)果導(dǎo)出模塊,將清洗后數(shù)據(jù)以預(yù)設(shè)導(dǎo)出格式導(dǎo)出。

18、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn);通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù);對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù);將清洗后數(shù)據(jù)以預(yù)設(shè)導(dǎo)出格式導(dǎo)出。

19、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn);通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù);對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù);將清洗后數(shù)據(jù)以預(yù)設(shè)導(dǎo)出格式導(dǎo)出。

20、上述基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),可以通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn),即利用腳本代碼自動(dòng)化搜索目標(biāo)領(lǐng)域的相關(guān)文獻(xiàn)并下載,能夠有效節(jié)省人工篩選和獲取數(shù)據(jù)的時(shí)間,提高獲取相關(guān)文獻(xiàn)的效率;再通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù),該步驟中通過(guò)大語(yǔ)言模型自動(dòng)解析文獻(xiàn),能精準(zhǔn)提取實(shí)驗(yàn)數(shù)據(jù)、條件和結(jié)果,避免人工提取的誤差,而且用戶(hù)可根據(jù)領(lǐng)域需求設(shè)計(jì)預(yù)設(shè)提示詞,確保大語(yǔ)言模型能夠高效提取與目標(biāo)數(shù)據(jù)相關(guān)的信息;對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù),保證數(shù)據(jù)準(zhǔn)確性與一致性;將清洗后數(shù)據(jù)以預(yù)設(shè)導(dǎo)出格式導(dǎo)出,得到統(tǒng)一格式的數(shù)據(jù)結(jié)果,方便后續(xù)分析與應(yīng)用。

21、上述方法通過(guò)結(jié)合自動(dòng)化腳本代碼、大語(yǔ)言模型解析、數(shù)據(jù)清洗驗(yàn)證和標(biāo)準(zhǔn)化數(shù)據(jù)輸出,形成一套完整的自動(dòng)化實(shí)驗(yàn)數(shù)據(jù)提取流程,極大提高了數(shù)據(jù)處理的效率和準(zhǔn)確性,能夠自動(dòng)、高效、精確地從科學(xué)文獻(xiàn)中提取實(shí)驗(yàn)數(shù)據(jù),以滿(mǎn)足科研工作者快速獲取關(guān)鍵信息的需求,并提升文獻(xiàn)分析的整體效率。



技術(shù)特征:

1.一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取方法,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn),包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析所述相關(guān)文獻(xiàn),并提取所述相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù),包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析所述相關(guān)文獻(xiàn),并提取所述相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù)之前,所述方法還包括:獲取用戶(hù)輸入的預(yù)設(shè)提示詞;

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)提取的所述實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù),包括:

6.根據(jù)權(quán)利要求1至5任意一項(xiàng)所述的方法,其特征在于,所述方法還包括:

7.根據(jù)權(quán)利要求1至5任意一項(xiàng)所述的方法,其特征在于,所述將所述清洗后數(shù)據(jù)以預(yù)設(shè)導(dǎo)出格式導(dǎo)出,包括:

8.一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取裝置,其特征在于,所述裝置包括:

9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。


技術(shù)總結(jié)
本申請(qǐng)涉及一種基于大語(yǔ)言模型的科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)提取方法及裝置。該方法包括:通過(guò)腳本代碼根據(jù)預(yù)設(shè)關(guān)鍵詞獲取目標(biāo)領(lǐng)域內(nèi)的相關(guān)文獻(xiàn);通過(guò)訓(xùn)練好的大語(yǔ)言模型根據(jù)預(yù)設(shè)提示詞解析相關(guān)文獻(xiàn),并提取相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù);對(duì)提取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和驗(yàn)證,得到清洗后數(shù)據(jù);將清洗后數(shù)據(jù)以預(yù)設(shè)導(dǎo)出格式導(dǎo)出。采用本方法能夠自動(dòng)、高效、精確地從科學(xué)文獻(xiàn)中提取實(shí)驗(yàn)數(shù)據(jù)。

技術(shù)研發(fā)人員:李昊,張頔,趙順,傅建勛,周汪研,趙昊宇
受保護(hù)的技術(shù)使用者:廣東水木清宇科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1