本發(fā)明涉及電網(wǎng)相關(guān)的自然語(yǔ)言處理,尤其涉及一種基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束的關(guān)鍵詞抽取方法及裝置。
背景技術(shù):
1、在電網(wǎng)領(lǐng)域,提高電力系統(tǒng)運(yùn)行效率和管理水平的關(guān)鍵之一是實(shí)現(xiàn)電網(wǎng)數(shù)據(jù)的有效管理和利用。關(guān)鍵詞抽取作為自然語(yǔ)言處理技術(shù)的一個(gè)重要應(yīng)用,被廣泛應(yīng)用于電網(wǎng)的故障診斷、客戶服務(wù)、信息檢索等多個(gè)方面。
2、然而,電網(wǎng)數(shù)據(jù)本身具有高度復(fù)雜性和多樣性,包括多種數(shù)據(jù)類型,其中含有大量非結(jié)構(gòu)化信息,且電網(wǎng)領(lǐng)域的技術(shù)術(shù)語(yǔ)和專有名詞豐富且專業(yè)性強(qiáng),使得目前對(duì)電網(wǎng)領(lǐng)域的關(guān)鍵詞抽取存在較大的難度,需要大量人力資源及計(jì)算資源,且存在抽取精度低效率低的問(wèn)題,因此,如何實(shí)現(xiàn)對(duì)電網(wǎng)領(lǐng)域的關(guān)鍵詞抽取是目前亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束的關(guān)鍵詞抽取方法及裝置,可以解決現(xiàn)有技術(shù)中的抽取關(guān)鍵詞需要大量人力資源及計(jì)算資源,且精度低、效率低的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明第一方面提供一種基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束的電網(wǎng)領(lǐng)域大模型關(guān)鍵詞抽取方法,所述方法包括:
3、獲取與電網(wǎng)領(lǐng)域相關(guān)的監(jiān)督數(shù)據(jù)集;
4、基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束,利用所述監(jiān)督數(shù)據(jù)集對(duì)用于電網(wǎng)領(lǐng)域關(guān)鍵詞抽取的初始大模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型;
5、輸入待抽取關(guān)鍵詞的目標(biāo)數(shù)據(jù)至所述大模型進(jìn)行電網(wǎng)領(lǐng)域的關(guān)鍵詞的抽取,得到所述大模型輸出的所述目標(biāo)數(shù)據(jù)中包含的電網(wǎng)領(lǐng)域相關(guān)的關(guān)鍵詞。
6、進(jìn)一步的,所述獲取與電網(wǎng)領(lǐng)域相關(guān)的監(jiān)督數(shù)據(jù)集,包括:
7、采集電網(wǎng)領(lǐng)域相關(guān)的源數(shù)據(jù),所述源數(shù)據(jù)至少包含所述電網(wǎng)領(lǐng)域的設(shè)備數(shù)據(jù)、設(shè)備運(yùn)行數(shù)據(jù)、環(huán)境數(shù)據(jù)和歷史故障數(shù)據(jù)中的一個(gè)或多個(gè);
8、對(duì)所述源數(shù)據(jù)進(jìn)行處理,得到與電網(wǎng)領(lǐng)域相關(guān)的監(jiān)督數(shù)據(jù)集,所述監(jiān)督數(shù)據(jù)集由自然語(yǔ)言模板編寫(xiě)。
9、進(jìn)一步的,所述對(duì)所述源數(shù)據(jù)進(jìn)行處理,得到與電網(wǎng)領(lǐng)域相關(guān)的監(jiān)督數(shù)據(jù)集,包括:
10、對(duì)所述源數(shù)據(jù)進(jìn)行預(yù)處理,得到候選數(shù)據(jù),所述預(yù)處理包括清洗、歸一化、格式轉(zhuǎn)化中的一個(gè)或多個(gè);
11、采用人工標(biāo)注方式對(duì)所述候選數(shù)據(jù)進(jìn)行標(biāo)注,并構(gòu)建所述監(jiān)督數(shù)據(jù)集,所述監(jiān)督數(shù)據(jù)集包括輸入內(nèi)容、提示模板,及所述輸入內(nèi)容中存在的關(guān)鍵詞的標(biāo)注結(jié)果。
12、進(jìn)一步的,所述基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束,利用所述監(jiān)督數(shù)據(jù)集對(duì)用于電網(wǎng)領(lǐng)域關(guān)鍵詞抽取的初始大模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型,包括:
13、獲取用于對(duì)初始大模型進(jìn)行預(yù)訓(xùn)練的通用數(shù)據(jù)集,及獲取電網(wǎng)領(lǐng)域的預(yù)設(shè)的特定詞匯表,將所述特定詞匯表加入所述通用數(shù)據(jù)集中,得到預(yù)訓(xùn)練數(shù)據(jù)集,所述特定詞匯表包含所述電網(wǎng)領(lǐng)域相關(guān)的特定技術(shù)術(shù)語(yǔ);
14、利用所述預(yù)訓(xùn)練數(shù)據(jù)集對(duì)所述初始大模型進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練后的初始大模型;
15、利用所述監(jiān)督數(shù)據(jù)集對(duì)預(yù)訓(xùn)練后的初始大模型進(jìn)行微調(diào),以得到微調(diào)后的初始大模型;
16、引入人類反饋強(qiáng)化學(xué)習(xí)和電網(wǎng)領(lǐng)域知識(shí)約束方法,通過(guò)獎(jiǎng)勵(lì)和懲罰機(jī)制對(duì)所述微調(diào)后的初始大模型進(jìn)行調(diào)整和優(yōu)化,得到大模型。
17、進(jìn)一步的,所述引入人類反饋強(qiáng)化學(xué)習(xí)和電網(wǎng)領(lǐng)域知識(shí)約束方法,通過(guò)獎(jiǎng)勵(lì)和懲罰機(jī)制對(duì)所述微調(diào)后的初始大模型進(jìn)行調(diào)整和優(yōu)化,得到大模型,包括:
18、利用人工輸入的關(guān)鍵詞數(shù)據(jù)集合構(gòu)建強(qiáng)化學(xué)習(xí)偏好數(shù)據(jù)集;
19、基于余弦相似度的電網(wǎng)領(lǐng)域知識(shí)約束獎(jiǎng)勵(lì)函數(shù)及直接偏好優(yōu)化dpo強(qiáng)化學(xué)習(xí)算法,利用所述強(qiáng)化學(xué)習(xí)偏好數(shù)據(jù)集對(duì)所述初始大模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型。
20、進(jìn)一步的,所述利用人工輸入的關(guān)鍵詞數(shù)據(jù)集合構(gòu)建強(qiáng)化學(xué)習(xí)偏好數(shù)據(jù)集,包括:
21、若檢測(cè)到人工輸入的第i個(gè)關(guān)鍵詞數(shù)據(jù),則將所述第i個(gè)關(guān)鍵詞數(shù)據(jù)輸入至微調(diào)后的初始大模型中,得到所述第i個(gè)關(guān)鍵詞數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵詞,其中,所述關(guān)鍵詞詞數(shù)據(jù)集合中包含n個(gè)關(guān)鍵詞數(shù)據(jù),i和n為正整數(shù);
22、根據(jù)人工輸入的關(guān)鍵詞數(shù)據(jù)集中各關(guān)鍵詞數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵詞,構(gòu)建強(qiáng)化學(xué)習(xí)偏好數(shù)據(jù)集。
23、進(jìn)一步的,所述根據(jù)人工輸入的關(guān)鍵詞數(shù)據(jù)集中各關(guān)鍵詞數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵詞,構(gòu)建強(qiáng)化學(xué)習(xí)偏好數(shù)據(jù)集,包括:
24、將各關(guān)鍵詞數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵詞輸出至顯示屏,以便人工對(duì)顯示的關(guān)鍵詞進(jìn)行打分和排序;
25、基于人工對(duì)顯示屏顯示的關(guān)鍵詞進(jìn)行打分和排序的結(jié)果,及所述關(guān)鍵詞數(shù)據(jù)集確定所述強(qiáng)化學(xué)習(xí)偏好數(shù)據(jù)集。
26、進(jìn)一步的,所述方法還包括:
27、將訓(xùn)練得到的所述大模型保存為預(yù)設(shè)格式文件,得到大模型文件;
28、利用flask框架將所述大模型文件加載到內(nèi)存中,且利用flask框架為已保存至內(nèi)存中的大模型文件部署對(duì)應(yīng)的api接口。
29、為實(shí)現(xiàn)上述目的,本發(fā)明第二方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如第一方面所述方法的步驟。
30、為實(shí)現(xiàn)上述目的,本發(fā)明第三方面提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如第一方面所述方法的步驟。
31、采用本發(fā)明實(shí)施例,具有如下有益效果:
32、本發(fā)明提供一種基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束的關(guān)鍵詞抽取方法,方法包括:獲取與電網(wǎng)領(lǐng)域相關(guān)的監(jiān)督數(shù)據(jù)集;基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束,利用監(jiān)督數(shù)據(jù)集對(duì)用于電網(wǎng)領(lǐng)域關(guān)鍵詞抽取的初始大模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型;輸入待抽取關(guān)鍵詞的目標(biāo)數(shù)據(jù)至大模型進(jìn)行電網(wǎng)領(lǐng)域的關(guān)鍵詞的抽取,得到大模型輸出的目標(biāo)數(shù)據(jù)中包含的電網(wǎng)領(lǐng)域相關(guān)的關(guān)鍵詞。通過(guò)使用大模型進(jìn)行電網(wǎng)領(lǐng)域的關(guān)鍵詞的抽取,能夠有效節(jié)省人力資源及計(jì)算資源,提升關(guān)鍵詞抽取效率,且通過(guò)引入知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束,能夠有效提升關(guān)鍵詞抽取的精度及效率。
1.一種基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束的關(guān)鍵詞抽取方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取與電網(wǎng)領(lǐng)域相關(guān)的監(jiān)督數(shù)據(jù)集,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述源數(shù)據(jù)進(jìn)行處理,得到與電網(wǎng)領(lǐng)域相關(guān)的監(jiān)督數(shù)據(jù)集,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于知識(shí)增強(qiáng)與領(lǐng)域知識(shí)約束,利用所述監(jiān)督數(shù)據(jù)集對(duì)用于電網(wǎng)領(lǐng)域關(guān)鍵詞抽取的初始大模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述引入人類反饋強(qiáng)化學(xué)習(xí)和電網(wǎng)領(lǐng)域知識(shí)約束方法,通過(guò)獎(jiǎng)勵(lì)和懲罰機(jī)制對(duì)所述微調(diào)后的初始大模型進(jìn)行調(diào)整和優(yōu)化,得到大模型,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述利用人工輸入的關(guān)鍵詞數(shù)據(jù)集合構(gòu)建強(qiáng)化學(xué)習(xí)偏好數(shù)據(jù)集,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)人工輸入的關(guān)鍵詞數(shù)據(jù)集中各關(guān)鍵詞數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵詞,構(gòu)建強(qiáng)化學(xué)習(xí)偏好數(shù)據(jù)集,包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1至8中任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1至8中任一項(xiàng)所述方法的步驟。