本發(fā)明涉及一種電力知識圖譜問答方法及系統(tǒng),屬于知識圖譜。
背景技術:
1、電網安全作業(yè)管理規(guī)范是國家電網公司為了加強電網安全生產管理,規(guī)范電網安全作業(yè)行為,保障電網安全穩(wěn)定運行制定的一系列規(guī)章制度。電網安全作業(yè)管理規(guī)范涉及眾多領域,包括電力設備運行、維護、檢修和施工多個方面。然而,這些規(guī)范多為文本的形式,不利于用戶快速檢索和規(guī)范化應用。因此,構建基于電網安全作業(yè)管理規(guī)范的知識圖譜顯得十分必要。
2、知識圖譜的重要應用之一是作為自動問答系統(tǒng)的知識庫,知識圖譜問答技術作為整個問答系統(tǒng)的重要組成部分。目前現有技術中知識圖譜問答大多采用關鍵詞匹配和模板匹配的方法,關鍵詞匹配只能對關鍵詞進行匹配,無法考慮語義信息,因此對于一些語義相近的詞匯無法進行準確的匹配。而模板匹配需要人工構建大量帶變量的問題模板,根據問題選取模板形成查詢表達式,查詢結構化數據庫生成答案,需要耗費大量人力進行模板校對以及模板庫維護。
3、為了解決采用關鍵詞匹配和模板匹配方法進行知識圖譜問答存在的問題,現有技術提出采用深度學習模型進行上下文語義之間的匹配,但是在利用深度學習模型進行匹配時需要從大量知識圖譜數據中查找數據,會導致匹配效率降低,甚至會影響匹配精度。
技術實現思路
1、本發(fā)明的目的是提供一種電力知識圖譜問答方法及系統(tǒng),用于解決現有技術中采用深度學習的模型進行匹配存在的匹配效率降低、匹配精度不高的問題。
2、為實現上述目的,本發(fā)明提供的技術方案是:
3、本發(fā)明提供了一種電力知識圖譜問答方法,該電力知識圖譜問答方法包括以下步驟:
4、1)獲取需要進行回答的電力知識問句,并進行預處理;
5、2)基于預處理后的電力知識問句和知識圖譜中候選知識集合采用字符串匹配技術對候選知識集合進行篩選;
6、3)將預處理后的電力知識問句和篩選后的候選知識集合輸入到經過訓練的深度學習模型中,得到電力知識問句和篩選后的候選知識集合中各語句之間的相似度,將相似度最高的語句作為匹配結果。
7、本發(fā)明首先對輸入的問句初步進行篩選,將一些不相關的語句和與輸入語句關聯性較低的語句快速排除掉,減少了候選知識集合中的語句數量,再利用深度學習模型得到篩選后的候選知識集合中各語句之間的相似度。用戶不需要從大量知識圖譜數據中查找數據,節(jié)省了查找數據的時間。與現有技術相比,本發(fā)明有效地解決了采用深度學習的模型進行匹配存在的匹配效率降低、匹配精度不高的問題。
8、進一步地,所述深度學習模型采用ernie?3.0輕量級模型。
9、進一步地,所述ernie?3.0輕量級模型是通過在線蒸餾技術和量化技術將ernie3.0自然語言模型壓縮而成。
10、本發(fā)明采用在線蒸餾技術和量化技術將ernie?3.0自然語言模型壓縮成ernie3.0輕量級模型,在線蒸餾技術和量化技術可以將結構較復雜的網絡模型簡化成結構簡單的模型便于節(jié)省后續(xù)模型訓練的時間。
11、進一步地,所述ernie?3.0輕量級模型的訓練包括預訓練階段和微調階段,預訓練階段是利用構建的訓練集對ernie?3.0輕量級模型進行預訓練;微調階段是利用電力知識問句作為訓練數據,對經過預訓練的ernie?3.0輕量級模型進行微調。
12、本發(fā)明利用電力知識問句作為訓練數據,對經過預訓練的ernie?3.0輕量級模型進行微調,以此得到一個針對電力故障領域的語義模型,從而可以更加準確地回答用戶的問題。
13、進一步地,所述ernie?3.0輕量級模型采用ernie?3.0-base模型。
14、進一步地,所述步驟2)中采用jaccard算法和word2vec技術對候選知識集合進行篩選。
15、本發(fā)明采用jaccard算法和word2vec技術對候選知識集合進行篩選,jaccard算法精確度高,簡潔高效,可以極大地滿足實時性要求,word2vec模型簡單,訓練速度快。
16、進一步地,所述預處理是對需要進行回答的電力知識問句進行糾錯和去冗余。
17、本發(fā)明對需要進行回答的電力知識問句進行糾錯和去冗余預處理操作,提高了數據的質量和準確性,也提高了數據分析的效果和可靠性。
18、為解決上述技術問題,本發(fā)明還提供了一種電力知識圖譜問答系統(tǒng),包括存儲器和處理器,處理器用于執(zhí)行存儲在存儲器中的計算機程序指令以實現本發(fā)明電力知識圖譜問答方法。
1.一種電力知識圖譜問答方法,其特征在于,該電力知識圖譜問答方法包括以下步驟:
2.根據權利要求1所述的電力知識圖譜問答方法,其特征在于,所述深度學習模型采用ernie?3.0輕量級模型。
3.根據權利要求2所述的電力知識圖譜問答方法,其特征在于,所述ernie?3.0輕量級模型是通過在線蒸餾技術和量化技術將ernie?3.0自然語言模型壓縮而成。
4.根據權利要求2所述的電力知識圖譜問答方法,其特征在于,所述ernie?3.0輕量級模型的訓練包括預訓練階段和微調階段,預訓練階段是利用構建的訓練集對ernie?3.0輕量級模型進行預訓練;微調階段是利用電力知識問句作為訓練數據,對經過預訓練的ernie3.0輕量級模型進行微調。
5.根據權利要求2-4中任一項所述的電力知識圖譜問答方法,其特征在于,所述ernie3.0輕量級模型采用ernie?3.0-base模型。
6.根據權利要求1或2所述的電力知識圖譜問答方法,其特征在于,所述步驟2)中采用jaccard算法和word2vec技術對候選知識集合進行篩選。
7.根據權利要求1所述的電力知識圖譜問答方法,其特征在于,所述預處理是對需要進行回答的電力知識問句進行糾錯和去冗余。
8.一種電力知識圖譜問答系統(tǒng),其特征在于,包括存儲器和處理器,所述處理器用于執(zhí)行存儲在存儲器中的計算機程序指令以實現如權利要求1-7任一項所述的電力知識圖譜問答方法。