最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于去重采樣的文檔級關系抽取方法、裝置、設備和介質與流程

文檔序號:41584627發(fā)布日期:2025-04-11 17:34閱讀:9來源:國知局
基于去重采樣的文檔級關系抽取方法、裝置、設備和介質與流程

本技術涉及自然語言處理。更具體地說,本技術涉及一種基于去重采樣的文檔級關系抽取方法、裝置、設備和介質。


背景技術:

1、傳統(tǒng)的文檔級關系抽取方法是通過獲取文檔文本,對文檔文本進行轉換得到目標實體對向量和非目標實體對向量;將目標實體對向量和非目標實體對向量相結合,得到實體對結合向量;將實體對結合向量輸入分類器,得到關系抽取結果。但是,大多數(shù)的文檔文本均存在關系類別分布不平衡的現(xiàn)象,該方法在將這種關系類別分布不平衡的文檔文本轉換成目標實體對向量和非目標實體對向量的過程中,容易忽視低頻的關系類別,從而使得關系抽取結果不夠準確。


技術實現(xiàn)思路

1、本技術實施例的目的是,提供一種基于去重采樣的文檔級關系抽取方法、裝置、設備和介質,其能夠降低關系類別分布不平衡對關系抽取結果的準確性的影響,從而提高關系抽取結果的精度。本技術實施例主要通過下述技術方案實現(xiàn):

2、本技術實施例的第一方面,提供了一種基于去重采樣的文檔級關系抽取方法,包括:

3、獲取文本文檔;

4、采用預設標記對所述文本文檔進行標記處理,獲得已標記文檔,所述已標記文檔包含至少一組實體對;

5、將所述已標記文檔輸入文檔關系抽取模型,所述文檔關系抽取模型對所述已標記文檔進行去重采樣和關系抽取處理,獲得關系抽取結果。

6、根據(jù)本技術的一個實施例,將所述已標記文檔輸入文檔關系抽取模型,所述文檔關系抽取模型對所述已標記文檔進行去重采樣和關系抽取處理,獲得關系抽取結果的步驟包括:

7、將所述已標記文檔輸入所述文檔關系抽取模型的去重模塊進行去重采樣處理,獲得待處理實體對集合;

8、將所述已標記文檔輸入所述文檔關系抽取模型的多粒度文本編碼模塊進行編碼處理,獲得上下文嵌入向量;

9、將所述待處理實體對集合輸入所述文檔關系抽取模型的圖卷積神經(jīng)網(wǎng)絡進行計算處理,獲得目標實體對中主體的第一全局嵌入表示和客體的第二全局嵌入表示,其中,所述目標實體對是所述待處理實體對集合中的任意一個實體對;

10、將所述目標實體對和所述上下文嵌入向量輸入所述文檔關系抽取模型的上下文池化模塊進行局部上下文池化處理,獲得關系特征;

11、將所述第一全局嵌入表示、所述第二全局嵌入表示和所述關系特征輸入所述文檔關系抽取模型的混合專家系統(tǒng)進行評分計算處理,獲得與所述目標實體對對應的關系評分;

12、基于所有關系評分獲得所述關系抽取結果。

13、根據(jù)本技術的一個實施例,將所述已標記文檔輸入所述文檔關系抽取模型的去重模塊進行去重采樣處理,獲得待處理實體對集合的步驟包括:

14、設置第一待處理集合,并將所述第一待處理集合初始化為空集;

15、獲取所述已標記文檔中的有關系實體對集合和無關系實體對集合;

16、將所述無關系實體對集合中的所有實體對進行隨機打亂處理,獲得第二待處理集合;

17、在所述第二待處理集合中統(tǒng)計每個無關系實體對中主體的第一出現(xiàn)頻率和客體的第二出現(xiàn)頻率;

18、在目標無關系實體對中主體的第一出現(xiàn)頻率和客體的第二出現(xiàn)頻率均未超過預設閾值的情況下,將所述目標無關系實體對加入所述第一待處理集合,其中,所述目標無關系實體對是所述第二待處理集合中的任意一個無關系實體對;

19、在統(tǒng)計完每個無關系實體對中主體的第一出現(xiàn)頻率和客體的第二出現(xiàn)頻率之后,將所述有關系實體對集合和所述第一待處理集合進行合并處理,獲得所述待處理實體對集合。

20、根據(jù)本技術的一個實施例,將所述已標記文檔輸入所述文檔關系抽取模型的多粒度文本編碼模塊進行編碼處理,獲得上下文嵌入向量的步驟包括:

21、采用所述多粒度文本編碼模塊的預訓練語言模型對所述已標記文檔進行編碼處理,獲得詞級別的第一嵌入向量;

22、采用所述多粒度文本編碼模塊的短語檢測模型對所述已標記文檔進行編碼處理,獲得短語級別的第二嵌入向量;

23、采用所述多粒度文本編碼模塊的句子編碼器對所述已標記文檔進行編碼處理,獲得句子級別的第三嵌入向量;

24、采用所述多粒度文本編碼模塊的融合模塊對所述第一嵌入向量、第二嵌入向量和第三嵌入向量進行融合處理,獲得所述上下文嵌入向量。

25、根據(jù)本技術的一個實施例,將所述待處理實體對集合輸入所述文檔關系抽取模型的圖卷積神經(jīng)網(wǎng)絡進行計算處理,獲得目標實體對中主體的第一全局嵌入表示和客體的第二全局嵌入表示,其中,所述目標實體對是所述待處理實體對集合中的任意一個實體對的步驟包括:

26、基于所述待處理實體對集合構建實體圖;

27、基于所述實體圖,采用所述圖卷積神經(jīng)網(wǎng)絡計算所述目標實體對中主體的多層第一嵌入表示,并將最后一層的第一嵌入表示作為所述主體的第一全局嵌入表示;

28、基于所述實體圖,采用所述圖卷積神經(jīng)網(wǎng)絡計算所述目標實體對中客體的多層第二嵌入表示,并將最后一層的第二嵌入表示作為所述客體的第二全局嵌入表示。

29、根據(jù)本技術的一個實施例,將所述第一全局嵌入表示、所述第二全局嵌入表示和所述關系特征輸入所述文檔關系抽取模型的混合專家系統(tǒng)進行評分計算處理,獲得與所述目標實體對對應的關系評分的步驟包括:

30、采用所述混合專家系統(tǒng)對所述第一全局嵌入表示和所述關系特征進行計算處理,獲得第一聯(lián)合特征;

31、采用所述混合專家系統(tǒng)對所述第二全局嵌入表示和所述關系特征進行計算處理,獲得第二聯(lián)合特征;

32、基于所述第一聯(lián)合特征和所述第二聯(lián)合特征獲得與所述目標實體對對應的關系評分。

33、根據(jù)本技術的一個實施例,所述基于去重采樣的文檔級關系抽取方法還包括所述文檔關系抽取模型的訓練步驟,所述文檔關系抽取模型的訓練步驟包括:

34、獲取訓練數(shù)據(jù)集和真實標簽集,所述訓練數(shù)據(jù)集中的每個訓練數(shù)據(jù)均與所述真實標簽集中的其中一個真實標簽存在一一對應的關系;

35、采用所述預設標記對目標訓練數(shù)據(jù)進行標記處理,獲得訓練文檔,所述訓練文檔包含至少一組實體對;

36、將所述訓練文檔輸入原始文檔關系抽取模型,所述原始文檔關系抽取模型對所述訓練文檔進行去重采樣和關系抽取處理,獲得預測結果;

37、基于所述預測結果和與所述目標訓練數(shù)據(jù)對應的真實標簽計算損失函數(shù);

38、基于所述損失函數(shù)調(diào)整所述原始文檔關系抽取模型的模型參數(shù),形成所述文檔關系抽取模型。

39、本技術實施例的第二方面,提供了一種基于去重采樣的文檔級關系抽取裝置,包括:

40、文本文檔獲取模塊,用于獲取文本文檔;

41、已標記文檔獲得模塊,用于采用預設標記對所述文本文檔進行標記處理,獲得已標記文檔,所述已標記文檔包含至少一組實體對;

42、模型處理模塊,用于將所述已標記文檔輸入文檔關系抽取模型,所述文檔關系抽取模型對所述已標記文檔進行去重采樣和關系抽取處理,獲得關系抽取結果。

43、本技術實施例的第三方面,提供了一種終端設備,包括:處理器和存儲器,該存儲器用于存儲計算機程序,所述處理器用于調(diào)用并運行所述存儲器中存儲的計算機程序,執(zhí)行上述本技術實施例第一方面提供的基于去重采樣的文檔級關系抽取方法的步驟。

44、本技術實施例的第四方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質用于存儲計算機程序,所述計算機程序使得計算機執(zhí)行上述本技術實施例第一方面提供的基于去重采樣的文檔級關系抽取方法的步驟。

45、本技術實施例的有益效果包括:

46、本技術實施例中采用去重采樣的方式來平衡文檔中的關系類別分布。具體的,本技術實施例是通過設置一個具有去重采樣功能的文檔關系抽取模型,并采用所述文檔關系抽取模型對經(jīng)標記處理的已標記文檔進行去重采樣和關系抽取處理,從而獲得關系抽取結果。與現(xiàn)有技術相比,本技術實施例能夠降低關系類別分布不平衡對關系抽取結果的準確性的影響,從而提高關系抽取結果的精度。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1