最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種自動挖掘目標關(guān)聯(lián)詞的方法、裝置和電子設(shè)備與流程

文檔序號:41948747發(fā)布日期:2025-05-16 14:06閱讀:3來源:國知局
一種自動挖掘目標關(guān)聯(lián)詞的方法、裝置和電子設(shè)備與流程

本發(fā)明涉及自然語言處理,尤其涉及一種自動挖掘目標關(guān)聯(lián)詞的方法、裝置和電子設(shè)備。


背景技術(shù):

1、隨著互聯(lián)網(wǎng)的快速發(fā)展,大量的文本數(shù)據(jù)被生成和存儲。數(shù)據(jù)量的增長一方面增加了豐富度,另一方面也會造成信息冗余,可能帶來大量不相關(guān)信息的產(chǎn)生,進而導致信息搜索或處理的低效及不準確性問題的產(chǎn)生。因此,在電子商務(wù)和搜索引擎等領(lǐng)域,如何能夠準確地挖掘目標關(guān)聯(lián)詞對于提高用戶體驗和業(yè)務(wù)效率至關(guān)重要。目前,目標關(guān)聯(lián)詞提取方法往往依賴于人工標注或簡單的統(tǒng)計方法,這種方法不僅效率低,而且可處理的數(shù)據(jù)量小,難以適應(yīng)大規(guī)模數(shù)據(jù)和復雜場景的需求。因此,開發(fā)一種能夠自動挖掘目標關(guān)聯(lián)詞的技術(shù)具有重要的實際應(yīng)用價值。


技術(shù)實現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了如下技術(shù)方案。

2、本發(fā)明第一方面提供了一種自動挖掘目標關(guān)聯(lián)詞的方法,包括:

3、獲取目標相關(guān)文檔集和目標不相關(guān)文檔集;

4、對所有文檔集中的文檔文本進行分詞處理;

5、利用如下公式計算每個文檔中每個詞語的tf-idf′值:

6、tf′(w,d)=log(詞語w在文檔d中出現(xiàn)的次數(shù)+1);

7、

8、tf-idf′(w,d)=tf′(w,d)×idf′(w);

9、分別計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個詞語的tf-idf′值的加權(quán)平均值,對應(yīng)記為s(w1,d1)和s(w2,d2);其中,w1為目標相關(guān)文檔集d1中的詞語,w2為目標不相關(guān)文檔集d2中的詞語;

10、利用如下公式計算目標相關(guān)文檔集中每個詞語的相關(guān)度得分r(w1):

11、

12、其中,r(w1)為詞語w1的相關(guān)度得分,t為閾值;

13、將相關(guān)度得分符合要求的詞語作為目標關(guān)聯(lián)詞。

14、優(yōu)選地,所述目標相關(guān)文檔集和目標不相關(guān)文檔集的數(shù)據(jù)取自電商平臺上的電子、服裝和/或食品類產(chǎn)品的描述文本和/或?qū)@麛?shù)據(jù)庫中的專利文本。

15、優(yōu)選地,所述分詞處理之后還包括步驟:

16、應(yīng)用停用詞表去除無實際意義的詞語;

17、將所有字符轉(zhuǎn)換為小寫形式,統(tǒng)一格式;

18、過濾掉長度小于兩個字符或過于常見的詞語;

19、生成文檔詞庫數(shù)據(jù)庫,包含文檔編碼、文檔名稱、詞語以及詞語在文檔中出現(xiàn)的次數(shù)。

20、優(yōu)選地,所述方法還包括步驟:將目標關(guān)聯(lián)詞及其相關(guān)度得分記錄在所述文檔詞庫數(shù)據(jù)庫中。

21、本發(fā)明第二方面提供了一種自動挖掘目標關(guān)聯(lián)詞的裝置,包括:

22、數(shù)據(jù)獲取模塊,用于獲取目標相關(guān)文檔集和目標不相關(guān)文檔集;

23、分詞模塊,用于對所有文檔集中的文檔文本進行分詞處理;

24、第一計算模塊,用于利用如下公式計算每個文檔中每個詞語的tf-idf′值:

25、tf′(w,d)=log(詞語w在文檔d中出現(xiàn)的次數(shù)+1);

26、

27、tf-idf′(w,d)=tf′(w,d)×idf′(w);

28、第二計算模塊,用于分別計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個詞語的tf-idf′值的加權(quán)平均值,對應(yīng)記為s(w1,d1)和s(w2,d2);其中,w1為目標相關(guān)文檔集d1中的詞語,w2為目標不相關(guān)文檔集d2中的詞語;

29、第三計算模塊,用于利用如下公式計算目標相關(guān)文檔集中每個詞語的相關(guān)度得分r(w1):

30、

31、其中,r(w1)為詞語w1的相關(guān)度得分,t為閾值;

32、目標關(guān)聯(lián)詞確定模塊,用于將相關(guān)度得分符合要求的詞語作為目標關(guān)聯(lián)詞。

33、優(yōu)選地,所述目標相關(guān)文檔集和目標不相關(guān)文檔集的數(shù)據(jù)取自電商平臺上的電子、服裝和/或食品類產(chǎn)品的描述文本和/或?qū)@麛?shù)據(jù)庫中的專利文本。

34、優(yōu)選地,所述裝置還包括預處理模塊,用于:

35、應(yīng)用停用詞表去除無實際意義的詞語;

36、將所有字符轉(zhuǎn)換為小寫形式,統(tǒng)一格式;

37、過濾掉長度小于兩個字符或過于常見的詞語;

38、生成文檔詞庫數(shù)據(jù)庫,包含文檔編碼、文檔名稱、詞語以及詞語在文檔中出現(xiàn)的次數(shù)。

39、優(yōu)選地,所述裝置還包括記錄模塊,用于:將目標關(guān)聯(lián)詞及其相關(guān)度得分記錄在所述文檔詞庫數(shù)據(jù)庫中。

40、本發(fā)明第三方面提供了一種存儲器,存儲有多條指令,所述指令用于實現(xiàn)如第一方面所述的自動挖掘目標關(guān)聯(lián)詞的方法。

41、本發(fā)明第四方面提供了一種電子設(shè)備,包括處理器和與所述處理器連接的存儲器,所述存儲器存儲有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如第一方面所述的自動挖掘目標關(guān)聯(lián)詞的方法。

42、本發(fā)明的有益效果是:本發(fā)明提供的一種自動挖掘目標關(guān)聯(lián)詞的方法、裝置和電子設(shè)備,首先計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個文檔中每個詞語的tf-idf′值,然后計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個詞語的tf-idf′值的加權(quán)平均值,再利用tf-idf′值的加權(quán)平均值計算目標相關(guān)文檔集中每個詞語的相關(guān)度得分,最后根據(jù)相關(guān)度得分確定目標關(guān)聯(lián)詞。采用本發(fā)明提供的技術(shù)方案,可以實現(xiàn)目標關(guān)聯(lián)詞的準確的自動挖掘,不僅效率高,而且能夠較好的適應(yīng)大規(guī)模數(shù)據(jù)和復雜場景的需求,提高了用戶體驗,具有重要的實際應(yīng)用價值。



技術(shù)特征:

1.一種自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,包括:

2.如權(quán)利要求1所述的自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,所述目標相關(guān)文檔集和目標不相關(guān)文檔集的數(shù)據(jù)取自電商平臺上的電子、服裝和/或食品類產(chǎn)品的描述文本和/或?qū)@麛?shù)據(jù)庫中的專利文本。

3.如權(quán)利要求1所述的自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,所述分詞處理之后還包括步驟:

4.如權(quán)利要求3所述的自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,所述方法還包括步驟:將目標關(guān)聯(lián)詞及其相關(guān)度得分記錄在所述文檔詞庫數(shù)據(jù)庫中。

5.一種自動挖掘目標關(guān)聯(lián)詞的裝置,其特征在于,包括:

6.如權(quán)利要求5所述的自動挖掘目標關(guān)聯(lián)詞的裝置,其特征在于,所述目標相關(guān)文檔集和目標不相關(guān)文檔集的數(shù)據(jù)取自電商平臺上的電子、服裝和/或食品類產(chǎn)品的描述文本和/或?qū)@麛?shù)據(jù)庫中的專利文本。

7.如權(quán)利要求5所述的自動挖掘目標關(guān)聯(lián)詞的裝置,其特征在于,所述裝置還包括預處理模塊,用于:

8.如權(quán)利要求7所述的自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,所述裝置還包括記錄模塊,用于:將目標關(guān)聯(lián)詞及其相關(guān)度得分記錄在所述文檔詞庫數(shù)據(jù)庫中。

9.一種存儲器,其特征在于,存儲有多條指令,所述指令用于實現(xiàn)如權(quán)利要求1-4任一項所述的自動挖掘目標關(guān)聯(lián)詞的方法。

10.一種電子設(shè)備,其特征在于,包括處理器和與所述處理器連接的存儲器,所述存儲器存儲有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如權(quán)利要求1-4任一項所述的自動挖掘目標關(guān)聯(lián)詞的方法。


技術(shù)總結(jié)
本發(fā)明公開了一種自動挖掘目標關(guān)聯(lián)詞的方法、裝置和電子設(shè)備,涉及自然語言處理技術(shù)領(lǐng)域。該方法包括:獲取目標相關(guān)文檔集和目標不相關(guān)文檔集;對所有文檔集中的文檔文本進行分詞處理;計算每個文檔中每個詞語的TF?IDF'值;分別計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個詞語的TF?IDF'值的加權(quán)平均值;利用TF?IDF'值的加權(quán)平均值計算目標相關(guān)文檔集中每個詞語的相關(guān)度得分;根據(jù)相關(guān)度得分確定目標關(guān)聯(lián)詞。采用本發(fā)明提供的技術(shù)方案,可以實現(xiàn)目標關(guān)聯(lián)詞的準確的自動挖掘,不僅效率高,而且能夠較好的適應(yīng)大規(guī)模數(shù)據(jù)和復雜場景的需求,提高了用戶體驗,具有重要的實際應(yīng)用價值。

技術(shù)研發(fā)人員:李晨旭,張國其
受保護的技術(shù)使用者:北京興鏈科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1