本發(fā)明涉及自然語言處理,尤其涉及一種自動挖掘目標關(guān)聯(lián)詞的方法、裝置和電子設(shè)備。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)的快速發(fā)展,大量的文本數(shù)據(jù)被生成和存儲。數(shù)據(jù)量的增長一方面增加了豐富度,另一方面也會造成信息冗余,可能帶來大量不相關(guān)信息的產(chǎn)生,進而導致信息搜索或處理的低效及不準確性問題的產(chǎn)生。因此,在電子商務(wù)和搜索引擎等領(lǐng)域,如何能夠準確地挖掘目標關(guān)聯(lián)詞對于提高用戶體驗和業(yè)務(wù)效率至關(guān)重要。目前,目標關(guān)聯(lián)詞提取方法往往依賴于人工標注或簡單的統(tǒng)計方法,這種方法不僅效率低,而且可處理的數(shù)據(jù)量小,難以適應(yīng)大規(guī)模數(shù)據(jù)和復雜場景的需求。因此,開發(fā)一種能夠自動挖掘目標關(guān)聯(lián)詞的技術(shù)具有重要的實際應(yīng)用價值。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了如下技術(shù)方案。
2、本發(fā)明第一方面提供了一種自動挖掘目標關(guān)聯(lián)詞的方法,包括:
3、獲取目標相關(guān)文檔集和目標不相關(guān)文檔集;
4、對所有文檔集中的文檔文本進行分詞處理;
5、利用如下公式計算每個文檔中每個詞語的tf-idf′值:
6、tf′(w,d)=log(詞語w在文檔d中出現(xiàn)的次數(shù)+1);
7、
8、tf-idf′(w,d)=tf′(w,d)×idf′(w);
9、分別計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個詞語的tf-idf′值的加權(quán)平均值,對應(yīng)記為s(w1,d1)和s(w2,d2);其中,w1為目標相關(guān)文檔集d1中的詞語,w2為目標不相關(guān)文檔集d2中的詞語;
10、利用如下公式計算目標相關(guān)文檔集中每個詞語的相關(guān)度得分r(w1):
11、
12、其中,r(w1)為詞語w1的相關(guān)度得分,t為閾值;
13、將相關(guān)度得分符合要求的詞語作為目標關(guān)聯(lián)詞。
14、優(yōu)選地,所述目標相關(guān)文檔集和目標不相關(guān)文檔集的數(shù)據(jù)取自電商平臺上的電子、服裝和/或食品類產(chǎn)品的描述文本和/或?qū)@麛?shù)據(jù)庫中的專利文本。
15、優(yōu)選地,所述分詞處理之后還包括步驟:
16、應(yīng)用停用詞表去除無實際意義的詞語;
17、將所有字符轉(zhuǎn)換為小寫形式,統(tǒng)一格式;
18、過濾掉長度小于兩個字符或過于常見的詞語;
19、生成文檔詞庫數(shù)據(jù)庫,包含文檔編碼、文檔名稱、詞語以及詞語在文檔中出現(xiàn)的次數(shù)。
20、優(yōu)選地,所述方法還包括步驟:將目標關(guān)聯(lián)詞及其相關(guān)度得分記錄在所述文檔詞庫數(shù)據(jù)庫中。
21、本發(fā)明第二方面提供了一種自動挖掘目標關(guān)聯(lián)詞的裝置,包括:
22、數(shù)據(jù)獲取模塊,用于獲取目標相關(guān)文檔集和目標不相關(guān)文檔集;
23、分詞模塊,用于對所有文檔集中的文檔文本進行分詞處理;
24、第一計算模塊,用于利用如下公式計算每個文檔中每個詞語的tf-idf′值:
25、tf′(w,d)=log(詞語w在文檔d中出現(xiàn)的次數(shù)+1);
26、
27、tf-idf′(w,d)=tf′(w,d)×idf′(w);
28、第二計算模塊,用于分別計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個詞語的tf-idf′值的加權(quán)平均值,對應(yīng)記為s(w1,d1)和s(w2,d2);其中,w1為目標相關(guān)文檔集d1中的詞語,w2為目標不相關(guān)文檔集d2中的詞語;
29、第三計算模塊,用于利用如下公式計算目標相關(guān)文檔集中每個詞語的相關(guān)度得分r(w1):
30、
31、其中,r(w1)為詞語w1的相關(guān)度得分,t為閾值;
32、目標關(guān)聯(lián)詞確定模塊,用于將相關(guān)度得分符合要求的詞語作為目標關(guān)聯(lián)詞。
33、優(yōu)選地,所述目標相關(guān)文檔集和目標不相關(guān)文檔集的數(shù)據(jù)取自電商平臺上的電子、服裝和/或食品類產(chǎn)品的描述文本和/或?qū)@麛?shù)據(jù)庫中的專利文本。
34、優(yōu)選地,所述裝置還包括預處理模塊,用于:
35、應(yīng)用停用詞表去除無實際意義的詞語;
36、將所有字符轉(zhuǎn)換為小寫形式,統(tǒng)一格式;
37、過濾掉長度小于兩個字符或過于常見的詞語;
38、生成文檔詞庫數(shù)據(jù)庫,包含文檔編碼、文檔名稱、詞語以及詞語在文檔中出現(xiàn)的次數(shù)。
39、優(yōu)選地,所述裝置還包括記錄模塊,用于:將目標關(guān)聯(lián)詞及其相關(guān)度得分記錄在所述文檔詞庫數(shù)據(jù)庫中。
40、本發(fā)明第三方面提供了一種存儲器,存儲有多條指令,所述指令用于實現(xiàn)如第一方面所述的自動挖掘目標關(guān)聯(lián)詞的方法。
41、本發(fā)明第四方面提供了一種電子設(shè)備,包括處理器和與所述處理器連接的存儲器,所述存儲器存儲有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如第一方面所述的自動挖掘目標關(guān)聯(lián)詞的方法。
42、本發(fā)明的有益效果是:本發(fā)明提供的一種自動挖掘目標關(guān)聯(lián)詞的方法、裝置和電子設(shè)備,首先計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個文檔中每個詞語的tf-idf′值,然后計算目標相關(guān)文檔集和目標不相關(guān)文檔集中每個詞語的tf-idf′值的加權(quán)平均值,再利用tf-idf′值的加權(quán)平均值計算目標相關(guān)文檔集中每個詞語的相關(guān)度得分,最后根據(jù)相關(guān)度得分確定目標關(guān)聯(lián)詞。采用本發(fā)明提供的技術(shù)方案,可以實現(xiàn)目標關(guān)聯(lián)詞的準確的自動挖掘,不僅效率高,而且能夠較好的適應(yīng)大規(guī)模數(shù)據(jù)和復雜場景的需求,提高了用戶體驗,具有重要的實際應(yīng)用價值。
1.一種自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,包括:
2.如權(quán)利要求1所述的自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,所述目標相關(guān)文檔集和目標不相關(guān)文檔集的數(shù)據(jù)取自電商平臺上的電子、服裝和/或食品類產(chǎn)品的描述文本和/或?qū)@麛?shù)據(jù)庫中的專利文本。
3.如權(quán)利要求1所述的自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,所述分詞處理之后還包括步驟:
4.如權(quán)利要求3所述的自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,所述方法還包括步驟:將目標關(guān)聯(lián)詞及其相關(guān)度得分記錄在所述文檔詞庫數(shù)據(jù)庫中。
5.一種自動挖掘目標關(guān)聯(lián)詞的裝置,其特征在于,包括:
6.如權(quán)利要求5所述的自動挖掘目標關(guān)聯(lián)詞的裝置,其特征在于,所述目標相關(guān)文檔集和目標不相關(guān)文檔集的數(shù)據(jù)取自電商平臺上的電子、服裝和/或食品類產(chǎn)品的描述文本和/或?qū)@麛?shù)據(jù)庫中的專利文本。
7.如權(quán)利要求5所述的自動挖掘目標關(guān)聯(lián)詞的裝置,其特征在于,所述裝置還包括預處理模塊,用于:
8.如權(quán)利要求7所述的自動挖掘目標關(guān)聯(lián)詞的方法,其特征在于,所述裝置還包括記錄模塊,用于:將目標關(guān)聯(lián)詞及其相關(guān)度得分記錄在所述文檔詞庫數(shù)據(jù)庫中。
9.一種存儲器,其特征在于,存儲有多條指令,所述指令用于實現(xiàn)如權(quán)利要求1-4任一項所述的自動挖掘目標關(guān)聯(lián)詞的方法。
10.一種電子設(shè)備,其特征在于,包括處理器和與所述處理器連接的存儲器,所述存儲器存儲有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如權(quán)利要求1-4任一項所述的自動挖掘目標關(guān)聯(lián)詞的方法。