本技術(shù)涉及人工智能,尤其涉及一種業(yè)務(wù)處理的方法、相關(guān)裝置、設(shè)備以及存儲介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的用戶通過在應(yīng)用客戶端上注冊賬號來獲取網(wǎng)絡(luò)信息,但非法用戶為了謀取暴利,往往會惡意注冊一些帳號來傳播非法信息流,從而極大程度的影響了用戶體驗,因此,如何有效并準(zhǔn)確地檢測此類非法賬號顯得尤為重要。
2、目前,在業(yè)界常用的方案為,首先,獲取賬號發(fā)送的文本。然后,對該文本進(jìn)行正則匹配,即,從文本中查找是否存在特定模式的文本。例如,可以判斷文本中是否出現(xiàn)惡意話術(shù),如果是,則對命中惡意話術(shù)的帳號進(jìn)行封號處理。
3、然而,發(fā)明人發(fā)現(xiàn)目前的方案中至少存在如下問題,惡意用戶可通過測試發(fā)現(xiàn)線上策略使用了哪些關(guān)鍵詞作為惡意話術(shù)來匹配文本,因此,惡意用戶可能會使用其他話術(shù)來繞開檢測。從而造成文本檢測的準(zhǔn)確率較低,進(jìn)而導(dǎo)致檢測結(jié)果不夠準(zhǔn)確。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供了一種業(yè)務(wù)處理的方法、相關(guān)裝置、設(shè)備以及存儲介質(zhì),使用基于對比學(xué)習(xí)生成的文本編碼模型可以得到質(zhì)量更佳的編碼向量,從而有利于能夠提升文本檢測的準(zhǔn)確度,進(jìn)而提升賬號檢測的準(zhǔn)確性和可靠性。
2、有鑒于此,本技術(shù)一方面提供一種業(yè)務(wù)處理的方法,包括:
3、獲取待測文本集合,其中,待測文本集合包括通過待檢測賬號發(fā)送的k個待測文本,k為大于或等于1的整數(shù);
4、采用文本編碼模型對待測文本集合中的每個待測文本進(jìn)行編碼,得到k個待測文本向量,其中,k個待測文本向量與k個待測文本具有一一對應(yīng)關(guān)系,文本編碼模型為采用正例編碼向量對和負(fù)例編碼向量對進(jìn)行對比學(xué)習(xí)后得到的;
5、獲取異常文本集合,其中,異常文本集合包括已標(biāo)注為異常內(nèi)容的t個異常文本,t為大于或等于1的整數(shù);
6、采用文本編碼模型對異常文本集合中的每個異常文本進(jìn)行編碼,得到t個異常文本向量,其中,t個異常文本向量與t個異常文本具有一一對應(yīng)關(guān)系;
7、根據(jù)k個待測文本向量以及t個異常文本向量,生成針對待檢測賬號的檢測結(jié)果,其中,檢測結(jié)果用于表示待檢測賬號的異常程度。
8、本技術(shù)另一方面提供一種業(yè)務(wù)處理裝置,包括:
9、獲取模塊,用于獲取待測文本集合,其中,待測文本集合包括通過待檢測賬號發(fā)送的k個待測文本,k為大于或等于1的整數(shù);
10、編碼模塊,用于采用文本編碼模型對待測文本集合中的每個待測文本進(jìn)行編碼,得到k個待測文本向量,其中,k個待測文本向量與k個待測文本具有一一對應(yīng)關(guān)系,文本編碼模型為采用正例編碼向量對和負(fù)例編碼向量對進(jìn)行對比學(xué)習(xí)后得到的;
11、獲取模塊,還用于獲取異常文本集合,其中,異常文本集合包括已標(biāo)注為異常內(nèi)容的t個異常文本,t為大于或等于1的整數(shù);
12、編碼模塊,還用于采用文本編碼模型對異常文本集合中的每個異常文本進(jìn)行編碼,得到t個異常文本向量,其中,t個異常文本向量與t個異常文本具有一一對應(yīng)關(guān)系;
13、生成模塊,用于根據(jù)k個待測文本向量以及t個異常文本向量,生成針對待檢測賬號的檢測結(jié)果,其中,檢測結(jié)果用于表示待檢測賬號的異常程度。
14、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,業(yè)務(wù)處理裝置還包括處理模塊以及訓(xùn)練模塊;
15、獲取模塊,還用于獲取文本樣本集合,其中,文本樣本集合包括n個文本樣本,n為大于1的整數(shù);
16、處理模塊,用于對文本樣本集合中的每個文本樣本進(jìn)行數(shù)據(jù)增強(qiáng)處理,得到每個文本樣本所對應(yīng)的正例編碼向量;
17、獲取模塊,還用于獲取文本樣本集合中的每個文本樣本所對應(yīng)的n個負(fù)例編碼向量,其中,n個負(fù)例編碼向量為根據(jù)n個文本樣本生成的;
18、處理模塊,還用于針對每個文本樣本,根據(jù)文本樣本所對應(yīng)的正例編碼向量以及n個負(fù)例編碼向量,計算得到文本樣本所對應(yīng)的損失值;
19、訓(xùn)練模塊,用于根據(jù)文本樣本集合中的每個文本樣本所對應(yīng)的損失值,對待訓(xùn)練文本編碼模型的模型參數(shù)進(jìn)行更新,直至滿足模型訓(xùn)練條件,得到文本編碼模型。
20、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
21、處理模塊,具體用于針對每個文本樣本,通過待訓(xùn)練文本編碼模型對文本樣本分別進(jìn)行兩次編碼,得到文本樣本所對應(yīng)的原始編碼向量以及正例編碼向量。
22、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
23、處理模塊,具體用于針對每個文本樣本,對文本樣本中的至少一個文本單元進(jìn)行同義替換處理,得到文本樣本所對應(yīng)的目標(biāo)文本樣本;
24、針對每個文本樣本,通過待訓(xùn)練文本編碼模型對文本樣本進(jìn)行編碼,得到文本樣本所對應(yīng)的原始編碼向量;
25、針對每個文本樣本,通過待訓(xùn)練文本編碼模型對文本樣本所對應(yīng)的目標(biāo)文本樣本進(jìn)行編碼,得到文本樣本所對應(yīng)的正例編碼向量。
26、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
27、處理模塊,具體用于針對每個文本樣本,對文本樣本進(jìn)行增刪處理,得到文本樣本所對應(yīng)的目標(biāo)文本樣本,其中,增刪處理包括對文本樣本中的至少一個文本單元進(jìn)行刪除,或者,在文本樣本中增加至少一個文本單元;
28、針對每個文本樣本,通過待訓(xùn)練文本編碼模型對文本樣本進(jìn)行編碼,得到文本樣本所對應(yīng)的原始編碼向量;
29、針對每個文本樣本,通過待訓(xùn)練文本編碼模型對文本樣本所對應(yīng)的目標(biāo)文本樣本進(jìn)行編碼,得到文本樣本所對應(yīng)的正例編碼向量。
30、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
31、處理模塊,具體用于針對每個文本樣本,確定文本樣本所對應(yīng)的原始編碼向量與正例編碼向量之間的余弦相似度;
32、針對每個文本樣本,確定文本樣本所對應(yīng)的原始編碼向量與n個負(fù)例編碼向量之間的n個余弦相似度;
33、針對每個文本樣本,根據(jù)文本樣本所對應(yīng)的原始編碼向量與正例編碼向量之間的余弦相似度,以及,文本樣本所對應(yīng)的原始編碼向量與n個負(fù)例編碼向量之間的n個余弦相似度,計算得到文本樣本所對應(yīng)的損失值。
34、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
35、獲取模塊,還用于獲取文本樣本集合,其中,文本樣本集合包括m個樣本三元組,每個樣本三元組包括前提文本樣本、繼承文本樣本以及對立文本樣本,m為大于或等于1的整數(shù);
36、生成模塊,還用于針對每個樣本三元組,生成前提文本樣本所對應(yīng)的原始編碼向量、繼承文本樣本所對應(yīng)的正例編碼向量以及對立文本樣本所對應(yīng)的負(fù)例編碼向量;
37、處理模塊,還用于針對每個樣本三元組,根據(jù)前提文本樣本所對應(yīng)的原始編碼向量、繼承文本樣本所對應(yīng)的正例編碼向量以及對立文本樣本所對應(yīng)的負(fù)例編碼向量,計算得到樣本三元組所對應(yīng)的損失值;
38、訓(xùn)練模塊,還用于根據(jù)文本樣本集合中的每個樣本三元組所對應(yīng)的損失值,對待訓(xùn)練文本編碼模型的模型參數(shù)進(jìn)行更新,直至滿足模型訓(xùn)練條件,得到文本編碼模型。
39、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
40、生成模塊,具體用于針對每個樣本三元組,通過待訓(xùn)練文本編碼模型對樣本三元組中的前提文本樣本進(jìn)行編碼,得到前提文本樣本所對應(yīng)的原始編碼向量;
41、針對每個樣本三元組,通過待訓(xùn)練文本編碼模型對樣本三元組中的繼承文本樣本進(jìn)行編碼,得到繼承文本樣本所對應(yīng)的正例編碼向量;
42、針對每個樣本三元組,通過待訓(xùn)練文本編碼模型對樣本三元組中的對立文本樣本進(jìn)行編碼,得到對立文本樣本所對應(yīng)的負(fù)例編碼向量。
43、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
44、生成模塊,具體用于針對每個樣本三元組,通過待訓(xùn)練文本編碼模型對樣本三元組中的前提文本樣本分別進(jìn)行至少兩次編碼,得到前提文本樣本所對應(yīng)的至少兩個原始編碼向量;
45、針對每個樣本三元組,通過待訓(xùn)練文本編碼模型對樣本三元組中的繼承文本樣本分別進(jìn)行至少兩次編碼,得到繼承文本樣本所對應(yīng)的至少兩個正例編碼向量;
46、針對每個樣本三元組,通過待訓(xùn)練文本編碼模型對樣本三元組中的對立文本樣本分別進(jìn)行至少兩次編碼,得到對立文本樣本所對應(yīng)的至少兩個負(fù)例編碼向量。
47、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
48、處理模塊,具體用于針對每個樣本三元組,確定前提文本樣本所對應(yīng)的原始編碼向量與繼承文本樣本所對應(yīng)的正例編碼向量之間的第一余弦相似度;
49、針對每個樣本三元組,確定前提文本樣本所對應(yīng)的原始編碼向量與m個繼承文本樣本所對應(yīng)的正例編碼向量之間的m個第二余弦相似度;
50、針對每個樣本三元組,確定前提文本樣本所對應(yīng)的原始編碼向量與m個對立文本樣本所對應(yīng)的負(fù)例編碼向量之間的m個第三余弦相似度;
51、針對每個樣本三元組,根據(jù)第一余弦相似度、m個第二余弦相似度以及m個第三余弦相似度,計算得到樣本三元組所對應(yīng)的損失值。
52、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
53、獲取模塊,還用于獲取文本樣本集合,其中,文本樣本集合包括n個文本樣本以及m個樣本三元組,每個樣本三元組包括前提文本樣本、繼承文本樣本以及對立文本樣本,n為大于1的整數(shù),m為大于或等于1的整數(shù);
54、處理模塊,還用于對文本樣本集合中的每個文本樣本進(jìn)行數(shù)據(jù)增強(qiáng)處理,得到每個文本樣本所對應(yīng)的正例編碼向量;
55、獲取模塊,還用于獲取文本樣本集合中的每個文本樣本所對應(yīng)的n個負(fù)例編碼向量,其中,n個負(fù)例編碼向量為根據(jù)n個文本樣本生成的;
56、訓(xùn)練模塊,還用于根據(jù)每個文本樣本所對應(yīng)的正例編碼向量以及n個負(fù)例編碼向量,對待訓(xùn)練待訓(xùn)練文本編碼模型的模型參數(shù)進(jìn)行更新,得到目標(biāo)文本編碼模型;
57、生成模塊,還用于針對每個樣本三元組,生成前提文本樣本所對應(yīng)的原始編碼向量、繼承文本樣本所對應(yīng)的正例編碼向量以及對立文本樣本所對應(yīng)的負(fù)例編碼向量;
58、訓(xùn)練模塊,還用于根據(jù)每個樣本三元組中的前提文本樣本所對應(yīng)的原始編碼向量、繼承文本樣本所對應(yīng)的正例編碼向量以及對立文本樣本所對應(yīng)的負(fù)例編碼向量,對目標(biāo)文本編碼模型進(jìn)行微調(diào),得到文本編碼模型。
59、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
60、生成模塊,具體用于針對t個異常文本向量中的每個異常文本向量,計算異常文本向量與每個待測文本向量之間的相似度,得到k個相似度,其中,相似度越大,表示異常文本向量與待測文本向量之間相似程度越高;
61、針對t個異常文本向量中的每個異常文本向量,根據(jù)k個相似度,確定與異常文本向量相似度最大的p個待測文本向量,其中,p為大于或等于1,且,小于k的整數(shù);
62、根據(jù)每個異常文本向量所對應(yīng)的p個待測文本向量,確定k個待測文本中包含異常內(nèi)容的待測文本的數(shù)量;
63、根據(jù)包含異常內(nèi)容的待測文本的數(shù)量,生成針對待檢測賬號的檢測結(jié)果。
64、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
65、生成模塊,具體用于分別對k個待測文本向量中的每個待測文本向量與t個異常文本向量中的每個異常文本向量進(jìn)行相似度計算,得到k×t個相似度,其中,相似度越大,表示異常文本向量與待測文本向量之間相似程度越高;
66、若k×t個相似度中存在大于或等于相似度閾值的至少一個相似度,則根據(jù)至少一個相似度,確定k個待測文本中包含異常內(nèi)容的待測文本的數(shù)量;
67、根據(jù)包含異常內(nèi)容的待測文本的數(shù)量,生成針對待檢測賬號的檢測結(jié)果。
68、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
69、生成模塊,具體用于初始化q個聚類中心,其中,q為大于1的整數(shù);
70、分別計算k個待測文本向量中的每個待測文本向量以及t個異常文本向量中的每個異常文本向量,與每個聚類中心之間的歐式距離,得到(k+t)×q個歐式距離;
71、根據(jù)(k+t)×q個歐式距離,將每個待測文本向量以及每個異常文本向量分別劃分到歐式距離最小的聚類中心所對應(yīng)的聚類簇中,得到q個聚類簇;
72、根據(jù)q個聚類簇,對每個待測文本向量以及每個異常文本向量進(jìn)行劃分,直至滿足聚類優(yōu)化條件,得到q個目標(biāo)聚類簇;
73、根據(jù)q個目標(biāo)聚類簇中每個目標(biāo)聚類簇所包括的異常文本向量的數(shù)量,生成針對待檢測賬號的檢測結(jié)果。
74、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
75、生成模塊,具體用于將k個待測文本向量以及t個異常文本向量作為文本向量集合,其中,文本向量集合包括(k+t)個文本向量;
76、從文本向量集合中選擇一個文本向量作為第一文本向量;
77、將第一文本向量與文本向量集合中剩余的(k+t-1)個文本向量分別進(jìn)行相似度計算,得到得到最大相似度所對應(yīng)的第二文本向量;
78、若最大相似度大于或等于目標(biāo)閾值,則將第二文本向量添加至第一文本向量所對應(yīng)的第一聚類簇,并更新第一聚類簇的聚類中心;
79、若最大相似度小于目標(biāo)閾值,則將第二文本向量作為第二聚類簇的聚類中心;
80、在文本向量集合中各個文本向量被劃分至對應(yīng)的聚類簇的情況下,得到r個聚類簇,其中,r為大于或等于1的整數(shù);
81、根據(jù)r個聚類簇中每個聚類簇所包括的異常文本向量的數(shù)量,生成針對待檢測賬號的檢測結(jié)果。
82、在一種可能的設(shè)計中,在本技術(shù)實施例的另一方面的另一種實現(xiàn)方式中,
83、處理模塊,還用于根據(jù)k個待測文本向量以及t個異常文本向量,生成針對待檢測賬號的檢測結(jié)果之后,在檢測結(jié)果指示待檢測賬號為可疑賬號的情況下,對可疑賬號發(fā)送的文本進(jìn)行攔截處理;
84、處理模塊,還用于在檢測結(jié)果指示待檢測賬號為惡意賬號的情況下,對惡意賬號發(fā)送的文本進(jìn)行攔截處理,并對惡意賬號封禁使用權(quán)限。
85、本技術(shù)另一方面提供一種計算機(jī)設(shè)備,包括存儲器和處理器,存儲器存儲有計算機(jī)程序,處理器執(zhí)行計算機(jī)程序時實現(xiàn)上述各方面的方法。
86、本技術(shù)的另一方面提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述各方面的方法。
87、本技術(shù)的另一個方面,提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述各方面的方法。
88、從以上技術(shù)方案可以看出,本技術(shù)實施例具有以下優(yōu)點:
89、本技術(shù)實施例中,提供了一種業(yè)務(wù)處理的方法,首先,獲取來源于待檢測賬號的待測文本集合。然后,采用基于對比學(xué)習(xí)訓(xùn)練得到的文本編碼模型,對待測文本集合中的每個待測文本進(jìn)行編碼,得到k個待測文本向量。此外,還需要獲取異常文本集合,然后,采用該文本編碼模型對異常文本集合中的每個異常文本進(jìn)行編碼,得到t個異常文本向量。最后,可根據(jù)k個待測文本向量以及t個異常文本向量,生成針對待檢測賬號的檢測結(jié)果。通過上述方式,由于對比學(xué)習(xí)不需要關(guān)注實例上繁瑣的細(xì)節(jié),而是在抽象語義級別的特征空間上學(xué)會對數(shù)據(jù)進(jìn)行區(qū)分,使得模型優(yōu)化更加簡單,且泛化能力更強(qiáng)。因此,使用基于對比學(xué)習(xí)生成的文本編碼模型對待測文本和異常文本進(jìn)行編碼,可以得到質(zhì)量更佳的編碼向量?;诖?,利用更優(yōu)質(zhì)的編碼向量進(jìn)行文本檢測,能夠提升文本檢測的準(zhǔn)確度,進(jìn)而提升賬號檢測的準(zhǔn)確性和可靠性。