最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

互聯(lián)網(wǎng)廣告異常點擊檢測方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程

文檔序號:11250772閱讀:1745來源:國知局
互聯(lián)網(wǎng)廣告異常點擊檢測方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體而言,涉及一種互聯(lián)網(wǎng)廣告異常點擊檢測方法、裝置、設(shè)備及可讀存儲介質(zhì)。



背景技術(shù):

cpc廣告是目前互聯(lián)網(wǎng)中最為常見的一種廣告形式,其為costperclick的英文縮寫,即每次點擊付費廣告,當(dāng)用戶點擊某個投放廣告的媒體網(wǎng)站上的cpc廣告后,該媒體網(wǎng)站即會獲得相應(yīng)的廣告收入。隨著cpc廣告投放量越來越大,一些媒體網(wǎng)站為了獲取更大利益,使用軟件模擬正常用戶的廣告點擊行為。這些虛假點擊不能為廣告主實現(xiàn)利益轉(zhuǎn)化,確需要廣告主付費,損害了廣告主的利益,且不利于廣告生態(tài)的健康有序發(fā)展。

目前通常采用通過專家經(jīng)驗確立規(guī)則或者通過簡單統(tǒng)計方法來識別互聯(lián)網(wǎng)廣告的異常點擊行為。但這兩種方法在使用中均存在局限性,如根據(jù)專家經(jīng)驗確立的規(guī)則過于固化,無法適應(yīng)作弊手段的變化;而簡單統(tǒng)計方法處理數(shù)據(jù)空間有限,不能利于海量數(shù)據(jù)多維度精細化的分析。

在所述背景技術(shù)部分公開的上述信息僅用于加強對本發(fā)明的背景的理解,因此它可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明提供一種互聯(lián)網(wǎng)廣告異常點擊檢測方法、裝置、設(shè)備及可讀存儲介質(zhì),能夠有效實現(xiàn)異常點擊的自動檢測。

本發(fā)明的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本發(fā)明的實踐而習(xí)得。

根據(jù)本發(fā)明的一方面,提供一種互聯(lián)網(wǎng)廣告異常點擊檢測方法,包括:從多條日志數(shù)據(jù)中分別篩選出廣告點擊量大于一預(yù)設(shè)的第一閾值的多個樣本數(shù)據(jù),所述樣本數(shù)據(jù)為基于不同維度聚合后的點擊量數(shù)據(jù);根據(jù)所述多個樣本數(shù)據(jù),基于配置化文件,分別確定相應(yīng)維度的各統(tǒng)計特征的特征值;建立所述各統(tǒng)計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差;以及根據(jù)所述各統(tǒng)計特征的特征值的第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差,分別判斷所述多個樣本數(shù)據(jù)是否異常;其中,所述配置化文件包括用于確定所述各統(tǒng)計特征的特征值的計算算子。

根據(jù)本發(fā)明的一實施方式,根據(jù)所述各統(tǒng)計特征的特征值的第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差,分別判斷所述多個樣本數(shù)據(jù)是否異常包括:針對各統(tǒng)計特征i,去除所述多個樣本數(shù)據(jù)中其統(tǒng)計特征i的特征值小于u(i)-2*σ(i)或者大于u(i)+2*σ(i)的樣本數(shù)據(jù),其中u(i)為統(tǒng)計特征i的特征值的第一高斯分布的第一均值,σ(i)為統(tǒng)計特征i的特征值的第一高斯分布的第一標(biāo)準(zhǔn)差;根據(jù)剩余的所述樣本數(shù)據(jù),分別重新建立相應(yīng)維度的各統(tǒng)計特征i的特征值的第二高斯分布,并重新獲得各第二高斯分布的第二均值u2(i)和第二標(biāo)準(zhǔn)差σ2(i);確定各統(tǒng)計特征i的特征值的第二高斯分布中的第一分位點概率密度cp(i)、第二分位點概率密度bp(i)及第三分位點概率密度ap(i);分別確定所有統(tǒng)計特征的所述第一分位點概率密度的乘積cp、所述第二分位點概率密度的乘積bp及所述第三分位點概率密度的乘積ap;分別計算各樣本數(shù)據(jù)的所有統(tǒng)計特征的特征值的乘積y;以及根據(jù)cp、bp、ap及各樣本數(shù)據(jù)的y,分別判斷各樣本數(shù)據(jù)是否異常。

根據(jù)本發(fā)明的一實施方式,根據(jù)cp、bp、ap及y,分別判斷各樣本數(shù)據(jù)是否異常包括:當(dāng)所述樣本數(shù)據(jù)的y小于cp時,確定該樣本數(shù)據(jù)為極端異常;當(dāng)所述樣本數(shù)據(jù)的y小于bp時,確定該樣本數(shù)據(jù)為嚴(yán)重異常;當(dāng)所述樣本數(shù)據(jù)的y小于ap時,確定該樣本數(shù)據(jù)為一般異常。

根據(jù)本發(fā)明的一實施方式,上述方法還包括:根據(jù)各樣本數(shù)據(jù)相應(yīng)維度的各統(tǒng)計特征的特征值及各統(tǒng)計特征的特征值的第二高斯分布,分別對各條日志數(shù)據(jù)進行離線標(biāo)注,獲得各條日志數(shù)據(jù)的標(biāo)注結(jié)果,以確定各條日志中的離線點擊是否異常;對各條日志數(shù)據(jù)中的所述離線點擊的基礎(chǔ)特征與所述標(biāo)注結(jié)果之間的關(guān)系進行學(xué)習(xí),獲得訓(xùn)練生成模型;以及根據(jù)所述訓(xùn)練生成模型,對實時點擊是否為異常點擊進行實時判斷。

根據(jù)本發(fā)明的一實施方式,根據(jù)各樣本數(shù)據(jù)相應(yīng)維度的各統(tǒng)計特征的特征值及各統(tǒng)計特征的特征值的第二高斯分布,分別對各條日志數(shù)據(jù)進行離線標(biāo)注,獲得各條日志數(shù)據(jù)的標(biāo)注結(jié)果,以確定各條日志中的離線點擊是否異常包括:分別對各條日志數(shù)據(jù)執(zhí)行如下操作:確定各統(tǒng)計特征的特征值;根據(jù)各統(tǒng)計特征的特征值及其第二高斯分布的第二均值u2(i)及第二標(biāo)準(zhǔn)差σ2(i),確定各統(tǒng)計特征的異常度分?jǐn)?shù)為:

確定該條日志數(shù)據(jù)的總異常度為各統(tǒng)計特征的異常度分?jǐn)?shù)的加和;以及當(dāng)所述總異常度大于一預(yù)設(shè)的第二閾值時,判斷所述離線點擊為異常點擊;當(dāng)所述總異常度小于所述第二閾值時,判斷所述離線點擊為正常點擊;其中,score(i)為統(tǒng)計特征i的所述異常度分?jǐn)?shù),fval(i)為統(tǒng)計特征i的所述特征值。

根據(jù)本發(fā)明的一實施方式,根據(jù)所述訓(xùn)練生成模型,對實時點擊是否為異常點擊進行實時判斷包括:解析所述實時點擊的基礎(chǔ)特征;根據(jù)所述實時點擊的基礎(chǔ)特征與所述訓(xùn)練生成模型,確定一預(yù)估值,所述預(yù)估值的區(qū)間為[0,1];以及當(dāng)所述預(yù)估值大于一預(yù)設(shè)的第三閾值時,判斷所述實時點擊為異常點擊;當(dāng)所述預(yù)估值小于或等于所述第三閾值時,判斷所述實時點擊為正常點擊。

根據(jù)本發(fā)明的一實施方式,所述基礎(chǔ)特征包括:廣告位id、ip地址、點擊時間。

根據(jù)本發(fā)明的一實施方式,所述維度包括:廣告位維度、ip地址維度。

根據(jù)本發(fā)明的另一個方面,提供一種互聯(lián)網(wǎng)廣告異常點擊檢測裝置,包括:樣本提取模塊,用于從多條日志數(shù)據(jù)中分別篩選出廣告點擊量大于一預(yù)設(shè)的第一閾值的多個樣本數(shù)據(jù),所述樣本數(shù)據(jù)為基于不同維度聚合后的點擊量數(shù)據(jù);特征值確定模塊,用于根據(jù)所述多個樣本數(shù)據(jù),基于配置化文件,分別確定相應(yīng)維度的各統(tǒng)計特征的特征值;分布建立模塊,用于建立所述各統(tǒng)計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差;以及異常判斷模塊,用于根據(jù)所述各統(tǒng)計特征的特征值的第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差,分別判斷所述多個樣本數(shù)據(jù)是否異常;其中,所述配置化文件包括用于確定所述各統(tǒng)計特征的特征值的計算算子。

根據(jù)本發(fā)明的再一個方面,提供一種計算機設(shè)備,包括:存儲器、處理器及存儲在所述存儲器中并可在所述處理器中運行的可執(zhí)行指令,所述處理器執(zhí)行所述可執(zhí)行指令時實現(xiàn)如上述任意一種方法。

根據(jù)本發(fā)明的再一個方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機可執(zhí)行指令,所述可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)如上述任意一種方法。

根據(jù)本發(fā)明實施方式的互聯(lián)網(wǎng)廣告異常點擊檢測方法,通過配置文件,可實現(xiàn)統(tǒng)計特征的特征值提取的自動化及點擊量分布生成的自動化,從而根據(jù)自動生成的點擊量的分布來實現(xiàn)異常點擊的檢測。此外,通過對統(tǒng)計特征中使用到的算子的配置,可以靈活的對統(tǒng)計特征進行擴展,實現(xiàn)新特征的無縫接入。

另外,根據(jù)一些實施方式,本發(fā)明的互聯(lián)網(wǎng)廣告異常點擊檢測方法,利用離線高斯異常檢測的結(jié)果,進一步提供對實時點擊的異常檢測,一方面提供了更為精細粒度的檢測方法,另一方面滿足了對應(yīng)實時計費的檢測需求。

應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性的,并不能限制本發(fā)明。

附圖說明

通過參照附圖詳細描述其示例實施例,本發(fā)明的上述和其它目標(biāo)、特征及優(yōu)點將變得更加顯而易見。

圖1是根據(jù)一示例性實施方式示出的一種互聯(lián)網(wǎng)廣告異常點擊檢測系統(tǒng)的框圖。

圖2是根據(jù)一示例性實施方式示出的一種互聯(lián)網(wǎng)廣告異常點擊檢測方法的流程圖。

圖3是根據(jù)圖2所示的互聯(lián)網(wǎng)廣告異常點擊檢測方法的一示例性實施例的流程圖。

圖4是根據(jù)一示例性實施方式示出的又一種互聯(lián)網(wǎng)廣告異常點擊檢測方法的流程圖。

圖5是根據(jù)圖4所示的互聯(lián)網(wǎng)廣告異常點擊檢測方法的一示例性實施例的流程圖。

圖6是根據(jù)圖4所示的互聯(lián)網(wǎng)廣告異常點擊檢測方法的另一示例性實施例的流程圖。

圖7是根據(jù)一示例性實施方式示出的一種互聯(lián)網(wǎng)廣告異常點擊檢測裝置的框圖。

圖8是根據(jù)一示例性實施方式示出的一種計算機系統(tǒng)的結(jié)構(gòu)示意圖。

具體實施方式

現(xiàn)在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實施方式使得本發(fā)明將更加全面和完整,并將示例實施方式的構(gòu)思全面地傳達給本領(lǐng)域的技術(shù)人員。附圖僅為本發(fā)明的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對它們的重復(fù)描述。

此外,所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個或更多實施方式中。在下面的描述中,提供許多具體細節(jié)從而給出對本發(fā)明的實施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識到,可以實踐本發(fā)明的技術(shù)方案而省略所述特定細節(jié)中的一個或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細示出或描述公知結(jié)構(gòu)、方法、裝置、實現(xiàn)或者操作以避免喧賓奪主而使得本發(fā)明的各方面變得模糊。

本發(fā)明實施方式的互聯(lián)網(wǎng)廣告異常點擊檢測方法,可應(yīng)用于廣告主的后臺服務(wù)器中。當(dāng)用戶點擊媒體網(wǎng)站中廣告主投放的廣告后,其會自動鏈接到廣告主的網(wǎng)頁中,廣告主可以基于不同的媒體網(wǎng)站(即廣告位)和/或用戶的ip地址等信息對點擊進行不同維度的統(tǒng)計,從而實現(xiàn)對異常點擊的檢測。廣告主的后臺服務(wù)器可以為單一的一臺服務(wù)器,也可以為分布式的服務(wù)器群,本發(fā)明不以此為限。

圖1是根據(jù)一示例性實施方式示出的一種互聯(lián)網(wǎng)廣告異常點擊檢測系統(tǒng)的框圖。如圖1所示,該系統(tǒng)1包括:離線模塊11及在線模塊12。其中離線模塊11主要負責(zé)通過對離線的日志數(shù)據(jù)中的點擊量進行統(tǒng)計,并采用高斯異常檢測來對離線點擊進行異常檢測及等級劃分等;此外,為了更細粒度以及實時的異常點擊檢測,離線模塊11進一步對高斯異常檢測時建立的分布進行離線標(biāo)注、模型訓(xùn)練,從而生成模型文件。在線模塊12通過離線模塊11所生成的模型文件對實時點擊進行異常檢測。

基于該系統(tǒng),下面具體說明本發(fā)明的方法實施方式。

圖2是根據(jù)一示例性實施方式示出的一種互聯(lián)網(wǎng)廣告異常點擊檢測方法的流程圖。參考圖1及圖2,方法10例如可以由離線模塊11實現(xiàn),方法10包括:

在步驟s102中,從多條日志數(shù)據(jù)中分別篩選出廣告點擊量大于一預(yù)設(shè)的第一閾值的多個樣本數(shù)據(jù),所述樣本數(shù)據(jù)為基于不同維度聚合后的點擊量數(shù)據(jù)。

為了保證統(tǒng)計特征計算的有效性,需要選取出的樣本數(shù)據(jù)中的廣告點擊量滿足大于第一閾值的要求。此外,該樣本數(shù)據(jù)中為基于不同維度聚合后的點擊量數(shù)據(jù),不同維度例如可以包括:廣告位維度、點擊用戶的ip地址維度等。也即該樣本數(shù)據(jù)可以為來自同一廣告位的點擊量數(shù)據(jù)的聚合,或者為來自同一ip地址的點擊量數(shù)據(jù)的聚合。

第一閾值在實際應(yīng)用中可根據(jù)實際需求而設(shè)定,在此不做限定。

在步驟s104中,根據(jù)多個樣本數(shù)據(jù),基于配置化文件,分別確定相應(yīng)維度的各統(tǒng)計特征的特征值。

統(tǒng)計特征通??梢猿橄鬄槿悾簡稳罩咎卣?、聚合特征及組合特征。其中不同的聚合特征具有不同的計算方式,為了實現(xiàn)特征提取的配置化,可以將特征的計算過程抽象為不同的算子,每一算子對應(yīng)一種計算方式,例如:count算子,用于計算點擊數(shù)量;sum算子,用于計算點擊量的代數(shù)和;ratio算子,用于計算比例;max算子,用于計算最大值;min算子,用于計算最小值;avg算子,用于計算平均值;distinct算子,用于計算不同元素的個數(shù);topnratio算子,用于計算topn元素占比總和。如可以通過topnratio算子計算同一廣告位中統(tǒng)計特征pos_userid_top5的特征值,即計算top5的用戶id的點擊占總點擊量的比例。

通過在配置文件中通過指定算子、字段列等,使得離線模塊11可以通過加載配置文件獲得對應(yīng)的特征值。

在步驟s106中,建立各統(tǒng)計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差。

針對每個統(tǒng)計特征,如統(tǒng)計特征i,分別計算不同樣本數(shù)據(jù)的該統(tǒng)計特征的特征值,并根據(jù)不同的特征值,建立該統(tǒng)計特征的第一高斯分布,并計算的到該第一高斯分布的第一均值u(i)及第一標(biāo)準(zhǔn)差σ(i)。

在步驟s108中,根據(jù)各統(tǒng)計特征的特征值的第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差,分別判斷多個樣本數(shù)據(jù)是否異常。

根據(jù)本發(fā)明實施方式的互聯(lián)網(wǎng)廣告異常點擊檢測方法,通過配置文件,可實現(xiàn)統(tǒng)計特征的特征值提取的自動化及點擊量分布生成的自動化,從而根據(jù)自動生成的點擊量的分布來實現(xiàn)異常點擊的檢測。此外,通過對統(tǒng)計特征中使用到的算子的配置,可以靈活的對統(tǒng)計特征進行擴展,實現(xiàn)新特征的無縫接入。

應(yīng)清楚地理解,本發(fā)明描述了如何形成和使用特定示例,但本發(fā)明的原理不限于這些示例的任何細節(jié)。相反,基于本發(fā)明公開的內(nèi)容的教導(dǎo),這些原理能夠應(yīng)用于許多其它實施方式。

圖3是根據(jù)圖2所示的互聯(lián)網(wǎng)廣告異常點擊檢測方法的一示例性實施例的流程圖。圖3進一步為圖2中所示的步驟s108提供了一種實施方法,如圖3所示,步驟s108包括:

在步驟s1082中,針對各統(tǒng)計特征i,去除多個樣本數(shù)據(jù)中其統(tǒng)計特征i的特征值小于u(i)-2*σ(i)或者大于u(i)+2*σ(i)的樣本數(shù)據(jù)。

其中u(i)為統(tǒng)計特征i的特征值的第一高斯分布的第一均值,σ(i)為統(tǒng)計特征i的特征值的第一高斯分布的第一標(biāo)準(zhǔn)差。

在步驟s1084中,根據(jù)剩余的樣本數(shù)據(jù),分別重新建立相應(yīng)維度的各統(tǒng)計特征i的特征值的第二高斯分布,并重新獲得各第二高斯分布的第二均值u2(i)和第二標(biāo)準(zhǔn)差σ2(i)。

在步驟s1086中,確定各統(tǒng)計特征i的特征值的第二高斯分布中的第一分位點概率密度cp(i)、第二分位點概率密度bp(i)及第三分位點概率密度ap(i)。

其中,第一分位點例如可以為0.0001分位點,第二分位點例如可以為0.0125分位點,第三分位點例如可以為0.025分位點。

在步驟s1088中,分別確定所有統(tǒng)計特征的第一分位點概率密度的乘積cp、第二分位點概率密度的乘積bp及第三分位點概率密度的乘積ap。

設(shè)共有n個統(tǒng)計特征,則即cp=cp(1)*cp(2)*......*cp(n),bp=bp(1)*bp(2)*......*bp(n),ap=ap(1)*ap(2)*......*ap(n)。

在步驟s1090中,分別計算各樣本數(shù)據(jù)的所有統(tǒng)計特征的特征值的乘積y。

即y=x(1)*x(2)*......*x(n),其中x(i)為統(tǒng)計特征i的特征值。

在步驟s1092中,根據(jù)cp、bp、ap及各樣本數(shù)據(jù)的y,分別判斷各樣本數(shù)據(jù)是否異常。

例如,當(dāng)某一樣本數(shù)據(jù)的y小于cp時,確定該樣本數(shù)據(jù)為極端異常;當(dāng)某一樣本數(shù)據(jù)的y小于bp時,確定該樣本數(shù)據(jù)為嚴(yán)重異常;當(dāng)某一樣本數(shù)據(jù)的y小于ap時,確定該樣本數(shù)據(jù)為一般異常。

在上述高斯異常檢測中,可以對不同維度如廣告位、ip地址等的統(tǒng)計特征進行判斷,從而確定樣本數(shù)據(jù)是否異常。但一個廣告位上可能只有部分流量是作弊的,其他流量是正常的,為了進行更細粒度的檢測及實時檢測,本發(fā)明實施方式進一步提供了基于高斯異常檢測的實時檢測方法。

圖4是根據(jù)一示例性實施方式示出的又一種互聯(lián)網(wǎng)廣告異常點擊檢測方法的流程圖。與圖2所示的方法10不同之處在于,圖4所示的方法20在方法10的基礎(chǔ)上,還包括:

在步驟202中,根據(jù)各樣本數(shù)據(jù)相應(yīng)維度的各統(tǒng)計特征的特征值及各統(tǒng)計特征的特征值的第二高斯分布,分別對各條日志數(shù)據(jù)進行離線標(biāo)注,獲得各條日志數(shù)據(jù)的標(biāo)注結(jié)果,以確定各條日志中的離線點擊是否異常。

離線標(biāo)注需要使用高斯異常檢測時所建立的各統(tǒng)計特征的特征值的高斯分布,從而為離線點擊根據(jù)高斯異常檢測時建立的分布進行標(biāo)注,獲得各條日志數(shù)據(jù)的標(biāo)注結(jié)果,以確定各條日志中的離線點擊是否異常。

在步驟s204中,對各條日志數(shù)據(jù)中的離線點擊的基礎(chǔ)特征與標(biāo)注結(jié)果之間的關(guān)系進行學(xué)習(xí),獲得訓(xùn)練生成模型。

通過離線標(biāo)注能夠離線的識別點擊是否作弊,但廣告點擊是實時扣費的,需要實時的判斷點擊是否為異常點擊。實時的點擊日志里只有基礎(chǔ)特征,如包括:廣告位id、ip地址、點擊時間等,沒有離線標(biāo)注中用到的聚合特征。因此,需要一個模型能學(xué)習(xí)到基礎(chǔ)特征與異常點擊檢測(即標(biāo)注結(jié)果)之間的關(guān)系。

具體地,在進行上述離線標(biāo)注后,提取離線點擊的基礎(chǔ)特征,例如使用深度神經(jīng)網(wǎng)絡(luò)模型(deepneutralnetwork,dnn)進行學(xué)習(xí)基礎(chǔ)特征與標(biāo)注結(jié)果的關(guān)。深度神經(jīng)網(wǎng)絡(luò)模型是現(xiàn)有的比較成熟的技術(shù),theano、tensorflow等開源框架都有提供,為了避免模糊本發(fā)明,對利用深度神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)的說明不再贅述。

在步驟s206中,根據(jù)訓(xùn)練生成模型,對實時點擊是否為異常點擊進行實時判斷。

該步驟可以由圖1中實時在線模塊12實施,其利用離線模塊11生成的訓(xùn)練生成模型,對實時點擊是否為異常點擊進行實時判斷。

根據(jù)本發(fā)明實施方式的互聯(lián)網(wǎng)廣告異常點擊檢測方法,利用離線高斯異常檢測的結(jié)果,進一步提供對實時點擊的異常檢測,一方面提供了更為精細粒度的檢測方法,另一方面滿足了對應(yīng)實時計費的檢測需求。

圖5是根據(jù)圖4所示的互聯(lián)網(wǎng)廣告異常點擊檢測方法的一示例性實施例的流程圖。圖5進一步為圖4中所示的步驟s202提供了一種實施方法,如圖5所示,步驟s202包括:分別對各條日志數(shù)據(jù)執(zhí)行如下操作:

在步驟s2022中,確定各統(tǒng)計特征的特征值。

在步驟s2024中,根據(jù)各統(tǒng)計特征的特征值及其第二高斯分布的第二均值u2(i)及第二標(biāo)準(zhǔn)差σ2(i),確定各統(tǒng)計特征的異常度分?jǐn)?shù)為:

其中,score(i)為統(tǒng)計特征i的異常度分?jǐn)?shù),fval(i)為統(tǒng)計特征i的特征值。

在步驟s2026中,確定該條日志數(shù)據(jù)的總異常度為各統(tǒng)計特征的異常度分?jǐn)?shù)的加和。

其中n為統(tǒng)計特征的數(shù)量。

在步驟s2028中,當(dāng)總異常度大于一預(yù)設(shè)的第二閾值時,判斷離線點擊為異常點擊;當(dāng)總異常度小于第二閾值時,判斷所述離線點擊為正常點擊。

第二閾值的取值在實際應(yīng)用中可根據(jù)實際需求而設(shè)定,在此不做限定。

圖6是根據(jù)圖4所示的互聯(lián)網(wǎng)廣告異常點擊檢測方法的另一示例性實施例的流程圖。圖6進一步為圖4中所示的步驟s202提供了一種實施方法,圖6可以由圖1所示的在線模塊12實施,如圖6所示,步驟s206包括:

在步驟s2062中,解析實時點擊的基礎(chǔ)特征。

基礎(chǔ)特征如廣告位id、ip地址、點擊時間等。

在步驟s2064中,根據(jù)實時點擊的基礎(chǔ)特征與訓(xùn)練生成模型,確定一預(yù)估值,預(yù)估值的區(qū)間為[0,1]。

在步驟s2066中,當(dāng)預(yù)估值大于一預(yù)設(shè)的第三閾值時,判斷實時點擊為異常點擊;當(dāng)預(yù)估值小于或等于第三閾值時,判斷實時點擊為正常點擊。

第三閾值例如可以為0.5,但本發(fā)明不以此為限,在實際應(yīng)用中第三閾值可根據(jù)實際需求而具體設(shè)定。

本領(lǐng)域技術(shù)人員可以理解實現(xiàn)上述實施方式的全部或部分步驟被實現(xiàn)為由cpu執(zhí)行的計算機程序。在該計算機程序被cpu執(zhí)行時,執(zhí)行本發(fā)明提供的上述方法所限定的上述功能。所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。

此外,需要注意的是,上述附圖僅是根據(jù)本發(fā)明示例性實施方式的方法所包括的處理的示意性說明,而不是限制目的。易于理解,上述附圖所示的處理并不表明或限制這些處理的時間順序。另外,也易于理解,這些處理可以是例如在多個模塊中同步或異步執(zhí)行的。

下述為本發(fā)明裝置實施例,可以用于執(zhí)行本發(fā)明方法實施例。對于本發(fā)明裝置實施例中未披露的細節(jié),請參照本發(fā)明方法實施例。

圖7是根據(jù)一示例性實施方式示出的一種互聯(lián)網(wǎng)廣告異常點擊檢測裝置的框圖。如圖7所示,裝置30包括:樣本提取模塊302、特征值確定模塊304、分布建立模塊306及異常判斷模塊308。

其中,樣本提取模塊302用于從多條日志數(shù)據(jù)中分別篩選出廣告點擊量大于一預(yù)設(shè)的第一閾值的多個樣本數(shù)據(jù),所述樣本數(shù)據(jù)為基于不同維度聚合后的點擊量數(shù)據(jù)。

特征值確定模塊304用于根據(jù)所述多個樣本數(shù)據(jù),基于配置化文件,分別確定相應(yīng)維度的各統(tǒng)計特征的特征值。

所述配置化文件包括用于確定所述各統(tǒng)計特征的特征值的計算算子。

分布建立模塊306用于建立所述各統(tǒng)計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差。

異常判斷模塊308用于根據(jù)所述各統(tǒng)計特征的特征值的第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差,分別判斷所述多個樣本數(shù)據(jù)是否異常。

在一些實施例中,異常判斷模塊308包括:樣本去除子模塊、分布建立子模塊、概率密度確定子模塊、第一乘積確定子模塊、第二乘積確定子模塊及異常檢測子模塊。其中,樣本去除子模塊用于針對各統(tǒng)計特征i,去除所述多個樣本數(shù)據(jù)中其統(tǒng)計特征i的特征值小于u(i)-2*σ(i)或者大于u(i)+2*σ(i)的樣本數(shù)據(jù),其中u(i)為統(tǒng)計特征i的特征值的第一高斯分布的第一均值,σ(i)為統(tǒng)計特征i的特征值的第一高斯分布的第一標(biāo)準(zhǔn)差;分布建立子模塊用于根據(jù)剩余的所述樣本數(shù)據(jù),分別重新建立相應(yīng)維度的各統(tǒng)計特征i的特征值的第二高斯分布,并重新獲得各第二高斯分布的第二均值u2(i)和第二標(biāo)準(zhǔn)差σ2(i);概率密度確定子模塊用于確定各統(tǒng)計特征i的特征值的第二高斯分布中的第一分位點概率密度cp(i)、第二分位點概率密度bp(i)及第三分位點概率密度ap(i);第一乘積確定子模塊用于分別確定所有統(tǒng)計特征的所述第一分位點概率密度的乘積cp、所述第二分位點概率密度的乘積bp及所述第三分位點概率密度的乘積ap;第二乘積確定子模塊用于分別計算各樣本數(shù)據(jù)的所有統(tǒng)計特征的特征值的乘積y;異常檢測子模塊用于根據(jù)cp、bp、ap及各樣本數(shù)據(jù)的y,分別判斷各樣本數(shù)據(jù)是否異常。

在一些實施例中,異常檢測子模塊還用于當(dāng)所述樣本數(shù)據(jù)的y小于cp時,確定該樣本數(shù)據(jù)為極端異常;當(dāng)所述樣本數(shù)據(jù)的y小于bp時,確定該樣本數(shù)據(jù)為嚴(yán)重異常;當(dāng)所述樣本數(shù)據(jù)的y小于ap時,確定該樣本數(shù)據(jù)為一般異常。

在一些實施例中,裝置30還包括:離線標(biāo)注模塊、模型訓(xùn)練模塊及實時檢測模塊。其中離線標(biāo)注模塊用于根據(jù)各樣本數(shù)據(jù)相應(yīng)維度的各統(tǒng)計特征的特征值及各統(tǒng)計特征的特征值的第二高斯分布,分別對各條日志數(shù)據(jù)進行離線標(biāo)注,獲得各條日志數(shù)據(jù)的標(biāo)注結(jié)果,以確定各條日志中的離線點擊是否異常;模型訓(xùn)練模塊用于對各條日志數(shù)據(jù)中的所述離線點擊的基礎(chǔ)特征與所述標(biāo)注結(jié)果之間的關(guān)系進行學(xué)習(xí),獲得訓(xùn)練生成模型;實時檢測模塊用于根據(jù)所述訓(xùn)練生成模型,對實時點擊是否為異常點擊進行實時判斷。

在一些實施例中,離線標(biāo)注模塊包括:特征值確定子模塊、異常度確定子模塊、總異常度確定子模塊及點擊判斷子模塊。各子模塊分別對各條日志數(shù)據(jù)執(zhí)行如下操作:特征值確定子模塊用于確定各統(tǒng)計特征的特征值;異常度確定子模塊用于根據(jù)各統(tǒng)計特征的特征值及其第二高斯分布的第二均值u2(i)及第二標(biāo)準(zhǔn)差σ2(i),確定各統(tǒng)計特征的異常度分?jǐn)?shù)為:

其中,score(i)為統(tǒng)計特征i的所述異常度分?jǐn)?shù),fval(i)為統(tǒng)計特征i的所述特征值;總異常度確定子模塊用于確定該條日志數(shù)據(jù)的總異常度為各統(tǒng)計特征的異常度分?jǐn)?shù)的加和;點擊判斷子模塊用于當(dāng)所述總異常度大于一預(yù)設(shè)的第二閾值時,判斷所述離線點擊為異常點擊;當(dāng)所述總異常度小于所述第二閾值時,判斷所述離線點擊為正常點擊。

在一些實施例中,實時檢測模塊包括:基礎(chǔ)特征解析子模塊、預(yù)估值確定子模塊及點擊檢測子模塊。其中,基礎(chǔ)特征解析子模塊用于解析所述實時點擊的基礎(chǔ)特征;預(yù)估值確定子模塊用于根據(jù)所述實時點擊的基礎(chǔ)特征與所述訓(xùn)練生成模型,確定一預(yù)估值,所述預(yù)估值的區(qū)間為[0,1];點擊檢測子模塊用于當(dāng)所述預(yù)估值大于一預(yù)設(shè)的第三閾值時,判斷所述實時點擊為異常點擊;當(dāng)所述預(yù)估值小于或等于所述第三閾值時,判斷所述實時點擊為正常點擊。

需要注意的是,上述附圖中所示的框圖是功能實體,不一定必須與物理或邏輯上獨立的實體相對應(yīng)??梢圆捎密浖问絹韺崿F(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實現(xiàn)這些功能實體。

圖8是根據(jù)一示例性實施方式示出的一種計算機系統(tǒng)的結(jié)構(gòu)示意圖。需要說明的是,圖8示出的計算機系統(tǒng)僅僅是一個示例,不應(yīng)對本申請實施例的功能和使用范圍帶來任何限制。

如圖8所示,計算機系統(tǒng)600包括中央處理單元(cpu)601,其可以根據(jù)存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼T趓am603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。

以下部件連接至i/o接口605:包括鍵盤、鼠標(biāo)等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至i/o接口605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分608。

特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。在該計算機程序被中央處理單元(cpu)601執(zhí)行時,執(zhí)行本申請的系統(tǒng)中限定的上述功能。

需要說明的是,本申請所示的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請中,計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。

附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。

描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括發(fā)送單元、獲取單元、確定單元和第一處理單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,發(fā)送單元還可以被描述為“向所連接的服務(wù)端發(fā)送圖片獲取請求的單元”。

作為另一方面,本申請還提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)可以是上述實施例中描述的設(shè)備中所包含的;也可以是單獨存在,而未裝配入該設(shè)備中。上述計算機可讀介質(zhì)承載有一個或者多個程序,當(dāng)上述一個或者多個程序被一個該設(shè)備執(zhí)行時,使得該設(shè)備包括:

從多條日志數(shù)據(jù)中分別篩選出廣告點擊量大于一預(yù)設(shè)的第一閾值的多個樣本數(shù)據(jù),所述樣本數(shù)據(jù)為基于不同維度聚合后的點擊量數(shù)據(jù);

根據(jù)所述多個樣本數(shù)據(jù),基于配置化文件,分別確定相應(yīng)維度的各統(tǒng)計特征的特征值;

建立所述各統(tǒng)計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差;以及

根據(jù)所述各統(tǒng)計特征的特征值的第一高斯分布的第一均值和第一標(biāo)準(zhǔn)差,分別判斷所述多個樣本數(shù)據(jù)是否異常;

其中,所述配置化文件包括用于確定所述各統(tǒng)計特征的特征值的計算算子。

以上具體地示出和描述了本發(fā)明的示例性實施方式。應(yīng)可理解的是,本發(fā)明不限于這里描述的詳細結(jié)構(gòu)、設(shè)置方式或?qū)崿F(xiàn)方法;相反,本發(fā)明意圖涵蓋包含在所附權(quán)利要求的精神和范圍內(nèi)的各種修改和等效設(shè)置。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1