本申請涉及數(shù)據(jù)處理領域,具體而言,涉及一種異常流量的檢測方法和裝置。
背景技術:
互聯(lián)網(wǎng)廣告就是通過網(wǎng)絡平臺在網(wǎng)絡上投放廣告,利用網(wǎng)站上的廣告條幅、文本鏈接、多媒體的方法,在互聯(lián)網(wǎng)上刊登或發(fā)布廣告,通過網(wǎng)絡傳遞到互聯(lián)網(wǎng)用戶的一種高科技廣告運作方法。與傳統(tǒng)的四大媒體(報紙、雜志、電視、廣播)廣告及戶外廣告相比,互聯(lián)網(wǎng)廣告具有得天獨厚的優(yōu)勢,是實施現(xiàn)代營銷媒體戰(zhàn)略的重要的一部分。
對于廣告主在互聯(lián)網(wǎng)廣告平臺上投放的廣告,互聯(lián)網(wǎng)用戶的訪問情況是評價一個廣告效果的重要指標,如廣告的曝光量、點擊量、訪客的訪問量、訪問時長、訪問頁面數(shù)等等。廣告的曝光量、點擊量是廣告媒體收取費用的憑借之一,實際投放中,有不少媒體利用虛假流量來提高廣告主的廣告曝光量和點擊量,從而獲得更多的利益,廣告主就要對沒有任何效果的虛假流量買單,流量作弊對廣告主的利益產(chǎn)生了損害。
針對上述的問題,目前尚未提出有效的解決方案。
技術實現(xiàn)要素:
本申請實施例提供了一種異常流量的檢測方法和裝置,以至少解決現(xiàn)有技術中由于某些訪客流量作弊造成的廣告主利益受損害的技術問題。
根據(jù)本申請實施例的一個方面,提供了一種異常流量的檢測方法,包括:從廣告的監(jiān)測數(shù)據(jù)中提取訪客訪問所述廣告的訪客數(shù)據(jù),其中,所述訪客和所述訪客數(shù)據(jù)均為多個,每個所述訪客數(shù)據(jù)均包括訪客標識和訪問所述廣告的時間信息;從多個所述訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù),其中,所述第一訪客數(shù)據(jù)為多個所述訪客數(shù)據(jù)中時間信息在第一預設時間內的訪客數(shù)據(jù),并且所述第一訪客數(shù)據(jù)的數(shù)量為多個;判斷訪客標識為同一個第一訪客標識的任意兩個所述第一訪客數(shù)據(jù)的時間差是否在第二預設時間內;如果判斷出訪客標識為同一個所述第一訪客標識的相鄰的任意兩個所述第一訪客數(shù)據(jù)的時間差在所述第二預設時間內,從所述第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù), 并確定所述第二訪客為導致流量異常的訪客,其中,所述第二訪客數(shù)據(jù)為滿足第一預設條件的所述第一訪客數(shù)據(jù),所述第一預設條件為訪客標識為同一個所述第一訪客標識的任意兩個所述第一訪客數(shù)據(jù)的時間差在所述第二預設時間內。
進一步地,在從多個所述訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù)之后,所述方法還包括:將所述第一訪客數(shù)據(jù)存儲至第一數(shù)據(jù)庫。
進一步地,在從所述第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù)之后,所述方法還包括:將所述第二訪客數(shù)據(jù)存儲至第二數(shù)據(jù)庫。
進一步地,在從所述第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù)之后,所述方法還包括:根據(jù)所述第二訪客數(shù)據(jù)的時間信息,計算訪客標識相同的所述第二訪客數(shù)據(jù)隨時間的分布。
進一步地,在計算訪客標識相同的所述第二訪客數(shù)據(jù)隨時間的分布之后,所述方法還包括:提取目標訪客的目標時間段,其中,所述目標訪客是所述第二訪客數(shù)據(jù)的訪客標識所標識的訪客,所述目標時間段是滿足第二預設條件的時間段,所述第二預設條件是在所述目標時間段內,所述第二訪客數(shù)據(jù)的個數(shù)大于第一閾值;對多個所述目標訪客的相同的目標時間段的個數(shù)進行求和,得到多個所述目標時間段的數(shù)量;篩選出多個所述目標時間段中數(shù)量大于第二閾值的目標時間段,得到容易產(chǎn)生異常流量的時間段。
根據(jù)本申請實施例的另一方面,提供了一種異常流量的檢測裝置,包括:第一提取單元,用于從廣告的監(jiān)測數(shù)據(jù)中提取訪客訪問所述廣告的訪客數(shù)據(jù),其中,所述訪客和所述訪客數(shù)據(jù)均為多個,每個所述訪客數(shù)據(jù)均包括訪客標識和訪問所述廣告的時間信息;第二提取單元,用于從多個所述訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù),其中,所述第一訪客數(shù)據(jù)為多個所述訪客數(shù)據(jù)中時間信息在第一預設時間內的訪客數(shù)據(jù),并且所述第一訪客數(shù)據(jù)的數(shù)量為多個;判斷單元,用于判斷訪客標識為同一個第一訪客標識的任意兩個所述第一訪客數(shù)據(jù)的時間差是否在第二預設時間內;第三提取單元,用于當判斷出訪客標識為同一個所述第一訪客標識的相鄰的任意兩個所述第一訪客數(shù)據(jù)的時間差在所述第二預設時間內時,從所述第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù),并確定所述第二訪客為導致流量異常的訪客,其中,所述第二訪客數(shù)據(jù)為滿足第一預設條件的所述第一訪客數(shù)據(jù),所述第一預設條件為訪客標識為同一個所述第一訪客標識的任意兩個所述第一訪客數(shù)據(jù)的時間差在所述第二預設時間內。
進一步地,所述裝置還包括:第一存儲單元,用于在所述第二提取單元從多個所述訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù)之后,將所述第一訪客數(shù)據(jù)存儲至第一數(shù)據(jù)庫。
進一步地,所述裝置還包括:第二存儲單元,用于在所述第三提取單元從所述第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù)之后,將所述第二訪客數(shù)據(jù)存儲至第二數(shù)據(jù)庫。
進一步地,所述裝置還包括:第一計算單元,用于在所述第三提取單元從所述第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù)之后,根據(jù)所述第二訪客數(shù)據(jù)的時間信息,計算訪客標識相同的所述第二訪客數(shù)據(jù)隨時間的分布。
進一步地,所述裝置還包括:第四提取單元,用于在所述第一計算單元計算訪客標識相同的所述第二訪客數(shù)據(jù)隨時間的分布之后,提取目標訪客的目標時間段,其中,所述目標訪客是所述第二訪客數(shù)據(jù)的訪客標識所標識的訪客,所述目標時間段是滿足第二預設條件的時間段,所述第二預設條件是在所述目標時間段內,所述第二訪客數(shù)據(jù)的個數(shù)大于第一閾值;第二計算單元,用于對多個所述目標訪客的相同的目標時間段的個數(shù)進行求和,得到多個所述目標時間段的數(shù)量;篩選單元,用于篩選出多個所述目標時間段中數(shù)量大于第二閾值的目標時間段,得到容易產(chǎn)生異常流量的時間段。
在本申請實施例中,采用從廣告的監(jiān)測數(shù)據(jù)中提取訪客訪問廣告的訪客數(shù)據(jù),其中,訪客和訪客數(shù)據(jù)均為多個,每個訪客數(shù)據(jù)均包括訪客標識和訪問廣告的時間信息,從多個訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù),其中,第一訪客數(shù)據(jù)為多個訪客數(shù)據(jù)中時間信息在第一預設時間內的訪客數(shù)據(jù),并且第一訪客數(shù)據(jù)的數(shù)量為多個,判斷訪客標識為同一個第一訪客標識的相鄰的任意兩個第一訪客數(shù)據(jù)的時間差是否在第二預設時間內,如果判斷出訪客標識為同一個第一訪客標識的任意兩個第一訪客數(shù)據(jù)的時間差在第二預設時間內,從第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù),并確定所述第二訪客為導致流量異常的訪客,其中,第二訪客數(shù)據(jù)為滿足第一預設條件的第一訪客數(shù)據(jù),第一預設條件為訪客標識為同一個第一訪客標識的任意兩個第一訪客數(shù)據(jù)的時間差在第二預設時間內。通過提取出指定時間段內的訪客數(shù)據(jù),判斷提取出來的訪客數(shù)據(jù)中,屬于同一個訪客的若干條訪客數(shù)據(jù)中相鄰的任意兩條訪客數(shù)據(jù)的時間差是不是非常短,如果判斷出屬于同一個訪客的若干條訪客數(shù)據(jù)的相鄰的任意兩條訪客數(shù)據(jù)的時間差非常短,那么確定這個訪客為進行了流量作弊的訪客,該訪客產(chǎn)生的流量為作弊流量,即虛假流量,也可以說是異常流量,實現(xiàn)了篩選出進行了流量作弊的訪客的技術效果,進而解決了現(xiàn)有技術中由于某些訪客流量作弊造成的廣告主利益受損害的技術問題。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
圖1是根據(jù)本申請實施例的異常流量的檢測方法的流程圖;
圖2是根據(jù)本申請實施例所提供的異常流量的檢測方法進行異常流量檢測的流程圖;以及
圖3是根據(jù)本申請實施例的異常流量的檢測裝置的示意圖。
具體實施方式
為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本申請保護的范圍。
需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本申請的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產(chǎn)品或設備固有的其它步驟或單元。
根據(jù)本申請實施例,提供了一種異常流量的檢測方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本申請實施例的異常流量的檢測方法的流程圖,如圖1所示,該方法包括如下步驟:
步驟S102,從廣告的監(jiān)測數(shù)據(jù)中提取訪客訪問廣告的訪客數(shù)據(jù),其中,訪客和訪客數(shù)據(jù)均為多個,每個訪客數(shù)據(jù)均包括訪客標識和訪問廣告的時間信息。訪客為多個,一般來說,每個訪客的訪問數(shù)據(jù)也有多個,每個訪客數(shù)據(jù)均包括訪客標識和訪問廣告的時間信息,訪客標識唯一標識了一個訪客。本申請實施例所提供的異常流量的檢測方法,既可以應用于篩選曝光異常的訪客數(shù)據(jù),也可以應用于篩選點擊異常的訪客數(shù)據(jù)。
步驟S104,從多個訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù),其中,第一訪客數(shù)據(jù)為多個訪 客數(shù)據(jù)中時間信息在第一預設時間內的訪客數(shù)據(jù),并且第一訪客數(shù)據(jù)的數(shù)量為多個。提取出訪問時間在指定時間段內的訪客數(shù)據(jù),指定時間段是普通訪客訪問廣告的行為很少發(fā)生的時間段,即第一預設時間,如凌晨00:00:00-06:00:00,凌晨00:00:00-05:00:00,等等,指定時間段可以根據(jù)實際需要進行設置。如果有一個訪客在該指定時間段對廣告進行了訪問,那么該訪客就比較可疑,有可能進行了流量作弊行為,需要進一步判斷。在第一預設時間內產(chǎn)生的訪客數(shù)據(jù)是第一訪客數(shù)據(jù)。
步驟S106,判斷訪客標識為同一個第一訪客標識的相鄰的任意兩個第一訪客數(shù)據(jù)的時間差是否在第二預設時間內。即,如果發(fā)現(xiàn)有一個訪客在指定時間段對廣告進行了訪問,判斷這個訪客產(chǎn)生的訪客數(shù)據(jù)中相鄰的任意兩條訪客數(shù)據(jù)的時間差是否小于一個很短的時間段,如1秒鐘、2秒鐘、3秒鐘,等等,這個很短的時間段即為第二預設時間。
步驟S108,如果判斷出訪客標識為同一個第一訪客標識的任意兩個第一訪客數(shù)據(jù)的時間差在第二預設時間內,從第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù),并確定第二訪客為導致流量異常的訪客,其中,第二訪客數(shù)據(jù)為滿足第一預設條件的第一訪客數(shù)據(jù),第一預設條件為訪客標識為同一個第一訪客標識的任意兩個第一訪客數(shù)據(jù)的時間差在第二預設時間內。
如果判斷出有一個訪客在指定時間段對廣告進行了訪問,且這個訪客的相鄰的任意兩條訪客數(shù)據(jù)的時間差在第二預設時間內,則這個訪客進行了流量作弊行為,此訪客產(chǎn)生的訪問數(shù)據(jù)為作弊流量,也是異常流量。
例如,從廣告的監(jiān)測數(shù)據(jù)中提取出300條訪客數(shù)據(jù),假設第一預設時間為00:00:00-01:00:00,這300條訪客數(shù)據(jù)中有20條訪客數(shù)據(jù)的訪問時間在00:00:00-01:00:00之間,提取出這20條訪客數(shù)據(jù),如表1所示,這20條訪客數(shù)據(jù)即為第一訪客數(shù)據(jù)。這20條訪客數(shù)據(jù)具有4個不同的訪客標識,分別為訪客標識A、訪客標識B、訪客標識C、訪客標識D,也就是說,這20條數(shù)據(jù)是由4個不同的訪客產(chǎn)生的。假設訪客標識A所標識的訪客為訪客甲,訪客標識B所標識的訪客為訪客乙,訪客標識C所標識的訪客為訪客丙,訪客標識D所標識的訪客為訪客丁。
訪客甲產(chǎn)生了3條第一訪客數(shù)據(jù),分別為第一訪客數(shù)據(jù)6、第一訪客數(shù)據(jù)14、第一訪客數(shù)據(jù)19。訪客乙產(chǎn)生了3條第一訪客數(shù)據(jù),分別為第一訪客數(shù)據(jù)7、第一訪客數(shù)據(jù)15、第一訪客數(shù)據(jù)18。訪客丙產(chǎn)生了10條第一訪客數(shù)據(jù),分別為第一訪客數(shù)據(jù)1、第一訪客數(shù)據(jù)2、第一訪客數(shù)據(jù)3、第一訪客數(shù)據(jù)4、第一訪客數(shù)據(jù)5、第一訪客數(shù)據(jù)8、第一訪客數(shù)據(jù)10、第一訪客數(shù)據(jù)11、第一訪客數(shù)據(jù)12、第一訪客數(shù)據(jù)13。訪客丁產(chǎn)生了4條第一訪客數(shù)據(jù),分別為第一訪客數(shù)據(jù)9、第一訪客數(shù)據(jù)16、第一訪客 數(shù)據(jù)17、第一訪客數(shù)據(jù)20。
接下來判斷訪客標識為同一個第一訪客標識的相鄰的任意兩個第一訪客數(shù)據(jù)的時間差是否在第二預設時間內,假設第二預設時間為3秒鐘。由表1可以看出,訪客標識為A的3條第一訪客數(shù)據(jù)中,第一訪客數(shù)據(jù)6的訪問時間為00:03:06、第一訪客數(shù)據(jù)14的訪問時間為00:03:16、第一訪客數(shù)據(jù)19的訪問時間為00:58:35。這3條第一訪客數(shù)據(jù)的相鄰的兩條第一訪客數(shù)據(jù)的時間差大于3秒鐘。同理,可判斷出訪客標識為B的3條第一訪客數(shù)據(jù)相鄰的兩條第一訪客數(shù)據(jù)的時間差大于3秒鐘,訪客標識為D的4條第一訪客數(shù)據(jù)相鄰的兩條第一訪客數(shù)據(jù)的時間差大于3秒鐘。訪客標識為C的10條第一訪客數(shù)據(jù)相鄰的任意兩條第一訪客數(shù)據(jù)的時間差在3秒鐘之內,因此,提取出訪客標識為C的10條第一訪客數(shù)據(jù),這10條第一訪客數(shù)據(jù)即為第二訪客數(shù)據(jù)。
由于普通的訪客很少在00:00:00-01:00:00之間訪問廣告,所以訪客甲、訪客乙、訪客丙和訪客丁都可能進行了流量作弊,但這僅是一種可能性,還需要進行進一步判斷。訪客甲、訪客乙、訪客丁的訪客數(shù)據(jù)的時間差較長,符合正常訪客的行為模式,而訪客丙的訪客數(shù)據(jù)的時間差非常短,正常訪客不會如此頻繁地點擊廣告,所以訪客丙為進行了流量作弊的訪客,訪客丙的訪客數(shù)據(jù)為作弊流量,即虛假流量,也可以稱為異常流量。
虛假流量一般是某些進行了流量作弊行為的訪客在某個特定的時間段頻繁訪問廣告造成的。通過上述實施例,提取出指定時間段內的訪客數(shù)據(jù),判斷提取出來的訪客數(shù)據(jù)中,屬于同一個訪客的若干條訪客數(shù)據(jù)中相鄰的任意兩條訪客數(shù)據(jù)的時間差是不是非常短,如果判斷出屬于同一個訪客的若干條訪客數(shù)據(jù)的相鄰的任意兩條訪客數(shù)據(jù)的時間差非常短,那么確定這個訪客為進行了流量作弊的訪客,該訪客產(chǎn)生的流量為作弊流量,即虛假流量,也可以說是異常流量,實現(xiàn)了篩選出進行了流量作弊的訪客的技術效果,進而解決了現(xiàn)有技術中由于某些訪客流量作弊造成的廣告主利益受損害的技術問題。
表1
可選地,在從多個訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù)之后,本申請實施例所提供的異常流量的檢測方法還包括:將第一訪客數(shù)據(jù)存儲至第一數(shù)據(jù)庫。即,將訪問廣告的訪問時間在指定時間內(第一預設時間)的訪客數(shù)據(jù)存儲至數(shù)據(jù)庫,這些訪客數(shù)據(jù)是可疑的,有可能是虛假流量,需要進一步判斷。
可選地,在從第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù)之后,本申請實施例所提供的異常流量的檢測方法還包括:將第二訪客數(shù)據(jù)存儲至第二數(shù)據(jù)庫。即,將訪問廣告的訪問時間在指定時間內,且相鄰的訪問數(shù)據(jù)的時間差極短的訪客數(shù)據(jù)存儲在數(shù)據(jù)庫中,這些訪客數(shù)據(jù)是虛假流量,產(chǎn)生這些訪客數(shù)據(jù)的訪客進行了流量作弊。
可選地,在從第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù)之后,本申請實施例所提供的異常流量的檢測方法還包括:根據(jù)第二訪客數(shù)據(jù)的時間信息,計算訪客標識相同的第二訪客數(shù)據(jù)隨時間的分布。即,提取出作弊產(chǎn)生的訪客數(shù)據(jù)之后,將訪客標識相同的訪客數(shù)據(jù)歸為一組,為同一個訪客產(chǎn)生。計算出進行了流量作弊行為的訪客的作弊流量隨時間的分布。
例如,計算每一個進行了流量作弊的訪客在00:00:00-05:00:00之間每一分鐘產(chǎn)生的訪客數(shù)據(jù)數(shù)量。再例如,計算每一個進行了流量作弊的訪客在00:00:00-23:59:59之間每一分鐘產(chǎn)生的訪客數(shù)據(jù)數(shù)量。又例如,計算每一個進行了流量作弊的訪客在23:00:00-次日07:00:00之間每一小時產(chǎn)生的訪客數(shù)據(jù)數(shù)量。
可選地,在計算訪客標識相同的第二訪客數(shù)據(jù)隨時間的分布之后,本申請實施例所提供的異常流量的檢測方法還包括:提取目標訪客的目標時間段,其中,目標訪客是第二訪客數(shù)據(jù)的訪客標識所標識的訪客,目標時間段是滿足第二預設條件的時間段, 第二預設條件是在目標時間段內,第二訪客數(shù)據(jù)的個數(shù)大于第一閾值;對多個目標訪客的相同的目標時間段的個數(shù)進行求和,得到多個目標時間段的數(shù)量;篩選出多個目標時間段中數(shù)量大于第二閾值的目標時間段,得到容易產(chǎn)生異常流量的時間段。
即,當計算出進行了流量作弊的訪客的訪客數(shù)據(jù)的數(shù)量隨時間的分布關系后,提取出虛假流量大的時間段,即目標時間段,每一個進行了流量作弊的訪客都存在一個或者幾個目標時間段,將多個進行了流量作弊的訪客的目標時間段中相同的目標時間段的個數(shù)進行求和,得到每個目標時間段進行流量作弊的訪客的個數(shù),篩選出那些訪客進行流量作弊行為集中的時間段。
例如,提取出的第二訪客數(shù)據(jù)的訪客標識所標識的訪客有10個,分別為訪客1、訪客2、訪客3、訪客4、訪客5、訪客6、訪客7、訪客8、訪客9、訪客10。
計算這10個訪客在00:00:00-05:00:00之間的每一小時的訪客數(shù)據(jù)的數(shù)量,得到表2。
表2
假設訪客訪問數(shù)據(jù)數(shù)量最多的3個時間段為目標時間段,則由表2可以看出:
訪客1的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。
訪客2的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。
訪客3的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。
訪客4的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。
訪客5的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。
訪客6的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。
訪客7的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。
訪客8的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。
訪客9的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。
訪客10的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。
時間段00:00:01-01:00:00為訪客1、訪客2、訪客3、訪客4、訪客5、訪客6、訪客7、訪客8、訪客9、訪客10的目標時間段,所以目標時間段00:00:01-01:00:00的個數(shù)為10,同理,目標時間段01:00:01-02:00:00的個數(shù)為10,目標時間段02:00:01-03:00:00的個數(shù)為4,目標時間段03:00:01-04:00:00的個數(shù)為3,目標時間段04:00:01-05:00:00的個數(shù)為3。
篩選出這5個目標時間段中個數(shù)大于5的目標時間段,得到目標時間段00:00:01-01:00:00和目標時間段01:00:01-02:00:00。則時間段00:00:01-01:00:00和時間段01:00:01-02:00:00是異常流量高發(fā)時段,也就是說,作弊流量的相當大的一部分都發(fā)生在這個時間,也可以說,這個時間產(chǎn)生的流量不能真實地反映訪客對廣告所推銷的產(chǎn)品的需求。
圖2是根據(jù)本申請實施例所提供的異常流量的檢測方法進行異常流量檢測的流程圖。如圖2所示,在進行異常流量的檢測過程中,主要包括以下步驟:
步驟S202,在廣告平臺部署廣告監(jiān)測代碼。
步驟S204,獲取訪客訪問廣告的訪客數(shù)據(jù)。步驟S204與上述步驟S102的具體實施方式相同,不再贅述。
步驟S206,判斷任意訪客數(shù)據(jù)的訪問時間是否在00:00:00-05:00:00之間。如果判斷出訪客數(shù)據(jù)的訪問時間在00:00:00-05:00:00之間,執(zhí)行步驟S208;如果判斷出訪客數(shù)據(jù)的訪問時間不在00:00:00-05:00:00之間,執(zhí)行步驟S220。步驟S206與上述步驟S104的具體實施方式相同。
步驟S208,將訪客數(shù)據(jù)存儲至數(shù)據(jù)庫1。
步驟S210,判斷同一個user id的相鄰的任意兩條訪客數(shù)據(jù)的時間差是否在0-3s之內。如果判斷出同一個user id的相鄰的任意兩條訪客數(shù)據(jù)的時間差在0-3s之內,執(zhí)行步驟S212;如果判斷出同一個user id的相鄰的任意兩條訪客數(shù)據(jù)的時間差不都在0-3s之內,執(zhí)行步驟S220。步驟S210與上述步驟S106、步驟S108的具體實施方式相同。
步驟S212,將此user id的訪客數(shù)據(jù)存儲至數(shù)據(jù)庫2。
步驟S214,計算00:00:01-05:00:00之間每分鐘同一個user id的訪客數(shù)據(jù)的數(shù)量。
步驟S216,對于同一個user id,以分鐘為單位,提取出訪客數(shù)量排在前10位的時間段,并存儲至數(shù)據(jù)庫4。
步驟S218,通過計算同一時間段不同user id的數(shù)量,提取出user id的數(shù)量最多的5個時間段,得到容易產(chǎn)生異常流量的時間。
步驟S220,將訪客數(shù)據(jù)存儲至數(shù)據(jù)庫3。
虛假流量一般是某些進行了流量作弊行為的訪客在某個特定的時間段頻繁訪問廣告造成的。通過上述實施例,提取出指定時間段內的訪客數(shù)據(jù),判斷提取出來的訪客數(shù)據(jù)中,屬于同一個訪客的若干條訪客數(shù)據(jù)中相鄰的任意兩條訪客數(shù)據(jù)的時間差是不是非常短,如果判斷出屬于同一個訪客的若干條訪客數(shù)據(jù)的相鄰的任意兩條訪客數(shù)據(jù)的時間差非常短,那么確定這個訪客為進行了流量作弊的訪客,該訪客產(chǎn)生的流量為作弊流量,即虛假流量,也可以說是異常流量,計算進行了流量作弊的訪客在單位時間產(chǎn)生的作弊流量,計算出作弊訪客的作弊流量隨時間的分布,提取出每個作弊訪客作弊流量集中的時間段,對這些時間段的作弊訪客的個數(shù)進行匯總,經(jīng)過篩選得到異常流量高發(fā)時段,實現(xiàn)了篩選出進行了流量作弊的訪客,判斷出異常流量高發(fā)時段的技術效果,進而解決了現(xiàn)有技術中由于某些訪客流量作弊造成的廣告主利益受損害的 技術問題。
根據(jù)本發(fā)明實施例,還提供了一種異常流量的檢測裝置。該異常流量的檢測裝置可以執(zhí)行上述異常流量的檢測方法,上述異常流量的檢測方法也可以通過該異常流量的檢測裝置實施。
圖3是根據(jù)本申請實施例的異常流量的檢測裝置的示意圖。如圖3所示,該異常流量的檢測裝置包括第一提取單元32、第二提取單元34、判斷單元36和第三提取單元38。
第一提取單元32用于從廣告的監(jiān)測數(shù)據(jù)中提取訪客訪問廣告的訪客數(shù)據(jù),其中,訪客和訪客數(shù)據(jù)均為多個,每個訪客數(shù)據(jù)均包括訪客標識和訪問廣告的時間信息。訪客為多個,一般來說,每個訪客的訪問數(shù)據(jù)也有多個,每個訪客數(shù)據(jù)均包括訪客標識和訪問廣告的時間信息,訪客標識唯一標識了一個訪客。本申請實施例所提供的異常流量的檢測裝置,既可以應用于篩選曝光異常的訪客數(shù)據(jù),也可以應用于篩選點擊異常的訪客數(shù)據(jù)。
第二提取單元34用于從多個訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù),其中,第一訪客數(shù)據(jù)為多個訪客數(shù)據(jù)中時間信息在第一預設時間內的訪客數(shù)據(jù),并且第一訪客數(shù)據(jù)的數(shù)量為多個。提取出訪問時間在指定時間段內的訪客數(shù)據(jù),指定時間段是普通訪客訪問廣告的行為很少發(fā)生的時間段,即第一預設時間,如凌晨00:00:00-06:00:00,凌晨00:00:00-05:00:00,等等,指定時間段可以根據(jù)實際需要進行設置。如果有一個訪客在該指定時間段對廣告進行了訪問,那么該訪客就比較可疑,有可能進行了流量作弊行為,需要進一步判斷。在第一預設時間內產(chǎn)生的訪客數(shù)據(jù)是第一訪客數(shù)據(jù)。
判斷單元36用于判斷訪客標識為同一個第一訪客標識的任意兩個第一訪客數(shù)據(jù)的時間差是否在第二預設時間內。即,如果發(fā)現(xiàn)有一個訪客在指定時間段對廣告進行了訪問,判斷這個訪客產(chǎn)生的訪客數(shù)據(jù)中相鄰的任意兩條訪客數(shù)據(jù)的時間差是否小于一個很短的時間段,如1秒鐘、2秒鐘、3秒鐘,等等,這個很短的時間段即為第二預設時間。
第三提取單元38用于當判斷出訪客標識為同一個第一訪客標識的相鄰的任意兩個第一訪客數(shù)據(jù)的時間差在第二預設時間內時,從第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù),并確定第二訪客為導致流量異常的訪客,其中,第二訪客數(shù)據(jù)為滿足第一預設條件的第一訪客數(shù)據(jù),第一預設條件為訪客標識為同一個第一訪客標識的任意兩個第一訪客數(shù)據(jù)的時間差在第二預設時間內。
如果判斷出有一個訪客在指定時間段對廣告進行了訪問,且這個訪客的相鄰的任 意兩條訪客數(shù)據(jù)的時間差在第二預設時間內,則這個訪客進行了流量作弊行為,此訪客產(chǎn)生的訪問數(shù)據(jù)為作弊流量,也是異常流量。
例如,從廣告的監(jiān)測數(shù)據(jù)中提取出300條訪客數(shù)據(jù),假設第一預設時間為00:00:00-01:00:00,這300條訪客數(shù)據(jù)中有20條訪客數(shù)據(jù)的訪問時間在00:00:00-01:00:00之間,提取出這20條訪客數(shù)據(jù),如表1所示,這20條訪客數(shù)據(jù)即為第一訪客數(shù)據(jù)。這20條訪客數(shù)據(jù)具有4個不同的訪客標識,分別為訪客標識A、訪客標識B、訪客標識C、訪客標識D,也就是說,這20條數(shù)據(jù)是由4個不同的訪客產(chǎn)生的。假設訪客標識A所標識的訪客為訪客甲,訪客標識B所標識的訪客為訪客乙,訪客標識C所標識的訪客為訪客丙,訪客標識D所標識的訪客為訪客丁。
訪客甲產(chǎn)生了3條第一訪客數(shù)據(jù),分別為第一訪客數(shù)據(jù)6、第一訪客數(shù)據(jù)14、第一訪客數(shù)據(jù)19。訪客乙產(chǎn)生了3條第一訪客數(shù)據(jù),分別為第一訪客數(shù)據(jù)7、第一訪客數(shù)據(jù)15、第一訪客數(shù)據(jù)18。訪客丙產(chǎn)生了10條第一訪客數(shù)據(jù),分別為第一訪客數(shù)據(jù)1、第一訪客數(shù)據(jù)2、第一訪客數(shù)據(jù)3、第一訪客數(shù)據(jù)4、第一訪客數(shù)據(jù)5、第一訪客數(shù)據(jù)8、第一訪客數(shù)據(jù)10、第一訪客數(shù)據(jù)11、第一訪客數(shù)據(jù)12、第一訪客數(shù)據(jù)13。訪客丁產(chǎn)生了4條第一訪客數(shù)據(jù),分別為第一訪客數(shù)據(jù)9、第一訪客數(shù)據(jù)16、第一訪客數(shù)據(jù)17、第一訪客數(shù)據(jù)20。
接下來判斷訪客標識為同一個第一訪客標識的相鄰的任意兩個第一訪客數(shù)據(jù)的時間差是否在第二預設時間內,假設第二預設時間為3秒鐘。由表1可以看出,訪客標識為A的3條第一訪客數(shù)據(jù)中,第一訪客數(shù)據(jù)6的訪問時間為00:03:06、第一訪客數(shù)據(jù)14的訪問時間為00:03:16、第一訪客數(shù)據(jù)19的訪問時間為00:58:35。這3條第一訪客數(shù)據(jù)的相鄰的兩條第一訪客數(shù)據(jù)的時間差大于3秒鐘。同理,可判斷出訪客標識為B的3條第一訪客數(shù)據(jù)相鄰的兩條第一訪客數(shù)據(jù)的時間差大于3秒鐘,訪客標識為D的4條第一訪客數(shù)據(jù)相鄰的兩條第一訪客數(shù)據(jù)的時間差大于3秒鐘。訪客標識為C的10條第一訪客數(shù)據(jù)相鄰的任意兩條第一訪客數(shù)據(jù)的時間差在3秒鐘之內,因此,提取出訪客標識為C的10條第一訪客數(shù)據(jù),這10條第一訪客數(shù)據(jù)即為第二訪客數(shù)據(jù)。
由于普通的訪客很少在00:00:00-01:00:00之間訪問廣告,所以訪客甲、訪客乙、訪客丙和訪客丁都可能進行了流量作弊,但這僅是一種可能性,還需要進行進一步判斷。訪客甲、訪客乙、訪客丁的訪客數(shù)據(jù)的時間差較長,符合正常訪客的行為模式,而訪客丙的訪客數(shù)據(jù)的時間差非常短,正常訪客不會如此頻繁地點擊廣告,所以訪客丙為進行了流量作弊的訪客,訪客丙的訪客數(shù)據(jù)為作弊流量,即虛假流量,也可以稱為異常流量。
虛假流量一般是某些進行了流量作弊行為的訪客在某個特定的時間段頻繁訪問廣 告造成的。通過上述實施例,第一提取單元32和第二提取單元34提取出指定時間段內的訪客數(shù)據(jù),判斷單元36判斷提取出來的訪客數(shù)據(jù)中,屬于同一個訪客的若干條訪客數(shù)據(jù)中相鄰的任意兩條訪客數(shù)據(jù)的時間差是不是非常短,如果判斷單元36判斷出屬于同一個訪客的若干條訪客數(shù)據(jù)的相鄰的任意兩條訪客數(shù)據(jù)的時間差非常短,那么第三提取單元38確定這個訪客為進行了流量作弊的訪客,將進行了流量作弊的訪客的訪客數(shù)據(jù)提取出來,該訪客產(chǎn)生的流量為作弊流量,即虛假流量,也可以說是異常流量,實現(xiàn)了篩選出進行了流量作弊的訪客的技術效果,進而解決了現(xiàn)有技術中由于某些訪客流量作弊造成的廣告主利益受損害的技術問題。
可選地,本申請實施例所提供的異常流量的檢測裝置還包括第一存儲單元。該第一存儲單元用于在第二提取單元34從多個訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù)之后,將第一訪客數(shù)據(jù)存儲至第一數(shù)據(jù)庫。即,將訪問廣告的訪問時間在指定時間內(第一預設時間)的訪客數(shù)據(jù)存儲至數(shù)據(jù)庫,這些訪客數(shù)據(jù)是可疑的,有可能是虛假流量,需要進一步判斷。
可選地,本申請實施例所提供的異常流量的檢測裝置還包括第二存儲單元。該第二存儲單元用于在第三提取單元38從第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù)之后,將第二訪客數(shù)據(jù)存儲至第二數(shù)據(jù)庫。即,將訪問廣告的訪問時間在指定時間內,且相鄰的訪問數(shù)據(jù)的時間差極短的訪客數(shù)據(jù)存儲在數(shù)據(jù)庫中,這些訪客數(shù)據(jù)是虛假流量,產(chǎn)生這些訪客數(shù)據(jù)的訪客進行了流量作弊。
可選地,本申請實施例所提供的異常流量的檢測裝置還包括第一計算單元。該第一計算單元用于在第三提取單元38從第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù)之后,根據(jù)第二訪客數(shù)據(jù)的時間信息,計算訪客標識相同的第二訪客數(shù)據(jù)隨時間的分布。即,提取出作弊產(chǎn)生的訪客數(shù)據(jù)之后,將訪客標識相同的訪客數(shù)據(jù)歸為一組,為同一個訪客產(chǎn)生。計算出進行了流量作弊行為的訪客的作弊流量隨時間的分布。
例如,計算每一個進行了流量作弊的訪客在00:00:00-05:00:00之間每一分鐘產(chǎn)生的訪客數(shù)據(jù)數(shù)量。再例如,計算每一個進行了流量作弊的訪客在00:00:00-23:59:59之間每一分鐘產(chǎn)生的訪客數(shù)據(jù)數(shù)量。又例如,計算每一個進行了流量作弊的訪客在23:00:00-次日07:00:00之間每一小時產(chǎn)生的訪客數(shù)據(jù)數(shù)量。
可選地,本申請實施例所提供的異常流量的檢測裝置還包括第四提取單元、第二計算單元和篩選單元。第四提取單元用于在第一計算單元計算訪客標識相同的第二訪客數(shù)據(jù)隨時間的分布之后,提取目標訪客的目標時間段,其中,目標訪客是第二訪客數(shù)據(jù)的訪客標識所標識的訪客,目標時間段是滿足第二預設條件的時間段,第二預設條件是在目標時間段內,第二訪客數(shù)據(jù)的個數(shù)大于第一閾值。第二計算單元用于對多 個目標訪客的相同的目標時間段的個數(shù)進行求和,得到多個目標時間段的數(shù)量。篩選單元用于篩選出多個目標時間段中數(shù)量大于第二閾值的目標時間段,得到容易產(chǎn)生異常流量的時間段。
即,當計算出進行了流量作弊的訪客的訪客數(shù)據(jù)的數(shù)量隨時間的分布關系后,提取出虛假流量大的時間段,即目標時間段,每一個進行了流量作弊的訪客都存在一個或者幾個目標時間段,將多個進行了流量作弊的訪客的目標時間段中相同的目標時間段的個數(shù)進行求和,得到每個目標時間段進行流量作弊的訪客的個數(shù),篩選出那些訪客進行流量作弊行為集中的時間段。
例如,提取出的第二訪客數(shù)據(jù)的訪客標識所標識的訪客有10個,分別為訪客1、訪客2、訪客3、訪客4、訪客5、訪客6、訪客7、訪客8、訪客9、訪客10。
計算這10個訪客在00:00:00-05:00:00之間的每一小時的訪客數(shù)據(jù)的數(shù)量,得到表2。
假設訪客訪問數(shù)據(jù)數(shù)量最多的3個時間段為目標時間段,則由表2可以看出:
訪客1的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。
訪客2的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。
訪客3的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。
訪客4的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。
訪客5的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。
訪客6的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。
訪客7的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。
訪客8的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。
訪客9的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。
訪客10的目標時間段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。
時間段00:00:01-01:00:00為訪客1、訪客2、訪客3、訪客4、訪客5、訪客6、訪客7、訪客8、訪客9、訪客10的目標時間段,所以目標時間段00:00:01-01:00:00的個數(shù)為10,同理,目標時間段01:00:01-02:00:00的個數(shù)為10,目標時間段02:00:01-03:00:00的個數(shù)為4,目標時間段03:00:01-04:00:00的個數(shù)為3,目標時間段04:00:01-05:00:00的個數(shù)為3。
篩選出這5個目標時間段中個數(shù)大于5的目標時間段,得到目標時間段00:00:01-01:00:00和目標時間段01:00:01-02:00:00。則時間段00:00:01-01:00:00和時間段01:00:01-02:00:00是異常流量高發(fā)時段,也就是說,作弊流量的相當大的一部分都發(fā)生在這個時間,也可以說,這個時間產(chǎn)生的流量不能真實地反映訪客對廣告所推銷的產(chǎn)品的需求。
所述異常流量的檢測裝置包括處理器和存儲器,上述第一提取單元32、第二提取單元34、判斷單元36和第三提取單元38等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應的功能。
處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數(shù)來提高異常流量檢測的精確度。
存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(f l ash RAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品,當在數(shù)據(jù)處理設備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:從廣告的監(jiān)測數(shù)據(jù)中提取訪客訪問廣告的訪客數(shù)據(jù),其中,訪客和訪客數(shù)據(jù)均為多個,每個訪客數(shù)據(jù)均包括訪客標識和訪問廣告的時間信息;從多個訪客數(shù)據(jù)中提取第一訪客數(shù)據(jù),其中,第一訪客數(shù)據(jù)為多個訪客數(shù)據(jù)中時間信息在第一預設時間內的訪客數(shù)據(jù),并且第一訪客數(shù)據(jù)的數(shù)量為多個;判斷訪客標識為同一個第一訪客標識的相鄰的任意兩個第一訪客數(shù)據(jù)的時間差是否在第二預設時間內;如果判斷出訪客標識為同一個第一訪客標識的任意兩個第一訪客數(shù)據(jù)的時間差在第二預設時間內,從第一訪客數(shù)據(jù)中提取出第二訪客數(shù)據(jù),其中,第二訪客數(shù)據(jù)為滿足第一預設條件的第一訪客數(shù)據(jù),第一預設條件為訪客標識為同一個第一訪客標識 的任意兩個第一訪客數(shù)據(jù)的時間差在第二預設時間內。
上述本申請實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
在本申請的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本申請的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網(wǎng)絡設備等)執(zhí)行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述僅是本申請的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本申請的保護范圍。