本發(fā)明涉及通信,尤其涉及一種潛在移網(wǎng)流失用戶的預(yù)測(cè)方法及裝置。
背景技術(shù):
1、目前,各大運(yùn)營(yíng)商移網(wǎng)流失用戶越來(lái)越多,而用戶離網(wǎng)對(duì)運(yùn)營(yíng)商的影響也越來(lái)越大。
2、現(xiàn)有針對(duì)移網(wǎng)流失的用戶,數(shù)據(jù)分析的技術(shù)方案重點(diǎn)在于事后分析,對(duì)已流失的用戶進(jìn)行根因分析,包括網(wǎng)絡(luò)分析,用戶投訴分析,以便找出流失原因進(jìn)行補(bǔ)救措施。
3、對(duì)于有流失用戶事前分析的技術(shù)方案雖然覆蓋流失用戶范圍更廣泛,但是針對(duì)移網(wǎng)流失用戶其準(zhǔn)確率卻差強(qiáng)人意,也不能準(zhǔn)確預(yù)測(cè)出潛在移網(wǎng)流失用戶,而預(yù)測(cè)的準(zhǔn)確性直接影響運(yùn)營(yíng)商在后期挽留移網(wǎng)流失用戶的投入。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)的上述不足,提出一種潛在移網(wǎng)流失用戶的預(yù)測(cè)方法及裝置,該方法能夠準(zhǔn)確預(yù)測(cè)出潛在移網(wǎng)流失用戶,為挽留措施提供精準(zhǔn)識(shí)別,從而能夠有效挽留潛在移網(wǎng)流失用戶。
2、第一方面,本發(fā)明提供一種潛在移網(wǎng)流失用戶的預(yù)測(cè)方法,所述方法包括如下步驟:
3、步驟s1:獲取第一時(shí)間周期內(nèi)的目標(biāo)用戶特征數(shù)據(jù);
4、步驟s2:將目標(biāo)用戶特征數(shù)據(jù)輸入到潛在移網(wǎng)流失用戶預(yù)測(cè)模型中進(jìn)行預(yù)測(cè),得到目標(biāo)用戶的流失概率預(yù)測(cè)值;
5、其中,所述潛在移網(wǎng)流失用戶預(yù)測(cè)模型是基于第二時(shí)間周期內(nèi)的歷史用戶特征數(shù)據(jù),并采用交叉驗(yàn)證堆疊分類器進(jìn)行訓(xùn)練及算法參數(shù)調(diào)優(yōu)得到的;所述第二時(shí)間周期大于所述第一時(shí)間周期;
6、步驟s3:根據(jù)目標(biāo)用戶的流失概率預(yù)測(cè)值,判斷目標(biāo)用戶是否為潛在移網(wǎng)流失用戶;
7、其中,當(dāng)目標(biāo)用戶的流失概率預(yù)測(cè)值大于流失概率預(yù)設(shè)值時(shí),判定出目標(biāo)用戶為潛在移網(wǎng)流失用戶;當(dāng)目標(biāo)用戶的流失概率預(yù)測(cè)值小于或等于流失概率預(yù)設(shè)值時(shí),判定出目標(biāo)用戶標(biāo)記為非潛在移網(wǎng)流失用戶。
8、進(jìn)一步地,所述步驟s1,具體包括如下步驟:
9、步驟s11:獲取第一時(shí)間周期內(nèi)的原始通信記錄信息表;
10、步驟s12:將原始通信記錄信息表進(jìn)行數(shù)據(jù)聚合和數(shù)據(jù)篩選,得到第一時(shí)間周期內(nèi)的目標(biāo)用戶特征數(shù)據(jù)。
11、進(jìn)一步地,所述步驟s12,具體包括如下步驟:
12、步驟a1:根據(jù)原始通信記錄信息表的用戶維度進(jìn)行類別聚合,提取到聚合特征數(shù)據(jù);
13、其中,所述根據(jù)原始通信記錄信息表的用戶維度進(jìn)行類別聚合包括按照用戶畫像維度進(jìn)行類別聚合、按照用戶套餐維度進(jìn)行類別聚合、按照用戶使用記錄維度進(jìn)行類別聚合、及按照用戶投訴維度進(jìn)行類別聚合;
14、步驟a2:對(duì)聚合特征數(shù)據(jù)進(jìn)行特征選擇,得到保留特征數(shù)據(jù);
15、所述特征選擇包括:
16、刪除缺失值比例值大于缺失預(yù)設(shè)值的聚合特征數(shù)據(jù);和/或,
17、刪除類別比例值大于類別比預(yù)設(shè)值的聚合特征數(shù)據(jù);和/或,
18、刪除特征重要性值小于特征重要預(yù)設(shè)值的聚合特征數(shù)據(jù);
19、步驟a3:將保留特征數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理后的特征數(shù)據(jù);
20、所述數(shù)據(jù)預(yù)處理包括:
21、判斷出保留特征數(shù)據(jù)為類別特征數(shù)據(jù)后,對(duì)保留特征數(shù)據(jù)進(jìn)行中位數(shù)填充后,進(jìn)行標(biāo)簽編碼;和/或,
22、判斷出保留特征數(shù)據(jù)為數(shù)值特征數(shù)據(jù)后,對(duì)保留特征數(shù)據(jù)進(jìn)行線性插值后,進(jìn)行歸一化處理;和/或,
23、判斷出保留特征數(shù)據(jù)為非類別特征數(shù)據(jù)或非數(shù)值特征數(shù)據(jù)后,對(duì)保留特征數(shù)據(jù)進(jìn)行分段離散化處理;
24、步驟a4:對(duì)預(yù)處理后的特征數(shù)據(jù)進(jìn)行特征生成,以得到第一時(shí)間周期內(nèi)的目標(biāo)用戶特征數(shù)據(jù);
25、其中,所述特征生成包括時(shí)間特征生成、比例特征生成及頻率特征生成;
26、所述時(shí)間特征生成包括:
27、根據(jù)用戶入網(wǎng)時(shí)間生成用戶入網(wǎng)年特征和用戶入網(wǎng)月特征,以及根據(jù)修改時(shí)間生成修改年特征和修改月特征;
28、所述比例特征生成包括:
29、根據(jù)用戶入網(wǎng)時(shí)長(zhǎng)生成用戶入網(wǎng)時(shí)長(zhǎng)比例特征,以及根據(jù)月租費(fèi)用特征生成月租費(fèi)用比例特征;
30、所述頻率特征生成包括:根據(jù)標(biāo)簽類特征生成頻率特征。
31、進(jìn)一步地,所述步驟a2中,刪除特征重要性小于特征重要預(yù)設(shè)值的聚合特征數(shù)據(jù),具體包括如下步驟:
32、步驟a21:計(jì)算聚合特征數(shù)據(jù)的總體gini系數(shù);
33、
34、其中,gini總體表示總體gini系數(shù),pi表示第i聚合類的聚合特征數(shù)據(jù)在總體中的占比;n表示類別總數(shù);
35、步驟a22:計(jì)算出每個(gè)聚合特征的子集gini系數(shù);
36、
37、其中,gini子集表示子集gini系數(shù),pj表示第j個(gè)數(shù)據(jù)特征數(shù)據(jù)在子集中的占比;m表示子集的數(shù)據(jù)組成;
38、步驟a23:計(jì)算聚合特征數(shù)據(jù)的加權(quán)平均gini系數(shù);
39、加權(quán)平均gini系數(shù)的計(jì)算過(guò)程是將每個(gè)聚合特征的子集gini系數(shù)乘以每個(gè)子集對(duì)應(yīng)的占比,然后求和得到的;
40、步驟a24:計(jì)算出特征重要性值;
41、所述特征重要性值是用總體gini系數(shù)減去加權(quán)平均gini系數(shù)得到的;
42、v重要性=gini總體-gini加權(quán)平均
43、其中,
44、v重要性表示特征重要性值,gini加權(quán)平均表示加權(quán)平均gini系數(shù);
45、步驟a25:比較特征重要性值與特征重要預(yù)設(shè)值,并刪除特征重要性小于特征重要預(yù)設(shè)值的聚合特征數(shù)據(jù)。
46、進(jìn)一步地,所述步驟s3之后,還包括步驟s4,
47、步驟s4:對(duì)潛在移網(wǎng)流失用戶進(jìn)行根因分析及補(bǔ)救措施;
48、所述步驟s4,具體包括如下步驟:
49、步驟s41:判定出目標(biāo)用戶為潛在移網(wǎng)流失用戶后,分析潛在移網(wǎng)流失用戶的流失原因,形成潛在移網(wǎng)流失用戶清單及潛在流失原因清單;
50、步驟s42:對(duì)潛在移網(wǎng)流失用戶的流失原因采取預(yù)計(jì)措施進(jìn)行補(bǔ)救,形成補(bǔ)救措施清單;
51、步驟s43:將潛在移網(wǎng)流失用戶清單、潛在流失原因清單及補(bǔ)救措施清單提交至營(yíng)銷人員,以使?fàn)I銷人員根據(jù)潛在移網(wǎng)流失用戶清單和潛在流失原因清單落實(shí)補(bǔ)救措施。
52、進(jìn)一步地,所述步驟s1之前,還包括步驟s0;
53、步驟s0:構(gòu)建潛在移網(wǎng)流失用戶預(yù)測(cè)模型;
54、所述步驟s0,具體包括如下步驟:
55、步驟s01:獲取第二時(shí)間周期內(nèi)的數(shù)據(jù)集;所述第二時(shí)間周期內(nèi)的數(shù)據(jù)集包括歷史用戶特征和對(duì)應(yīng)的歷史變量;所述歷史變量包括移網(wǎng)流失用戶和非移網(wǎng)流失用戶;
56、步驟s02:將第二時(shí)間周期內(nèi)的數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集;
57、步驟s03:使用堆疊分類器將一階段分類器和二階段分類器組合在一起,以及在所述訓(xùn)練數(shù)據(jù)集上執(zhí)行交叉驗(yàn)證來(lái)評(píng)估不同參數(shù)組合的性能,以得到預(yù)測(cè)初步模型;所述一階段分類器為lightgbm、xgboost和catboost,所述二階段分類器為邏輯回歸分類器;
58、步驟s04:通過(guò)所述測(cè)試數(shù)據(jù)集,對(duì)預(yù)測(cè)初步模型性能進(jìn)行調(diào)優(yōu),得到潛在移網(wǎng)流失用戶預(yù)測(cè)模型。
59、第二方面,本發(fā)明提供一種潛在移網(wǎng)流失用戶的預(yù)測(cè)裝置,所述裝置包括:
60、獲取單元,用于采集第一時(shí)間周期內(nèi)的目標(biāo)用戶特征數(shù)據(jù);
61、預(yù)測(cè)單元,與所述獲取單元連接,用于將目標(biāo)用戶特征數(shù)據(jù)輸入到潛在移網(wǎng)流失用戶預(yù)測(cè)模型中進(jìn)行預(yù)測(cè),得到目標(biāo)用戶的流失概率預(yù)測(cè)值;
62、其中,所述潛在移網(wǎng)流失用戶預(yù)測(cè)模型是基于第二時(shí)間周期內(nèi)的歷史用戶特征數(shù)據(jù),并采用交叉驗(yàn)證堆疊分類器進(jìn)行訓(xùn)練及算法參數(shù)調(diào)優(yōu)得到的;所述第二時(shí)間周期大于所述第一時(shí)間周期;
63、判定單元,與所述預(yù)測(cè)單元連接,用于根據(jù)目標(biāo)用戶的流失概率預(yù)測(cè)值,判斷目標(biāo)用戶是否為潛在移網(wǎng)流失用戶;
64、其中,當(dāng)目標(biāo)用戶的流失概率預(yù)測(cè)值大于流失概率預(yù)設(shè)值時(shí),判定出目標(biāo)用戶為潛在移網(wǎng)流失用戶;當(dāng)目標(biāo)用戶的流失概率預(yù)測(cè)值小于或等于流失概率預(yù)設(shè)值時(shí),判定出目標(biāo)用戶標(biāo)記為非潛在移網(wǎng)流失用戶。
65、進(jìn)一步地,所述獲取單元包括:
66、第一獲取模塊,用于獲取第一時(shí)間周期內(nèi)的原始通信記錄信息表;
67、聚合篩選模塊,與所述獲取模塊連接,用于將原始通信記錄信息表進(jìn)行數(shù)據(jù)聚合和數(shù)據(jù)篩選,得到第一時(shí)間周期內(nèi)的目標(biāo)用戶特征數(shù)據(jù)。
68、進(jìn)一步地,所述聚合篩選模塊包括:
69、聚合子模塊,用于根據(jù)原始通信記錄信息表的用戶維度進(jìn)行類別聚合,提取到聚合特征數(shù)據(jù);
70、其中,所述根據(jù)原始通信記錄信息表的用戶維度進(jìn)行類別聚合包括按照用戶畫像維度進(jìn)行類別聚合、按照用戶套餐維度進(jìn)行類別聚合、按照用戶使用記錄維度進(jìn)行類別聚合、及按照用戶投訴維度進(jìn)行類別聚合;
71、第一篩選子模塊,與所述聚合子模塊連接,用于對(duì)聚合特征數(shù)據(jù)進(jìn)行特征選擇,得到保留特征數(shù)據(jù);
72、所述特征選擇包括:
73、刪除缺失值比例值大于缺失預(yù)設(shè)值的聚合特征數(shù)據(jù);和/或,
74、刪除類別比例值大于類別比預(yù)設(shè)值的聚合特征數(shù)據(jù);和/或,
75、刪除特征重要性值小于特征重要預(yù)設(shè)值的聚合特征數(shù)據(jù);
76、第二篩選子模塊,與所述第一篩選子模塊連接,用于將保留特征數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理后的特征數(shù)據(jù);
77、所述數(shù)據(jù)預(yù)處理包括:
78、判斷出保留特征數(shù)據(jù)為類別特征數(shù)據(jù)后,對(duì)保留特征數(shù)據(jù)進(jìn)行中位數(shù)填充后,進(jìn)行標(biāo)簽編碼;和/或,
79、判斷出保留特征數(shù)據(jù)為數(shù)值特征數(shù)據(jù)后,對(duì)保留特征數(shù)據(jù)進(jìn)行線性插值后,進(jìn)行歸一化處理;和/或,
80、判斷出保留特征數(shù)據(jù)為非類別特征數(shù)據(jù)或非數(shù)值特征數(shù)據(jù)后,對(duì)保留特征數(shù)據(jù)進(jìn)行分段離散化處理;
81、生成子模塊,與所述第二篩選子模塊連接,用于對(duì)預(yù)處理后的特征數(shù)據(jù)進(jìn)行特征生成,以得到第一時(shí)間周期內(nèi)的目標(biāo)用戶特征數(shù)據(jù);
82、其中,所述特征生成包括時(shí)間特征生成、比例特征生成及頻率特征生成;
83、所述時(shí)間特征生成包括:
84、根據(jù)用戶入網(wǎng)時(shí)間生成用戶入網(wǎng)年特征和用戶入網(wǎng)月特征,以及根據(jù)修改時(shí)間生成修改年特征和修改月特征;
85、所述比例特征生成包括:
86、根據(jù)用戶入網(wǎng)時(shí)長(zhǎng)生成用戶入網(wǎng)時(shí)長(zhǎng)比例特征,以及根據(jù)月租費(fèi)用特征生成月租費(fèi)用比例特征;
87、所述頻率特征生成包括:根據(jù)標(biāo)簽類特征生成頻率特征。
88、進(jìn)一步地,所述裝置還包括構(gòu)建單元,所述構(gòu)建單元與所述預(yù)測(cè)單元連接,用于構(gòu)建潛在移網(wǎng)流失用戶預(yù)測(cè)模型,以使所述預(yù)測(cè)單元將目標(biāo)用戶特征數(shù)據(jù)輸入到潛在移網(wǎng)流失用戶預(yù)測(cè)模型中進(jìn)行預(yù)測(cè);
89、所述構(gòu)建單元包括:
90、第二獲取模塊,用于獲取第二時(shí)間周期內(nèi)的數(shù)據(jù)集;所述第二時(shí)間周期內(nèi)的數(shù)據(jù)集包括歷史用戶特征和對(duì)應(yīng)的歷史變量;所述歷史變量包括移網(wǎng)流失用戶和非移網(wǎng)流失用戶;
91、劃分模塊,與所述第二獲取模塊連接,用于將第二時(shí)間周期內(nèi)的數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集;
92、組合驗(yàn)證模塊,與所述劃分模塊連接,用于使用堆疊分類器將一階段分類器和二階段分類器組合在一起,以及在所述訓(xùn)練數(shù)據(jù)集上執(zhí)行交叉驗(yàn)證來(lái)評(píng)估不同參數(shù)組合的性能,以得到預(yù)測(cè)初步模型;所述一階段分類器為lightgbm、xgboost和catboost,所述二階段分類器為邏輯回歸分類器;
93、調(diào)優(yōu)模塊,分別與所述劃分模塊和所述組合驗(yàn)證模塊連接,用于通過(guò)所述測(cè)試數(shù)據(jù)集,對(duì)預(yù)測(cè)初步模型性能進(jìn)行調(diào)優(yōu),得到潛在移網(wǎng)流失用戶預(yù)測(cè)模型。
94、本發(fā)明的有益效果:
95、1.本發(fā)明能夠準(zhǔn)確預(yù)測(cè)出潛在移網(wǎng)流失用戶:通過(guò)潛在移網(wǎng)流失用戶預(yù)測(cè)模型進(jìn)行預(yù)測(cè),得到目標(biāo)用戶的流失概率預(yù)測(cè)值,進(jìn)而根據(jù)流失概率預(yù)測(cè)值準(zhǔn)群判斷出潛在移網(wǎng)流失用戶,從而為挽留措施提供精準(zhǔn)識(shí)別,進(jìn)而能夠有效挽留潛在移網(wǎng)流失用戶。
96、2.本發(fā)明能夠降低移網(wǎng)流失率:通過(guò)預(yù)測(cè)潛在移網(wǎng)流失用戶,運(yùn)營(yíng)商可以采取針對(duì)性的措施,例如提供個(gè)性化的優(yōu)惠、改善服務(wù)質(zhì)量等,以降低流失率,保留更多的用戶。
97、3.本發(fā)明能夠提高用戶滿意度:通過(guò)預(yù)測(cè)潛在流失用戶,運(yùn)營(yíng)商可以及時(shí)發(fā)現(xiàn)用戶的問(wèn)題和需求,針對(duì)性地改進(jìn)服務(wù),提高用戶滿意度,增強(qiáng)用戶黏性。
98、4.本發(fā)明能夠提高運(yùn)營(yíng)效率:預(yù)測(cè)潛在移網(wǎng)流失用戶可以幫助運(yùn)營(yíng)商優(yōu)化資源配置,提高運(yùn)營(yíng)效率,減少不必要的營(yíng)銷成本和客戶服務(wù)成本。
99、5.本發(fā)明能夠促進(jìn)精細(xì)化營(yíng)銷:針對(duì)潛在流失用戶進(jìn)行預(yù)測(cè)分析,可以幫助運(yùn)營(yíng)商實(shí)施精準(zhǔn)營(yíng)銷策略,提高營(yíng)銷效果,降低營(yíng)銷成本。
100、6.本發(fā)明能夠提高運(yùn)營(yíng)商競(jìng)爭(zhēng)力:通過(guò)預(yù)測(cè)潛在移網(wǎng)流失用戶并采取有效的挽留措施,運(yùn)營(yíng)商可以提高市場(chǎng)占有率,增強(qiáng)競(jìng)爭(zhēng)力,從而實(shí)現(xiàn)可持續(xù)發(fā)展。