本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種數(shù)據(jù)處理方法、系統(tǒng)、終端及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù):
1、在機(jī)器學(xué)習(xí)中,類別不平衡問題是許多實際應(yīng)用中的常見挑戰(zhàn)。數(shù)據(jù)集中某一類別的樣本數(shù)量顯著少于其他類別,這可能導(dǎo)致學(xué)習(xí)算法偏向于多數(shù)類,從而在少數(shù)類上表現(xiàn)不佳。例如,在人臉識別等領(lǐng)域,少數(shù)類的識別至關(guān)重要。
2、現(xiàn)有的解決類別不平衡問題的方法主要分為過采樣、欠采樣和混合采樣三類。過采樣方法(如smote(?synthetic?minority?over-sampling?technique,合成少數(shù)類過采樣技術(shù))、adasyn(adaptive?synthetic?sampling,自適應(yīng)合成采樣))通過增加少數(shù)類樣本的數(shù)量來平衡數(shù)據(jù)分布,但可能導(dǎo)致過擬合。欠采樣方法(如cnn(condensed?nearestneighbour?,壓縮最近鄰)、enn(edited?nearest?neighbours?,編輯最近鄰))通過減少多數(shù)類樣本的數(shù)量來平衡數(shù)據(jù)分布,但可能會丟失有價值的信息。混合采樣方法(如smoteenn(synthetic?minority?over-sampling?technique?+?edited?nearest?neighbours?,合成少數(shù)類過采樣技術(shù)-編輯最近鄰組合方法)、smotetomek(?synthetic?minority?over-sampling?technique?+?tomek?links?,合成少數(shù)類過采樣技術(shù)-托梅克鏈接組合方法))結(jié)合了過采樣和欠采樣的優(yōu)點,但可能忽視了數(shù)據(jù)中的噪聲樣本,導(dǎo)致噪聲在采樣過程中被保留甚至復(fù)制,從而降低數(shù)據(jù)質(zhì)量。
3、因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種數(shù)據(jù)處理方法、系統(tǒng)、終端及計算機(jī)可讀存儲介質(zhì),旨在解決現(xiàn)有技術(shù)中對不平衡數(shù)據(jù)進(jìn)行數(shù)據(jù)采樣過程中,存在數(shù)據(jù)過度擬合、價值數(shù)據(jù)丟失以及數(shù)據(jù)質(zhì)量低的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種數(shù)據(jù)處理方法,所述數(shù)據(jù)處理方法包括如下步驟:
3、獲取初始數(shù)據(jù)集,將所述初始數(shù)據(jù)集輸入已構(gòu)建并訓(xùn)練好的k-鄰近模型,輸出所述初始數(shù)據(jù)集中每個樣本的置信度;
4、根據(jù)所有所述置信度清洗所述初始數(shù)據(jù)集,得到目標(biāo)數(shù)據(jù)集,并分析所述目標(biāo)數(shù)據(jù)集,確定多個少數(shù)類樣本;
5、對每個所述少數(shù)類樣本進(jìn)行過采樣處理,得到每個所述少數(shù)類樣本對應(yīng)的少數(shù)類樣本集,將所有所述少數(shù)類樣本集添加到所述目標(biāo)數(shù)據(jù)集中,得到最終數(shù)據(jù)集。
6、可選地,所述的數(shù)據(jù)處理方法,其中,所述獲取初始數(shù)據(jù)集,將所述初始數(shù)據(jù)集輸入已構(gòu)建并訓(xùn)練好的k-鄰近模型,輸出所述初始數(shù)據(jù)集中每個樣本的置信度,具體包括:
7、獲取初始數(shù)據(jù)集和歷史數(shù)據(jù)集,并構(gòu)建初始k-鄰近模型;
8、將所述歷史數(shù)據(jù)集輸入所述初始k-鄰近模型進(jìn)行訓(xùn)練,得到k-鄰近模型;
9、對所述初始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清理處理,得到初始目標(biāo)數(shù)據(jù)集,并將所述初始目標(biāo)數(shù)據(jù)集輸入所述k-鄰近模型,輸出所述初始目標(biāo)數(shù)據(jù)集中每個樣本的置信度:
10、;
11、其中,表示第個樣本的置信度,表示類別取0或1時的概率最大值,表示第個樣本屬于類別的概率,表示為每個樣本所選取的鄰居樣本的個數(shù)。
12、可選地,所述的數(shù)據(jù)處理方法,其中,所述將所述歷史數(shù)據(jù)集輸入所述初始k-鄰近模型進(jìn)行訓(xùn)練,得到k-鄰近模型,具體包括:
13、對所述歷史數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗處理,得到目標(biāo)歷史數(shù)據(jù)集,并根據(jù)所述歷史數(shù)據(jù)集的數(shù)據(jù)信息,提取所述目標(biāo)歷史數(shù)據(jù)集中的多個分類特征;
14、根據(jù)多個預(yù)設(shè)的距離度量方法,計算所有所述分類特征之間的相似性,得到目標(biāo)距離度量;
15、將所述目標(biāo)距離度量和所述目標(biāo)歷史數(shù)據(jù)集輸入所述初始k-鄰近模型進(jìn)行訓(xùn)練,得到所述k-鄰近模型。
16、可選地,所述的數(shù)據(jù)處理方法,其中,所述根據(jù)所有所述置信度清洗所述初始數(shù)據(jù)集,得到目標(biāo)數(shù)據(jù)集,并分析所述目標(biāo)數(shù)據(jù)集,確定多個少數(shù)類樣本,具體包括:
17、獲取所有所述樣本的真實標(biāo)簽,并根據(jù)所有所述真實標(biāo)簽對所有所述樣本進(jìn)行分類,得到多個類別;
18、計算每個樣本的鄰居樣本數(shù)量,并為所述鄰居樣本數(shù)量最高的當(dāng)前樣本添加預(yù)測標(biāo)簽;
19、若所述當(dāng)前樣本的所述預(yù)測標(biāo)簽與所述真實標(biāo)簽一致,則判斷所述樣本的置信度是否大于預(yù)設(shè)置信度;
20、若是,則將所述當(dāng)前樣本判定為有效樣本,并再次判斷其他所述樣本是否為有效樣本;
21、統(tǒng)計所有所述有效樣本,得到目標(biāo)數(shù)據(jù)集;
22、統(tǒng)計所述目標(biāo)數(shù)據(jù)集中的所有所述類別,并根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)確定多個少數(shù)類樣本。
23、可選地,所述的數(shù)據(jù)處理方法,其中,所述若所述當(dāng)前樣本的所述預(yù)測標(biāo)簽與所述真實標(biāo)簽一致,則判斷所述樣本的置信度是否大于預(yù)設(shè)置信度,之后還包括:
24、若所述當(dāng)前樣本的所述預(yù)測標(biāo)簽與所述真實標(biāo)簽不一致,則將所述當(dāng)前樣本判定為噪聲樣本;
25、若所述樣本的置信度不大于預(yù)設(shè)置信度,則將所述當(dāng)前樣本判定為噪聲樣本。
26、可選地,所述的數(shù)據(jù)處理方法,其中,所述對每個所述少數(shù)類樣本進(jìn)行過采樣處理,得到每個所述少數(shù)類樣本對應(yīng)的少數(shù)類樣本集,將所有所述少數(shù)類樣本集添加到所述目標(biāo)數(shù)據(jù)集中,得到最終數(shù)據(jù)集,具體包括:
27、針對每個所述少數(shù)類樣本,選擇多個鄰居樣本,并根據(jù)所有所述鄰居樣本構(gòu)建多個新樣本:
28、;
29、;
30、其中,表示新樣本,表示第個樣本,表示一個隨機(jī)變量,表示的第個鄰居樣本,表示服從0-1之間的均勻分布;
31、根據(jù)每個所述少數(shù)類樣本的多個新樣本,分別構(gòu)建出對應(yīng)的少數(shù)類樣本集;
32、將所有所述少數(shù)類樣本集添加到所述目標(biāo)數(shù)據(jù)集中,更新所述目標(biāo)數(shù)據(jù)集,得到最終數(shù)據(jù)集。
33、可選地,所述的數(shù)據(jù)處理方法,其中,所述針對每個所述少數(shù)類樣本,選擇多個鄰居樣本,并根據(jù)所有所述鄰居樣本構(gòu)建多個新樣本,之后還包括:
34、獲取與所述少數(shù)類樣本的類別相同的領(lǐng)域樣本的樣本數(shù)量;
35、若所述新樣本的數(shù)量小于所述樣本數(shù)量,則選擇與所述少數(shù)類樣本的相同類別的多個所述鄰居樣本構(gòu)建對應(yīng)的所述新樣本;
36、若所述新樣本的數(shù)量大于所述樣本數(shù)量,則將所有所述領(lǐng)域樣本作為鄰居樣本構(gòu)建對應(yīng)的所述新樣本,并選擇與所述少數(shù)類樣本的類別鄰近的多個樣本作為多個所述鄰居樣本構(gòu)建對應(yīng)的所述新樣本;
37、其中,與所述少數(shù)類樣本的類別鄰近的多個樣本根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)選擇。
38、此外,為實現(xiàn)上述目的,本發(fā)明還提供一種數(shù)據(jù)處理系統(tǒng),其中,所述數(shù)據(jù)處理系統(tǒng)包括:
39、置信度計算模塊,用于獲取初始數(shù)據(jù)集,將所述初始數(shù)據(jù)集輸入已構(gòu)建并訓(xùn)練好的k-鄰近模型,輸出所述初始數(shù)據(jù)集中每個樣本的置信度;
40、樣本篩選模塊,用于根據(jù)所有所述置信度清洗所述初始數(shù)據(jù)集,得到目標(biāo)數(shù)據(jù)集,并分析所述目標(biāo)數(shù)據(jù)集,確定多個少數(shù)類樣本;
41、領(lǐng)域融合模塊,用于對每個所述少數(shù)類樣本進(jìn)行過采樣處理,得到每個所述少數(shù)類樣本對應(yīng)的少數(shù)類樣本集,將所有所述少數(shù)類樣本集添加到所述目標(biāo)數(shù)據(jù)集中,得到最終數(shù)據(jù)集。
42、此外,為實現(xiàn)上述目的,本發(fā)明還提供一種終端,其中,所述終端包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的數(shù)據(jù)處理程序,所述數(shù)據(jù)處理程序被所述處理器執(zhí)行時實現(xiàn)如上所述的數(shù)據(jù)處理方法的步驟。
43、此外,為實現(xiàn)上述目的,本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),其中,所述計算機(jī)可讀存儲介質(zhì)存儲有數(shù)據(jù)處理程序,所述數(shù)據(jù)處理程序被處理器執(zhí)行時實現(xiàn)如上所述的數(shù)據(jù)處理方法的步驟。
44、本發(fā)明中,獲取初始數(shù)據(jù)集,將所述初始數(shù)據(jù)集輸入已構(gòu)建并訓(xùn)練好的k-鄰近模型,輸出所述初始數(shù)據(jù)集中每個樣本的置信度;根據(jù)所有所述置信度清洗所述初始數(shù)據(jù)集,得到目標(biāo)數(shù)據(jù)集,并分析所述目標(biāo)數(shù)據(jù)集,確定多個少數(shù)類樣本;對每個所述少數(shù)類樣本進(jìn)行過采樣處理,得到每個所述少數(shù)類樣本對應(yīng)的少數(shù)類樣本集,將所有所述少數(shù)類樣本集添加到所述目標(biāo)數(shù)據(jù)集中,得到最終數(shù)據(jù)集。本發(fā)明通過評估樣本的置信度來識別并去除噪聲樣本和低置信度樣本,然后通過插值生成新的少數(shù)類樣本以平衡數(shù)據(jù)分布,能夠有效提升模型在少數(shù)類上的識別性能。