最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基尼指數(shù)與誤分類代價敏感決策樹構(gòu)建方法與流程

文檔序號:11063705閱讀:1614來源:國知局
基尼指數(shù)與誤分類代價敏感決策樹構(gòu)建方法與制造工藝

本發(fā)明涉及人工智能、機器學(xué)習(xí)技術(shù)領(lǐng)域。



背景技術(shù):

在歸納學(xué)習(xí)技術(shù)中如何盡量減少誤分類錯誤是主要焦點,例如CART和C4.5。在歸納問題上誤分類不僅是一個錯誤,即錯誤分類所帶來的代價不容忽略。分裂屬性選擇是決策樹構(gòu)建的一個關(guān)鍵又基本過程,最流行的屬性選擇方法側(cè)重于測量屬性的信息增益。當錯誤分類所引起的代價不容忽視時,很自然地把降低代價機制和屬性信息結(jié)合起來作為分裂屬性選擇標準,屬性選擇的目標是最小化誤分類總代價。最小化誤分類總代價被稱為基于CAI的分裂屬性選擇,這種方法基于單一代價機制。由于CAI算法局限性,誤分類代價和屬性信息之間的平衡性未得到很好的解決,從而影響精度和整體誤分類代價。



技術(shù)實現(xiàn)要素:

針對上述不足,本發(fā)明提出了聯(lián)合誤分類代價和屬性信息作為分裂屬性選擇標準的方法。

本發(fā)明所要解決技術(shù)問題是決策過程中誤分類代價和屬性信息之間的平衡性問題,以此同時構(gòu)成的決策樹具有更小的誤分類代價。

本發(fā)明所采用的技術(shù)方案是:基尼指數(shù)與誤分類代價敏感決策樹構(gòu)建方法,該方法聯(lián)合誤分類代價和屬性信息—ASF(S)作為候選屬性選擇標準,選擇更大ASF(S)值作為節(jié)點G,根據(jù)gini(Si)分裂因子指標來選擇滿足條件splitS=splitSi的分支,循環(huán)執(zhí)行上述操作,就可以遍歷整個訓(xùn)練樣本集,得到既能反映屬性信息的純度又使誤分類代價達到最小的決策樹模型。

本發(fā)明的有益效果是:

1、考慮了誤分類代價和屬性信息之間的平衡性,在決策過程中,使得誤分類代價達到最小,同時又能反映屬性信息量和純度。

2、對屬性信息增益進行優(yōu)化處理,避免因?qū)傩孕畔⒃鲆孢^小而忽略了屬性信息的風(fēng)險。

附圖說明

基尼指數(shù)與誤分類代價敏感決策樹結(jié)構(gòu)流程圖

具體實施方式

以下結(jié)合流程圖,對本發(fā)明的進行詳細說明。

本發(fā)明的具體實施步驟如下:

步驟1.設(shè)訓(xùn)練集中有X個樣本,屬性個數(shù)為n,即n=(s1,s2,…sn),同時分裂屬性sr對應(yīng)了m個類L,其中Li∈(L1,L2…,Lm),r∈(1,2…,n),i∈(1,2…,m),設(shè)誤分類代價矩陣為C,類別標識個數(shù)為m,則該數(shù)據(jù)的代價矩陣m×m方陣是:

其中Cij表示第j類數(shù)據(jù)分為第i類的代價,如果i=j(luò)為正確分類,則Cij=0,否則為錯誤分類Cij≠0,其值由相關(guān)領(lǐng)域用戶給定,這里i,j∈(1,2,…,m);

步驟2:創(chuàng)建根節(jié)點G;

步驟3:如果訓(xùn)練數(shù)據(jù)集為空,則返回節(jié)點G并標記失?。?/p>

步驟4:如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類別,則以該類型標記節(jié)點G;

步驟5:如果候選屬性為空,則返回G為葉子節(jié)點,標記為訓(xùn)練數(shù)據(jù)集中最普通的類;

步驟6:根據(jù)本發(fā)明代價敏感的分裂屬性因子ASF候選屬性中選擇splitS,

候選屬性因子ASF:

gini(S)為選擇屬性S的信息量,averageL(S,i)為把屬性S誤分為i類的平均總誤分類代價,當選擇屬性splitS滿足目標函數(shù)ASF(S)最大時,則找到標記節(jié)點G;

步驟7:標記節(jié)點G為屬性splitS;

步驟8:根據(jù)基尼指數(shù)gini(Si)值延伸出滿足條件為splitS=splitSi分支;

步驟8.1::假設(shè)Yi為訓(xùn)練數(shù)據(jù)集中splitS=splitSi的樣本集合,如果Yi為空,加上一個葉子節(jié)點,標記為訓(xùn)練數(shù)據(jù)集中最普通的類;

步驟9:非步驟8.1中情況,則遞歸調(diào)用步驟6至步驟8。

步驟10:更新訓(xùn)練數(shù)據(jù)集,保存新的示例數(shù)據(jù)。

上述步驟所涉及到的公式計算及定義,詳細如下:

一、所述步驟6,選擇屬性的基尼指數(shù)gini(S)計算如下:

其中k為splitS=splitSi的屬性值個數(shù),Xi為子結(jié)點splitSi的記錄數(shù),X為splitS處的記錄數(shù),其中分裂屬性的基尼指數(shù)gini(Si)值具體計算如下(此計算也適用于步驟8關(guān)于基尼指數(shù)gini(Si)的計算):

設(shè)訓(xùn)練數(shù)據(jù)集X,其類有m個,那么其gini指標為:

其中p(Li/Si)為分裂屬性Si屬于Li類的相對頻率,當gini(Si)=0,即在此結(jié)點處所有樣例都屬于同一類,表示能得到最大有用信息;當此結(jié)點所有樣例對于類別字段來講均勻分布時,gini(Si)最大,表示能得到最小的有用信息。

二、所述步驟6關(guān)于目標函數(shù)ASF的計算,其中所涉及到的有誤分類代價指標函數(shù)L(Si,i)、屬性S平均總誤分類代價,其具體的求解過程如下:

步驟6.1:求解誤分類代價指標函數(shù)L(Si,i)

根據(jù)步驟1的誤分類代價矩陣,對于任一屬性值Si,如果將其分為第i類,那么可能此時屬性值Si的誤分類為i的代價是:

其中L(Si,i)為將Si分為第i類的預(yù)測總代價,p(j/Si)為在屬性值Si中第j類的概率,C(i,j)為把j類錯分為第i類的代價花費;

步驟6.2:求解屬性S的平均總誤分類代價averageL(S,i)

其中k為splitS=splitSi的屬性值個數(shù);

步驟6.3:求解候選屬性因子ASF

根據(jù)前面幾個步驟,可得出:

候選屬性因子:

選擇屬性的基尼指數(shù)gini(S)經(jīng)過式子2gini(S)-1處理,可以預(yù)防因?qū)傩灾敌畔⒘啃《雎缘娘L(fēng)險。

三、算法偽代碼計算過程

輸入:X個樣本訓(xùn)練集,訓(xùn)練集的誤分類代價矩陣C。

輸出:基尼指數(shù)與誤分類代價敏感決策樹。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1