異構(gòu)代價(jià)敏感機(jī)制決策樹構(gòu)建方法與流程

文檔序號(hào)：11063708閱讀：770來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及機(jī)器學(xué)習(xí)、人工智能以及數(shù)據(jù)挖掘領(lǐng)域。

背景技術(shù)：

決策樹是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的一項(xiàng)重要和積極的研究課題。其所提出的算法被廣泛地和成功地應(yīng)用于實(shí)際問題中，如ID₃，CART和C4.5。現(xiàn)有算法之訓(xùn)練決策樹分類器，旨在最大程度上提高分類的準(zhǔn)確度，或最大限度地減少誤分類，但這必然會(huì)導(dǎo)致分類器偏向于主要的類而忽略罕見的或?qū)扔绊戄^小的少數(shù)類。于是，在醫(yī)療診斷應(yīng)用中，該反饋必然不符合數(shù)據(jù)挖掘的要求，因?yàn)樵趥鹘y(tǒng)決策樹方法的假設(shè)下，分布的類標(biāo)記不平衡，并且所有分類錯(cuò)誤造成的代價(jià)會(huì)被視為相同的成本。隨后，代價(jià)敏感決策樹學(xué)習(xí)算法引起了研究者們廣泛的興趣并取得了豐碩的研究成果。顯然構(gòu)建一個(gè)適當(dāng)?shù)霓D(zhuǎn)換不同代價(jià)單位的函數(shù)成為了挑戰(zhàn)，為此本文提出了一種有效的方法，此方法將減少所有不同代價(jià)所造成的代價(jià)機(jī)制和屬性的異質(zhì)性。把所有不同的代價(jià)和屬性信息一起被納入分裂屬性選擇過程，并為此提供了一種異構(gòu)代價(jià)敏感機(jī)制決策樹構(gòu)建方法。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)異構(gòu)代價(jià)平衡性以及各種代價(jià)單位機(jī)制不同問題，提出了一種異構(gòu)代價(jià)敏感機(jī)制決策樹構(gòu)建方法。

本發(fā)明所采用技術(shù)方案：屬性S的目標(biāo)函數(shù)f(S)為候選分裂屬性選擇因子，選取最大的f(S)值作為該節(jié)點(diǎn)候選分裂屬性，分支的分裂屬性選擇由gini(S_i)確定，即選取更小的gini(S_i)分支，加上一個(gè)葉子節(jié)點(diǎn)。循環(huán)執(zhí)行上述操作，就可以遍歷整個(gè)訓(xùn)練樣本集，得到強(qiáng)分類能力以及低誤分類代價(jià)和測(cè)試代價(jià)的決策樹。同時(shí)本文建樹過程中考慮了并解決了不同代價(jià)因子、各代價(jià)單位機(jī)制不同以及與信息純度之間的平衡性問題，所以此決策樹適應(yīng)范圍更廣泛。

本發(fā)明有益效果是：

1、構(gòu)建的決策樹有更好分類準(zhǔn)確度，加強(qiáng)了分類能力

2、在決策樹構(gòu)建過程中，標(biāo)準(zhǔn)化了誤分類代價(jià)和測(cè)試成本代價(jià)，解決了候選屬性誤分類代價(jià)和測(cè)試代價(jià)的不同單位機(jī)制問題，避免了候選屬性分裂選擇的偏向大數(shù)量級(jí)屬性問題。

3、建樹過程中，很好的平衡由于測(cè)試代價(jià)和誤分類代價(jià)以及信息純度之間的存在的異構(gòu)難題，把屬性分類能力和各種代價(jià)共同融合進(jìn)候選分裂屬性選擇，得到了高的分類精度和降低誤分類代價(jià)和測(cè)試代價(jià)。

附圖說(shuō)明

圖1為異構(gòu)代價(jià)敏感機(jī)制決策樹流程圖

具體實(shí)施方式

為解決異構(gòu)代價(jià)平衡性以及各種代價(jià)單位機(jī)制不同的問題，最后生成的決策樹更好的規(guī)避了過度擬合問題，本發(fā)明結(jié)合圖1進(jìn)行了詳細(xì)說(shuō)明，其具體實(shí)施步驟如下：

步驟1：設(shè)訓(xùn)練集中有X個(gè)樣本，屬性個(gè)數(shù)為n，即n＝(S₁，S₂，…S_n),同時(shí)分裂屬性S_i對(duì)應(yīng)了m個(gè)類L，其中L_r∈(L₁，L₂…，L_m),i∈(1，2…，n)，r∈(1，2…，m)。相關(guān)領(lǐng)域用戶設(shè)定好誤分類代價(jià)矩陣C、屬性測(cè)試代價(jià)為cost_i。

步驟2：創(chuàng)建根節(jié)點(diǎn)G。

步驟3：如果訓(xùn)練數(shù)據(jù)集為空，則返回結(jié)點(diǎn)G并標(biāo)記失敗。

步驟4：如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類別，則該類型標(biāo)記結(jié)點(diǎn)G。

步驟5：如果候選屬性為空，則返回G為葉子結(jié)點(diǎn)，標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。

步驟6：根據(jù)屬性S的目標(biāo)函數(shù)f從候選屬性中選擇splitS。

目標(biāo)函數(shù)f：

averagegini(S)為信息純度函數(shù)，TCration(S)為標(biāo)準(zhǔn)化測(cè)試代價(jià)比率函數(shù)，MCration(S)為標(biāo)準(zhǔn)化誤分類代價(jià)比率函數(shù)。

當(dāng)選擇屬性splitS滿足目標(biāo)函數(shù)f越大時(shí)，則找到標(biāo)記結(jié)點(diǎn)G。

當(dāng)出現(xiàn)目標(biāo)函數(shù)f相等時(shí)，為打破平局標(biāo)準(zhǔn)，則按照下面的優(yōu)先順序再進(jìn)行選擇：

(1)更小的MCration(S)

(2)更小的TCration(S)

步驟7：標(biāo)記結(jié)點(diǎn)G為屬性splitS。

步驟8：根據(jù)基尼指數(shù)gini(S_i)，由結(jié)點(diǎn)延伸出滿足條件為splitS＝splitS_i分支,如果滿足以下兩條件之一，就停止建樹。

8.1這里假設(shè)Y_i為訓(xùn)練數(shù)據(jù)集中splitS＝splitS_i的樣本集合，如果Y_i為空，加上一個(gè)葉子結(jié)點(diǎn)，標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。

8.2此結(jié)點(diǎn)中所有例子屬于同一類。

步驟9：非8.1與8.2中情況，則遞歸調(diào)用步驟6至步驟8。

步驟10：利用后剪支技術(shù)解決此決策樹模型中過度擬合問題。

步驟11：更新訓(xùn)練數(shù)據(jù)集，保存新的示例數(shù)據(jù)。

以上步驟所涉及到的參數(shù)函數(shù)及定義，具體描述如下：

一、所述步驟1涉及到誤分類代價(jià)矩陣C、屬性測(cè)試代價(jià)為TC(S)

步驟1.1誤分類代價(jià)矩陣C

類別標(biāo)識(shí)個(gè)數(shù)為m，則該數(shù)據(jù)的代價(jià)矩陣m×m方陣是：

其中c_ij表示第j類數(shù)據(jù)分為第i類的代價(jià)，如果i＝j(luò)為正確分類，則c_ij＝0,否則為錯(cuò)誤分類c_ij≠0，其值由相關(guān)領(lǐng)域用戶給定,這里i，j∈(1，2，…，m)

步驟1.2屬性測(cè)試代價(jià)為TC(S)

TC(S)＝(1+cost_i)

其中cost_i為屬性S_i測(cè)試代價(jià)，這個(gè)由用戶指定。

二、所述步驟6求解目標(biāo)函數(shù)，即f(S)，需求解信息純度函數(shù)averagegini(S)、標(biāo)準(zhǔn)化測(cè)試代價(jià)比率函數(shù)TCration(S)、標(biāo)準(zhǔn)化誤分類代價(jià)比率函數(shù)MCration(S)。具體求解過程如下：

步驟6.1：求解信息純度函數(shù)averagegini(S)

基尼指數(shù)是一種不純度分裂方法，基尼指數(shù)表示為gini(S_i)，定義為：

其中p(L_i/S_i)為類別L_i在屬性值S_i處的相對(duì)概率，當(dāng)gini(S_i)＝0時(shí)，即在此結(jié)點(diǎn)處所有記錄都屬于同一類別，增加一葉子節(jié)點(diǎn)，即信息純度越大。反之，gini(S_i)最大，得到的有用信息最小，則繼續(xù)根據(jù)目標(biāo)函數(shù)f(S)候選下一個(gè)屬性。

根據(jù)gini(S_i)可以得知averagegini(S)

這里屬性S有j個(gè)屬性值，即屬性值為(S₁，S₂，…，S_j)

信息純度函數(shù)averagegini(S)作用：可以提高決策樹的分類精度

步驟6.2：求解標(biāo)準(zhǔn)化測(cè)試代價(jià)比率函數(shù)TCration(S)

其中訓(xùn)練集有n個(gè)候選屬性，即候選屬性為(S₁，S₂，…，S_n),S∈(S₁，S₂，…，S_n),TC(S_n)為候選屬性S_n測(cè)試成本。

TCration(S)函數(shù)作用：對(duì)測(cè)試成本進(jìn)行標(biāo)準(zhǔn)化，避免了決策樹在歸納學(xué)習(xí)過程中偏向數(shù)量級(jí)更大的測(cè)試屬性，另外把不同單位代價(jià)機(jī)制轉(zhuǎn)化為同一單位代價(jià)機(jī)制。

步驟6.3：求解標(biāo)準(zhǔn)化誤分類代價(jià)比率函數(shù)MCration(S)

在分類代價(jià)基礎(chǔ)上，候選屬性S的標(biāo)準(zhǔn)化誤分類代價(jià)比率函數(shù)可表示為如下：

其中MC表示候選屬性分裂前的代價(jià)和，∑_{i∈classset(s)}MC(S)表示按候選屬性S分裂后的所有子類代價(jià)總和，其中classset(S)為候選屬性S分裂后的所有類的集合，根據(jù)具體例子，MC、∑_{i∈classset(s)}MC(S)可以很直觀的由用戶得出。

MCration(S)函數(shù)作用：對(duì)誤分類代價(jià)進(jìn)行標(biāo)準(zhǔn)化，避免了決策樹在歸納學(xué)習(xí)過程中偏向數(shù)量級(jí)更大的測(cè)試屬性，另外把不同單位代價(jià)機(jī)制轉(zhuǎn)化為同一單位代價(jià)機(jī)制。

三、所述步驟10后剪支技術(shù),具體求解過程如下：

后剪支條件為優(yōu)先考慮到誤分類代價(jià)，然后考慮到測(cè)試代價(jià)，即對(duì)于用戶給定的正數(shù)α，β滿足下列兩條件，則實(shí)施剪支操作。

(1)MCration(S)＞α

(2)TC(S)＞β

剪支條件首先要滿足盡可能的使誤分類代價(jià)比率達(dá)到用戶指定條件，然后足測(cè)試代價(jià)低到用戶要求。

偽代碼計(jì)算過程

輸入：X個(gè)樣本訓(xùn)練集，訓(xùn)練集的誤分類代價(jià)矩陣C，屬性測(cè)試代價(jià)為cost_i

輸出：異構(gòu)代價(jià)敏感機(jī)制決策樹。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金平艷;胡成華;
技術(shù)所有人：四川用聯(lián)信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

決策樹算法相關(guān)技術(shù)

決策樹理論相關(guān)技術(shù)

構(gòu)象異構(gòu)相關(guān)技術(shù)

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

異構(gòu)代價(jià)敏感機(jī)制決策樹構(gòu)建方法與流程