本發(fā)明涉及智能服務、機器學習領域。
背景技術:
決策樹決策方法是機器學習領域中經(jīng)典算法,得到了廣泛應用。早期分類中,一般認為準確率是對分類效果很重要的衡量標準之一。以ID3算法為代表,它主要是在分裂屬性選擇方法和優(yōu)化剪支策略兩方面的研究。在實際的許多分類問題中,算法ID3存在各種條件的限制。其中最主要一點是缺乏背景知識,從而限制學習過程。如一位腦腫瘤專家在判定一個患頭疼的病人時,第一次并不進行最有效果的昂貴掃描,此時專家有經(jīng)濟標準。在這種簡單常見的病癥下,一開始是簡單問題測試或是一些其它更為經(jīng)濟的測試。背景學習方法在進行數(shù)據(jù)分類的過程中應遵循測試成本最小化歸納規(guī)則,以適應更多實際數(shù)據(jù)分類問題,基于這種需求,本發(fā)明提出了基于平均測試代價的一維尺度決策樹構造方法。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是決策過程中所產生經(jīng)濟成本的影響,提出了一種基于測試代價的一維決策樹構造算法。
本發(fā)明所采用的技術方案是:通過原訓練示例利用EP準則得到新背景訓練集ISA,在每項測試成本、經(jīng)濟因子和完整闊值已知的情況下,綜合考慮ΔI和ICF的值依次選擇屬性結點,再利用分裂抽象屬性的完整因子c與給定ct作比較,來得到相應的分支,在決策樹生成過程中,如遇到在一個子集或分支結點中的所有樣例都屬于相同類別或是在一個子集或分支結點中沒有待分裂的候選抽象屬性,即基于平均測試代價的一維尺度決策樹模型生成。
本發(fā)明的有益效果是:采用本決策樹構造算法實現(xiàn)了在數(shù)據(jù)分類過程中,所花費的平均測試成本低。
附圖說明
圖1表示基于平均測試代價的一維尺度決策樹構造示意圖
圖2表示ISA層次決策樹結構的生成示意圖
圖3表示屬性A進行結點分裂示意圖
具體實施方式
以下結合附圖1到3,對本發(fā)明進行詳細說明。
本算法所涉及的參數(shù)定義及說明如下。
一.ISA新背景訓練樣本集
設原訓練樣本集X中有n種類別標識L1,L2,…Ln,根據(jù)類(葉子結點)的分類對選擇屬性進行新的歸納得到新的訓練樣本集,即為ISA;新的屬性這里稱為抽象屬性抽象P、N。
二.測試代價
ISA新背景訓練樣本集中進行每一項屬性測試需要的費用,記為cos t,cos ti為第i屬性測試成本,測試代價由相關專家給出。
三.經(jīng)濟因子w和完整闊值ct
經(jīng)濟因子w為用來校準成本花費的一個變量,其范圍為w∈[0,1],當w=1為最大成本花費;完整闊值ct由相關領域專家給出,其取值范圍為ct∈[0,1]。
四.信噪比函數(shù)z()
根據(jù)信息論,信噪比這一函數(shù)功能在數(shù)據(jù)分析方面得到了廣泛的應用,有下式:
有UI+NI=TI(總信息)
得出z()=[UI/NI]=[TI/NI]-1
五.信息增益函數(shù)ΔT
根據(jù)上面的信噪比z()函數(shù)和ID3決策樹算法原理,有:
ΔT=R(TI)-R(NI)=[2R(TI)/2R(NI)]
由于TI=2R(TI),NI=2R(NI)
所以
2ΔT=[TI/NI],2ΔT=[UI/NI+1]=z()+1
所以上式信噪比函數(shù)又可寫為z()=2ΔT-1
六.分裂抽象屬性選擇因子c
假如Y為新背景訓練樣本集(ISA),A為新訓練樣本集的選擇屬性之一,新訓練樣本抽象屬性的葉子結點i的種類個數(shù)為m,我們把此葉子結點稱為觀測值,其中i∈[1,2…,m]。ISA抽象屬性值j的個數(shù)為n,即原訓練樣本的葉子結點數(shù),其中j∈[1,2…,n]。
其中,當抽象屬性第j個葉子結點中包含第i類觀測值時,h(i,j)=1;相反如果抽象屬性第j個葉子結點中不包含第i類觀測值,即h(i,j)=0。
當時,我們選擇這個抽象屬性進行分裂。
七、本發(fā)明的具體步驟如下:
步驟1:定義L為類的種類,其個數(shù)為n,Li表示第i類,上述i∈(1,2,3…n);根據(jù)EP結點類的分類準則得到新背景訓練樣本集ISA。
步驟2:專家根據(jù)實際情況,給出每項屬性進行的測試成本;
步驟3:用戶自定義參數(shù)經(jīng)濟因子w和完整闊值ct,它們的范圍都是[0,1];
步驟4:根據(jù)信息增益ΔI與ICF(信息成本函數(shù))遍歷輸入的新背景訓練樣本集的候選屬性列表,計算每個候選屬性,得出當前選擇屬性;
步驟4.1:遍歷所有ISA新背景訓練樣本集的屬性,計算每個屬性的ICF,并選擇ICF值最小的屬性作為平均測試代價的一維尺度決策樹的根結點;
步驟5:依據(jù)ISA層次結構歸納準則和抽象值的完整因子c與完整因子闊值的大小(ct)比較結果,作為基于測試代價的一維尺度決策樹的擴展結點;
步驟6:根據(jù)最優(yōu)分裂屬性選擇因子c候選的抽象屬性得到相應的每一個屬性和觀測值,在結點下生成相應的分支;每個分支的樣本集合為所有觀測值等于對應分支的新背景訓練屬性樣本,這樣的屬性集合個數(shù)為I;
步驟7.依次為每個抽象分裂屬性的每個屬性值產生一個分支類,得到相應于該分支屬性值的子集,對各子集遞歸調用本算法,即重回步驟4.1,用同樣的方法將樣本子集分割,產生分支的分支,同時獲得相應子集的子集,直到滿足以下兩條件之一則終止建樹過程,即:
條件1:在一個子集或分支結點中所有樣例屬性都為同一抽象屬性類別,又稱之為觀測值。
條件2:在一個子集或分支結點中分裂屬性為抽象屬性的集合為空。
所述步驟1中對于多類標號的原數(shù)據(jù)集都可以轉化為兩類情況,基于結點EP的歸納準則得出ISA層次結構為:
其中ISA為新的背景樣本抽象屬性,記為P、N,n(P)為正例個數(shù),n(N)為反例個數(shù)。抽象屬性,如性別中男女;根據(jù)類的種類分類規(guī)則得到新的訓練樣本集,即為ISA背景訓練樣本集;新背景訓練樣本集葉子結點發(fā)生了變化。
所述步驟4中,候選屬性i的屬性選擇因子ΔI與ICF為:
其中TI為總的數(shù)據(jù)信息,UI為不可取數(shù)據(jù)信息;
這里ΔTi為屬性i信息增量,w為檢驗經(jīng)濟標準一個變量,w∈[0,1],cos ti為屬性i的測試成本,cos ti+1>1,當cos t=0時,f(cos t)有意義;ICF是信息成本函數(shù),用來表征每一屬性的選擇。
八、本算法偽代碼如下:
輸入:訓練實例X;ISA新的樣本實例Y;測試成本cos t;經(jīng)濟因子w;完整性闊值ct。
輸出:一顆節(jié)約經(jīng)濟成本的決策樹。