用于提高分類精度的交互式可視數(shù)據(jù)挖掘的制作方法
【專利摘要】本公開涉及用于提高分類精度的交互式可視數(shù)據(jù)挖掘。例如,一種方法包括以下步驟。從一個高維數(shù)據(jù)集合生成至少兩個決策樹數(shù)據(jù)結構。生成包括該至少兩個決策樹數(shù)據(jù)結構的復合數(shù)據(jù)結構。基于該至少兩個決策樹數(shù)據(jù)結構之間計算的相關性來生成該復合數(shù)據(jù)結構。將該復合數(shù)據(jù)結構可視化在顯示器上。經由與該顯示器上的該復合數(shù)據(jù)結構的該可視化的交互,允許該復合數(shù)據(jù)結構的修改。
【專利說明】用于提高分類精度的交互式可視數(shù)據(jù)挖掘
【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)分類,并且更具體而言,涉及用于提高數(shù)據(jù)分類精度的可視數(shù)據(jù)挖掘技術。
【背景技術】
[0002]在從數(shù)據(jù)集合特別是本質上高維并且稀疏的數(shù)據(jù)集合中提取信息和知識(即,數(shù)據(jù)挖掘)的過程中,數(shù)據(jù)分類是重要的。這種高維數(shù)據(jù)集合目前被稱為“大數(shù)據(jù)”。如已知的,被描述為大數(shù)據(jù)的數(shù)據(jù)集合的尺寸太大,以至于完全超出常用軟件工具管理/處理該數(shù)據(jù)的能力,至少無法在適當?shù)臅r間內完成。例如,與大數(shù)據(jù)相關聯(lián)的高維度通常導致用于分類新數(shù)據(jù)記錄的現(xiàn)有數(shù)據(jù)分類器的不良性能。
[0003]通常,數(shù)據(jù)分類器通過如下步驟被學習:數(shù)據(jù)預處理;模型訓練;以及模型評估。為了更好的精度,在模型評估步驟之后,可以回顧數(shù)據(jù)預處理和模型訓練步驟,調諧參數(shù),并且隨后可以重新運行整個分類器學習過程。但是,該過程不能很好地適用于大數(shù)據(jù)分析。該過程本身的一次重復可能是成本不允許的,更不用說多次重復。這樣,需要一種改善用于分類高維數(shù)據(jù)集合(包括但不限于被描述為大數(shù)據(jù)的數(shù)據(jù)集合)的數(shù)據(jù)分類器的性能的技術。
【發(fā)明內容】
[0004]本發(fā)明的實施方式提供了用于提高數(shù)據(jù)分類精度的可視數(shù)據(jù)挖掘技術。
[0005]在一個實施方式中,一種方法包括以下步驟。從一個高維數(shù)據(jù)集合生成至少兩個決策樹數(shù)據(jù)結構。生成包括至少兩個決策樹數(shù)據(jù)結構的復合數(shù)據(jù)結構?;谥辽賰蓚€決策樹數(shù)據(jù)結構之間計算的相關性來生成復合數(shù)據(jù)結構。將復合數(shù)據(jù)結構可視化在顯示器上。經由與顯示器上的復合數(shù)據(jù)結構的可視化交互,允許對復合數(shù)據(jù)結構的修改。方法還可以包括對于復合數(shù)據(jù)結構中的每個決策樹數(shù)據(jù)結構計算分類精度(例如強度)。
[0006]在一個示例中,復合數(shù)據(jù)結構是隨機森林數(shù)據(jù)結構。經由與顯示器上的復合數(shù)據(jù)結構的可視化的交互來允許復合數(shù)據(jù)結構的修改可以進一步包括允許以下至少一個:至少一個決策樹數(shù)據(jù)結構從復合數(shù)據(jù)結構的移除;以及至少一個決策樹數(shù)據(jù)結構到復合數(shù)據(jù)結構的添加。方法可以進一步包括使用復合數(shù)據(jù)結構分類新數(shù)據(jù)記錄。
[0007]在另一個實施方式中,提供了一種包括處理器可讀存儲介質的計算機程序產品,其中將一個或多個軟件程序的可執(zhí)行代碼編碼在處理器可讀存儲介質中。當一個或多個軟件程序被處理設備的處理器執(zhí)行時實現(xiàn)上述方法的步驟。
[0008]在另一個實施方式中,一種裝置包括存儲器以及可操作地耦合到存儲器并且被配置為執(zhí)行上述方法的步驟的處理器。
[0009]本文所述的示例性實施方式有利地提供復合數(shù)據(jù)結構如用于高維數(shù)據(jù)集合(如可以被描述為大數(shù)據(jù)的數(shù)據(jù)集合)的隨機森林集成的可視化,從而用戶可以與隨機森林可視化交互以便有效地改善分類精度。[0010]通過附圖和以下詳細描述,本發(fā)明的這些以及其他特征和優(yōu)點將變得更加顯而易見。
【專利附圖】
【附圖說明】
[0011]圖1示出了根據(jù)本發(fā)明的一個實施方式基于云的數(shù)據(jù)存儲系統(tǒng)環(huán)境。
[0012]圖2A示出了根據(jù)本發(fā)明的一個實施方式云架構和交互式可視數(shù)據(jù)挖掘模塊。
[0013]圖2B示出了圖2A的云架構的更詳細的視圖。
[0014]圖3示出了根據(jù)本發(fā)明的一個實施方式的處理平臺,其中在該處理平臺上實現(xiàn)圖2A的云架構和交互式可視數(shù)據(jù)挖掘模塊。
[0015]圖4示出了根據(jù)本發(fā)明的一個實施方式用于從訓練數(shù)據(jù)集合生成決策樹模型的過程。
[0016]圖5不出了根據(jù)本發(fā)明的一個實施方式的決策樹和隨機森林的可視化。
[0017]圖6示出了根據(jù)本發(fā)明的一個實施方式用于生成并且與隨機森林可視化交互的方法。
【具體實施方式】
[0018]將參考示例性計算系統(tǒng)和數(shù)據(jù)存儲系統(tǒng)以及相關的服務器、計算機、存儲單元和設備以及其他處理設備來描述本發(fā)明的實施方式。但是要認識到,本發(fā)明的實施方式不限于與所示具體示范性系統(tǒng)和設備配置一起使用。此外,如這里所使用的短語“計算系統(tǒng)”和“數(shù)據(jù)存儲系統(tǒng)”適用于被廣義地解釋為包括例如專用或公共云計算或存儲系統(tǒng)以及包括分布式虛擬架構的其他類型的系統(tǒng)。但是,給定的實施方式可以更普遍地包括一個或多個處理設備的任意配置。
[0019]短語“數(shù)據(jù)結構”涉及用于在計算設備存儲、組織并且/或者處理數(shù)據(jù)的機制和/或方法,因而可以更有效地訪問并且/或者分析數(shù)據(jù)。例如,在這里所述的示范性實施方式中,使用諸如“決策樹”和“隨機森林”的數(shù)據(jù)結構。決策樹是一種決策支持型數(shù)據(jù)結構,其使用樹型圖或決策的模型和它們的可能的結果。隨機森林是一種集成分類器型的數(shù)據(jù)結構,其包括多個決策樹并且通常輸出例如該隨機森林的單獨的決策樹所輸出的類別構成的類別。Leo Breiman 在 “Random Forests,,Machine Learning 45(1):5-32, 2001 中公開了用于引起隨機森林的算法。雖然本發(fā)明的示范性實施方式使用決策樹和隨機森林,但是要明白本文所述的原理可以適用于與所述的那些數(shù)據(jù)結構、機制、方法和數(shù)據(jù)處理環(huán)境不同的數(shù)據(jù)結構、機制、方法和數(shù)據(jù)處理環(huán)境。
[0020]在描述用于生成圖4-圖6的環(huán)境中的隨機森林數(shù)據(jù)結構和決策樹數(shù)據(jù)結構的交互式可視化的示范性實施方式之前,將在圖1-3的環(huán)境中詳細描述可以在其中實現(xiàn)該技術的計算環(huán)境的示范性實施方式。
[0021]圖1示出了根據(jù)本發(fā)明的一個實施方式的基于云的數(shù)據(jù)存儲系統(tǒng)環(huán)境100。如圖
所示,客戶端設備102-1、102-2、......、102-M被耦合到通信網絡(例如因特網、內聯(lián)網、無
線網絡、有線網絡或它們的組合)104,其中客戶端設備可以經由該通信網絡訪問來自一個或多個服務提供商的云服務。在該云服務的一個示例中,由數(shù)據(jù)存儲系統(tǒng)106經由通信網絡104向客戶端設備102-1、102-2........102-M之后的一個或多個客戶端設備提供大數(shù)據(jù)存儲服務。
[0022]如上所述,“大數(shù)據(jù)”通常是指高維數(shù)據(jù)集合,其尺寸太大以至于完全超出常用軟件工具管理/處理該數(shù)據(jù)的能力,至少無法在適當?shù)臅r間內完成。僅通過示例的方式,用于處理該“大數(shù)據(jù)”的系統(tǒng)架構可以包括被稱為EMC GreenplunTHD數(shù)據(jù)計算器(馬塞諸塞州霍普金頓EMC公司),其始于Apache Hadoop? (Apache軟件公司)開放式源代碼軟件來提供“大數(shù)據(jù)”分析和服務。圖1中的系統(tǒng)106表示該大數(shù)據(jù)系統(tǒng)架構。因此,客戶端設備
102-1,102-2........102-M被配置為使用一個或多個大數(shù)據(jù)存儲服務來訪問數(shù)據(jù)存儲系
統(tǒng)106。數(shù)據(jù)存儲環(huán)境100是基于云的,在以下圖2A和2B的環(huán)境中將給出對它的解釋。
[0023]因此,根據(jù)本發(fā)明的實施方式,客戶端設備102-1、102-2........102-M能夠在存
儲在數(shù)據(jù)存儲系統(tǒng)106的高維數(shù)據(jù)上執(zhí)行數(shù)據(jù)挖掘和數(shù)據(jù)分類操作。為此目的,環(huán)境100支持跟將本文所述的實施方式的隨機森林可視化技術的實現(xiàn)。即該客戶端設備中的一個客戶端設備的用戶能夠在該客戶端設備的顯示器上交互式地可視化從存儲在數(shù)據(jù)存儲系統(tǒng)106上的數(shù)據(jù)生成的隨機森林數(shù)據(jù)結構(其包括多個決策樹數(shù)據(jù)結構)。下文將更詳細地描述該隨機森林的生成以及與隨機森林的交互。
[0024]圖2A示出了根據(jù)本發(fā)明的一個示范性實施方式配置的系統(tǒng)200。如圖所示,系統(tǒng)200包括云架構210和交互式可視數(shù)據(jù)挖掘模塊220。如下文更詳細地解釋的,交互式可視數(shù)據(jù)挖掘模塊220允許用戶可視化用于表示高維數(shù)據(jù)集合的隨機森林數(shù)據(jù)結構,因而用戶可以與該隨機森林數(shù)據(jù)結構交互(例如,從/向隨機森林數(shù)據(jù)結構移除/添加決策樹以改善分類精度)。在該圖中將云架構210示范性地描述為包括執(zhí)行環(huán)境,該執(zhí)行環(huán)境具有執(zhí)行組件,包括一個或多個中央處理器(CPU) 212、一個或多個虛擬機(VM) 214以及存儲設備216 (基于該存儲設備實現(xiàn)邏輯單元(LU)),它們執(zhí)行一個或多個過程218,該過程218在一個或多個過程輸入數(shù)據(jù)集合上進行操作,該一個或多個過程輸入數(shù)據(jù)集合生成一個或多個過程輸出數(shù)據(jù)集合。要明白,在云架構210實現(xiàn)該交互式可視數(shù)據(jù)挖掘模塊220將要處理的高維數(shù)據(jù)集合(大數(shù)據(jù))(因此,云架構210也可以被稱為云服務架構210)。
[0025]將會理解,系統(tǒng)200的一部分或全部可以實現(xiàn)在圖1的基于云的數(shù)據(jù)存儲系統(tǒng)環(huán)境100中。例如,可以將交互式可視數(shù)據(jù)挖掘模塊220部分或整體實現(xiàn)在圖1的客戶端設
備102-1、102-2、......、102-M中的至少一個客戶端設備中。類似地,可以將交互式可視數(shù)
據(jù)挖掘模塊220部分或整體實現(xiàn)在圖1的數(shù)據(jù)存儲系統(tǒng)106中。此外,可以將交互式可視數(shù)據(jù)挖掘模塊220部分或整體實現(xiàn)在圖1的云服務網絡104中的一個或多個其他計算設備或系統(tǒng)(未示出)中。
[0026]雖然在圖2A中將系統(tǒng)元件210和220顯示為獨立的元件,但是可以將這些元件以及它們的部件至少部分地實現(xiàn)在公共處理平臺上。在其他實施方式中,可以將系統(tǒng)元件210和220中的一個或多個中的每一個實現(xiàn)在獨立的處理平臺上如下文結合圖3所述的處理平臺。例如,可以將云架構210實現(xiàn)在第一處理平臺的第一處理設備上并且可以將交互式可視數(shù)據(jù)挖掘模塊220實現(xiàn)在第二處理平臺的第二處理設備上。還要理解,系統(tǒng)200的給定實施方式可以包括系統(tǒng)元件210和220的多個示例,但是為了說明的清楚和簡單起見,在系統(tǒng)圖中僅顯示了該元件的單個示例。
[0027]如圖2B中所示,(與圖2A中的210相對應的)云架構230包括使用管理器234實現(xiàn)的虛擬機(VM) 232-1、232-2........232-N。管理器234是這里更通常地被稱為“可視化架構”的東西的示例。管理器234運行在物理架構236 (例如可以包括圖2A中的CPU212和/或存儲設備216)。云架構230還包括在管理器234的控制之下(利用相關LU)運行在各自的虛擬機(VM) 232-1、232-2、......、232_N 上的應用 238-1、238-2、......、238_N 的集
入
口 ο
[0028]雖然在圖2B的示例中僅顯示了單個管理器234但是根據(jù)本發(fā)明的實施方式所配置的云架構的給定實施方式可以包括多個管理器,其中每個管理器運行在它自己的物理架構上。可以對該物理架構的部件進行可視化。
[0029]如已知的,虛擬機是可以被安裝在一個或多個物理處理元件(例如服務器、計算機、處理設備)上的邏輯處理元件。即“虛擬機”通常涉及以與物理機類似的方式執(zhí)行程序的軟件機器(即計算機)實現(xiàn)。因此不同的虛擬機可以在同一物理計算機上運行不同的操作系統(tǒng)和多個應用。由管理器234實現(xiàn)可視化,其中如圖2B中所示的管理器234被直接插入到計算機硬件的頂部以便動態(tài)地并且透明地分配物理計算機(物理架構236)的硬件資源。管理器234承擔多個操作系統(tǒng)在單個物理計算機上同時允許并且彼此共享硬件資源的能力。
[0030]可用于實現(xiàn)本發(fā)明的一個或多個實施方式中的云架構230(210)的部件的可購得的管理器平臺的一個示例是VMware? vSphere?,其可以具有相關的虛擬架構管理系統(tǒng)如VMware? vCenter??;疚锢砑軜?36可以包括一個或多個分布式處理平臺,其包括存儲產品,例如從馬塞諸塞州霍普金頓的EMC公司可購得的VNX和對稱VMAX??梢岳酶鞣N其他存儲產品來實現(xiàn)云架構230(210)的至少一部分。
[0031]圖3所示的處理平臺300是可用于實現(xiàn)圖2A的云架構210和/或交互式可視數(shù)據(jù)挖掘模塊220(以及圖1的環(huán)境100的組件)的處理平臺的一個示例。該實施方式中的處理平臺300包括系統(tǒng)200 (和/或環(huán)境100)的至少一部分并且包括在網絡304上彼此通信
的多個計算設備,被標記為302-1、302-2、302-3、......、302_P。系統(tǒng)200 (100)的一個或多
個元件中的每一個因此可以運行在可以被視為在這里可以更普遍地被稱為“計算設備”(或處理設備)的示例的服務器、計算機或其他處理平臺元件上。如圖3中所示,該設備通常包括至少一個處理器和相關存儲設備,并且實現(xiàn)用于控制系統(tǒng)200 (100)的特定特征的一個或多個功能模塊。同樣地,在給定實施方式中可以由單個處理設備實現(xiàn)多個元件或模塊。
[0032]處理平臺300中的計算設備302-1包括處理器312、存儲器314、輸入/輸出設備316和網絡接口 318。處理器312可以包括微處理器、微控制器、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其他類型的處理電路以及該電路元件的一部分或組合。存儲器314可以被視為在這里被更普遍地稱為“計算機程序產品”的東西的示例。計算機程序產品包括處理器可讀的存儲介質,其具有編碼在其中的一個或多個軟件程序的可執(zhí)行代碼。該存儲器可以包括電子存儲器例如隨機訪問存儲器(RAM)、只讀存儲器(ROM)或其他類型存儲器的任意組合。當計算機程序代碼被諸如計算設備302-1的處理設備執(zhí)行時導致該設備執(zhí)行與系統(tǒng)200 (100)的一個或多個元件相關聯(lián)的功能。給定本文提供的教導,本領域的熟練技術人員將能夠容易實現(xiàn)該軟件。用于實現(xiàn)本發(fā)明的實施方式的計算機程序產品的其他示例可以包括例如光盤或磁盤。
[0033]計算設備302-1還包括輸入/輸出(I/O)設備316,例如用于向處理器312和/或存儲器314輸入數(shù)據(jù)的一個或多個設備或機制(例如鍵盤或鼠標)以及用于提供與處理器312和/或存儲器314相關聯(lián)的結果的一個或多個設備或機制(例如顯示器或打印機)。[0034]在計算設備302-1中還包括網絡接口電路318,其用于將該計算設備與網絡304或其他系統(tǒng)組件接口。該電路可以包括本領域公知的類型的常規(guī)的收發(fā)器。
[0035]假設處理平臺300的其他計算設備302被以與對于圖中的計算設備302_1類似的方式進行配置。
[0036]圖3中所示的處理平臺300可以包括附加的已知部件,例如但不限于,批處理系統(tǒng)、并行處理系統(tǒng)、物理機器、虛擬機、虛擬開關、存儲容量、邏輯單元等等。同樣地,僅通過示例的方式給出該圖中所示的具體處理平臺,并且系統(tǒng)300可以包括附加的或可替換的處理平臺以及大量不同的處理平臺的任意組合。
[0037]在系統(tǒng)300中還可能存在服務器、計算機、存儲設備、計算設備或其他組件的多種其他配置。該組件可以在任意類型的網絡,例如廣域網(WAN)、局域網(LAN)、衛(wèi)星網絡、電話或電纜網絡或這些以及其他類型的網絡的各種不服或組合上與系統(tǒng)300的其他元件通?目。
[0038]現(xiàn)在將參考圖4到圖6來描述交互式可視數(shù)據(jù)挖掘模塊220的示范性的細節(jié)。
[0039]本文所述的示范性的實施方式是基于隨機森林分類模塊的。在下文的詳細描述中,我們首先引入隨機森林的概念,然后我們描述如何可視化隨機森林。最后,我們提出關于隨機森林可視化的各種各樣交互式操作。
[0040]使用隨機森林作為分類模型
[0041]如前所述,決策樹是用于分類問題的樹形結構模型。作為示例,圖4示出了包括10個記錄的訓練數(shù)據(jù)交換(表402),其中每個記錄具有3個屬性,即“退款”、“婚姻狀況”和“可征稅收入”。表402中的最后一列是用于指示在每行中的納稅人情況(由納稅人ID或“Tid”所識別)是否是欺詐情況的類別標記。假設由過程404生成決策樹406。在諸如406的決策樹中,每個內部節(jié)點測試被稱為分裂屬性的屬性并且每個分支對應于一個屬性值。每個樹葉節(jié)點向記錄分配一個分類。從樹根到樹葉的路徑是屬性測試的連結。決策樹406概述以下4個規(guī)則:
[0042]a)(退款=是)=> (欺詐=否)
[0043]b)(退款=否)AND(婚姻狀況=單身)AND(可征稅收入< 80k)=> (欺詐=否)
[0044]c)(退款=否)AND(婚姻狀況=單身)AND(可征稅收入> 80k)=> (欺詐=是)
[0045]d)(退款=否)AND (婚姻狀況=已婚)= > (欺詐=否)
[0046]決策樹是一種分類模型,其在某種程度上預測用于測試記錄的類別標記:決策樹(記錄)一類別標記。
[0047]如果預測結果與實際分類相同,則預測結果為真。給定一個測試數(shù)據(jù)集合,決策樹的精度是總體中的為真結果的比例。但是,決策樹是性能不佳的分類器。因此,我們將其稱為弱分類器或基本分類器。根據(jù)集成學習理論,提供開發(fā)決策樹的集成并且使決策樹票選最受歡迎的類別,可以顯著改善性能。決策樹的該集成(集合)被稱為隨機森林。假設包括 100 的決策樹{DT1,DT2,...DT100}的隨機森林 RF 即 RF = {DTI, DT2,...DT100}。然后對于給定記錄r,隨機森林分類器使得DT票選大部分結果,即:RF(r)=主要{DTI (r),DT2(r),...DT100 (r)}ο
[0048]隨機森林可視化[0049]現(xiàn)在參考圖5和圖6,其中根據(jù)一個示范性的實施方式,在圖5中示出了決策樹和隨機森林的示例并且在圖6中示出了用于生成并且與隨機森林可視化交換的方法。
[0050]如(圖6的)方法600的步驟602中所示,第一步驟是對隨機森林集成(集合或數(shù)據(jù)結構)進行可視化,以生成決策樹并且隨后使之可視化。為此,確定決策樹的什么特性對用戶而言是重要的并且如何表示該特性。在圖5的實施方式中,使用三維樹(即實際樹的計算機生成的視圖)來表示決策樹數(shù)據(jù)結構,并且:
[0051](i)使用樹枝來表示分裂的屬性;
[0052](ii)使用不同樹葉形狀(例如圓形、矩形等等)來指示不同的類別標記;
[0053](iii)使用樹干半徑來指示與該決策樹相關的記錄的數(shù)量(并且分支厚度表示與該決策樹的給定分支相關聯(lián)的記錄的數(shù)量);并且
[0054](iv)使用樹干的高度來指示分類精度即決策樹的強度。從袋外(out-of-bag)數(shù)據(jù)或測試數(shù)據(jù)集合計算精度。如隨機森林理論中已知的,當通過重置采樣來描繪當前決策樹時,大約三分之一的情況未被米樣所考慮。隨著決策樹被添加到隨機森林,袋外數(shù)據(jù)來獲得分類誤差的運行無偏估計。在圖6的步驟604中表示該分類精度/強度計算。
[0055]在一個示范性實施方式中,在圖5的視圖502中顯示了如此生成并且可視化的決策樹。
[0056]為了可視化隨機森林作為平面中的隨機森林,根據(jù)圖6執(zhí)行以下步驟。
[0057]對于隨機森林中的任意決策樹配對DTi和DTj,步驟606計算它們的相關性Corr (DTi, DTj)。該相關性是兩個樹的相似性度量,可以從袋外采樣的分類結果計算出。
[0058]然后,步驟608將每個決策樹配對DTi和DTj之間的距離計算為其相關性的倒數(shù),即 Dist(DTi,DTj) = I/Corr(DTi, DTj)。
[0059]給定樹的配對距離,步驟610繼而計算用每個樹的二維(坐標)軸(x,y)。這基本上是一個低維空間投影的問題,并且在一個實施方式中對該問題采用度量多維縮放(MDS)方法。
[0060]基于這些計算,在步驟612中在用戶的計算機屏幕上繪制(即顯示)隨機森林作為一個或多個可視化。
[0061]在圖5中,示出了全景視圖504中以及近景視圖506中隨機森林的示例。
[0062]該隨機森林用于對未來記錄進行分類。在一個實施方式中,我們演不隨機森林如何完成分類。假設給予系統(tǒng)(例如圖2中的模塊220)記錄r。決策樹輸出用于該記錄的分類結果DT(r)。將該新記錄可能的每個類別標記與不同的陰影或暗影模式相關聯(lián)。因此,作為新記錄的分類結果,樹在森林中被繪制具有對應的陰影/暗影形式的樹。在圖5的視圖506中顯示了結果的隨機森林。備選地,除了視圖506中的陰影/暗影形式之外,可以對于每個類別標記使用唯一的顏色。
[0063]與隨機森林的交互
[0064]假設已將系統(tǒng)可視化為隨機森林。本發(fā)明的示范性實施方式為提供操作以便用戶如圖6中的步驟614所示與隨機森林(RF)交互。
[0065](i)分類:允許用戶輸入記錄。RF中的每個樹通過顯示對應的陰影/暗影形式,輸出分類結果。還報告主要形式(類別標記)。
[0066](ii)砍伐:用戶可以選擇RF中的一些樹,并且隨后砍伐該樹??撤ケ硎緩腞F移除所選擇的樹。
[0067](iii)生長:用戶可以決定要生長的新樹的數(shù)量。生長表示可以向RF添加一個或多個新樹。
[0068]在由于砍伐或生長操作而修改隨機森林之后,系統(tǒng)(圖2中的模塊220)迅速地評估新森林,因而用戶知道該操作的效果。在砍伐之后,剩余的樹的位置保持不變,而在生長之后,需要計算新添加的樹的位置。在更嚴格的設置中,在任意砍伐和生長操作只要重新布局全部樹。
[0069]將會理解,隨機森林的分類精度取決于個體樹的強度以及樹之間的相關性。為了實現(xiàn)高精度,樹的強度應該高(不低)并且樹應該不緊密相關。因此,我們提出用于用戶交互的示范性方針:
[0070](i)可以砍伐森林中的擁擠區(qū)域中的一些樹,以降低總體相關性。
[0071](ii) 一些小樹可因為其低強度而被砍伐。
[0072](iii)假設存在一些測試記錄。然后,可以使用分類功能來找弱的樹。因此,我提出使得系統(tǒng)因而輸入測試記錄并且檢查分類結果。如果一些弱小的樹非常頻繁地錯誤分類記錄,或者如果一些弱小的樹做出一些非常幼稚的錯誤分類,則用戶可能決定砍伐一些弱小的樹。
[0073](iv)當隨機森林中的樹的數(shù)量由于砍伐操作而小于預定義數(shù)量比如說100時,用戶可決定執(zhí)行生長操作以向隨機森林添加一些樹。
[0074]應該再次強調,僅僅為了說明的目的提供本發(fā)明的上述實施方式。在所示的具體配置中可以做出許多變形。例如,雖然在具體系統(tǒng)和設備配置的環(huán)境中描述該技術,但是該技術可以應用于各種各樣其他類型的信息處理系統(tǒng)、處理設備和分布式虛擬架構配置。另夕卜,以上在描述示范性實施方式的過程中做出的任意簡化假設模式應該被視為示例性的而是本發(fā)明的要求或限制。本領域的熟練技術人員將容易理解落入所附權利要求的范圍中的大量其他可替換的實施方式。
【權利要求】
1.一種方法,包括: 從高維數(shù)據(jù)集合生成至少兩個決策樹數(shù)據(jù)結構; 生成包括所述至少兩個決策樹數(shù)據(jù)結構的復合數(shù)據(jù)結構,所述復合數(shù)據(jù)結構基于在所述至少兩個決策樹數(shù)據(jù)結構之間計算的相關性被生成; 將所述復合數(shù)據(jù)結構可視化在顯示器上;以及 經由與所述顯示器上的所述復合數(shù)據(jù)結構的所述可視化的交互,允許對所述復合數(shù)據(jù)結構的修改。
2.根據(jù)權利要求1所述的方法,其中所述復合數(shù)據(jù)結構是隨機森林數(shù)據(jù)結構。
3.根據(jù)權利要求1所述的方法,其中生成所述復合數(shù)據(jù)結構的步驟進一步包括:計算所述至少兩個決策樹數(shù)據(jù)結構之間的距離。
4.根據(jù)權利要求3所述的方法,其中所述至少兩個決策樹數(shù)據(jù)結構之間的所述距離被計算為在所述至少兩個決策樹數(shù)據(jù)結構之間計算的所述相關性的倒數(shù)。
5.根據(jù)權利要求3所述的方法,其中生成所述復合數(shù)據(jù)結構的步驟進一步包括:基于在所述至少兩個決策樹數(shù)據(jù)結構之間計算的距離,計算所述至少兩個決策樹數(shù)據(jù)結構中每一個的坐標軸。
6.根據(jù)權利要求5所述的方法,其中所述坐標軸是二維軸。
7.根據(jù)權利要求5所述的方法,其中可視化所述復合數(shù)據(jù)結構的步驟進一步包括:基于計算出的所述至少兩個決策樹數(shù)據(jù)結構的坐標軸,在所述顯示器上繪制所述復合數(shù)據(jù)結構。
8.根據(jù)權利要求1所述的方法,其中所述復合數(shù)據(jù)結構中的每個決策樹數(shù)據(jù)結構被可視化,使得分裂屬性被可視地表示為樹枝。
9.根據(jù)權利要求1所述的方法,其中所述復合數(shù)據(jù)結構中的每個決策樹數(shù)據(jù)結構被可視化,使得不同的類別標記被可視地表示為不同的樹葉形狀。
10.根據(jù)權利要求1所述的方法,其中可視化所述復合數(shù)據(jù)結構中的每個決策樹數(shù)據(jù)結構,使得與所述至少兩個決策樹數(shù)據(jù)結構中給定的一個決策樹數(shù)據(jù)結構相關聯(lián)的記錄的數(shù)量被可視化地表示為樹干半徑。
11.根據(jù)權利要求1所述的方法,還包括:計算所述復合數(shù)據(jù)結構中每個決策樹數(shù)據(jù)結構的分類精度。
12.根據(jù)權利要求11所述的方法,其中所述復合數(shù)據(jù)結構中的每個決策樹數(shù)據(jù)結構被可視化,使得所述分類精度被可視地表示為樹干高度。
13.根據(jù)權利要求1所述的方法,其中經由與所述顯示器上的所述復合數(shù)據(jù)結構的所述可視化的交互來允許對所述復合數(shù)據(jù)結構的修改的步驟進一步包括允許以下至少一個:從所述復合數(shù)據(jù)結構中移除至少一個決策樹數(shù)據(jù)結構;以及向所述復合數(shù)據(jù)結構添加至少一個決策樹數(shù) 據(jù)結構。
14.根據(jù)權利要求1所述的方法,進一步包括:使用所述復合數(shù)據(jù)結構對新數(shù)據(jù)記錄進行分類。
15.一種包括處理器可讀存儲介質的計算機程序產品,所述計算機可讀存儲介質具有編碼于其中的一個或多個軟件程序的可執(zhí)行代碼,其中當所述一個或多個軟件程序被處理器執(zhí)行時,實現(xiàn)根據(jù)權利要求1所述的方法的步驟。
16.一種裝置,包括: 存儲器;以及 處理器,可操作地耦合到高存儲器的,并且被配置為: 從高維數(shù)據(jù)集合生成至少兩個決策樹數(shù)據(jù)結構; 生成包括所述至少兩個決策樹數(shù)據(jù)結構的復合數(shù)據(jù)結構,所述復合數(shù)據(jù)結構基于在所述至少兩個決策樹數(shù)據(jù)結構之間計算的相關性被生成; 將所述復合數(shù)據(jù)結構可視化在顯示器上;以及 經由與所述顯示器上的所述復合數(shù)據(jù)結構的所述可視化的交互,允許對所述復合數(shù)據(jù)結構的修改。
17.根據(jù)權利要求16所述的裝置,其中所述復合數(shù)據(jù)結構是隨機森林數(shù)據(jù)結構。
18.根據(jù)權利要求16所述的裝置,其中經由與所述顯示器上的所述復合數(shù)據(jù)結構的所述可視化的交互來允許對所述復合數(shù)據(jù)結構的修改進一步包括允許從所述復合數(shù)據(jù)結構移除至少一個決策樹數(shù)據(jù)結構。
19.根據(jù)權利要求16所述的裝置,其中經由與所述顯示器上的所述復合數(shù)據(jù)結構的所述可視化的交互來允許對所述復合數(shù)據(jù)結構的修改進一步包括允許向所述復合數(shù)據(jù)結構添加至少一個決策樹數(shù)據(jù)結構。
20.根據(jù)權利要求16所述的裝置,其中所述處理器還被配置為使用所述復合數(shù)據(jù)結構對新數(shù)據(jù)記錄進行分類。
【文檔編號】G06F17/30GK103699541SQ201210366772
【公開日】2014年4月2日 申請日期:2012年9月28日 優(yōu)先權日:2012年9月28日
【發(fā)明者】陳弢, 陳繼東 申請人:伊姆西公司