專利名稱:一種基于拉普拉斯正則化無監(jiān)督的聚類特征選取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于拉普拉斯正則化無監(jiān)督的聚類特征選取方法。
背景技術(shù):
聚類是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中一種常見的多元統(tǒng)計(jì)分析方法,它討論的對象是大量的樣品,要求能按各自的特性來進(jìn)行合理的分類,沒有任何模式可供參考或依循,即在沒有先驗(yàn)知識的情況下進(jìn)行的。目前,作為一種有效地?cái)?shù)據(jù)分析手段,聚類方法被廣泛應(yīng)用于各大領(lǐng)域在商業(yè)上,聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客 戶群的特征;在生物上,聚類分析被用來動(dòng)植物分類和基因進(jìn)行分類,獲取對種群固有結(jié)構(gòu)的認(rèn)識;在地理上,聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫上趨于的相似性;在保險(xiǎn)行業(yè)上,聚類分析通過一個(gè)高的平均消費(fèi)來鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類型,價(jià)值,地理位置來鑒定一個(gè)城市的房產(chǎn)分組;在互聯(lián)網(wǎng)應(yīng)用中,聚類分析被用來對網(wǎng)絡(luò)中的文檔進(jìn)行歸類,對虛擬社區(qū)中的用戶進(jìn)行分組。常見的聚類分析方法主要包括如下幾種( I)分裂法,又稱劃分方法,首先創(chuàng)建K個(gè)劃分,K為要?jiǎng)?chuàng)建的劃分的個(gè)數(shù);然后利用一個(gè)循環(huán)定位的技術(shù)通過將對象從一個(gè)劃分移到另一個(gè)劃分來改善劃分質(zhì)量。典型的劃分方法有K均值聚類算法(Kmeans)、K中心聚類算法(Kmedoids)和聚類大應(yīng)用程序算法(CLARA, Clustering LARge Application)等。(2)層次法,通過創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的層次方法有基于平衡迭代降低的層次聚類算法(BIRCH, Balanced Iterative Reducing and Clustering using Hierarchies)、基于表達(dá)的聚類算法(⑶RE, Clustering Using REprisentatives)和基于動(dòng)態(tài)模型的層次聚類算法(CHEMAL0EN)等。(3)基于密度的方法,根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度不斷增長聚類。典型的基于密度的方法有基于密度的聚類算法(DBSCAlDensit-based SpatialClustering of Application with Noise)和基于對象排序識別聚類結(jié)構(gòu)的聚類算法(OPTICS, Ordering Points To Identify the Clustering Structure)。(4)基于網(wǎng)格的方法,首先將對象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu),然后利用網(wǎng)格結(jié)構(gòu)完成聚類。( 5 )基于模型的方法,它假設(shè)每個(gè)聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。這些傳統(tǒng)的聚類方法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問題,但隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)采集能力的提高導(dǎo)致各領(lǐng)域數(shù)據(jù)的維度呈指數(shù)級增長,由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多高維數(shù)據(jù)時(shí)傳統(tǒng)的聚類方法經(jīng)常失效。因?yàn)閭鹘y(tǒng)聚類方法對高維數(shù)據(jù)集中進(jìn)行聚類時(shí),主要遇到兩個(gè)問題(I)高維數(shù)據(jù)集中存在大量無關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零,大大增加了運(yùn)算的復(fù)雜度;(2)高維帶來的維度災(zāi)難使得某些聚類算法的實(shí)用性幾乎為零,在圖像,識別,信息檢索等眾多領(lǐng)域,嚴(yán)重影響學(xué)習(xí)的效率和效果。針對以上兩個(gè)問題,研究者提出了特征選擇和特征提取兩種聚類預(yù)處理方法。特征提取是將原有的特征進(jìn)行轉(zhuǎn)換和組合,產(chǎn)生新的有效的特征。而特征選擇是從原來大量的特征中挑選出包含最多信息的特征。這兩項(xiàng)技術(shù)是成功的數(shù)據(jù)應(yīng)用學(xué)習(xí)的重要組成部分。根據(jù)是否利用標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,特征選擇可以分成監(jiān)督式特征學(xué)習(xí)和非監(jiān)督式特征學(xué)習(xí)。典型的監(jiān)督式特征學(xué)習(xí)包括費(fèi)舍爾分值法(Fish score),蓬松相關(guān)系數(shù)法(Personcorrelation coefficients)等。這些方法能很有效的進(jìn)行特征選擇。然而,在實(shí)際應(yīng)用中,由于對數(shù)據(jù)進(jìn)行標(biāo)記需要昂貴的人力成本,并且有時(shí)候,帶標(biāo)記的數(shù)據(jù)難以取得,因此監(jiān)督式學(xué)習(xí)就難以在一些應(yīng)用中發(fā)揮作用。故為了解決維數(shù)災(zāi)難和消除數(shù)據(jù)中對于學(xué)習(xí)來說不必要的冗余信息,常采用非監(jiān)督式特征選擇對數(shù)據(jù)進(jìn)行預(yù)處理。目前主要的非監(jiān)督式方法有拉普拉斯分值法(Laplacian Score):利用數(shù)據(jù)的原始流形空間信息,挑選出最符 合數(shù)據(jù)幾何分布規(guī)律的特征點(diǎn)。它從最本質(zhì)的原理出發(fā),充分利用了數(shù)據(jù)的分布特性,揭示事物的本質(zhì),簡化復(fù)雜的問題。Q-alpha法通過優(yōu)化最小二乘法標(biāo)準(zhǔn)函數(shù)通過估計(jì)所選維度數(shù)據(jù)點(diǎn)的聚類性來挑選特征。方差法(Variance):選取方差變化最大的特征為所需特征。拉普拉斯分值作為經(jīng)典的特征選擇的譜方法,目前已經(jīng)廣泛應(yīng)用于各種應(yīng)用,該方法可以有效地找出數(shù)據(jù)的主要特征,但是不能有效地提取出數(shù)據(jù)的類別特征;Q_alpha作為一種特征選擇方法,在基因的選擇上有很好的效果,但是不適合其他應(yīng)用(比如圖形圖像的處理);方差特征選擇法是最簡單的一種特征選擇方法之一,但是它僅僅選擇變化最大的特征作為包含信息量最大的特征,這樣的選擇方式容易被噪音數(shù)據(jù)所干擾。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)所存在的上述技術(shù)缺陷,本發(fā)明提供了一種基于拉普拉斯正則化無監(jiān)督的聚類特征選取方法,能夠改善后續(xù)學(xué)習(xí)及聚類分析的效果,提高學(xué)習(xí)及聚類分析的判別能力。一種基于拉普拉斯正則化無監(jiān)督的聚類特征選取方法,包括如下步驟(I)獲取樣本數(shù)據(jù)集合,進(jìn)而構(gòu)建樣本數(shù)據(jù)集合的樣本特征矩陣;所述的樣本特征矩陣為nXm維矩陣,n為特征個(gè)數(shù),m為樣本個(gè)數(shù),且m和n均為大于I的自然數(shù);(2)根據(jù)所述的樣本特征矩陣,計(jì)算出其對應(yīng)的拉普拉斯矩陣;(3)根據(jù)所述的拉普拉斯矩陣,利用基于拉普拉斯正則化算法從樣本特征矩陣中提取出k行特征集合,k為預(yù)期給定的特征提取個(gè)數(shù)。所述的步驟(3)中,利用基于拉普拉斯正則化算法從樣本特征矩陣中提取出k行特征集合的具體過程如下a.取樣本特征矩陣中的任一行特征集合作為特征過渡矩陣Y1 ;
b.根據(jù)以下方程組計(jì)算特征過渡矩陣Y1對應(yīng)的方差Z1
權(quán)利要求
1.一種基于拉普拉斯正則化無監(jiān)督的聚類特征選取方法,包括如下步驟 (1)獲取樣本數(shù)據(jù)集合,進(jìn)而構(gòu)建樣本數(shù)據(jù)集合的樣本特征矩陣; 所述的樣本特征矩陣為nXm維矩陣,n為特征個(gè)數(shù),m為樣本個(gè)數(shù),且m和n均為大于I的自然數(shù); (2)根據(jù)所述的樣本特征矩陣,計(jì)算出其對應(yīng)的拉普拉斯矩陣; (3)根據(jù)所述的拉普拉斯矩陣,利用基于拉普拉斯正則化算法從樣本特征矩陣中提取出k行特征集合,k為預(yù)期給定的特征提取個(gè)數(shù)。
2.根據(jù)權(quán)利要求I所述的基于拉普拉斯正則化無監(jiān)督的聚類特征選取方法,其特征在于所述的步驟(3)中,利用基于拉普拉斯正則化算法從樣本特征矩陣中提取出k行特征集合的具體過程如下· a.取樣本特征矩陣中的任一行特征集合作為特征過渡矩陣Y1; b.根據(jù)以下方程組計(jì)算特征過渡矩陣Y1對應(yīng)的方差Z1 其中=YuSY1的第j列特征向量,j為自然數(shù),且I < j Sm,L為樣本特征矩陣對應(yīng)的拉普拉斯矩陣,I為單位矩陣,a和P均為給定的運(yùn)算系數(shù); c.根據(jù)步驟a和b,遍歷樣本特征矩陣中的每一行特征集合,得到n個(gè)方差,從樣本特征矩陣中提取出最小方差所對應(yīng)的一行特征集合,并令該行特征集合為S1,以完成第一次特征提??; d.依次完成k次特征提取后從樣本特征矩陣中提取得到k行特征集合; 其中,關(guān)于第i次特征提取的過程為構(gòu)建一 i Xm維矩陣,令S廣Sp1為該矩陣的前i-1行特征集合,取樣本特征矩陣中除S廣Sp1外的任一行特征集合為該矩陣的第i行特征集合,并使該矩陣作為特征過渡矩陣Yi, i為自然數(shù),且2 ^ i ;根據(jù)以下方程組計(jì)算特征過渡矩陣Yi對應(yīng)的方差Zi 其中yij為Yi的第j列特征向量; 依此,遍歷樣本特征矩陣中除外的每一行特征集合,得到n-i+1個(gè)方差,從樣本特征矩陣中提取出最小方差所對應(yīng)的一行特征集合,并令該行特征集合為Si。
3.根據(jù)權(quán)利要求2所述的基于拉普拉斯正則化無監(jiān)督的聚類特征選取方法,其特征在于第i次特征提取過程中,根據(jù)以下方程組計(jì)算特征過渡矩陣Yi對應(yīng)的方差Zi Zi = max{gn, gi2, gi3...gjgij = (Yij) 1F1Yi (Yi) Vy.j
全文摘要
本發(fā)明公開了一種基于拉普拉斯正則化無監(jiān)督的聚類特征選取方法,包括(1)構(gòu)建樣本特征矩陣;(2)計(jì)算拉普拉斯矩陣;(3)對樣本特征矩陣進(jìn)行特征提取。本發(fā)明通過直接度量后續(xù)學(xué)習(xí)預(yù)測結(jié)果的方差來選擇特征,能直接提高后續(xù)學(xué)習(xí)預(yù)測效果;同時(shí)在特征提取過程中考慮選取的特征點(diǎn)對于學(xué)習(xí)問題的預(yù)測值的影響,故能有效提高后續(xù)的學(xué)習(xí)效率;另外本發(fā)明數(shù)據(jù)的建模是基于數(shù)據(jù)的流形幾何的拉普拉斯方法,該方法能有效的反映數(shù)據(jù)在空間中的分布信息,從而能夠找出信息量最大的維度。
文檔編號G06F17/30GK102722578SQ20121018251
公開日2012年10月10日 申請日期2012年5月31日 優(yōu)先權(quán)日2012年5月31日
發(fā)明者何曉飛, 姚冠紅 申請人:浙江大學(xué)