最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

松弛模糊c均值聚類算法的制作方法

文檔序號:11216962閱讀:952來源:國知局

本發(fā)明屬于數據挖掘領域進行無監(jiān)督數據分類的算法,具體的說是一種通過對樣本模糊隸屬度約束條件進行放寬以適應噪聲數據集的松弛模糊c均值聚類算法。



背景技術:

模糊c均值算法(fuzzyc-meansclustering,fcm)是模糊聚類算法中最重要的聚類算法,在模式分類、機器學習和數據挖掘等領域中有著廣泛的應用。

fcm算法相對于其它聚類算法有著許多的優(yōu)勢,如模型數學表達易于理解符合實際、優(yōu)化求解方法多樣收斂理論嚴謹、算法易于借助計算機編程實現、模糊聚類效果表現優(yōu)良等。但fcm算法也存在一些不足之處,如類別k值無法有效確定、模糊指標m缺乏求解的方法和理論、梯度法求解模型容易陷入局部優(yōu)解、聚類算法因歸一化約束對噪聲數據敏感等。

由于fcm算法要求每個樣本對各類的模糊隸屬度之和為1,即要求樣本模糊隸屬度滿足歸一化約束,使得噪聲數據基于fcm算法也會獲得很高的模糊隸屬度,因此fcm算法對噪聲數據是敏感的,放松fcm算法歸一化約束是避免算法對噪聲數據敏感的一個基本思路。

在克服fcm算法對噪聲數據敏感的改進方面,研究者最初提出了兩種改進途徑,一是krishnapuram提出的可能性聚類算法(possibilisticc-meansclustering,pcm),pcm算法放棄了歸一化約束,同時為了避免平凡解的產生而在目標函數中增加了正則項,但因為pcm算法完全摒棄了對模糊隸屬度的約束,導致pcm算法容易陷入聚類中心一致性的結果。pfcm算法在目標函數中利用線性組合的方式將fcm算法和pcm算法結合起來,目的在于集成fcm算法的有效聚類和pcm算法的抗噪性能,但pfcm算法有較多需要人工經驗確定的預設參數,且無有效的參數確定方法以保證算法的聚類有效性。另一種改進方法是lee提出的afc算法(anotherfcm,afc),afc算法弱化了單個樣本模糊隸屬度歸一化約束,而僅要求樣本空間n個樣本的各類模糊隸屬度和為n,由于afc算法利用梯度法建立模糊隸屬度迭代公式,使得在樣本與聚類中心距離為零的情況下afc算法無法合理解釋樣本模糊隸屬度公式,且算法使得距離聚類中心最近的樣本被賦予極大的模糊隸屬度而其它樣本隸屬度趨近于零,即afc算法聚類結果幾乎是無效的,從而限制了afc算法的進一步研究,鮮少有關于afc算法的介紹和應用。

pcm算法和afc算法都是通過放松fcm算法歸一化和取約束的方式,消除fcm算法對噪聲數據的敏感性,區(qū)別在于pcm算法完全放棄了樣本模糊隸屬度的和取約束,而afc算法通過弱化和取約束方式進行放松,致使兩算法相應產生了各自不同的算法局限性。

生物進化算法越來越多的引入到模糊聚類算法中,用于模型的參數估計和目標函數求解。生物進化算法在求解聚類模型時有三大優(yōu)勢,一是可提高聚類算法的全局尋優(yōu)性能。如在fcm算法中分別利用遺產算法(ga)和粒子群(pso)算法求解聚類模型以提高全局尋優(yōu)能力。二是當聚類目標函數復雜而無法利用梯度信息時可取代梯度法。即利用pso算法求解復雜的聚類目標函數,從而避開了梯度法的限制。三是可擴展模糊指標m的取值范圍。模糊指標m是fcm算法及其改進算法中的一個重要參數,具有抑制噪聲、平滑隸屬函數等功能。為了保證梯度法所得到的fcm算法的收斂性,要求fcm算法目標函數對模糊隸屬度的二階海塞方陣正定,由此決定了模糊指標m必須大于1。利用生物進化算法估計模糊隸屬度可回避梯度法二階海塞方陣正定的要求,即可將模糊指標m取值范圍擴展到m大于0的情況。



技術實現要素:

本發(fā)明為了克服現有技術存在的不足之處,保證聚類算法對噪聲數據和野值點有有效的拒識能力,提出一種松弛模糊c均值聚類算法(rfcm),目的在于放棄了fcm算法單個樣本模糊隸屬度歸一化約束,轉為n個樣本模糊隸屬度之和為n的約束,并利用粒子群算法對樣本模糊隸屬度進行優(yōu)化估計,不僅使得聚類算法能將噪聲數據和野值點與正常數據作有效區(qū)分,還能夠保持聚類算法的較強聚類性能,同時還可擴展模糊指標拓展為m>0的情況,從而提升聚類算法對模糊指標參數的通用性。

為了實現上述發(fā)明目的,本發(fā)明采用如下技術方案:

本發(fā)明為一種松弛模糊c均值聚類算法,特點按如下步驟進行:

步驟1:令x={x1,x2,l,xj,l,xn}表示給定的樣本集合,xj表示第j個樣本;1≤j≤n,n是樣本的個數;對樣本集合x進行最優(yōu)化劃分,使得目標函數值jrfcm最小,其中jrfcm由式(1)所確定。

在式(1)中,c表示劃分的類別數,1≤i≤c,uij表示第j個樣本xj隸屬于第i類的模糊隸屬度,0≤uij≤1,且有表示所有樣本xj歸屬于各類的模糊隸屬度的和為n;u={uij,i=1,l,c;j=1,l,n}表示隸屬度矩陣,m(m>0)為模糊指標,為uij的m次;dij=||xj-θi||表示基于第j個樣本xj與第i類聚類中心θi的距離,ηi為懲罰因子,用于平衡聚類目標函數中類內加權誤差平方和和正則項之間的關系,并且有:

步驟2:用0,1之間的隨機數初始化多個c×n維粒子的位置xh(0)和速度vh(0)。

步驟3:將粒子位置xh(0)以每c維分量為一組,對應為第j個樣本xj隸屬于第i類的模糊隸屬度i=1,...,c,j=1,...,n。定義迭代次數為λ,最大迭代次數為λmax;初始化λ=1,則第λ次迭代的隸屬矩陣為u(λ),第λ次迭代的聚類中心為θi(λ),聚類中心矩陣為p(λ)={θi(λ),i=1,...,c}。

步驟4:用式(3)計算聚類中心θi(λ),再由式(1)計算聚類目標函數值jrfcm(λ),并由式(4)轉換為pso算法優(yōu)解適應度函數值f(u(λ))。

式(2)中m為懲罰因子,取為一較大正數,即對偏離n時給予適應度函數較大懲罰。表示第λ次迭代時第j個樣本xj隸屬于第i類的模糊隸屬度,i=1,...,c,j=1,...,n。

步驟5:判斷||f(u(λ))-f(u(λ-1))||<ε或λ>λmax,若成立,則uij(λ)為迭代算法參數估計出的最優(yōu)模糊隸屬度,并令uij(λ)=uij代入式(1)中,進而實現對樣本集合x的最優(yōu)劃分,ε,λmax是事先給定的閾值。若不成立,轉步驟6,直到條件滿足為止。

步驟6:根據pso算法優(yōu)解適應度函數值f(u(λ)),記錄粒子群算法中當代個體最優(yōu)解ph(λ)和群體最優(yōu)解g(λ),令λ=λ+1,由式(5)、(6)更新粒子速度vh(λ+1)及位置xh(λ+1),轉步驟3。

vh(λ+1)=wvh(λ)+c1r1[ph(λ)-xh(λ)]+c2r2[g(λ)-xh(λ)](5)

xh(λ+1)=xh(λ)+vh(λ+1)(6)

式(5)、(6)中c1,c2為加速因子,取為正的常數;r1,r2為[0,1]之間的隨機數,w稱為慣性因子。

與已有技術相比,本發(fā)明的有益效果體現在:

1.寬松約束使得rfcm算法可以較自由的分配樣本模糊隸屬度,結合目標函數最小化中距離與模糊隸屬度成反比的約束,噪聲數據會被賦予很小的各類模糊隸屬度。同時由于0≤uij≤1的約束,rfcm算法并不會如afc算法一樣,出現uij→n而uts→0的情況。從而保證了rfcm算法的抗噪性能和聚類有效性。

2.rfcm算法結合了pcm算法目標函數、約束條件及afc算法約束條件,綜合了兩算法的優(yōu)點,即rfcm算法既具有抗噪性且各樣本間又相互關聯而避免了pcm算法陷入一致性的缺陷。

3.rfcm算法利用pso算法估計樣本模糊隸屬度,使算法不受梯度法模糊隸屬度二階海塞方陣正定的限制,模糊指標m取值范圍拓展到m>0的情況,增強了聚類算法模糊指標參量的普適性。

具體實施方式

在本實施例中,為了驗證松弛模糊c均值聚類算法(以下簡稱rfcm算法)的聚類有效性和抗噪性,基于二維高斯數據集對fcm、pcm及rfcm算法作對比實驗測試說明。當基于afc算法作測試時,某聚類中心會靠近與該初始聚類中心最近的樣本,且該樣本基于此聚類中心所代表類的模糊隸屬度無限趨近于樣本數n,而其它樣本模糊隸屬度趨近于零,使得afc算法不具有聚類有效性,所以仿真實驗摒棄了與afc算法的對比測試而選用fcm、pcm算法與rfcm算法做對比測試。

松弛模糊c均值聚類算法(rfcm)是按如下步驟進行:

步驟1:令x={x1,x2,l,xj,l,xn}表示給定的樣本集合,xj表示第j個樣本;1≤j≤n,n是樣本的個數;對樣本集合x進行最優(yōu)化劃分,使得目標函數值jrfcm最小,其中jrfcm由式(1)所確定。

基于二維高斯數據集做聚類有效性和抗噪性實驗說明如下。

1)基于二維高斯數據集的聚類有效性實驗說明

構造二維高斯數據集進行測試,聚類類別數c=2,樣本集為兩個二維高斯隨機分布樣本子集組成,取兩類的類中心分別為(5,5),(10,10),第一類的樣本數為100,協方差矩陣取為[50;05],第二類的樣本數為100,協方差矩陣取為[50;05]。

rfcm算法依賴粒子群優(yōu)化算法求解模型,粒子群采用實數編碼,一個編碼對應于一個可行解,每個粒子的位置值由n×c維組成的,c為類別數,n為樣本數。粒子數取為30,迭代次數為200次,粒子每維參數取值范圍為[0.01,1],粒子位置的每c維參量對應一個樣本的c維模糊隸屬度。為了避免粒子群優(yōu)化計算陷入聚類效果極差的局部最優(yōu),選取fcm所訓練出來的樣本模糊隸屬度,構成為粒子群算法的一個初始粒子,以提高rfcm算法的聚類性能,即有:

uij(0)=uij*(7)

式(7)中uij(0)對應了粒子群算法初始化賦值時的一個位置值xh(0),uij*為fcm算法聚類結果中的優(yōu)解。同時利用fcm訓練結果和式(2)計算尺度因子ηi(k=1),用于pcm及rfcm算法目標函數的計算。取rfcm算法中pso適應度函數懲罰因子m=100。

測試結果記錄了各類的測試精度,并記錄了兩類數據的聚類中心,如表1所示。

表1基于二維高斯數據集的測試結果

由表1可知,在無噪聲數據干擾且數據集區(qū)分性較明晰的條件下,fcm算法算法聚類結果表現良好。而pcm算法對于此類數據集依然存在聚類一致性的問題,這是由pcm算法的本質所決定,pcm算法樣本模糊隸屬度僅與自身相關,而與其它樣本毫無關聯,各聚簇獨立最小化目標函數,各聚類中心間無抵制聚類一致性的因素存在。rfcm算法在迭代過程開始之初,也存在聚類中心一致性的現象,但在樣本各類模糊隸屬度歸n化的約束作用下,各樣本模糊隸屬度參量相互競爭隸屬度分配值,最終促使迭代過程偏離聚類中心重合狀況。rfcm算法同時受到pso優(yōu)化算法粒子取值范圍[0.01,1]的制約,避免了afc算法中某樣本模糊隸屬度幾乎完全占有總模糊隸屬度n而其它模糊隸屬度趨近于零的情況,使rfcm算法也可為其它隸屬度參量合理分配模糊隸屬度,從而促成了rfcm聚類算法有效聚類結果的獲得。從表1中模糊指標m的參數取值可知,fcm、pcm算法利用梯度信息建立模糊隸屬度和聚類中心迭代公式,要求模糊指標m的取值大于零,而rfcm算法使用pso算法估計模糊隸屬度,擺脫了模糊隸屬度二階海塞方陣正定m>1的約束,而目標函數和聚類中心公式僅要求m>0,所以rfcm算法模糊指標m的取值范圍較fcm、pcm算法更廣泛,提高了算法模糊指標參數的適應范圍,在擴展的取值范圍內rfcm算法也取得了較好的聚類效果,說明模糊指標取值范圍的拓展是可行和有效的。

2)基于二維高斯數據集的聚類抗噪性實驗說明

檢驗三算法對噪聲數據的包容性能,即要求聚類算法對噪聲數據分配的模糊隸屬度越小越好。在原有二維高斯數據集的基礎上,增加一個噪聲數據點取其坐標為(100,100)。在作抗噪性能測試時,由于fcm算法不具有抗噪性,所以rfcm算法摒棄了式(7)fcm算法初始值的引導??乖霚y試記錄結果包括了樣本類中心、噪聲數據的各類模糊隸屬度隸屬度以及正常數據的聚類效果,測試結果如表2所示。

表2基于含噪(100,100)二維高斯數據集的測試結果

由測試結果表2可知,噪聲數據(100,100)對fcm算法聚類效果影響較小,說明fcm算法的聚類有效性具有一定的抗噪能力,但正如文中對fcm算法原理分析一樣,由于歸一化約束的存在,使得fcm算法對噪聲數據也賦予較大模糊隸屬度,不符合實際情況。而對于pcm及rfcm算法,因為噪聲數據的干擾,使得兩算法聚類結果都出現了聚類中心一致性現象,但因為它們的抗噪性算法設計,使得噪聲數據僅能獲得較小模糊隸屬度,且噪聲數據各類模糊隸屬度差異性非常小,這些噪聲模糊隸屬度相關特性為拒識噪聲數據提供了方法,考慮定義模糊隸屬度差值閾值及模糊隸屬度閾值公式拒識噪聲數據,如式(8)所示。

在式(8)中,max(uij)-min(uij)<δ1為模糊隸屬度差值閾值拒識公式,uij<δ2為模糊隸屬度閾值拒識公式。對于任意樣本xj,它的各類模糊隸屬度為uij(i∈1,...,c),當這些uij同時滿足式(8)的各種要求時,則可視樣本xj為噪聲數據。在基于含噪(100,100)的二維高斯仿真數據集聚類測試中,取δ1=0.1,δ2=0.3,即可對噪聲數據進行拒識。

從表2還可知道,在噪聲數據干擾的情況下,雖然pcm、rfcm算法聚類中心都趨于一致性,但rfcm算法由于歸n化松弛約束條件的作用,使得rfcm算法對各類樣本隸屬度的分配是公平的,對于由噪聲數據及近似對稱的正常數據組成的數據集,rfcm算法對正常數據集中各類樣本聚類精度大致保持相等,而非如pcm算法一樣將模糊隸屬度完全優(yōu)先倒向某一類樣本,具體表現即為pcm算法某類樣本聚類精度為100,而另一類樣本聚類精度為0。顯然rfcm算法的表現較pcm算法更符合實際情況。

為了進一步比較分析各算法對噪聲數據的抗干擾能力,將噪聲數據改為(500,500)作進一步對比分析,所作測試結果與噪聲為(100,100)的情況有所不同,測試結果如表3所示。另外,在將噪聲數據改為(1000,1000)、(1500,1500)、(2000,2000)時,測試結果與(500,500)的情況類似,所以以(500,500)為代表測試分析各算法的抗噪性能。

表3基于含噪(500,500)二維高斯數據集的測試結果

對比表2、3可以發(fā)現,fcm算法聚類結果相對改變較大,而pcm、rfcm算法聚類結果變化較小。在表2中,雖然fcm算法對噪聲數據沒有拒識能力,且賦予噪聲數據以較高模糊隸屬度,但還能對正常數據作有效的聚類分析,而在表3中,fcm算法聚類中心完全偏離了正常數據聚集范圍,這說明當噪聲數據干擾能力足夠大時,fcm算法不僅沒有抗噪能力,連有效分類能力也喪失了。而pcm、rfcm算法依然保持了具有抗噪性能算法的特性,雖然它們各類聚類中心趨于一致,但各類聚類中心保持在正常數據集范圍內,賦予噪聲數據極小的模糊隸屬度,噪聲數據各類隸屬度之間的差異性也很小,可以利用式(8)將正常數據與噪聲數據分離開來。

從表2、3還可知道,在噪聲數據干擾下,聚類分析無法獲取有價值的聚類結果,必須在排除噪聲數據的基礎上,才可利用fcm、rfcm等算法進行有效聚類。

在式(1)中,c表示劃分的類別數,1≤i≤c,uij表示第j個樣本xj隸屬于第i類的模糊隸屬度,0≤uij≤1,且有表示所有樣本xj歸屬于各類的模糊隸屬度的和為n;u={uij,i=1,l,c;j=1,l,n}表示隸屬度矩陣,m(m>0)為模糊指標,為uij的m次;dij=||xj-θi||表示基于第j個樣本xj與第i類聚類中心θi的距離,ηi為懲罰因子,用于平衡聚類目標函數中類內加權誤差平方和和正則項之間的關系,并且有:

步驟2:用0,1之間的隨機數初始化多個c×n維粒子的位置xh(0)和速度vh(0)。

步驟3:將粒子位置xh(0)以每c維分量為一組,對應為第j個樣本xj隸屬于第i類的模糊隸屬度i=1,...,c,j=1,...,n。定義迭代次數為λ,最大迭代次數為λmax;初始化λ=1,則第λ次迭代的隸屬矩陣為u(λ),第λ次迭代的聚類中心為θi(λ),聚類中心矩陣為p(λ)={θi(λ),i=1,...,c}。

步驟4:用式(3)計算聚類中心θi(λ),再由式(1)計算聚類目標函數值jrfcm(λ),并由式(4)轉換為pso算法優(yōu)解適應度函數值f(u(λ))。

式(2)中m為懲罰因子,取為一較大正數,即對偏離n時給予適應度函數較大懲罰。表示第λ次迭代時第j個樣本xj隸屬于第i類的模糊隸屬度,i=1,...,c,j=1,...,n。

步驟5:判斷||f(u(λ))-f(u(λ-1))||<ε或λ>λmax,若成立,則uij(λ)為迭代算法參數估計出的最優(yōu)模糊隸屬度,并令uij(λ)=uij代入式(1)中,進而實現對樣本集合x的最優(yōu)劃分,ε,λmax是事先給定的閾值。若不成立,轉步驟6,直到條件滿足為止。

步驟6:根據pso算法優(yōu)解適應度函數值f(u(λ)),記錄粒子群算法中當代個體最優(yōu)解ph(λ)和群體最優(yōu)解g(λ),令λ=λ+1,由式(5)、(6)更新粒子速度vh(λ+1)及位置xh(λ+1),轉步驟3。

vh(λ+1)=wvh(λ)+c1r1[ph(λ)-xh(λ)]+c2r2[g(λ)-xh(λ)](5)

xh(λ+1)=xh(λ)+vh(λ+1)(6)

式(5)、(6)中c1,c2為加速因子,取為正的常數;r1,r2為[0,1]之間的隨機數,w稱為慣性因子。

通過二維高斯數據集的聚類有效性和抗噪性實驗可知,rfcm算法將pcm、afc算法與pso算法結合起來,得到了松弛模糊c均值聚類算法(rfcm),新算法不僅繼承了pcm算法非零解抗噪性、afc算法松弛約束模糊隸屬度競爭分配特性,而且通過pso算法估計模糊隸屬度求解適應度函數,實現了rfcm算法復雜目標函數求解和松弛約束條件遵循的雙目標平衡滿足,克服了原有各算法所存在的不足之處,同時也將模糊指標取值范圍推廣到m>0的情況。從表1、2、3可知,rfcm算法不僅具有優(yōu)良的聚類有效性,而且對噪聲數據能夠做有效拒識,具有很強的實用性。

綜上所述,本發(fā)明的松弛模糊c均值聚類算法包括如下步驟:1.對樣本集合依rfcm目標函數最小化原則進行最優(yōu)化劃分;2.初始化多個粒子的位置和速度值;3.將粒子位置值與樣本模糊隸屬度對應實現模糊隸屬度初始化;4.按粒子群算法迭代公式得到更新的模糊隸屬度;5.按梯度法迭代公式計算得到聚類中心;6.計算得到rfcm目標函數。本發(fā)明放棄了模糊c均值聚類算法模糊隸屬度歸一化約束,增強了聚類算法對噪聲數據的包容和區(qū)分性能,同時將模糊指標m擴展為大于0的范圍,提升了聚類算法的通用性。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1