最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種結(jié)合類內(nèi)緊致性和類間分離性的增量模糊聚類方法與流程

文檔序號:11177821閱讀:1082來源:國知局

本發(fā)明涉及一種聚類方法,具體地,涉及一種結(jié)合類內(nèi)緊致性和類間分離性的增量模糊聚類方法,屬于數(shù)據(jù)挖掘領(lǐng)域。



背景技術(shù):

聚類算法將相似度高的數(shù)據(jù)對象劃分為一個簇,將相異度高的數(shù)據(jù)對象劃分為不同的簇。迄今為止,針對聚類算法的研究成果豐碩,根據(jù)數(shù)據(jù)對象在聚類中的積聚規(guī)則不同,這些算法可劃分為硬聚類和模糊聚類。在硬聚類中,每個數(shù)據(jù)對象只能完全隸屬于某一個簇;而模糊聚類則要求每個數(shù)據(jù)對象以不同的概率隸屬于多個簇。相比較而言,兩類算法各有所長,硬聚類算法簡單高效,而模糊聚類算法更符合人們對客觀世界的認知。

無論是硬聚類還是模糊聚類,大部分聚類算法只考慮類內(nèi)緊致性,而忽略類間分離性,因此fcs(fuzzycompactnessandseparation)算法被提出。fcs算法保證了類內(nèi)緊致性最小的同時,類間分離性最大,且具有硬聚類和模糊聚類的特性,能夠有效提升聚類精度與聚類效率。

然而fcs算法無法有效處理大規(guī)模數(shù)據(jù)與流數(shù)據(jù),因此,本發(fā)明提出一種新的結(jié)合類內(nèi)緊致性和類間分離性的增量方法。該方法通過將數(shù)據(jù)分為連續(xù)的數(shù)據(jù)塊,并按順序進行處理,使本發(fā)明可以處理大規(guī)模數(shù)據(jù)和數(shù)據(jù)流。



技術(shù)實現(xiàn)要素:

為了解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明提出一種結(jié)合類內(nèi)緊致性和類間分離性的增量模糊聚類方法,該方法包括以下步驟:

(1)將整個數(shù)據(jù)集分成d塊,并為每塊數(shù)據(jù)中的每個數(shù)據(jù)點分配權(quán)重1;

(2)對數(shù)據(jù)塊進行聚類處理;

(3)對每個數(shù)據(jù)塊循環(huán)執(zhí)行步驟(2),直到所有數(shù)據(jù)塊處理完畢,獲取每一數(shù)據(jù)塊的聚類結(jié)果[ui1,ui2,...,uit,...,uic]和聚類質(zhì)心[ai1,ai2,...,ait,...,aic],其中0<t≤c,uic表示第i個數(shù)據(jù)塊的第c類,aic表示第i個數(shù)據(jù)塊的第c個質(zhì)心;為每一個質(zhì)心ait賦予權(quán)重值wt,wt為整個數(shù)據(jù)塊中的數(shù)據(jù)點隸屬于聚類uit的隸屬度之和;若最后一個數(shù)據(jù)塊小于聚類個數(shù)c,則不進行聚類,將所有數(shù)據(jù)點作為質(zhì)心,其權(quán)重全部為1。

(4)將上述賦過權(quán)重的質(zhì)心作為一個新的數(shù)據(jù)塊d,對新數(shù)據(jù)塊d進行步驟(2)操作,得到聚類結(jié)果[u1,u2,...,ut,...,uc]和質(zhì)心[a1,a2,...,at,...,ac],此質(zhì)心為最終質(zhì)心,每個質(zhì)心原來所在類中的所有數(shù)據(jù)點都屬于它現(xiàn)在所在的類。

更具體地,上述步驟(2)中的聚類步驟具體如下:

1)初始化β、最大誤差值ε、最大迭代次數(shù)τmax和隸屬度矩陣ucj,將η賦值為0到1的隨機數(shù),定義τ=1;

2)根據(jù)ηc,ucj和更新ac;

3)根據(jù)ηc,ac和更新ucj;

4)根據(jù)β,ac和更新ηc;

5)更新τ=τ+1;

6)如果max(|ucj(τ)-ucj(τ-1)|)≤ε或τ=τmax,結(jié)束迭代,否則返回步驟2)。

其中c是類的個數(shù),n是數(shù)據(jù)個數(shù),ηc為控制第c個質(zhì)心與其它質(zhì)心所在類不重合的參數(shù),ucj是第j個數(shù)據(jù)點對第c個類的隸屬度,約束條件為m是模糊因子且m>1,wj為第j個數(shù)據(jù)的權(quán)重,ac是第c個類的質(zhì)心,xj是第j個數(shù)據(jù)點,是數(shù)據(jù)均值,||xj-ac||2是第j個數(shù)據(jù)點到第c個質(zhì)心歐氏距離的平方,0≤β≤1.0,k=1,...,c。

為了能夠處理大規(guī)模數(shù)據(jù)和數(shù)據(jù)流,提出了本發(fā)明,該方法不但可以明顯提高處理速度,而且不會影響聚類的精確度。與現(xiàn)有方法相比,本發(fā)明新提出的方法可以更快更精確的處理大規(guī)模數(shù)據(jù)和數(shù)據(jù)流。

具體實施方式

為了使用單通道增量方法,需要對fcs算法進行加權(quán)。首先,定義加權(quán)的類內(nèi)矩陣sifw和類間矩陣sifb,其中c是類的個數(shù),n是數(shù)據(jù)的個數(shù),wj為權(quán)重,ucj是第j個數(shù)據(jù)點對第c個類的隸屬度,約束條件為m是模糊因子且m>1,xj是第j個數(shù)據(jù)點,是樣本均值,ac是第c個類的質(zhì)心,其中||xj-ac||2是第j個數(shù)據(jù)點到第c個質(zhì)心的歐氏距離的平方。

根據(jù)sifw與sifb,得到增量fcs算法的目標(biāo)函數(shù)

條件約束,其中

根據(jù)約束條件,對jifcs(u,v,a)運用拉格朗日乘子法,構(gòu)造如下新的目標(biāo)函數(shù),可求得使jifcs(u,v,a)達到最小值的必要條件

對j(u,v,a)中u求偏導(dǎo)并讓其等于0,得

根據(jù)與約束條件可得

同樣的,對j(u,v,a)中a求偏導(dǎo)并讓其等于0,得根據(jù)可得

該方法包括以下步驟:

(1)將整個數(shù)據(jù)集分成d塊,并為每塊數(shù)據(jù)中的每個數(shù)據(jù)點分配權(quán)重1;

(2)對數(shù)據(jù)塊進行聚類處理;

(3)對每個數(shù)據(jù)塊循環(huán)執(zhí)行步驟(2),直到所有數(shù)據(jù)塊處理完畢,獲取每一數(shù)據(jù)塊的聚類結(jié)果[ui1,ui2,...,uit,...,uic]和聚類質(zhì)心[ai1,ai2,...,ait,...,aic],其中0<t≤c,uic表示第i個數(shù)據(jù)塊的第c類,aic表示第i個數(shù)據(jù)塊的第c個質(zhì)心;為每一個質(zhì)心ait賦予權(quán)重值wt,wt為整個數(shù)據(jù)塊中的數(shù)據(jù)點隸屬于聚類uit的隸屬度之和;若最后一個數(shù)據(jù)塊小于聚類個數(shù)c,則不進行聚類,將所有數(shù)據(jù)點作為質(zhì)心,其權(quán)重全部為1。

(4)將上述賦過權(quán)重的質(zhì)心作為一個新的數(shù)據(jù)塊d,對新數(shù)據(jù)塊d進行步驟(2)操作,得到聚類結(jié)果[u1,u2,...,ut,...,uc]和質(zhì)心[a1,a2,...,at,...,ac],此質(zhì)心為最終質(zhì)心,每個質(zhì)心原來所在類中的所有數(shù)據(jù)點都屬于它現(xiàn)在所在的類。

步驟(2)中聚類的具體步驟如下:

1)初始化β、最大誤差值ε、最大迭代次數(shù)τmax和隸屬度矩陣ucj,將η賦值為0到1的隨機數(shù),定義τ=1;

2)根據(jù)ηc,ucj和更新ac;

3)根據(jù)ηc,ac和更新ucj;

4)根據(jù)β,ac和更新ηc;

5)更新τ=τ+1;

6)如果max(|ucj(τ)-ucj(τ-1)|)≤ε或τ=τmax,結(jié)束迭代,否則返回步驟2)。

以statlogsegmentation數(shù)據(jù)集為例,該數(shù)據(jù)集具有2310個數(shù)據(jù)點,19個屬性,劃分成7個類。對該數(shù)據(jù)集進行聚類方法如下:

將該數(shù)據(jù)集分成10塊,每塊具有231個數(shù)據(jù)點,對每個數(shù)據(jù)點分配權(quán)重1;對每個數(shù)據(jù)塊分別進行聚類處理,總共得到70個類和其對應(yīng)的70個質(zhì)心,每個質(zhì)心分配的權(quán)重為該類數(shù)據(jù)點隸屬度之和;將這70個質(zhì)心作為70個類的代表,當(dāng)做一個新的數(shù)據(jù)塊進行聚類處理,最終得到7個類和質(zhì)心即為聚類結(jié)果。

該方法將數(shù)據(jù)集進行分塊處理,減少了數(shù)據(jù)量即聚類迭代次數(shù),因此提升了聚類效率,且經(jīng)實驗可得,本方法的f-measure值比傳統(tǒng)的ofcm方法和ohfcm方法分別提升了15.4%和42.9%。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1