一種結(jié)合類內(nèi)緊致性和類間分離性的增量模糊聚類方法與流程

文檔序號：11177821閱讀：1082來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種聚類方法，具體地，涉及一種結(jié)合類內(nèi)緊致性和類間分離性的增量模糊聚類方法，屬于數(shù)據(jù)挖掘領(lǐng)域。

背景技術(shù)：

聚類算法將相似度高的數(shù)據(jù)對象劃分為一個簇，將相異度高的數(shù)據(jù)對象劃分為不同的簇。迄今為止，針對聚類算法的研究成果豐碩，根據(jù)數(shù)據(jù)對象在聚類中的積聚規(guī)則不同，這些算法可劃分為硬聚類和模糊聚類。在硬聚類中，每個數(shù)據(jù)對象只能完全隸屬于某一個簇；而模糊聚類則要求每個數(shù)據(jù)對象以不同的概率隸屬于多個簇。相比較而言，兩類算法各有所長，硬聚類算法簡單高效，而模糊聚類算法更符合人們對客觀世界的認知。

無論是硬聚類還是模糊聚類，大部分聚類算法只考慮類內(nèi)緊致性，而忽略類間分離性，因此fcs(fuzzycompactnessandseparation)算法被提出。fcs算法保證了類內(nèi)緊致性最小的同時，類間分離性最大，且具有硬聚類和模糊聚類的特性，能夠有效提升聚類精度與聚類效率。

然而fcs算法無法有效處理大規(guī)模數(shù)據(jù)與流數(shù)據(jù)，因此，本發(fā)明提出一種新的結(jié)合類內(nèi)緊致性和類間分離性的增量方法。該方法通過將數(shù)據(jù)分為連續(xù)的數(shù)據(jù)塊，并按順序進行處理，使本發(fā)明可以處理大規(guī)模數(shù)據(jù)和數(shù)據(jù)流。

技術(shù)實現(xiàn)要素：

為了解決現(xiàn)有技術(shù)中存在的問題，本發(fā)明提出一種結(jié)合類內(nèi)緊致性和類間分離性的增量模糊聚類方法，該方法包括以下步驟：

(1)將整個數(shù)據(jù)集分成d塊，并為每塊數(shù)據(jù)中的每個數(shù)據(jù)點分配權(quán)重1；

(2)對數(shù)據(jù)塊進行聚類處理；

(3)對每個數(shù)據(jù)塊循環(huán)執(zhí)行步驟(2)，直到所有數(shù)據(jù)塊處理完畢，獲取每一數(shù)據(jù)塊的聚類結(jié)果[ui1,ui2,...,uit,...,uic]和聚類質(zhì)心[ai1,ai2,...,ait,...,aic]，其中0<t≤c，uic表示第i個數(shù)據(jù)塊的第c類，aic表示第i個數(shù)據(jù)塊的第c個質(zhì)心；為每一個質(zhì)心ait賦予權(quán)重值wt，wt為整個數(shù)據(jù)塊中的數(shù)據(jù)點隸屬于聚類uit的隸屬度之和；若最后一個數(shù)據(jù)塊小于聚類個數(shù)c，則不進行聚類，將所有數(shù)據(jù)點作為質(zhì)心，其權(quán)重全部為1。

(4)將上述賦過權(quán)重的質(zhì)心作為一個新的數(shù)據(jù)塊d,對新數(shù)據(jù)塊d進行步驟(2)操作，得到聚類結(jié)果[u1,u2,...,ut,...,uc]和質(zhì)心[a1,a2,...,at,...,ac]，此質(zhì)心為最終質(zhì)心，每個質(zhì)心原來所在類中的所有數(shù)據(jù)點都屬于它現(xiàn)在所在的類。

更具體地，上述步驟(2)中的聚類步驟具體如下：

1)初始化β、最大誤差值ε、最大迭代次數(shù)τmax和隸屬度矩陣ucj，將η賦值為0到1的隨機數(shù)，定義τ＝1；

2)根據(jù)ηc，ucj和更新ac；

3)根據(jù)ηc，ac和更新ucj；

4)根據(jù)β，ac和更新ηc；

5)更新τ＝τ+1；

6)如果max(|ucj(τ)-ucj(τ-1)|)≤ε或τ＝τmax，結(jié)束迭代，否則返回步驟2)。

其中c是類的個數(shù)，n是數(shù)據(jù)個數(shù)，ηc為控制第c個質(zhì)心與其它質(zhì)心所在類不重合的參數(shù)，ucj是第j個數(shù)據(jù)點對第c個類的隸屬度，約束條件為m是模糊因子且m>1，wj為第j個數(shù)據(jù)的權(quán)重，ac是第c個類的質(zhì)心，xj是第j個數(shù)據(jù)點，是數(shù)據(jù)均值，||xj-ac||²是第j個數(shù)據(jù)點到第c個質(zhì)心歐氏距離的平方，0≤β≤1.0，k＝1,...,c。

為了能夠處理大規(guī)模數(shù)據(jù)和數(shù)據(jù)流，提出了本發(fā)明，該方法不但可以明顯提高處理速度，而且不會影響聚類的精確度。與現(xiàn)有方法相比，本發(fā)明新提出的方法可以更快更精確的處理大規(guī)模數(shù)據(jù)和數(shù)據(jù)流。

具體實施方式

為了使用單通道增量方法，需要對fcs算法進行加權(quán)。首先，定義加權(quán)的類內(nèi)矩陣sifw和類間矩陣sifb，其中c是類的個數(shù)，n是數(shù)據(jù)的個數(shù)，wj為權(quán)重，ucj是第j個數(shù)據(jù)點對第c個類的隸屬度，約束條件為m是模糊因子且m>1，xj是第j個數(shù)據(jù)點，是樣本均值，ac是第c個類的質(zhì)心，其中||xj-ac||²是第j個數(shù)據(jù)點到第c個質(zhì)心的歐氏距離的平方。

根據(jù)sifw與sifb，得到增量fcs算法的目標(biāo)函數(shù)

受條件約束，其中

根據(jù)約束條件，對jifcs(u,v,a)運用拉格朗日乘子法，構(gòu)造如下新的目標(biāo)函數(shù)，可求得使jifcs(u,v,a)達到最小值的必要條件

對j(u,v,a)中u求偏導(dǎo)并讓其等于0，得

根據(jù)與約束條件可得

同樣的，對j(u,v,a)中a求偏導(dǎo)并讓其等于0，得根據(jù)可得

該方法包括以下步驟：

(1)將整個數(shù)據(jù)集分成d塊，并為每塊數(shù)據(jù)中的每個數(shù)據(jù)點分配權(quán)重1；

(2)對數(shù)據(jù)塊進行聚類處理；

步驟(2)中聚類的具體步驟如下：

1)初始化β、最大誤差值ε、最大迭代次數(shù)τmax和隸屬度矩陣ucj，將η賦值為0到1的隨機數(shù)，定義τ＝1；

2)根據(jù)ηc，ucj和更新ac；

3)根據(jù)ηc，ac和更新ucj；

4)根據(jù)β，ac和更新ηc；

5)更新τ＝τ+1；

6)如果max(|ucj(τ)-ucj(τ-1)|)≤ε或τ＝τmax，結(jié)束迭代，否則返回步驟2)。

以statlogsegmentation數(shù)據(jù)集為例，該數(shù)據(jù)集具有2310個數(shù)據(jù)點，19個屬性，劃分成7個類。對該數(shù)據(jù)集進行聚類方法如下：

將該數(shù)據(jù)集分成10塊，每塊具有231個數(shù)據(jù)點，對每個數(shù)據(jù)點分配權(quán)重1；對每個數(shù)據(jù)塊分別進行聚類處理，總共得到70個類和其對應(yīng)的70個質(zhì)心，每個質(zhì)心分配的權(quán)重為該類數(shù)據(jù)點隸屬度之和；將這70個質(zhì)心作為70個類的代表，當(dāng)做一個新的數(shù)據(jù)塊進行聚類處理，最終得到7個類和質(zhì)心即為聚類結(jié)果。

該方法將數(shù)據(jù)集進行分塊處理，減少了數(shù)據(jù)量即聚類迭代次數(shù)，因此提升了聚類效率，且經(jīng)實驗可得，本方法的f-measure值比傳統(tǒng)的ofcm方法和ohfcm方法分別提升了15.4％和42.9％。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉永利;段天毅;陳敬麗;王恒達;逯靜
技術(shù)所有人：河南理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

分離性身份識別障礙相關(guān)技術(shù)

性狀分離相關(guān)技術(shù)

性狀分離比的模擬實驗相關(guān)技術(shù)

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種結(jié)合類內(nèi)緊致性和類間分離性的增量模糊聚類方法與流程