最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式表征與發(fā)現(xiàn)方法

文檔序號(hào):6438139閱讀:827來源:國(guó)知局
專利名稱:復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式表征與發(fā)現(xiàn)方法
技術(shù)領(lǐng)域
本發(fā)明屬于模式識(shí)別和數(shù)據(jù)挖掘領(lǐng)域,尤其涉及社會(huì)網(wǎng)、萬維網(wǎng)和生物網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)分析。
背景技術(shù)
現(xiàn)實(shí)世界中的諸多復(fù)雜系統(tǒng)都以網(wǎng)絡(luò)形式存在。如社會(huì)系統(tǒng)中的人際關(guān)系網(wǎng)、科學(xué)家協(xié)作網(wǎng)和流行病傳播網(wǎng),生物系統(tǒng)中的食物鏈網(wǎng)、神經(jīng)元網(wǎng)、基因調(diào)控網(wǎng)和蛋白質(zhì)交互網(wǎng),科技系統(tǒng)中的電網(wǎng)、交通網(wǎng)、因特網(wǎng)和萬維網(wǎng)等。這些網(wǎng)絡(luò)盡管形態(tài)各異,但都在結(jié)構(gòu)上展現(xiàn)出不同于隨機(jī)網(wǎng)絡(luò)和規(guī)則網(wǎng)絡(luò)的“非平凡性”(如小世界、無標(biāo)度或分形等特性),在功能上表現(xiàn)出復(fù)雜系統(tǒng)所具有的“非線性”(如自組織、級(jí)聯(lián)或混沌等效應(yīng)),因而被統(tǒng)稱為“復(fù)雜網(wǎng)絡(luò)”。 誕生于20世紀(jì)90年代末期的復(fù)雜網(wǎng)絡(luò)理論希望為研究上述各種網(wǎng)絡(luò)化的復(fù)雜系統(tǒng)提供統(tǒng)一的方法論。在自然科學(xué)領(lǐng)域中,幫助科學(xué)家認(rèn)識(shí)自然界中不同網(wǎng)絡(luò)系統(tǒng)起源與演化的統(tǒng)一法則以及支配它們運(yùn)行的基本規(guī)律;在工程技術(shù)領(lǐng)域中,幫助工程師針對(duì)不同應(yīng)用需求,設(shè)計(jì)和建造各種高效、魯棒、靈活和滿足成本約束的人造網(wǎng)絡(luò)系統(tǒng)。演化、拓?fù)浜蛣?dòng)力性是復(fù)雜網(wǎng)絡(luò)研究中最受關(guān)注的三個(gè)方面,涉及的研究?jī)?nèi)容非常廣泛。然而,圍繞它們展開的大多數(shù)研究工作都包含著對(duì)同一個(gè)基本問題的探索如何人工合成出現(xiàn)實(shí)世界中的真實(shí)網(wǎng)絡(luò)?對(duì)此問題的深入研究可以幫助人們洞悉網(wǎng)絡(luò)演化的基本原理,深刻認(rèn)識(shí)網(wǎng)絡(luò)運(yùn)行的基本規(guī)律,進(jìn)而解釋和預(yù)測(cè)網(wǎng)絡(luò)所表現(xiàn)出的各種復(fù)雜現(xiàn)象。理論上,提出的合成方法越普適,其揭示出的原理和規(guī)律就越本質(zhì)。為提高合成方法的普適性,使之適用盡可能多種類的真實(shí)網(wǎng)絡(luò),我們首先需要清楚的了解形形色色的真實(shí)網(wǎng)絡(luò)中普遍存在的結(jié)構(gòu)模式是什么。為此,結(jié)構(gòu)模式分析成為復(fù)雜網(wǎng)絡(luò)最基本的研究課題之一。從1998年開始,經(jīng)過十多年的努力,人們已經(jīng)發(fā)現(xiàn)了普遍存在于社會(huì)網(wǎng)絡(luò)、生物網(wǎng)絡(luò)和科技網(wǎng)絡(luò)中的多種結(jié)構(gòu)模式,最著名的有微觀層次上的網(wǎng)絡(luò)模體結(jié)構(gòu)(motif),中觀層次上的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)(community),宏觀層次上的小世界(small-world)和無標(biāo)度結(jié)構(gòu)(scale-free)。這些普遍存在于網(wǎng)絡(luò)中不同層次上的結(jié)構(gòu)模式共同揭示出復(fù)雜網(wǎng)絡(luò)的諸多奧秘,大大激發(fā)了人們深入探索復(fù)雜網(wǎng)絡(luò)的興趣,有力推動(dòng)了復(fù)雜網(wǎng)絡(luò)理論與應(yīng)用的研究。迄今為止,盡管已經(jīng)開展了大量富有成效的研究工作,網(wǎng)絡(luò)結(jié)構(gòu)模式分析仍是一個(gè)未被很好解決的理論難題。產(chǎn)生困難的根源在于現(xiàn)實(shí)世界中的網(wǎng)絡(luò)在演化過程中往往會(huì)受到多種因素的影響,這些因素分別制約著網(wǎng)絡(luò)局部結(jié)構(gòu)的演化,共同塑造出被觀測(cè)到的網(wǎng)絡(luò)全局結(jié)構(gòu)。近期的一些研究結(jié)果表明多種影響因素的共同作用導(dǎo)致演化而成的網(wǎng)絡(luò)結(jié)構(gòu)模式往往呈現(xiàn)出“多元化”,即,同一個(gè)網(wǎng)絡(luò)中所包含的結(jié)構(gòu)模式并不是單一的,而是由多種已知甚至未知的基本結(jié)構(gòu)模式以復(fù)雜的方式混合而成,具體表現(xiàn)在以下兩個(gè)方面(I)多種結(jié)構(gòu)模式共存
相對(duì)于宏觀和微觀層次,中觀層次中的結(jié)構(gòu)模式更加復(fù)雜多樣。除著名的社區(qū)結(jié)構(gòu)之外,研究人員還陸續(xù)發(fā)現(xiàn)了二分(bipartite)、多分(multipartite)、中樞(hub)、權(quán)威(authority)、邊緣(outlier)和領(lǐng)結(jié)(bow-tie)等一批廣泛存在于真實(shí)網(wǎng)絡(luò)中的結(jié)構(gòu)模式。這些結(jié)構(gòu)模式中的多種可以共存于同一個(gè)網(wǎng)絡(luò)中,不同模式還可以相互重疊,即,一些網(wǎng)絡(luò)結(jié)點(diǎn)可以同時(shí)出現(xiàn)在多個(gè)不同的結(jié)構(gòu)模式中。圖10給出了一個(gè)簡(jiǎn)單示例。圖10所示的網(wǎng)絡(luò)是由法國(guó)名著《悲慘世界》中77個(gè)人物角色構(gòu)成的社會(huì)網(wǎng)絡(luò),節(jié)點(diǎn)表示人物,鏈接表示人物在相同故事場(chǎng)景中的“共現(xiàn)”關(guān)系。該網(wǎng)絡(luò)包含3種結(jié)構(gòu)模式2個(gè)紅色結(jié)點(diǎn)構(gòu)成了中樞模式(對(duì)應(yīng)小說中的2個(gè)主角,與書中48%的人物曾同時(shí)出現(xiàn)在相同的故事場(chǎng)景中),39個(gè)灰色結(jié)點(diǎn)構(gòu)成了邊緣模式(對(duì)應(yīng)小說中的配角,他們僅與少數(shù)其他人物同時(shí)出現(xiàn)在同一故事場(chǎng)景中),藍(lán)、綠、黃和青綠色結(jié)點(diǎn)分別構(gòu)成了 4個(gè)社區(qū)模式(相對(duì)獨(dú)立的社交圈,相同社區(qū)中的人物交往頻繁,經(jīng)常共同出現(xiàn)在 同一故事場(chǎng)景中)。這個(gè)看似簡(jiǎn)單的例子直觀的說明同一個(gè)網(wǎng)絡(luò)中可能共存多種結(jié)構(gòu)模式。因此,正確發(fā)現(xiàn)網(wǎng)絡(luò)中全部結(jié)構(gòu)模式及其相互關(guān)系比僅發(fā)現(xiàn)其中的單一模式更有助于正確分析節(jié)點(diǎn)間的相互作用關(guān)系,以及局部結(jié)構(gòu)對(duì)全局結(jié)構(gòu)的影響。(2)異構(gòu)的層次組織共存在同一網(wǎng)絡(luò)中的多種結(jié)構(gòu)模式可以相互嵌套,形成一個(gè)異構(gòu)的層次結(jié)構(gòu),不同層次可以包含不同的結(jié)構(gòu)模式,低層次上的模式被直接或間接的包含于更高層次上的模式中。盡管網(wǎng)絡(luò)的層次結(jié)構(gòu)具有較長(zhǎng)的研究歷史,但以往研究強(qiáng)調(diào)網(wǎng)絡(luò)層次結(jié)構(gòu)的同構(gòu)性,假定不同層次上包含了完全相同的結(jié)構(gòu)模式(如研究較多的分形層次結(jié)構(gòu)和社區(qū)層次結(jié)構(gòu))。然而,2008年發(fā)表在《自然》上的研究結(jié)果首次發(fā)現(xiàn),真實(shí)網(wǎng)絡(luò)對(duì)應(yīng)的層次結(jié)構(gòu)具有異構(gòu)性,不同層次上的結(jié)構(gòu)模式可以是社區(qū)結(jié)構(gòu)也可以是二分結(jié)構(gòu)。圖8給出了一個(gè)更為復(fù)雜的例子。圖8(a)所示的網(wǎng)絡(luò)是由82個(gè)國(guó)家構(gòu)成的世界貿(mào)易網(wǎng),有向邊描述了不同國(guó)家之間的貿(mào)易關(guān)系。圖8(c)給出了該網(wǎng)絡(luò)對(duì)應(yīng)的層次結(jié)構(gòu),其中包含兩個(gè)層次,底層包含了社區(qū)、中樞、權(quán)威和邊緣等4種結(jié)構(gòu)模式,頂層包含了中樞和邊緣2種模式結(jié)構(gòu)。異構(gòu)層次結(jié)構(gòu)為理解不同層次(或不同粒度)上的網(wǎng)絡(luò)動(dòng)力性提供了新途徑。對(duì)世界貿(mào)易網(wǎng)而言,圖8(c)所示的層次結(jié)構(gòu)能夠幫助人們更好的分析世界貿(mào)易組織中的“微觀貿(mào)易流”和“宏觀貿(mào)易流”分別在國(guó)家(細(xì)粒度層面上)和經(jīng)濟(jì)共同體(粗粒度層面上)之間的流動(dòng)模式。通過以上分析可知真實(shí)網(wǎng)絡(luò)中可能同時(shí)包含多種結(jié)構(gòu)模式,它們可能是已被認(rèn)識(shí)的已知模式,也可能是尚未被發(fā)現(xiàn)的未知模式,它們以相互重疊、相互嵌套的方式混雜在一起,共同形成異構(gòu)層次形式的“多元模式結(jié)構(gòu)”?,F(xiàn)有的結(jié)構(gòu)模式分析方法大都只針對(duì)一種特定的結(jié)構(gòu)模式設(shè)計(jì),如被廣泛研究的社區(qū)挖掘方法只能發(fā)現(xiàn)網(wǎng)絡(luò)中存在的社區(qū)結(jié)構(gòu)。因此,多元模式結(jié)構(gòu)的特點(diǎn)給現(xiàn)有的模式分析方法帶來了兩個(gè)新的挑戰(zhàn)(I) “發(fā)現(xiàn)什么”——對(duì)于有待探索的網(wǎng)絡(luò),我們往往對(duì)其結(jié)構(gòu)知之甚少,事先并不了解其中會(huì)存在哪些具有統(tǒng)計(jì)意義結(jié)構(gòu)模式,因而很難確定應(yīng)該采用何種模式分析方法才能有針對(duì)性的發(fā)現(xiàn)客觀存在的結(jié)構(gòu)模式。對(duì)現(xiàn)有方法的不恰當(dāng)選擇往往會(huì)導(dǎo)致不盡如人意、甚至是完全錯(cuò)誤的分析結(jié)果;(2) “如何發(fā)現(xiàn)” 一一即使我們可以憑借經(jīng)驗(yàn)或根據(jù)歷史數(shù)據(jù)主觀地猜測(cè)出未知網(wǎng)絡(luò)中可能會(huì)出現(xiàn)的結(jié)構(gòu)模式種類,采用現(xiàn)有任何的分析方法或其組合都難于保證能夠正確、無遺漏的發(fā)現(xiàn)共存于網(wǎng)絡(luò)中的全部結(jié)構(gòu)模式,尤為重要的是,難于正確的發(fā)現(xiàn)“重疊”和“嵌套”等存在于結(jié)構(gòu)模式之間的各種復(fù)雜關(guān)系。針對(duì)以上挑戰(zhàn),我們需要研究出能夠勝任復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式分析的新方法。具體而言,多元結(jié)構(gòu)模式分析包括兩方面的內(nèi)容(I)多元結(jié)構(gòu)模式的表征(characterize)-如何采用一種既簡(jiǎn)單又可擴(kuò)充的方
式來充分、恰當(dāng)?shù)谋碚鞫嘣J浇Y(jié)構(gòu)?(2)多元結(jié)構(gòu)模式的發(fā)現(xiàn)(discover)——如何快速、準(zhǔn)確的從結(jié)構(gòu)未知的真實(shí)網(wǎng)絡(luò)中發(fā)現(xiàn)用戶所表征的多元模式結(jié)構(gòu)?

在多元結(jié)構(gòu)模式概念下,迄今發(fā)現(xiàn)的任何單一結(jié)構(gòu)模式都可看作是其特例。在此意義下,多元結(jié)構(gòu)模式的表征和發(fā)現(xiàn)方法本質(zhì)上是對(duì)現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)模式分析方法的重要推廣,相比于它們,具有更加廣泛的適用范圍,更加適合于探索結(jié)構(gòu)未知的真實(shí)網(wǎng)絡(luò)。綜上所述,多元結(jié)構(gòu)模式分析方法的研究對(duì)推動(dòng)復(fù)雜網(wǎng)絡(luò)相關(guān)理論(特別是結(jié)構(gòu)模式分析理論)的發(fā)展具有十分重要的意義。目前已有多種面向特定結(jié)構(gòu)模式的分析方法,如社區(qū)挖掘算法,中樞-權(quán)威結(jié)構(gòu)挖掘算法,二分圖/多分圖分析方法,中心/邊緣結(jié)點(diǎn)識(shí)別算法,領(lǐng)結(jié)結(jié)構(gòu)分析方法。但迄今為止還沒有相關(guān)方法能夠有效的解決復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式的表征和發(fā)現(xiàn)問題。2007年,美國(guó)密西根大學(xué)的兩位物理學(xué)家Newman(復(fù)雜網(wǎng)絡(luò)領(lǐng)域的著名學(xué)者)和Leicht進(jìn)行了一項(xiàng)與多元模式結(jié)構(gòu)分析任務(wù)非常相近的研究,并將他們的研究結(jié)果發(fā)表在2007年6月出版的《美國(guó)科學(xué)院院刊(PNAS)》上,第一次提出了從網(wǎng)絡(luò)中發(fā)現(xiàn)非特定結(jié)構(gòu)模式的思想。從機(jī)器學(xué)習(xí)的角度看,他們提出的基于混合模型(mixturemodel)的結(jié)構(gòu)模式發(fā)現(xiàn)方法本質(zhì)上是一種針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)分析的改進(jìn)版樸素貝葉斯算法。該算法首先采用期望最大化算法(EM算法)將具有相似鏈接特征的網(wǎng)絡(luò)結(jié)點(diǎn)劃分成指定數(shù)目的類簇,進(jìn)而通過分析類簇內(nèi)和類簇間的鏈接分布,人工抽取出存在其中的社區(qū)結(jié)構(gòu)或多分結(jié)構(gòu)。盡管該方法只能發(fā)現(xiàn)社區(qū)和多分兩種結(jié)構(gòu)模式,也未考慮結(jié)構(gòu)模式之間重疊和嵌套等復(fù)雜關(guān)系,并且在模式抽取的過程中需要人工參與,未能實(shí)現(xiàn)模式發(fā)現(xiàn)的自動(dòng)化,但它為我們?cè)O(shè)計(jì)出有效的多元結(jié)構(gòu)模式表征和發(fā)現(xiàn)方法提供了很好的啟示第一,具有統(tǒng)計(jì)意義的網(wǎng)絡(luò)結(jié)構(gòu)模式可看作是具有相似鏈接分布的一定數(shù)量結(jié)點(diǎn)所構(gòu)成的集合;第二,根據(jù)鏈接特征聚類網(wǎng)絡(luò)結(jié)點(diǎn)得出網(wǎng)絡(luò)的一個(gè)合理劃分或許是多元結(jié)構(gòu)模式發(fā)現(xiàn)過程的出發(fā)點(diǎn)。但令人遺憾是的,Newman和Leicht等人提出的方法僅被作為社區(qū)結(jié)構(gòu)發(fā)現(xiàn)的一種典型方法,其他研究者(包括作者本人)在后續(xù)工作中大都從社區(qū)挖掘的角度進(jìn)行分析、擴(kuò)展和應(yīng)用,沒有認(rèn)識(shí)到該方法所蘊(yùn)含的更深刻思想,更未將其與多元結(jié)構(gòu)模式分析有機(jī)的聯(lián)系起來。“將網(wǎng)絡(luò)中具有相似鏈接分布的結(jié)點(diǎn)劃分成簇”的思想與美國(guó)哈佛大學(xué)的兩位社會(huì)學(xué)家Lorrain和White在1971年針對(duì)社會(huì)網(wǎng)絡(luò)分析提出的“分塊模型(blockmodeling) ”很相似。在“分塊模型”中,“結(jié)構(gòu)全等(structural equivalence) ”的結(jié)點(diǎn)(結(jié)構(gòu)全等可基于局部鏈接或全局鏈接定義)被劃分到同一模塊(block)中。在“分塊模型”的基礎(chǔ)上,美國(guó)統(tǒng)計(jì)學(xué)家Holland和Leinhardt進(jìn)一步提出了“隨機(jī)分塊模型(SBM, stochasticblockmodeling) ”。在SBM中,模塊間的關(guān)聯(lián)采用概率鏈接而非物理鏈接來描述。近年來,SBM模型和其擴(kuò)展模型被應(yīng)用于刻畫和發(fā)現(xiàn)社會(huì)網(wǎng)絡(luò)和生物網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。這方面的典型工作有2008年美國(guó)哥倫比亞大學(xué)的Hofman和Wiggins基于SBM和變分貝葉斯方法提出了能夠有效發(fā)現(xiàn)社區(qū)數(shù)目和社區(qū)結(jié)構(gòu)的算法;2011年美國(guó)密西根大學(xué)的Karrer和Newman等人基于SBM提出了能夠發(fā)現(xiàn)重疊社區(qū)結(jié)構(gòu)的方法;2011年美國(guó)密西根州立大學(xué)的Yang等人基于SBM提出了從動(dòng)態(tài)網(wǎng)絡(luò)中發(fā)現(xiàn)社區(qū)結(jié)構(gòu)及其演化規(guī)律的方法。盡管現(xiàn)有基于SBM的網(wǎng)絡(luò)分析方法大都局限于特定的結(jié)構(gòu)模式(尤其是社區(qū)結(jié)構(gòu)),不能勝任多元結(jié)構(gòu)模式的表征和發(fā)現(xiàn),但這些工作啟示我們SBM蘊(yùn)含了鏈接概率分布、網(wǎng)絡(luò)劃分、模塊等與多元結(jié)構(gòu)模式概念很相近的一些思想,或許是一種合適的數(shù)學(xué)模型,在對(duì)其進(jìn)行有針對(duì)性的擴(kuò)展后,有望成為表征和發(fā)現(xiàn)多元結(jié)構(gòu)模式的基本理論工具之一。另一個(gè)值得指出的相關(guān)工作是基于Lambiotte等人提出的拉普拉斯動(dòng)力性模型 (Laplacian dynamic model),來自美國(guó)北卡大學(xué)、哈佛大學(xué)和英國(guó)牛津大學(xué)的5位數(shù)學(xué)家共同提出的從多元(multiplex)、多尺度(multi-scale)、動(dòng)態(tài)(dynamic)網(wǎng)絡(luò)中發(fā)現(xiàn)社區(qū)結(jié)構(gòu)的方法。該工作發(fā)表在2010年5月出版的《科學(xué)》雜志上。該工作提出的“多元網(wǎng)絡(luò)”是指具有多種鏈接關(guān)系的網(wǎng)絡(luò),而非包含多種結(jié)構(gòu)模式的網(wǎng)絡(luò);提出的“多尺度”概念用于發(fā)現(xiàn)不同層次上的社區(qū)。因此,該方法適用于對(duì)多關(guān)系、動(dòng)態(tài)、層次社區(qū)結(jié)構(gòu)的刻畫和發(fā)現(xiàn),不能勝任表征和發(fā)現(xiàn)以異構(gòu)層次形式組織而成的多元模式結(jié)構(gòu)。然而,該工作可為多元結(jié)構(gòu)模式分析的研究帶來新的啟發(fā)可將“尺度(scale)”或“粒度(granularity) ”等概念引入到隨機(jī)分塊模型SBM中,用以刻畫多元結(jié)構(gòu)模式間的嵌套關(guān)系或?qū)哟谓Y(jié)構(gòu)。通過以上分析可知現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)分析方法大都針對(duì)某一種特定的結(jié)構(gòu)模式,不能勝任多元結(jié)構(gòu)模式的表征和發(fā)現(xiàn)。然而,其中的一些工作可為多元結(jié)構(gòu)模式分析的研究提供很好的啟發(fā)和借鑒,在其基礎(chǔ)上,設(shè)計(jì)基本的研究思路,選擇恰當(dāng)?shù)臄?shù)學(xué)工具,進(jìn)而形成面向多元結(jié)構(gòu)模式分析的理論框架。

發(fā)明內(nèi)容
本發(fā)明的目的是提出復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式表征和發(fā)現(xiàn)方法。為實(shí)現(xiàn)多元結(jié)構(gòu)模式的表征,本發(fā)明提供了一種多元結(jié)構(gòu)模式表征方法,其特征在于包括如下主要步驟(I)將“粒度”概念引入隨機(jī)分塊模型,構(gòu)造多粒度隨機(jī)分塊模型(gSBM,granularStochastic BlockModeling);(2)采用gSBM模型中“模塊”和“模塊耦合關(guān)系”等概念定義各種結(jié)構(gòu)模式以及它們之間的重疊和嵌套關(guān)系。為實(shí)現(xiàn)多元模式結(jié)構(gòu)的發(fā)現(xiàn),本發(fā)明提供了一種基于gSBM模型的多元模式結(jié)構(gòu)發(fā)現(xiàn)方法,其特征在于包括如下主要步驟(I)建立異構(gòu)層次結(jié)構(gòu);(2)依次抽取各層次上的結(jié)構(gòu)模式。


圖I所示的流程圖給出本發(fā)明提供的多元結(jié)構(gòu)模式表征方法的基本步驟。圖2給出了采用該方法表征復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式的示例圖。采用本發(fā)明提出的多元結(jié)構(gòu)模式表征方法,社區(qū)、中樞、權(quán)威、邊緣、二分、多分和領(lǐng)結(jié)等模式結(jié)構(gòu)及其相互間的重疊和嵌套關(guān)系可以采用統(tǒng)一的方法進(jìn)行定義。除上述常見的結(jié)構(gòu)模式之外,用戶還可以根據(jù)具體應(yīng)用需求采用該模型定義新的、更為復(fù)雜的結(jié)構(gòu)模式。(下文中的“具體實(shí)施方式
”中詳細(xì)敘述了各個(gè)模式的具體含義)表I總結(jié)了具體實(shí)施方式
中所用到的數(shù)學(xué)符號(hào)及其相應(yīng)的含義。

圖3所示的流程圖給出了本發(fā)明提供的多元結(jié)構(gòu)模式發(fā)現(xiàn)方法的基本步驟。該方法能自動(dòng)的發(fā)現(xiàn)隱藏在復(fù)雜網(wǎng)絡(luò)中的多元結(jié)構(gòu)模式,并以異構(gòu)層次組織的方式進(jìn)行表示,從不同方面描述其特征,如①層次組織中包含有多少層次?②每一層包含了哪些種類的結(jié)構(gòu)模式?③同層上的結(jié)構(gòu)模式如何相互重疊?④不同層次中的結(jié)構(gòu)模式如何相互嵌套?圖4所示的流程圖給出了構(gòu)造異構(gòu)層次結(jié)構(gòu)的具體步驟。圖5計(jì)算最優(yōu)多粒度隨機(jī)分塊模型的具體步驟。圖6給出了計(jì)算已知分塊個(gè)數(shù)的最優(yōu)多粒度隨機(jī)分塊模型的具體步驟。圖7給出了抽取各層次上結(jié)構(gòu)模式的具體步驟。圖8-圖10給出了采用本發(fā)明所提供的多元結(jié)構(gòu)模式分析方法分析3個(gè)真實(shí)網(wǎng)絡(luò)的結(jié)果。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)說明。實(shí)施例僅用于說明本發(fā)明,但不用來限制本發(fā)明的應(yīng)用范圍。參照?qǐng)D1,多元結(jié)構(gòu)模式表征方法的流程開始于步驟101。步驟102給出了構(gòu)造多粒度隨機(jī)分塊模型的方法,具體如下參看表I,定義如下符號(hào)。設(shè)N= (V, E)表示一個(gè)有向、無權(quán)網(wǎng)絡(luò),其中V表示結(jié)點(diǎn)集,E表示有向邊集。設(shè)矩陣Anxn表示N的“鄰接矩陣”,其中au = I表示結(jié)點(diǎn)i向j發(fā)出一條有向邊,Bij = O表示i沒有向j發(fā)出有向邊。令全部η個(gè)結(jié)點(diǎn)被劃分成L個(gè)“模塊(block) ”,使得模塊中的結(jié)點(diǎn)具有相似的鏈接分布,矩陣Βη>α表示“分塊矩陣”,其中bu = I表示結(jié)點(diǎn)i被分配到了模塊I中,否則bn=0。當(dāng)假設(shè)每一個(gè)模塊是不可分割的單元時(shí),網(wǎng)絡(luò)N的“粒度(granularity) ”被定義為模塊的平均大小,記為g = n/L.當(dāng)g從I變化到η時(shí),網(wǎng)絡(luò)的粒度從最精細(xì)逐漸變化到最粗糙。令表示“模塊耦合矩陣”,其中 表示模塊P中結(jié)點(diǎn)與模塊q中結(jié)點(diǎn)相連接的概率。若Φ 大于某個(gè)閾值t,則稱P耦合q,或稱q被P耦合;特別的如果大于某個(gè)閾值t,則P為自耦合模塊,否則為非自耦合模塊。令全部L個(gè)模塊被劃分為K個(gè)“組(group) ”,使得每組中結(jié)點(diǎn)具有相近的鏈接分布。令矩陣Axk表示“模塊分組矩陣”,其中Zlk= I表示模塊I被分配到了組k中。令矩陣Fuk表示Z的期望矩陣,其中Y lk表示模塊I被分配到了組k中的概率。令Okxn表示“前饋概率矩陣”,其中01^_表示分組k中任一結(jié)點(diǎn)與結(jié)點(diǎn)j相鏈接的概率。令A(yù)kxn表示“反饋概率矩陣”,其中310_表示分組k中任一結(jié)點(diǎn)被結(jié)點(diǎn)j鏈接的概率。定義Ω = (CO1,…,ω,)τ為“先驗(yàn)向量”,其中ω,表示隨機(jī)選擇的結(jié)點(diǎn)屬于組k的先驗(yàn)概率。在分塊矩陣B下,網(wǎng)絡(luò)N對(duì)應(yīng)的多粒度隨機(jī)分塊模型(gSBM)定義為X = (K,Z,O,Δ , Ω).步驟103給出了采用“模塊”和“模塊耦合關(guān)系”定義多元模式結(jié)構(gòu)的方法,具體如下多元模式結(jié)構(gòu)定義為由一組相互嵌套的“模塊”所構(gòu)成的層次結(jié)構(gòu),低層上的模塊直接嵌套在相鄰高層中較大的模塊中,每層上的結(jié)構(gòu)模式定義為由該層上模塊及模塊耦合關(guān)系定義的子圖。圖2(a)_(f)分別給出了采用“模塊”和“模塊耦合關(guān)系”表示的社區(qū)、權(quán)威、中樞、 邊緣、領(lǐng)結(jié)、多分和二分等7種常見的結(jié)構(gòu)模式,其中“圓圈”表示“模塊”,“有向邊”表示“模塊耦合關(guān)系”。這些結(jié)構(gòu)模式的具體定義如下(I)社區(qū)模式(community):自稱合模塊;(2)權(quán)威模式(authority):被其它模塊稱合的自稱合模塊;(3)中樞模式(hub) :f禹合其它模塊的自I禹合模塊;(4)邊緣模式(outlier):耦合權(quán)威模塊或被中樞模塊耦合的非自耦合模塊;(5)領(lǐng)結(jié)模式(bow-tie):由模塊b和兩個(gè)模塊集合L、R組成并滿足如下條件①b耦合R中的所有模塊,L中的所有模塊耦合b ;②L和R的交集為空L中模塊與R中模塊無耦合關(guān)系;(6)多分模式(multipartite):由多個(gè)非自耦合模塊組成,它們之間可以任意相互耦合;(7) 二分模式(bipartite):是多分模式的特殊形式,由兩個(gè)非自I禹合模塊組成,模塊之間存在單向或雙向耦合關(guān)系;相同模塊可以同時(shí)出現(xiàn)在不同的結(jié)構(gòu)模式的子圖中,因此,結(jié)構(gòu)模式可以相互重疊,重疊的部分即為共同包含的模塊。圖2(g)給出的例子表示一個(gè)兩層的多元結(jié)構(gòu)模式,底層包含兩個(gè)相互重疊的社區(qū)模式和一個(gè)二分模式,頂層包含兩個(gè)大社區(qū)模式,分別嵌套底層的兩個(gè)社區(qū)模式和一個(gè)二分模式。除以上定義的7種常見結(jié)構(gòu)模式外,根據(jù)應(yīng)用需求,用戶還可通過組合現(xiàn)有的結(jié)構(gòu)模式或者定義新的模塊子圖表征更為復(fù)雜的結(jié)構(gòu)模式,并存入結(jié)構(gòu)模式庫(kù)中。本發(fā)明提供的模式結(jié)構(gòu)發(fā)現(xiàn)算法可以從網(wǎng)絡(luò)中發(fā)現(xiàn)結(jié)構(gòu)模式庫(kù)中定義的全部結(jié)構(gòu)模式。參照?qǐng)D3,多元結(jié)構(gòu)模式發(fā)現(xiàn)方法的流程開始于步驟301。步驟302給出了構(gòu)造異構(gòu)層次結(jié)構(gòu)的方法,具體步驟如圖4所示。步驟303給出了抽取各層次上結(jié)構(gòu)模式的方法,具體步驟如圖7所示。步驟302的具體步驟說明如下(參考圖4)步驟402 :將網(wǎng)絡(luò)作為層次結(jié)構(gòu)的第O層;將網(wǎng)絡(luò)中的每個(gè)結(jié)點(diǎn)作為一個(gè)模塊,粒度為1,即I1 = n, gi = 1,B1 = I,其中I表示單位矩陣。步驟403 :令h = 1,h表示層次索引;
步驟404 :根據(jù)第h-1層上的分塊矩陣Blri和網(wǎng)絡(luò)N調(diào)用函數(shù)GSBM(IBlri)計(jì)算第h層的最優(yōu)多粒度隨機(jī)模型X = (K,Z,O,Λ,Ω ),該模型將h-Ι層上的Llri個(gè)模塊分成K個(gè)組,分組矩陣Z給出了具體分組方法;步驟405 :如果K = Llri則停止構(gòu)建層次過程;步驟406 :將所得的K個(gè)組作為第h層的K個(gè)模塊,并根據(jù)如下公式計(jì)算出模塊的率禹合矩陣Φ = QBlriZD4,其中D = diag(nQ),表示由向量ηΩ作為對(duì)角線元素構(gòu)成的對(duì)角矩陣.K個(gè)模塊和模塊之間的耦合度所構(gòu)成的“模塊耦合圖”作為層次結(jié)構(gòu)的第h層。在“模塊耦合圖”中,模塊作為結(jié)點(diǎn),模塊間的耦合關(guān)系作為有向邊,模塊的耦合度作為邊上的權(quán)值。步驟407 :計(jì)算第h層的粒度和分塊矩陣Lh = K, gh = n/K, Bh = BlriZ.步驟408 :令h = h+1,轉(zhuǎn)到步404執(zhí)行。 步驟404中,計(jì)算最優(yōu)多粒度隨機(jī)分塊模型的函數(shù)GSBM具體步驟說明如下(參考圖5),該函數(shù)的輸入為網(wǎng)絡(luò)的鄰接矩陣A和分塊矩陣B,輸出為多粒度隨機(jī)分塊模型(gSBM)X = (K,Z,O,Λ,Ω)的5個(gè)參數(shù)值.步驟502 :令K = I ;Κ表示分組個(gè)數(shù);步驟503 :調(diào)用LM函數(shù)計(jì)算給定K值的最優(yōu)gSBM模型,令X(°) = LM (A, K,B);步驟504 :計(jì)算網(wǎng)絡(luò)似然值,令L(°) = -In (NI X(0),B);網(wǎng)絡(luò)似然In(N|X, B)定義為
L(N\X,B) = ΣΣ ηΣΠ;,其中 f(x, y) = Xy(I-X)1' L 為分塊矩
/=1 b/j ¢0 k=\
陣B確定的分塊個(gè)數(shù)。步驟505 :依次計(jì)算不同K值下的最優(yōu)gSBM模型,并從中選擇最優(yōu)模型,具體操作為對(duì)K從2到L執(zhí)行如下循環(huán)體X(1) = LM (A, K, B);L(1) = -In (N | X(1),B) +2 (n/L) K2InK2 ;如果L⑴ < L(°)則令 X(°) = X(1), L(°) = L⑴;步驟506 :返回模型X(°)作為最優(yōu)gSBM模型.步驟503和步驟505中,給定分組個(gè)數(shù)K計(jì)算最優(yōu)多粒度隨機(jī)分塊模型的函數(shù)LM具體說明如下(參考圖6),該函數(shù)的輸入為網(wǎng)絡(luò)的鄰接矩陣A和分塊矩陣B,輸出為多粒度隨機(jī)分塊模型(gSBM)X = (K,Z,O,Λ,Ω)的5個(gè)參數(shù)值.步驟602 :初始化矩陣Γ = Ulk) lxl使得滿足 >
k=\步驟603 :根據(jù)以下公式計(jì)算矩陣O,Λ,Ω :
權(quán)利要求
1.ー種復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式分析方法,其特征在于包括如下的復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式表征方法與復(fù)雜網(wǎng)絡(luò)多元模式結(jié)構(gòu)發(fā)現(xiàn)方法。
復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式表征方法包括如下步驟 (1)構(gòu)造多粒度隨機(jī)分塊模型(以下簡(jiǎn)稱為gSBM模型); (2)基干“模塊”和“模塊耦合關(guān)系”定義多元模式結(jié)構(gòu); 復(fù)雜網(wǎng)絡(luò)多元模式結(jié)構(gòu)發(fā)現(xiàn)方法包括如下步驟 (1)建立異構(gòu)層次結(jié)構(gòu); (2)依次提取各層次上的結(jié)構(gòu)模式。
2.根據(jù)權(quán)利要求書I所述的多元結(jié)構(gòu)模式表征方法,其特征在于按照如下方法構(gòu)造gSBM模型 設(shè)N= (V,E)表示ー個(gè)有向、無權(quán)網(wǎng)絡(luò),其中V表示結(jié)點(diǎn)集,E表示有向邊集。設(shè)矩陣Anxn表示N的“鄰接矩陣”,其中au = I表示結(jié)點(diǎn)i向j發(fā)出一條有向邊,Bij = O表示i沒有向j發(fā)出有向邊。
令全部η個(gè)結(jié)點(diǎn)被劃分成L個(gè)“模塊(block) ”,使得模塊中的結(jié)點(diǎn)具有相似的鏈接分布,矩陣表示“分塊矩陣”,其中bu = I表示結(jié)點(diǎn)i被分配到了模塊I中,否則bu = O。當(dāng)假設(shè)每ー個(gè)模塊是不可分割的単元吋,網(wǎng)絡(luò)N的“粒度(granularity) ”被定義為模塊的平均大小,記為g = n/L.當(dāng)g從I變化到η吋,網(wǎng)絡(luò)的粒度從最精細(xì)逐漸變化到最粗糙。
令表示“模塊耦合矩陣”,其中Φ 表示模塊P中結(jié)點(diǎn)與模塊q中結(jié)點(diǎn)相連接的概率。若cPw大于某個(gè)閾值t,則稱P耦合q,或稱q被P耦合;特別的如果%大于某個(gè)閾值t,則成P為自耦合模塊,否則為非自耦合模塊。
令全部L個(gè)模塊被劃分為K個(gè)組,使得每組中結(jié)點(diǎn)具有相近的鏈接分布。令矩陣Axk表示“模塊分組矩陣”,其中Zlk= I表示模塊I被分配到了組k中。令矩陣^χκ表示Z的期望矩陣,其中Ylk表示模塊I被分配到了組k中的概率。
令 KXn表示“前饋概率矩陣”,其中Θ kJ表示分組k中任ー結(jié)點(diǎn)與結(jié)點(diǎn)j相鏈接的概率。令Λκχη表示“反饋概率矩陣”,其中Sw表示分組k中任ー結(jié)點(diǎn)被結(jié)點(diǎn)j鏈接的概率。定義Ω = (CO1,…,Cok)1為“先驗(yàn)向量”,其中ω,表示隨機(jī)選擇的結(jié)點(diǎn)屬于組k的先驗(yàn)概率。
在分塊矩陣B下,網(wǎng)絡(luò)N對(duì)應(yīng)的gSBM模型定義為X= (K,Z,O,Δ, Ω).
3.根據(jù)權(quán)利要求書I所述的多元結(jié)構(gòu)模式表征方法,其特征在于按如下方法定義多元結(jié)構(gòu)模式。
多元結(jié)構(gòu)模式定義為由ー組相互嵌套的“模塊”所構(gòu)成的層次結(jié)構(gòu),底層上的模塊直接嵌套在相鄰高層中較大的模塊中,每層上的結(jié)構(gòu)模式定義為由該層上模塊及模塊耦合關(guān)系定義的子圖。社區(qū)、中樞、權(quán)威、邊緣、二分、多分和領(lǐng)結(jié)等七種結(jié)構(gòu)模式的定義如下。
(1)社區(qū)模式(community):自I禹合模塊; (2)權(quán)威模式(authority):被其它模塊耦合的自耦合模塊; (3)中樞模式(hub):耦合其它模塊的自耦合模塊; (4)邊緣模式(outlier):耦合權(quán)威模塊或被中樞模塊耦合的非自耦合模塊; (5)領(lǐng)結(jié)模式(bow-tie):由模塊b和兩個(gè)模塊集合L、R組成并滿足如下條件①b耦合R中的所有模塊,L中的所有模塊耦合b ;②L和R的交集為空L中模塊與R中模塊無率禹合關(guān)系; (6)多分模式(multipartite):由多個(gè)非自I禹合模塊組成,它們之間可以任意相互率禹合; (7)二分模式(bipartite):是多分模式的特殊形式,由兩個(gè)非自耦合模塊組成,模塊之間存在單向或雙向耦合關(guān)系。
4.根據(jù)權(quán)利要求書I所述的多元結(jié)構(gòu)模式發(fā)現(xiàn)方法,其特征在于按照如下方法構(gòu)造異構(gòu)層次結(jié)構(gòu) 401:將網(wǎng)絡(luò)作為層次結(jié)構(gòu)的第O層,網(wǎng)絡(luò)中的每個(gè)結(jié)點(diǎn)作為ー個(gè)模塊,粒度為I ; 402:令h = 1,h表示層次索引; 403:計(jì)算第h層的最優(yōu)gSBM模型X = (K,Z,O,Λ,Ω ),該模型將h-Ι層上的Llri個(gè)模塊劃分成K個(gè)組; 404:如果K = Llri則停止構(gòu)建層次過程; 405:將所得的K個(gè)組作為第h層的K個(gè)模塊,井根據(jù)如下公式計(jì)算出模塊的耦合矩陣Φ = Bj^ZD—1,其中D = diag(nQ),表示由向量ηΩ作為對(duì)角線元素構(gòu)成的對(duì)角矩陣。K個(gè)模塊和模塊之間的耦合度所構(gòu)成的“模塊耦合圖”作為層次結(jié)構(gòu)的第h層。在“模塊耦合圖”中,模塊作為結(jié)點(diǎn),模塊間的耦合關(guān)系作為有向邊,模塊的耦合度作為邊上的權(quán)值。
406:計(jì)算第h層的粒度和分塊矩陣Lh = K, gh = n/K, Bh = BlriZ. 407:令h = h+1,轉(zhuǎn)到步403執(zhí)行。
5.根據(jù)權(quán)利要求書4所述的構(gòu)造異構(gòu)層次結(jié)構(gòu)的方法,其特征在于按如下方法計(jì)算最優(yōu)gSBM模型 該計(jì)算過程的輸入為網(wǎng)絡(luò)的鄰接矩陣A和分塊矩陣B,輸出為gSBM模型的5個(gè)參數(shù)值(K, Z, Θ , Δ , Ω). 501:令K = I ;K表示分組個(gè)數(shù); 502:采用LM函數(shù)計(jì)算給定K值的最優(yōu)gSBM模型,令X(°) = LM(A, K,B); 503:計(jì)算網(wǎng)絡(luò)似然值,令L(°) = -ln(N|X(°),B);網(wǎng)絡(luò)似然ln(N|X,B)定義為
6.根據(jù)權(quán)利要求書5所述的最優(yōu)gSBM模型計(jì)算方法,其特征在于LM函數(shù)按如下方法計(jì)算 .601:初始化矩陣Γ =け11;)—使得滿足
7.根據(jù)權(quán)利要求書I所述的多元結(jié)構(gòu)模式發(fā)現(xiàn)方法,其特征在于按照如下方法提取各層次上的結(jié)構(gòu)模式 從下至上依次處理層次結(jié)構(gòu)中的各層,假設(shè)第I層到第h-Ι層已經(jīng)處理完,現(xiàn)在要抽取第h層上的結(jié)構(gòu)模式。 . 701:獲取第h+Ι層的模塊耦合矩陣Φ (該矩陣在405步計(jì)算); .702:對(duì)矩陣Φ中所有元素排序,生成序列S ; .703:根據(jù)“最大間隔”的原則對(duì)S中的元素進(jìn)行聚類,即,如果相鄰兩個(gè)元素“間隔(差值)”顯著高,則將這兩個(gè)元素作為類別的分界; . 704:計(jì)算各類所包含元素的均值,將具有最小均值類別中的最大元素值作為閥值t ; .705:根據(jù)閥值t約減h+Ι層上的“模塊耦合圖”,刪除子圖中權(quán)重小于t的模塊耦合關(guān)系; .706:在約減后的“模塊耦合圖”中抽取結(jié)構(gòu)模式,具體操作為對(duì)每個(gè)模塊,依次檢查它是否被包含在權(quán)利要求書3定義的各種結(jié)構(gòu)模式中;如果被包含,則將該模塊子圖作為被發(fā)現(xiàn)的結(jié)構(gòu)模式之ー抽取出來,作為相應(yīng)的模式輸出。
全文摘要
一種復(fù)雜網(wǎng)絡(luò)多元結(jié)構(gòu)模式表征和發(fā)現(xiàn)方法,包括下列主要步驟構(gòu)造多粒度隨機(jī)分塊模型;基于模塊和模塊耦合關(guān)系定義各種結(jié)構(gòu)模式及它們之間的重疊和嵌套關(guān)系;基于多粒度隨機(jī)分塊模型構(gòu)建復(fù)雜網(wǎng)絡(luò)的異構(gòu)層次結(jié)構(gòu);從下至上依次抽取各層次上的結(jié)構(gòu)模式。該方法具有如下優(yōu)點(diǎn)(1)能夠以簡(jiǎn)單、一致的方式定義社區(qū)、中樞、權(quán)威、邊緣、二分、多分和領(lǐng)結(jié)等常見的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)模式,以及模式之間的各種復(fù)雜關(guān)系。(2)能夠正確的發(fā)現(xiàn)共存于網(wǎng)絡(luò)中的多種結(jié)構(gòu)模式以及它們之間的各種復(fù)雜關(guān)系。(3)本發(fā)明提供的多元結(jié)構(gòu)模式分析方法是對(duì)現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)模式分析方法的重要推廣,具有更加廣泛的適用范圍,更加適合于探索結(jié)構(gòu)未知的真實(shí)網(wǎng)絡(luò)。
文檔編號(hào)G06F17/30GK102682050SQ20111035841
公開日2012年9月19日 申請(qǐng)日期2011年11月14日 優(yōu)先權(quán)日2011年11月14日
發(fā)明者劉大有, 楊博 申請(qǐng)人:吉林大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1