本發(fā)明涉及芯片設(shè)計(jì)領(lǐng)域,特別是涉及一種互連系統(tǒng)。
背景技術(shù):
1、隨著高性能計(jì)算(hpc)和大規(guī)模并行處理需求的增加,構(gòu)建大規(guī)?;ミB集群已成為提升計(jì)算能力的關(guān)鍵途徑。然而,在大規(guī)模互連的集群中,物理連接的限制導(dǎo)致了通信效率的瓶頸。具體而言,由于物理距離和硬件資源的限制,任意兩個(gè)計(jì)算單元之間往往無法實(shí)現(xiàn)一跳直達(dá)的直接通信,而是需要經(jīng)過多個(gè)中間節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交換。這種多跳通信增加了通信延遲,進(jìn)而降低了整體計(jì)算效率。這種現(xiàn)象在復(fù)雜的互連拓?fù)渲杏葹槊黠@。在環(huán)形、網(wǎng)格或樹形等拓?fù)浣Y(jié)構(gòu)中,計(jì)算單元的連接路徑往往較長,節(jié)點(diǎn)之間的直接連接受到限制。例如,在環(huán)形拓?fù)渲?,?shù)據(jù)必須沿著環(huán)路傳遞,直到到達(dá)目標(biāo)節(jié)點(diǎn)。這意味著,如果兩個(gè)節(jié)點(diǎn)在環(huán)中的物理距離較遠(yuǎn),則數(shù)據(jù)需要經(jīng)過多個(gè)中間節(jié)點(diǎn)才能完成傳輸。每經(jīng)過一個(gè)中間節(jié)點(diǎn),都會(huì)引入額外的延遲,同時(shí)增加了節(jié)點(diǎn)處理數(shù)據(jù)包的負(fù)擔(dān),從而導(dǎo)致整體通信效率的下降。
2、傳統(tǒng)的北向網(wǎng)絡(luò)通信架構(gòu)中,計(jì)算單元通過pcie接口連接服務(wù)器內(nèi)的pcie交換芯片,繼而連接到網(wǎng)卡,接入集群網(wǎng)絡(luò)交換機(jī)。這種通信架構(gòu)一定程度上緩解了超大環(huán)狀拓?fù)涠嗵ㄐ乓氲臅r(shí)延問題,但這種架構(gòu)本身至少包含6個(gè)中間節(jié)點(diǎn),例如:計(jì)算單元a到pcie交換芯片,pcie交換芯片到網(wǎng)卡a,網(wǎng)卡a到網(wǎng)絡(luò)交換機(jī),網(wǎng)絡(luò)交換機(jī)到網(wǎng)卡b,網(wǎng)卡b到pcie交換芯片,pcie交換芯片到計(jì)算單元b。顯然,傳統(tǒng)網(wǎng)絡(luò)通信架構(gòu)的通信時(shí)延不可忽視,并且通信延時(shí)隨著網(wǎng)絡(luò)交換機(jī)組網(wǎng)層數(shù)增加而增加。除此之外,該架構(gòu)下計(jì)算單元的通信帶寬受限于服務(wù)器內(nèi)的pcie交換機(jī)芯片數(shù)量以及計(jì)算單元的pcie接口帶寬。這種多跳通信帶來的延遲不僅影響了數(shù)據(jù)的傳輸速度,還對gpu集群的并行處理能力產(chǎn)生了負(fù)面影響。在高性能計(jì)算中,許多任務(wù)需要頻繁的節(jié)點(diǎn)間通信和數(shù)據(jù)交換。通信延遲的增加直接影響了計(jì)算任務(wù)的整體完成時(shí)間,降低了系統(tǒng)的吞吐量。因此,在設(shè)計(jì)大規(guī)?;ミB集群時(shí),如何優(yōu)化拓?fù)浣Y(jié)構(gòu),以減少多跳通信的時(shí)延以及降低中間節(jié)點(diǎn)對帶寬的限制成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、針對上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:一種互連系統(tǒng),所述系統(tǒng)包括:至少一個(gè)交換機(jī)和k個(gè)服務(wù)器。其中,每個(gè)服務(wù)器包括多個(gè)單元組,其中,第i個(gè)服務(wù)器servi包括r(i)個(gè)單元組;servi的第r個(gè)單元組包括t個(gè)計(jì)算單元,每個(gè)計(jì)算單元包括q個(gè)待與交換機(jī)互連的端口,其中,i的取值范圍為1到k,r的取值范圍為1到r(i),t的取值范圍為1到t。其中,所述交換機(jī)連接所述k個(gè)服務(wù)器中所有計(jì)算單元的q個(gè)端口,通過配置所述交換機(jī)得到sum個(gè)互連關(guān)系,每個(gè)互連關(guān)系包括每個(gè)單元組中的一個(gè)計(jì)算單元,同一個(gè)單元組中不同計(jì)算單元位于不同的互連關(guān)系中。
2、本發(fā)明至少具有以下有益效果:
3、通過計(jì)算單元的q個(gè)待與交換機(jī)互連的端口與交換機(jī)直連能夠使不同單元組中的兩個(gè)計(jì)算單元之間僅通過一跳直接進(jìn)行通信,相比通過各個(gè)單元組中的計(jì)算單元構(gòu)成的硬件拓?fù)浠蛘邆鹘y(tǒng)北向網(wǎng)絡(luò)進(jìn)行通信,減少了通信延遲,同時(shí)增加了系統(tǒng)的帶寬,降低了中間節(jié)點(diǎn)對帶寬的限制。同時(shí),交換機(jī)區(qū)分單元組中不同計(jì)算單元之間的sum個(gè)互連關(guān)系,單元組內(nèi)的t個(gè)計(jì)算單元之間的通信通過單元組內(nèi)的固定拓?fù)渫瓿?,在同樣互連規(guī)模和帶寬下,相比傳統(tǒng)北向網(wǎng)絡(luò),減少了通過交換機(jī)進(jìn)行互連的端口數(shù)量,進(jìn)一步節(jié)約了大集群的互連成本。
1.一種互連系統(tǒng),其特征在于,所述系統(tǒng)包括:
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,當(dāng)sum=t時(shí),所述系統(tǒng)包括t個(gè)帶寬相同的互連關(guān)系,每個(gè)互連關(guān)系為通過配置所述sw使每個(gè)計(jì)算單元的q個(gè)待與交換機(jī)互連的端口配置到同一個(gè)互連關(guān)系中。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,當(dāng)sum=q×t時(shí),所述系統(tǒng)包括q×t個(gè)帶寬相同的互連關(guān)系,每個(gè)互連關(guān)系為通過配置所述sw使每個(gè)計(jì)算單元的q個(gè)待與交換機(jī)互連的端口配置到q個(gè)不同的互連關(guān)系中。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,當(dāng)t<sum<q×t時(shí),所述系統(tǒng)中包括至少兩種帶寬不同的互連關(guān)系:第一種互連關(guān)系中每個(gè)計(jì)算單元配置的端口數(shù)量和第二種互連關(guān)系中每個(gè)計(jì)算單元配置的端口數(shù)量不同。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述系統(tǒng)中交換機(jī)的數(shù)量為t個(gè),單個(gè)交換機(jī)連接每個(gè)單元組中的一個(gè)計(jì)算單元,不同交換機(jī)連接同一組中的不同計(jì)算單元;通過配置每個(gè)交換機(jī)使與當(dāng)前交換機(jī)連接的所有計(jì)算單元配置為一個(gè)互連關(guān)系。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,當(dāng)每個(gè)單元組獨(dú)立編號時(shí),連接同一個(gè)交換機(jī)的所有計(jì)算單元的編號相同或不同。
7.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,當(dāng)每x個(gè)單元組獨(dú)立編號時(shí),連接同一個(gè)交換機(jī)的所有計(jì)算單元的編號包括預(yù)設(shè)的x種編號。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,通過配置當(dāng)前交換機(jī),使與當(dāng)前交換機(jī)連接的目標(biāo)計(jì)算單元直接訪問與所述目標(biāo)計(jì)算單元的編號不同的其他計(jì)算單元。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述交換機(jī)為pcie交換機(jī)或全光交換機(jī)。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,t×r(i)≤th0,th0為預(yù)設(shè)的服務(wù)器中計(jì)算單元的最大數(shù)量。