最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

面向在網(wǎng)計算的集合通信方法、裝置、設備、介質(zhì)及產(chǎn)品與流程

文檔序號:41948303發(fā)布日期:2025-05-16 14:05閱讀:7來源:國知局
面向在網(wǎng)計算的集合通信方法、裝置、設備、介質(zhì)及產(chǎn)品與流程

本發(fā)明涉及通信,具體涉及面向在網(wǎng)計算的集合通信方法、裝置、設備、介質(zhì)及產(chǎn)品。


背景技術:

1、智算中心部署大規(guī)模計算節(jié)點以提供海量的算力來支撐ai業(yè)務,隨著ai模型規(guī)模的不斷增長,分布式框架成為當前主流方案,ai模型的訓練和推理依賴高效的分布式節(jié)點通信來保證ai業(yè)務的性能。

2、集合通信是ai模型訓練和推理場景下的主要模式,通過在通信域中實現(xiàn)不同集合通信原語場景下的通信拓撲和算法來保證訓推過程參數(shù)和變量的高效傳輸,因此在智算中心構建高性能的集合通信方法和系統(tǒng)十分關鍵。

3、當前集合通信算法在計算節(jié)點完成計算任務后,利用通信接口將數(shù)據(jù)發(fā)送到其他節(jié)點繼續(xù)執(zhí)行后續(xù)操作,在大規(guī)模集群下通信路徑較長,通信效率低。而智算中心引入在網(wǎng)計算能力,將相關的操作直接在網(wǎng)絡側(cè)完成,提高了整體通信效率,但在網(wǎng)計算和本地設備計算存在資源占用和競爭問題,數(shù)據(jù)傳輸效率低。


技術實現(xiàn)思路

1、有鑒于此,本發(fā)明提供了一種面向在網(wǎng)計算的集合通信方法、裝置、設備、介質(zhì)及產(chǎn)品,以解決在網(wǎng)計算和本地設備計算的資源占用問題,提高通信效率和數(shù)據(jù)傳輸效率。

2、第一方面,本發(fā)明提供了一種面向在網(wǎng)計算的集合通信方法,該面向在網(wǎng)計算的集合通信方法包括:將多個在網(wǎng)計算設備的網(wǎng)絡抽象為在網(wǎng)計算節(jié)點,基于在網(wǎng)計算節(jié)點和多個本地計算設備的設備計算節(jié)點構建通信拓撲結構;基于通信拓撲結構將在網(wǎng)計算節(jié)點插入設備計算節(jié)點中,形成閉環(huán)的集合通信策略;基于在網(wǎng)計算節(jié)點和設備計算節(jié)點的資源信息,確定通信流水線;基于集合通信策略,按照通信流水線進行集合通信。

3、在該實現(xiàn)方式中,通過將多個在網(wǎng)計算設備的網(wǎng)絡抽象為特殊的在網(wǎng)計算節(jié)點,將在網(wǎng)計算節(jié)點和普通的設備計算節(jié)點組成層次拓撲結構,以實現(xiàn)后續(xù)通信策略,能夠解決將每個在網(wǎng)計算設備作為一個節(jié)點加入通信拓撲中的結構復雜度,降低算法設計難度,提高規(guī)劃通信策略效率。同時,將在網(wǎng)計算節(jié)點插入設備計算節(jié)點中,形成閉環(huán)的集合通信策略,能夠避免設備計算節(jié)點和在網(wǎng)計算節(jié)點對通信資源的競爭,提高數(shù)據(jù)傳輸效率。同時,按照資源情況確定流水線,能夠提高資源利用率,實現(xiàn)更加高效的集合通信。

4、在一種可選的實施方式中,將在網(wǎng)計算設備的網(wǎng)絡抽象為在網(wǎng)計算節(jié)點,基于在網(wǎng)計算節(jié)點和本地計算設備的設備計算節(jié)點構建通信拓撲結構,包括:基于多個本地計算設備之間的第一物理拓撲信息確定對應的多個設備計算節(jié)點之間的第一通信拓撲信息;將在網(wǎng)計算設備的網(wǎng)絡抽象為一個在網(wǎng)計算節(jié)點,基于多個在網(wǎng)計算設備和每個本地計算設備之間的第二物理拓撲信息確定在網(wǎng)計算節(jié)點和多個設備計算節(jié)點之間的第二通信拓撲信息;結合第一通信拓撲信息和第二通信拓撲信息構建在網(wǎng)計算節(jié)點和設備計算節(jié)點之間的通信拓撲結構。

5、在該實現(xiàn)方式中,將多個在網(wǎng)計算設備的網(wǎng)絡抽象為一個特殊的在網(wǎng)計算節(jié)點,基于本地計算設備的物理拓撲關系構建設備計算節(jié)點的通信拓撲關系,基于在網(wǎng)計算設備和本地計算設備之間的物理拓撲關系構建在網(wǎng)計算節(jié)點和設備計算節(jié)點之間的通信拓撲關系,能夠提高通信拓撲的構建效率和合理性,進一步降低通信拓撲的設計難度,組成的層級通信拓撲關系能夠根據(jù)不同節(jié)點和計算通信能力實現(xiàn)最后通信方案。

6、在一種可選的實施方式中,基于通信拓撲結構將在網(wǎng)計算節(jié)點插入設備計算節(jié)點中,形成閉環(huán)的集合通信策略,包括:基于設備計算節(jié)點之間的通信拓撲結構,構建設備計算節(jié)點之間閉環(huán)的本地通信策略;基于在網(wǎng)計算節(jié)點和多個設備計算節(jié)點之間的通信拓撲結構,從本地通信策略中確定起始計算節(jié)點和終止計算節(jié)點;將在網(wǎng)計算節(jié)點插入起始計算節(jié)點和終止計算節(jié)點之間,形成閉環(huán)的集合通信策略。

7、在該實現(xiàn)方式中,采用在網(wǎng)計算數(shù)據(jù)異地落地機制,將在網(wǎng)計算節(jié)點插入設備計算節(jié)點中,形成閉環(huán)的集合通信策略,使得設備計算節(jié)點通過在網(wǎng)計算后的數(shù)據(jù)落到另一個設備計算節(jié)點上,從而避免由于物理連接或通路限制等問題導致的設備計算節(jié)點和在網(wǎng)計算節(jié)點對通信資源的競爭,提高數(shù)據(jù)傳輸效率。

8、在一種可選的實施方式中,資源信息包括支持并行數(shù)、計算效率和通信效率,基于在網(wǎng)計算節(jié)點的和設備計算節(jié)點的資源信息,確定通信流水線,包括:獲取多個在網(wǎng)計算設備的第一支持并行數(shù)和本地計算設備的第二支持并行數(shù),取第一支持并行數(shù)和第二支持并行數(shù)的最小值,確定通信流水線的流水線數(shù);基于多個在網(wǎng)計算設備和本地計算設備的計算效率和通信效率,確定通信流水線的數(shù)據(jù)切片粒度。

9、在該實現(xiàn)方式中,根據(jù)在網(wǎng)計算節(jié)點和設備計算節(jié)點的資源情況,自適應確定通信流水線,能夠解決不同數(shù)據(jù)量的通信對計算節(jié)點帶來的計算開銷、傳輸效率存在差異的問題,充分利用計算和通信資源,提高計算和通信效率;同時,對數(shù)據(jù)進行合適粒度的數(shù)據(jù)切片,能夠提高通信流水線的資源利用率,提高數(shù)據(jù)傳輸效率。

10、在一種可選的實施方式中,基于集合通信策略,按照通信流水線進行集合通信,包括:在每個計算節(jié)點中設置一個流水線令牌,計算節(jié)點包括在網(wǎng)計算節(jié)點和設備計算節(jié)點;按照流水線數(shù)對通信流水線設置流水線順序;對于每個計算節(jié)點,按照流水線順序為通信流水線發(fā)放流水線令牌;基于集合通信策略,對有流水線令牌的通信流水線按照數(shù)據(jù)切片粒度傳輸數(shù)據(jù)。

11、在該實現(xiàn)方式中,通過設置流水線令牌合理安排流水線任務,實現(xiàn)不同數(shù)據(jù)切片過程交替占用計算和通信,能夠避免不同流水線中的數(shù)據(jù)切片對計算和通信資源的競爭,保證了計算和通信性能的穩(wěn)定性,流水線之間互相不干擾進一步提高資源使用率,保證了傳輸資源的持續(xù)使用。

12、在一種可選的實施方式中,基于集合通信策略,按照通信流水線進行集合通信,還包括:當前計算節(jié)點從上游計算節(jié)點接收上游數(shù)據(jù)和上游完成信號;向上游計算節(jié)點反饋當前接收信號并執(zhí)行數(shù)據(jù)處理操作,生成目標數(shù)據(jù);向下游計算節(jié)點發(fā)送目標數(shù)據(jù)和目標完成信號;從下游計算節(jié)點接收下游接收信號并繼續(xù)執(zhí)行數(shù)據(jù)處理操作。

13、在該實現(xiàn)方式中,通過設置節(jié)點上下游同步機制,低開銷信號同步的模式保證流水線的執(zhí)行過程穩(wěn)定性,解決上下游節(jié)點可能由于節(jié)點開銷差異導致操作執(zhí)行過程存在效率不一致的問題,避免流水線執(zhí)行亂序,提高流水線任務執(zhí)行的正確性和穩(wěn)定性。

14、第二方面,本發(fā)明提供了一種面向在網(wǎng)計算的集合通信裝置,該面向在網(wǎng)計算的集合通信裝置包括:構建模塊,用于將多個在網(wǎng)計算設備的網(wǎng)絡抽象為在網(wǎng)計算節(jié)點,基于在網(wǎng)計算節(jié)點和多個本地計算設備的設備計算節(jié)點構建通信拓撲結構;策略模塊,用于基于通信拓撲結構將在網(wǎng)計算節(jié)點插入設備計算節(jié)點中,形成閉環(huán)的集合通信策略;流水線模塊,用于基于在網(wǎng)計算節(jié)點和設備計算節(jié)點的資源信息,確定通信流水線;通信模塊,用于基于集合通信策略,按照通信流水線進行集合通信。

15、第三方面,本發(fā)明提供了一種計算機設備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執(zhí)行計算機指令,從而執(zhí)行上述第一方面或其對應的任一實施方式的面向在網(wǎng)計算的集合通信方法。

16、第四方面,本發(fā)明提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的面向在網(wǎng)計算的集合通信方法。

17、第五方面,本發(fā)明提供了一種計算機程序產(chǎn)品,包括計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的面向在網(wǎng)計算的集合通信方法。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1