本發(fā)明涉及算力網(wǎng)絡(luò),具體涉及一種基于分層架構(gòu)和自主可控技術(shù)的ai四級算力資源池構(gòu)建方法。
背景技術(shù):
1、算力資源池是為了更高效地利用計算資源,滿足不斷增長的計算需求,推動相關(guān)領(lǐng)域的發(fā)展,而將服務(wù)器中的各種資源(如?cpu、內(nèi)存、磁盤空間等)進行統(tǒng)一管理和分配,形成的一個資源共享和復(fù)用的集合。ai算力資源池是算力資源池在ai領(lǐng)域的深化和拓展,ai四級算力資源池又是以ai算力資源池為基礎(chǔ)進行的分級架構(gòu)設(shè)計。
2、ai四級算力資源池是為了滿足人工智能應(yīng)用對強大計算能力的需求而構(gòu)建的資源集合,為人工智能模型的訓(xùn)練和推理等提供高效的計算支持。ai四級算力資源池目前并無非常標(biāo)準(zhǔn)統(tǒng)一的定義,一般是在ai算力資源池的基礎(chǔ)上,根據(jù)不同的應(yīng)用場景、性能指標(biāo)、資源規(guī)模等因素進行的更細致的分級,例如劃分為國家級、區(qū)域級、城市級、企業(yè)級,或者基礎(chǔ)算力級、中級算力級、高級算力級和超級算力級,又或者是“中心+省+邊緣+端”四級。
3、盡管ai四級算力資源池在氣象、通信、工業(yè)制造、云計算、金融等多個領(lǐng)域得到廣泛應(yīng)用,然而,算力資源的算力調(diào)度與分配任然面臨著巨大的挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明意在提供一種基于分層架構(gòu)和自主可控技術(shù)的ai四級算力資源池構(gòu)建方法,通過精準(zhǔn)的ai需求預(yù)測、靈活的資源劃分及動態(tài)的資源分配協(xié)同作用,算力資源的算力調(diào)度與分配準(zhǔn)確性高,提高了算力資源利用率。
2、為達到上述目的,本發(fā)明采用如下技術(shù)方案:
3、一種基于分層架構(gòu)和自主可控技術(shù)的ai四級算力資源池構(gòu)建方法,包括:
4、算力資源整合步驟,將計算資源抽象為邏輯單元并注冊到資源池中,獲取各算力單元的能力特征;
5、ai任務(wù)管理步驟,獲取ai任務(wù)類型,構(gòu)建ai需求預(yù)測模型;
6、四級算力資源池劃分步驟,基于ai需求預(yù)測模型得到ai需求預(yù)測結(jié)果,將ai需求預(yù)測結(jié)果映射至能力特征,基于能力特征根據(jù)能力均衡策略進行四級算力預(yù)劃分;基于預(yù)劃分結(jié)果,根據(jù)貪心算法獲取各層的緩沖資源,將緩沖資源與相鄰層共享,得到最終算力資源四級劃分結(jié)果;
7、動態(tài)分配與管理步驟,根據(jù)實時ai任務(wù)能力需求匹配資源層級,并根據(jù)時間敏感調(diào)度算法進行資源分配。
8、本方案的原理及優(yōu)點是:實際應(yīng)用時,在硬件層包括多個異構(gòu)算力的硬件設(shè)備,通過算力資源整合步驟便于把控基礎(chǔ)的計算能力;將硬件設(shè)備進行抽象和隔離,便于將物理資源抽象為虛擬資源,以便更好地管理和分配資源,提高安全性;不同行業(yè)由于其業(yè)務(wù)特點和需求的不同,對ai算力資源池的需求也存在著顯著的差異,通過ai任務(wù)管理步驟便于把握動態(tài)的ai任務(wù)需求,從而高效的進行算力資源分配;ai任務(wù)的需求和資源的可用性是動態(tài)變化的,因此需要對算力資源進行動態(tài)調(diào)整,四級算力資源池劃分步驟通過預(yù)劃分和緩沖資源劃分的設(shè)計,提高了算力資源的隔離與聚合的靈活性,通過緩沖資源與相鄰層共享,提高了算力資源層級劃分的準(zhǔn)確性,減少了動態(tài)劃分次數(shù),提高系統(tǒng)穩(wěn)定性,四級算力資源池劃分步驟將任務(wù)均勻地分配到各個層級的算力資源上,避免某個層級的資源過載而其他層級的資源閑置;通過動態(tài)分配與管理步驟,根據(jù)時間敏感調(diào)度算法進行資源分配,便于提高自動化的資源管理效率,實現(xiàn)資源的最優(yōu)利用。
9、優(yōu)選的,作為一種改進,還包括四級算力資源池劃分觸發(fā)步驟,觸發(fā)四級算力資源池劃分步驟進行四級算力再劃分,所述四級算力資源池劃分觸發(fā)步驟包括:
10、釋放資源預(yù)測子步驟,對各算力單元已占用資源的釋放時間和釋放量進行預(yù)測;
11、統(tǒng)計子步驟,用于統(tǒng)計各層級可用資源及各層級待用資源;
12、判斷子步驟,判斷各層級可用資源及各層級待用資源相互關(guān)系是否超過閾值,若超過閾值則觸發(fā)四級算力資源池劃分步驟進行四級算力再劃分;判斷規(guī)則如下:
13、
14、
15、其中,為觸發(fā)判斷結(jié)果,0表示不觸發(fā),1表示觸發(fā),為層級i的觸發(fā)閾值,為層級i的可用資源及待用資源關(guān)系值,為層級i在t時刻的可用資源,為層級i在t時刻的待用資源。
16、技術(shù)效果:便于實現(xiàn)算力資源的動態(tài)劃分。
17、優(yōu)選的,作為一種改進,所述統(tǒng)計子步驟還對周期時間內(nèi)釋放的算力熱點進行統(tǒng)計;
18、所述觸發(fā)閾值根據(jù)算力熱點動態(tài)調(diào)整,調(diào)整模型如下:
19、
20、其中,是調(diào)節(jié)常數(shù)值,、均是權(quán)重值,是層級i的熱點數(shù)量,是層級i的熱點峰值。
21、技術(shù)效果:算力熱點一定程度反映了算力需求,當(dāng)算力熱點越高,動態(tài)調(diào)整需求越大,基于上述模型便于實現(xiàn)按需觸發(fā)資源劃分,提高全局效率。
22、優(yōu)選的,作為一種改進,所述能力均衡策略包括:獲取各類型ai任務(wù)的能力需求及各算力單元的能力特征,按照匹配度排行進行第一批定量劃分,獲取各類型ai任務(wù)的需求增長速度,并按照需求增長速度的比例對剩下算力單元依據(jù)匹配度進行第二批劃分。
23、技術(shù)效果:通過兩個批次的劃分,便于提高資源劃分的準(zhǔn)確性。
24、優(yōu)選的,作為一種改進,所述四級算力預(yù)劃分的劃分模型如下:
25、
26、
27、
28、
29、其中,為第一批定量劃分算力,為第二批劃分算力,為編號為n的算力單元,為層級i的ai需求增長速度占所有層級ai需求增長速度之和的比例,為所有滿足層級i算力需求的剩余算力單元,為算力單元l與層級i的匹配度,為權(quán)重值,為算力單元m與層級i的能力特征x的差值;和為調(diào)節(jié)常數(shù)值。
30、技術(shù)效果:通過上述策略,便于所有算力單元適應(yīng)于各個層級的需求個性化劃分,同時確保在增長速度維度的均衡。
31、優(yōu)選的,作為一種改進,所述緩沖資源的緩沖范圍包括:
32、
33、其中,為周期t內(nèi)層級i中的資源占用量,為層級i中當(dāng)前所有算力單元,為層級i的ai需求增長速度占所有層級ai需求增長速度之和的比例。
34、技術(shù)效果:通過上述模型,便于根據(jù)周期時間內(nèi)算力單元的使用情況劃分緩沖范圍,從而確保算力資源可以靈活調(diào)動的同時,對所屬層級的使用影響小。
35、優(yōu)選的,作為一種改進,所述將緩沖資源與相鄰層共享需滿足共享邊界條件,所述共享邊界條件包括:
36、
37、
38、
39、其中,為共享層的當(dāng)前可用算力資源,為層級i中所有算力單元,為周期t內(nèi)層級i中的資源占用最大量;為需共享層的當(dāng)前可用算力資源,為層級j中所有算力單元,為周期t內(nèi)層級j中的資源占用最大量,為共享層中緩沖資源的剩余量。
40、技術(shù)效果:便于在必要時候進行資源聚合與隔離,確保資源使用秩序。
41、優(yōu)選的,作為一種改進,所述ai任務(wù)管理步驟包括:
42、算力需求特征提取子步驟,收集ai任務(wù)的基本信息,基于基本信息對ai任務(wù)進行分類,基于每類任務(wù)的算力需求特征提取策略進行特征提??;
43、ai需求預(yù)測模型構(gòu)建子步驟,獲取ai任務(wù)執(zhí)行記錄和ai需求外部影響因素并提取有效特征,構(gòu)建數(shù)據(jù)集,通過時間序列模型對數(shù)據(jù)集進行訓(xùn)練,得到ai需求預(yù)測模型。
44、技術(shù)效果:ai需求受到多方面因素影響,通過ai任務(wù)執(zhí)行記錄便于捕捉歷史發(fā)展趨勢,通過ai需求外部影響因素便于捕捉不定性因素,從而結(jié)合歷史和外部因素進行全面且精準(zhǔn)的需求預(yù)測。
45、優(yōu)選的,作為一種改進,所述動態(tài)分配與管理步驟還包括:
46、實時監(jiān)測子步驟,實時監(jiān)測、記錄并更新各算力單元的運行狀態(tài);
47、資源分析子步驟,基于各算力單元的運行狀態(tài)記錄分析資源熱點,并將分析結(jié)果反饋至統(tǒng)計子步驟中。
48、技術(shù)效果:通過實時監(jiān)測各算力單元的運行狀態(tài)便于及時發(fā)現(xiàn)和解決設(shè)備故障,確保硬件層的穩(wěn)定運行;通過記錄各算力單元的運行狀態(tài)便于發(fā)現(xiàn)算力熱點,促進四級算力資源池動態(tài)更新,通過更新各算力單元的運行狀態(tài),便于各算力單元的高效應(yīng)用。