本發(fā)明涉及虛擬電廠,尤其是涉及一種虛擬電廠資源協(xié)調優(yōu)化控制方法、系統(tǒng)、設備及介質。
背景技術:
1、在電網(wǎng)實際運行中,可再生能源正被大量接入電力系統(tǒng),然而由于可再生能源自然產(chǎn)生的不連續(xù)性,將會導致發(fā)電引起波動,針對該情況則需要其他能源如電池能量存儲系統(tǒng)進行補償,以平滑可再生能源自然產(chǎn)生的可變性,保障電網(wǎng)頻率穩(wěn)定并抑制由反向功率流引起的電壓上升,但是在使用多種的其他能源的過程中,存在容量不方便進行控制的情況。
2、中國申請專利cn118508526a公開了一種基于神經(jīng)網(wǎng)絡的虛擬電廠控制方法、系統(tǒng)及設備,通過構建基于神經(jīng)網(wǎng)絡的優(yōu)激勵模型獲得儲能方案和放能方案,但該方法僅依賴虛擬電廠中的相關數(shù)據(jù)規(guī)劃控制方案,無法進行環(huán)境交互,忽略了環(huán)境對虛擬電網(wǎng)的影響,容易導致其生成的控制方案與實際虛擬電網(wǎng)控制脫軌。
3、因此,提供一種能夠結合環(huán)境信息的虛擬電廠內(nèi)部資源協(xié)調控制的方法是需要解決的問題。
技術實現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種虛擬電廠資源協(xié)調優(yōu)化控制方法、系統(tǒng)、設備及介質。
2、本發(fā)明的目的可以通過以下技術方案來實現(xiàn):
3、根據(jù)本發(fā)明的第一方面,提供了一種虛擬電廠資源協(xié)調優(yōu)化控制方法,所述的方法包括:
4、獲取原始數(shù)據(jù)和約束,所述的原始數(shù)據(jù)包括各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)、設備狀態(tài)、負荷用電量和天氣情況;所述的分布式能源發(fā)電量包括可再生能源發(fā)電量和其他能源發(fā)電量;所述的約束包括虛擬電廠容量約束、過壓保護約束和成本約束;
5、基于所述的原始數(shù)據(jù)利用長短期記憶網(wǎng)絡預測未來虛擬電廠中各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)和負荷用電量;
6、基于預測得到的各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)和負荷用電量利用多智能體強化學習算法生成虛擬電廠內(nèi)部資源協(xié)調優(yōu)化控制策略;將可再生能源、其他能源和儲能設施作為智能體,確定智能體的動作集合為是否發(fā)電和發(fā)電量,智能體的狀態(tài)集合為當前時刻下智能體的發(fā)電狀態(tài)和發(fā)電量,根據(jù)所述的約束構建智能體的獎懲;
7、根據(jù)所述的虛擬電廠內(nèi)部資源協(xié)調優(yōu)化控制策略實現(xiàn)對虛擬電廠內(nèi)部資源優(yōu)化調整。
8、作為優(yōu)選的技術方案,所述的預測未來虛擬電廠中各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)和負荷用電量的方法為:
9、將所述的原始數(shù)據(jù)進行預處理,所述的預處理包括數(shù)據(jù)清洗、校驗、歸一化和平滑處理;
10、將預處理后的原始數(shù)據(jù)輸入訓練好的長短期記憶網(wǎng)絡,輸出未來的各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)和負荷用電量。
11、作為優(yōu)選的技術方案,所述的長短期記憶網(wǎng)絡的訓練方式為離線訓練和在線學習。
12、作為優(yōu)選的技術方案,所述的長短期記憶網(wǎng)絡包括輸入層、lstm層和輸出層,所述的lstm層包括遺忘門、輸入門、候選記憶單元、輸出門、記憶細胞和隱藏狀態(tài)。
13、作為優(yōu)選的技術方案,所述的生成虛擬電廠內(nèi)部資源協(xié)調優(yōu)化控制策略的方法為:
14、初始化多智能體強化學習算法參數(shù),基于預測得到的各類分布式能源發(fā)電量和儲能設施的儲能狀態(tài)獲取每一智能體的初始狀態(tài)和初始動作;
15、基于每一智能體的初始狀態(tài)和初始動作計算對應智能體的局部值函數(shù);
16、整合每一智能體的局部值函數(shù)獲取全局值函數(shù),并根據(jù)全局值函數(shù)確定每一智能體下一時刻的動作;
17、智能體執(zhí)行所述的下一時刻的動作并計算該動作的獎懲,生成對應時刻的智能體狀態(tài);
18、智能體根據(jù)獎懲和所述的對應時刻的智能體狀態(tài)更新算法參數(shù),并重復上述操作直至算法收斂,根據(jù)獎懲輸出每一智能體的最佳動作,集合每一智能體的最佳動作生成虛擬電廠內(nèi)部資源協(xié)調優(yōu)化控制策略。
19、作為優(yōu)選的技術方案,所述的獎懲包括成本獎勵、容量獎勵和過載懲罰;
20、所述的成本獎勵的表達式為:
21、
22、其中,n表示智能體數(shù)量;α表示智能體的動作中是否發(fā)電的決定參數(shù),為01型數(shù)據(jù),且當α=1時智能體動作為發(fā)電,當α=1時智能體動作為不發(fā)電;qi表示第i個智能體的動作中發(fā)電量;ci為智能體i的發(fā)電成本;cmax為成本允許最大值;
23、所述的容量獎勵的表達式為:
24、
25、其中,k1表示獎勵系數(shù),qmax表示最大容量限制;
26、所述的過載懲罰的表達式為:
27、r3=k2(o實-omax),
28、其中,k2表示懲罰系數(shù),o實表示實際過載,omax表示過載閾值;
29、總獎懲函數(shù)為:r=r1+r2-r3。
30、作為優(yōu)選的技術方案,所述的多智能體強化學習算法的訓練過程為:
31、智能體從狀態(tài)集合中選取某一狀態(tài),計算該狀態(tài)下的動作,并根據(jù)動作更新獎懲和下一時刻的狀態(tài),將所述的狀態(tài)、動作、獎懲和下一時刻的狀態(tài)作為經(jīng)驗存放至經(jīng)驗回放池中,不斷重復至經(jīng)驗回放池容量為零;
32、從經(jīng)驗回放池中任意選取一批經(jīng)驗按照預設比例劃分為訓練集、測試集和驗證集;
33、利用訓練集訓練多智能體強化學習算法,并利用梯度損失函數(shù)更新算法參數(shù),利用測試集和驗證集檢測訓練效果,并將訓練效果最好對應的算法參數(shù)作為最終參數(shù)。
34、根據(jù)本發(fā)明的第二方面,提供一種虛擬電廠資源協(xié)調優(yōu)化控制系統(tǒng),所述的系統(tǒng)用于上述方法,包括:
35、數(shù)據(jù)采集與分析模塊:用于采集虛擬電網(wǎng)中各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)、設備狀態(tài)和負荷用電量以及對應區(qū)域內(nèi)的天氣情況,并根據(jù)所述的各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)、設備狀態(tài)和負荷用電量生成約束;
36、智能預測模塊:用于根據(jù)數(shù)據(jù)采集和分析模塊采集到的各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)、設備狀態(tài)、負荷用電量和天氣情況對未來虛擬電廠中各類分布式能源發(fā)電量、儲能設施的儲能狀態(tài)和負荷用電量進行預測,并輸出預測結果;
37、資源規(guī)劃與策略生成模塊:用于根據(jù)智能預測模塊輸出的預測結果結合所述的約束,利用多智能體強化學習算法輸出虛擬電廠內(nèi)部資源協(xié)調優(yōu)化控制策略;
38、控制器:根據(jù)所述的虛擬電廠內(nèi)部資源協(xié)調優(yōu)化控制策略實現(xiàn)對虛擬電廠內(nèi)部資源優(yōu)化調整。
39、根據(jù)本發(fā)明的第三方面,提供了一種電子設備,包括存儲器和處理器,所述存儲器上存儲有計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)所述的方法。
40、根據(jù)本發(fā)明的第四方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)所述的方法。
41、與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點:
42、1)、本發(fā)明先對虛擬電廠中未來的發(fā)電量和負荷進行預測,根據(jù)預測的結果使用多智能體強化學習算法將虛擬電廠中的發(fā)電設施作為算法智能體,將發(fā)電設施是否發(fā)電以及發(fā)電量多少作為智能體動作,并根據(jù)智能體動作設計獎懲函數(shù),使得算法在面對包含可再生能源的復雜虛擬電廠情境下,仍舊能夠生成最佳的協(xié)調優(yōu)化控制策略,以應對可再生能源的自然可變性,保證電網(wǎng)頻率的穩(wěn)定并抑制由反向功率流引起的電壓上升;
43、2)、本發(fā)明通過多智能體強化學習算法,將環(huán)境信息納入考量范圍,實現(xiàn)了智能體和環(huán)境的交互,使其生成的虛擬電廠協(xié)調控制方案更符合實際運行;
44、3)、對長短期記憶網(wǎng)絡采用離線訓練和在線學習相結合的訓練方式,不僅縮短了訓練的時間,還無需構建龐大的網(wǎng)絡訓練數(shù)據(jù)庫,節(jié)約了計算成本。