本發(fā)明屬于電-交通網(wǎng)協(xié)同優(yōu)化,具體涉及一種基于多智能體強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)再分配的綜合能源站運(yùn)行方法。
背景技術(shù):
1、全球范圍內(nèi)減少溫室氣體排放與化石能源依賴的迫切需求,正驅(qū)動(dòng)電動(dòng)汽車及燃料電池車技術(shù)快速發(fā)展,加速構(gòu)建清潔交通體系。然而,車輛電氣化規(guī)模擴(kuò)張導(dǎo)致交通網(wǎng)絡(luò)與能源系統(tǒng)耦合程度顯著加深,路網(wǎng)擁堵、能源需求時(shí)空失衡及電網(wǎng)穩(wěn)定性風(fēng)險(xiǎn)等問題日益凸顯。綜合能源站作為多類型車輛能源供給樞紐,需協(xié)同優(yōu)化交通流量引導(dǎo)、多能聯(lián)供調(diào)度及配電網(wǎng)絡(luò)管理。
2、現(xiàn)有技術(shù)對(duì)于當(dāng)前綜合能源站決策有兩個(gè)重要的空白,首先,現(xiàn)有深度強(qiáng)化學(xué)習(xí)方法雖可緩解信息不對(duì)稱性,卻無法有效處理定價(jià)決策與車輛用戶響應(yīng)間的時(shí)間偏差。交通傳播延遲及充電和加氫設(shè)施時(shí)變擁堵引發(fā)的非線性排隊(duì)效應(yīng),共同導(dǎo)致定價(jià)方法對(duì)站端收益與路網(wǎng)狀態(tài)的影響呈現(xiàn)顯著滯后性。這種延遲獎(jiǎng)勵(lì)使得綜合能源站無法準(zhǔn)確評(píng)估優(yōu)惠券分配、制氫儲(chǔ)氫等方法的長期效應(yīng)。其次,現(xiàn)有單時(shí)間段面優(yōu)化范式難以捕捉跨時(shí)段動(dòng)態(tài)關(guān)聯(lián),嚴(yán)重制約綜合能源站運(yùn)營的經(jīng)濟(jì)性與交通疏導(dǎo)效能。因此,亟待研發(fā)一種基于多智能體強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)再分配的綜合能源站運(yùn)營方法,以考慮綜合能源站獎(jiǎng)勵(lì)的延遲性以及交通網(wǎng)與綜合能源站在多時(shí)間段面的耦合關(guān)系。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的,本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)存在的不足,提供一種基于多智能體強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)再分配的綜合能源站運(yùn)行方法。本發(fā)明計(jì)及了配電網(wǎng)、多類型車輛用戶、綜合能源站之間的高效協(xié)同,獎(jiǎng)勵(lì)再分配的強(qiáng)化學(xué)習(xí)算法基于充能車流量,計(jì)算站點(diǎn)發(fā)放的優(yōu)惠券數(shù)額和制氫儲(chǔ)氫決策,用于處理由站點(diǎn)決策和車輛響應(yīng)間產(chǎn)生的時(shí)間偏差帶來的獎(jiǎng)勵(lì)延遲問題。引入交通流相關(guān)約束,對(duì)電力-交通-綜合能源站進(jìn)行協(xié)同調(diào)度。本發(fā)明不僅能夠促進(jìn)信息壁壘下交通流、配電網(wǎng)和車輛之間的協(xié)同,也幫助綜合能源站基于動(dòng)態(tài)市場提高自身效益。
2、技術(shù)方案,為了解決上述技術(shù)問題,本發(fā)明提出一種基于多智能體強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)再分配的綜合能源站運(yùn)行方法,該方法包括以下步驟:
3、步驟1、獲取電網(wǎng)模型的網(wǎng)絡(luò)系數(shù)和運(yùn)行系數(shù),所述網(wǎng)絡(luò)系數(shù)包括電網(wǎng)拓?fù)?、線路電阻和阻抗,所述運(yùn)行系數(shù)包括發(fā)電機(jī)組發(fā)電系數(shù)、儲(chǔ)能系統(tǒng)充放電系數(shù)、光伏逆變器系數(shù)、充電站參數(shù);
4、步驟2、獲取電網(wǎng)負(fù)荷需求、光伏出力、車輛出行需求、平均充電和加氫歷史需求場景數(shù)據(jù);
5、步驟3、以路段狀態(tài)方程、流量傳播約束、用戶比例分配約束、節(jié)點(diǎn)流量守恒約束、效用方程為約束條件,以交通網(wǎng)中用戶出行及充能效用最小為目標(biāo)函數(shù),建立基于動(dòng)態(tài)用戶均衡的交通模型,根據(jù)該模型得到綜合能源站所屬節(jié)點(diǎn)的充能車流量;
6、步驟4、綜合能源站作為智能體,將基于步驟3得到的節(jié)點(diǎn)充能車流量作為智能體狀態(tài)的輸入,以售電及售氫的效用方程、儲(chǔ)氫量平衡約束、制氫約束、電能平衡約束、優(yōu)惠券效用方程為約束條件,綜合能源站綜合收益最大為目標(biāo)函數(shù),建立綜合能源站運(yùn)行模型;
7、步驟5、將步驟4中的目標(biāo)函數(shù)作為多智能體強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)再分配算法中觀測(cè)評(píng)價(jià)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù),通過獎(jiǎng)勵(lì)再分配公式計(jì)算得到實(shí)際評(píng)價(jià)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù),獎(jiǎng)勵(lì)再分配公式由觀測(cè)評(píng)價(jià)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù)和價(jià)值函數(shù)構(gòu)成,通過最大化實(shí)際評(píng)價(jià)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)綜合能源站收益的最大化。
8、進(jìn)一步的,步驟3中,動(dòng)態(tài)用戶均衡模型為:
9、??????????????(a-1)
10、式中,表示時(shí)刻,表示路段,表示t時(shí)刻路段的流入率,表示t時(shí)刻路段的通行效用。
11、進(jìn)一步的,步驟3中,路段狀態(tài)方程為:
12、(a-2)
13、(a-3)
14、(a-4)
15、流量傳播約束為:
16、(a-5)
17、?????????????(a-6)
18、(a-7)
19、???????????????(a-8)
20、用戶比例分配約束:
21、(a-9)
22、(a-10)
23、(a-11)
24、(a-12)
25、節(jié)點(diǎn)流量守恒約束
26、??????(a-13)
27、效用方程:
28、???????(a-14)
29、(a-15)
30、(a-16)
31、?(a-17)
32、式中,表示在時(shí)刻第類車輛在起始點(diǎn)-目的地對(duì)間沿著路徑路段上的流入率,表示在時(shí)刻第類車輛在起始點(diǎn)-目的地對(duì)間沿著路徑路段上的流出率,?表示在時(shí)刻第類車輛在起始點(diǎn)-目的地對(duì)間沿著路徑路段上的流量,表示t時(shí)刻路段的流出率,表示t時(shí)刻路段的流量,表示第類車輛所占百分比,表示在時(shí)刻起始點(diǎn)-目的地對(duì)間沿著路徑路段上的流入率,表示起始點(diǎn)-目的地對(duì)間在t時(shí)刻的出行需求,表示流出起始點(diǎn)的路徑集合,表示起始點(diǎn)-目的地對(duì)間電動(dòng)汽車的充電路徑集合,表示起始點(diǎn)-目的地對(duì)間燃料電池車的充電路徑集合,表示起始點(diǎn)-目的地對(duì)間燃油車的充電路徑集合,表示流入目的地的路徑集合,表示時(shí)刻起始點(diǎn)-目的地對(duì)間第類車輛到達(dá)目的地的交通流量,表示時(shí)刻起始點(diǎn)-目的地對(duì)間第類車輛累計(jì)到達(dá)目的地的交通流量,和分別表示流入和流出交通節(jié)點(diǎn)的路徑集合,表示在流入率下路段上的通行時(shí)間,表示在路段上的自由通行時(shí)間,表示在路段的車輛擁堵容量,表示交通網(wǎng)中普通路段的集合,表示綜合能源站車輛的平均充電時(shí)間,表示綜合能源站最大允許的電動(dòng)汽車排隊(duì)時(shí)間,表示綜合能源站內(nèi)充電樁的數(shù)量,表示交通網(wǎng)中充電路段的集合,表示綜合能源站車輛的平均加氫時(shí)間,表示綜合能源站最大允許的燃料電池車排隊(duì)時(shí)間,表示綜合能源站內(nèi)加氫樁的數(shù)量,表示交通網(wǎng)中加氫路段的集合,表示時(shí)刻路段上的通行效用,表示時(shí)刻單位時(shí)間效用,表示時(shí)刻綜合能源站的單位電價(jià),表示時(shí)刻綜合能源站的單位氫價(jià),表示時(shí)刻綜合能源站的平均充電功率,表示時(shí)刻綜合能源站的平均加氫量,表示時(shí)刻綜合能源站制定的優(yōu)惠券金額,表示交通網(wǎng)中虛擬路段的集合,表示時(shí)刻路段的臨界通行時(shí)間,表示路段的最大通行車量容量,表示路段的最大通行時(shí)間。
33、進(jìn)一步的,步驟4中,以收益最大化為目標(biāo)的綜合能源站運(yùn)行模型為:
34、?(a-18)
35、售電及售氫的效用方程:
36、?(a-19)
37、?(a-20)
38、??(a-21)
39、?(a-22)
40、制氫約束:
41、(a-23)
42、(a-24)
43、(a-25)
44、?(a-26)
45、儲(chǔ)氫量平衡約束:
46、(a-27)
47、?(a-28)
48、?(a-29)
49、電能平衡約束:
50、(a-30)
51、優(yōu)惠券效用方程:
52、(a-31)
53、式中,表示時(shí)刻綜合能源站的總收益,表示時(shí)刻綜合能源站的售電收益,表示時(shí)刻綜合能源站的售氫收益,表示時(shí)刻綜合能源站的購電效用,表示時(shí)刻綜合能源站的制氫效用,表示時(shí)刻綜合能源站發(fā)放的優(yōu)惠券效用,表示時(shí)刻路段的流量,表示時(shí)刻路段的流量,表示二進(jìn)制變量,如果綜合能源站為路段服務(wù)則為1,否則為0,表示二進(jìn)制變量,如果綜合能源站為路段服務(wù)則為1,否則為0,表示時(shí)刻電力系統(tǒng)節(jié)點(diǎn)的節(jié)點(diǎn)邊際電價(jià),表示時(shí)刻電力系統(tǒng)節(jié)點(diǎn)的總功率需求,表示電轉(zhuǎn)氫的運(yùn)行效用,表示壓縮機(jī)運(yùn)行效用,表示時(shí)刻綜合能源站的電轉(zhuǎn)氫功率,表示時(shí)刻綜合能源站的壓縮機(jī)功率,表示電轉(zhuǎn)氫的運(yùn)行效率,表示氫氣的熱值,表示時(shí)刻綜合能源站的產(chǎn)氫量,和表示時(shí)刻綜合能源站電轉(zhuǎn)氫電功率的最小值和最大值,表示壓縮機(jī)的壓縮比,表示氫氣的等熵指數(shù),表示壓縮機(jī)的運(yùn)行參數(shù),表示時(shí)刻綜合能源站壓縮機(jī)的電功率,表示時(shí)刻綜合能源站壓縮機(jī)的最大電功率,表示時(shí)刻綜合能源站的儲(chǔ)氫量,表示時(shí)間間隔,和表示時(shí)刻綜合能源站的最小儲(chǔ)氫量和最大儲(chǔ)氫量,和表示初始0時(shí)刻和結(jié)束時(shí)刻綜合能源站的儲(chǔ)氫量,表示最大允許儲(chǔ)氫偏差,表示二進(jìn)制變量,如果,屬于同一個(gè)綜合能源站,為1,否則為0,表示在時(shí)刻起始點(diǎn)-目的地對(duì)間沿著路徑路段上的流入率,表示在時(shí)刻起始點(diǎn)-目的地對(duì)間沿著路徑路段上的流入率。
54、進(jìn)一步的,步驟5中,觀測(cè)評(píng)價(jià)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù)為:
55、???????????????????????????????????????????????(a-32)
56、觀測(cè)評(píng)價(jià)網(wǎng)絡(luò)的價(jià)值函數(shù):
57、???????????????????(a-33)
58、獎(jiǎng)勵(lì)再分配公式:
59、????????????(a-34)
60、最大化實(shí)際評(píng)價(jià)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù):
61、??????????????????????????????????(a-35)
62、式中,表示時(shí)刻在狀態(tài)及動(dòng)作下觀測(cè)評(píng)價(jià)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù),表示時(shí)刻在狀態(tài)及動(dòng)作下觀測(cè)評(píng)價(jià)網(wǎng)絡(luò)的價(jià)值函數(shù),表示在策略?下的期望值,表示時(shí)刻的折扣因子,表示執(zhí)行動(dòng)作后的下一個(gè)狀態(tài),表示下個(gè)狀態(tài)下選擇的動(dòng)作,表示時(shí)刻下個(gè)狀態(tài)、動(dòng)作的價(jià)值函數(shù),表示實(shí)際評(píng)價(jià)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù)。
63、有益效果,與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有以下的有益技術(shù)效果:
64、本發(fā)明通過引入獎(jiǎng)勵(lì)再分配方法處理交通傳播的延遲特性,同時(shí),為捕獲交通流的動(dòng)態(tài)特性,采用動(dòng)態(tài)用戶均衡的交通模型。本發(fā)明所捕獲交通流動(dòng)態(tài)特性的方法較現(xiàn)有方法有助于提升綜合能源氫站運(yùn)營收益,提高交通節(jié)點(diǎn)高峰時(shí)段通行效率,實(shí)現(xiàn)電能-氫能供給與交通需求在時(shí)空維度上的動(dòng)態(tài)匹配。綜合能源站的定價(jià)機(jī)制在低負(fù)荷時(shí)段可引導(dǎo)用戶優(yōu)先基于區(qū)位優(yōu)勢(shì)選擇站點(diǎn),在高負(fù)荷時(shí)段通過動(dòng)態(tài)溢價(jià)方法平衡區(qū)域交通壓力,穩(wěn)定充能樁綜合利用率。