最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于深度強化學(xué)習(xí)的HVAC系統(tǒng)優(yōu)化控制方法

文檔序號:41984629發(fā)布日期:2025-05-23 16:40閱讀:4來源:國知局
一種基于深度強化學(xué)習(xí)的HVAC系統(tǒng)優(yōu)化控制方法

本發(fā)明涉及室內(nèi)供暖,尤其涉及一種基于深度強化學(xué)習(xí)的hvac系統(tǒng)優(yōu)化控制方法。


背景技術(shù):

1、隨著全球能源需求的增加以及環(huán)境可持續(xù)性要求的加劇,優(yōu)化建筑能源消耗已成為國際研究的重點,暖通空調(diào)系統(tǒng)在建筑能源使用中占據(jù)了很大比重,它們的運行效率在能源優(yōu)化和室內(nèi)環(huán)境質(zhì)量方面起著至關(guān)重要的作用,傳統(tǒng)的暖通空調(diào)控制策略優(yōu)先考慮能源效率,但這種關(guān)注往往忽略了室內(nèi)空氣質(zhì)量和居住者的舒適。

2、在建筑能源管理中,有許多將深度強化學(xué)習(xí)應(yīng)用于減少能源消耗的例子,同時也提升了居住者的舒適度和空氣質(zhì)量,然而,當(dāng)系統(tǒng)遇到突然的天氣變化、室內(nèi)人數(shù)大幅波動、設(shè)備故障或電力干擾時,這些方法往往難以靈活應(yīng)對,導(dǎo)致控制效率降低、能源浪費和室內(nèi)環(huán)境質(zhì)量下降,一種有效的解決方案是將對抗性訓(xùn)練引入深度強化學(xué)習(xí)方法中,通過在訓(xùn)練過程中引入干擾策略來增強深度強化學(xué)習(xí)方法的魯棒性,使其能夠在面對各種干擾時保持良好的性能,盡管對抗性攻擊取得了一些進展,但在深度強化學(xué)習(xí)中的應(yīng)用效果有限,最近的研究表明,深度神經(jīng)網(wǎng)絡(luò)容易受到對抗樣本的攻擊,即使是微小的擾動也能導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)做出高置信度的錯誤預(yù)測。

3、在暖通空調(diào)系統(tǒng)控制領(lǐng)域,許多研究者通過多種現(xiàn)有技術(shù)來提升系統(tǒng)的能效、舒適度及空氣質(zhì)量,這些技術(shù)包括開/關(guān)控制、比例積分微分控制、模型預(yù)測控制、深度強化學(xué)習(xí),每種方法在不同場景下均表現(xiàn)出不同的效果。開/關(guān)控制是最早期的暖通空調(diào)控制方法之一,通過設(shè)定溫度閾值,當(dāng)室內(nèi)溫度超出設(shè)定范圍時,系統(tǒng)自動開啟或關(guān)閉暖通空調(diào)設(shè)備,該方法簡單易用,適用于環(huán)境條件較為穩(wěn)定的建筑場景,比例積分微分控制系統(tǒng)通過調(diào)節(jié)比例、積分和微分三項參數(shù),來持續(xù)調(diào)整暖通空調(diào)設(shè)備的輸出,使室內(nèi)溫度接近預(yù)設(shè)值,該系統(tǒng)能夠較為精準地控制室內(nèi)環(huán)境溫度,且廣泛應(yīng)用于工業(yè)和建筑領(lǐng)域的自動化控制中,模型預(yù)測控制是一種先進的控制策略,廣泛應(yīng)用于動態(tài)建筑環(huán)境中的能效優(yōu)化,它基于一個能夠預(yù)測未來系統(tǒng)行為的數(shù)學(xué)模型,計算最佳的控制策略,模型預(yù)測控制模型分為以下三類,白盒模型通過建筑的物理特性建立系統(tǒng)的動態(tài)模型,利用熱力學(xué)定律來預(yù)測暖通空調(diào)系統(tǒng)的行為,黑盒模型依賴數(shù)據(jù)驅(qū)動的方法,利用機器學(xué)習(xí)或深度學(xué)習(xí)技術(shù),從歷史數(shù)據(jù)中提取系統(tǒng)輸入和輸出之間的關(guān)系,灰盒模型結(jié)合了白盒和黑盒的優(yōu)點,既利用物理模型的理論基礎(chǔ),又使用數(shù)據(jù)驅(qū)動的技術(shù)對模型參數(shù)進行優(yōu)化,深度強化學(xué)習(xí)近年來逐漸成為優(yōu)化暖通空調(diào)系統(tǒng)控制的熱門方法,通過應(yīng)用深度神經(jīng)網(wǎng)絡(luò),深度強化學(xué)習(xí)能夠?qū)W習(xí)如何在復(fù)雜的動態(tài)環(huán)境中做出最佳決策,從而有效控制系統(tǒng)來提升能源利用效率,并保持居住者的舒適度,深度強化學(xué)習(xí)的研究廣泛應(yīng)用于仿真和實際建筑中,展示了良好的性能表現(xiàn)。


技術(shù)實現(xiàn)思路

1、本發(fā)明的實施例提供了一種基于深度強化學(xué)習(xí)的hvac系統(tǒng)優(yōu)化控制方法,用于解決現(xiàn)有技術(shù)中存在的問題。

2、為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案。

3、一種基于深度強化學(xué)習(xí)的hvac系統(tǒng)優(yōu)化控制方法,包括:

4、s1通過初始控制模型獲取暖通空調(diào)系統(tǒng)的狀態(tài)、動作和獎勵函數(shù),對主智能體和對抗智能體進行初始化;獎勵函數(shù)包括:

5、

6、式中,r表示為獎勵函數(shù),ω表示權(quán)重,ω1表示空調(diào)能耗的權(quán)重,ω2表示風(fēng)扇能耗的權(quán)重,ω3表示pmv指數(shù)的權(quán)重,ω4表示co2水平的權(quán)重,g表示暖通空調(diào)系統(tǒng)高能耗的懲罰、風(fēng)扇高能耗的懲罰、偏離最佳pmv范圍的懲罰以及偏離正常co2濃度范圍的懲罰對應(yīng)的函數(shù);

7、g1=pac/maxac?(2)

8、式中,g1表示暖通空調(diào)系統(tǒng)能耗函數(shù),pac表示空調(diào)能耗的值,maxac表示理論能耗最大值;

9、

10、式中,g2表示風(fēng)扇能耗函數(shù),pfan表示表示風(fēng)扇能耗的值;

11、

12、式中,g3表示pmv指數(shù)函數(shù),是改進后的預(yù)測不滿意率公式,當(dāng)pmv在-0.5到0.5之間時返回接近零的值,并且表示人體舒適狀態(tài)。當(dāng)|pmv|超過0.5時,將會受到20的懲罰。

13、

14、式中,g4表示co2濃度水平函數(shù),minco2和maxco2分別表示理論上co2濃度的最小值和最大值;

15、s2通過ppo方法對主智能體進行訓(xùn)練,訓(xùn)練過程中還通過對抗智能體并使用分離對抗策略對主智能體進行干擾;

16、s3通過長短期記憶網(wǎng)絡(luò)處理步驟s2的訓(xùn)練過程中獲得的時間序列數(shù)據(jù);長短記憶網(wǎng)絡(luò)設(shè)置在ppo方法的策略網(wǎng)絡(luò)中,用于捕捉暖通空調(diào)系統(tǒng)的時序依賴性,使得初始控制模型能夠根據(jù)環(huán)境變化變更控制決策;

17、s4通過式

18、

19、更新主智能體的控制策略;式中,是當(dāng)前策略概率和舊策略概率的比值;at是廣義優(yōu)勢估計,用于表示在當(dāng)前狀態(tài)下選擇行動的相對優(yōu)劣;clip函數(shù)限制比值rt在1-∈到1+∈的范圍內(nèi);a表示在t時間執(zhí)行的動作,π表示在t時間進行的策略,每個動作對應(yīng)一個策略;

20、s5通過式

21、lvalue=(rt+γvθ(st+1)-vθ(st))2?????????????????(7)

22、和式

23、

24、更新主智能體的價值網(wǎng)絡(luò);式中,rt表示時間步t的即時獎勵;γ為折扣因子,用于表示未來獎勵的重要性,范圍在[0,1]之間,越接近1表示未來獎勵越重要;vθ(st+1)是價值網(wǎng)絡(luò)對下一狀態(tài)st+1的預(yù)測值;vθ(st)是價值網(wǎng)絡(luò)對當(dāng)前狀態(tài)st的預(yù)測值;rt+γvθ(st+1)表示狀態(tài)st的目標(biāo)值;α表示學(xué)習(xí)率;折扣因子γ是一個介于0和1之間的值,用于在計算回報時對未來獎勵進行加權(quán),表示未來獎勵的重要性;

25、s6通過式(1)、式

26、

27、和式

28、

29、更新對抗智能體的控制策略;對抗智能體的控制策略包括開關(guān)策略和誘導(dǎo)策略;式中,bt表示當(dāng)前時間步的開關(guān)策略;at′是誘餌策略生成的誘導(dǎo)動作,用于誘導(dǎo)主智能體進行錯誤的動作;bin表示注入行動;sw表示開關(guān)策略,ad表示對抗網(wǎng)絡(luò),lu表示誘餌策略;

30、s7通過式

31、

32、和式

33、

34、更新對抗智能體的價值網(wǎng)絡(luò);式中,rt′表示對抗智能體的時間步t的獎勵;φ是對抗智能體的權(quán)重;

35、s8多次重復(fù)執(zhí)行步驟s2至s7,使得主智能體更新控制策略,以及使得對抗智能體更新對主智能體的干擾行為;

36、s9通過梯度下降法更新主智能體和對抗智能體的網(wǎng)絡(luò)權(quán)重;

37、s10對執(zhí)行了步驟s9獲得的初始控制模型進行測試;

38、s11多次重復(fù)執(zhí)行步驟s2至s10,在每輪訓(xùn)練之后對主智能體和對抗智能體進行評估和調(diào)整,獲得目標(biāo)控制模型;

39、s12使用目標(biāo)控制模型對取暖通空調(diào)系統(tǒng)進行控制。

40、優(yōu)選地,對抗智能體包括循環(huán)神經(jīng)網(wǎng)絡(luò)層、第一全連接層、長短期記憶網(wǎng)絡(luò)層、第二全連接層和第三全連接層;

41、循環(huán)神經(jīng)網(wǎng)絡(luò)層和第一全連接層相互并行設(shè)置,共同向長短期記憶網(wǎng)絡(luò)層輸入數(shù)據(jù);長短期記憶網(wǎng)絡(luò)層分別向并行設(shè)置的第二全連接層和第三全連接層輸入數(shù)據(jù);第二全連接層用于生成誘導(dǎo)錯誤動作并向主智能體輸出;第三全連接層為開關(guān)策略層,用于生成噪聲擾動并向主智能體輸出;

42、對抗智能體的價值網(wǎng)絡(luò)位于第一全連接層的結(jié)構(gòu)中。

43、由上述本發(fā)明的實施例提供的技術(shù)方案可以看出,本發(fā)明提供一種基于深度強化學(xué)習(xí)的hvac系統(tǒng)優(yōu)化控制方法,通過引入分離對抗策略與長短期記憶網(wǎng)絡(luò)優(yōu)化了暖通空調(diào)系統(tǒng)的控制。在訓(xùn)練過程中,使用對抗訓(xùn)練策略來增強主智能體的魯棒性,并利用對抗智能體模擬環(huán)境中的變化和擾動。該方法通過多目標(biāo)獎勵函數(shù)綜合優(yōu)化能源消耗、熱舒適度(pmv)和空氣質(zhì)量(co2濃度),實現(xiàn)了多目標(biāo)平衡。長短期記憶網(wǎng)絡(luò)用于處理時間序列數(shù)據(jù),捕捉系統(tǒng)中的長期依賴關(guān)系,提升了控制策略對動態(tài)環(huán)境變化的適應(yīng)能力。

44、本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1