职场文秘网

首页 > 心得体会 > 学习材料 / 正文

基于DDPG模型的建筑能耗控制方法

2023-05-11 19:10:04

周 鑫 陈建平 傅启明

(苏州科技大学电子与信息工程学院 江苏 苏州 215009) (江苏省建筑智慧节能重点实验室 江苏 苏州 215009)

为了应对日益增加的建筑能耗问题,单纯依靠政策宣传节能等粗放的手段难以有效地解决节能问题。新一代的人工智能技术,已成为智能电网背景下建筑节能的又一大研究趋势。但目前的人工智能方法在建筑节能领域尚处在初级阶段,探索如何使用新技术实现建筑节能,是一个亟待解决的问题。

深度强化学习(Deep Reinforcement Learning,DRL)[1]是人工智能方法中的一种,因其在多个领域的应用价值,使其成为主要的研究方向。深度强化学习是由具有决策能力强化学习(Reinforcement Learning,RL)[2]与具有特征提取能力的深度学习(Deep Learning,DL)[3]结合而成,具有很强的通用性[4]。在之后的研究中,深度强化学习在各个领域被广泛运用,如游戏[5]、机器人控制[6-7]等。

Mnih等[8-9]将神经网络与RL算法结合,提出了深度Q网络模型(Deep Q-Network,DQN),用于处理视觉感知的控制任务。之后,DQN算法出现了多种改进版本[10],包括对算法的改进[11]、神经网络模型的改进[12]、学习机制的改进[13-14],以及新的RL算法的改进[15]。然而,这些算法适用于离散动作空间的RL任务,在连续动作空间中,基于确定性策略梯度(Deterministic Policy Gradient,DPG)[16]的算法可以获得更好的效果。因此,Deep Mind团队提出了深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[17],结合深度神经网络来处理大规模状态空间的问题,并在该算法的基础上提出了多智能体的DDPG算法[18],取得了显著效果。陈建平等[19]提出一种增强型深度确定性策略梯度算法,加快了算法的收敛速度。何明等[20]提出了基于多智能体DDPG算法的经验优先抽取机制,提高了算法的训练速度。邹长杰等[21]提出了基于多智能体DDPG模型的分组学习策略,提高了多智能体的学习效率。

综上,针对现有建筑节能方法比较粗放的问题,基于深度强化学习的理论,提出更加智能化的控制策略,用于解决建筑节能问题。本文提出一种基于DDPG算法的建筑能耗策略优化方法,利用强化学习构建成本最小化与电力负荷峰值降低的关系模型,解决连续动作空间下的策略优化问题。通过对开源的建筑能耗使用数据进行实验验证,该方法能够有效降低电力负荷与使用成本,最终实现建筑节能。

1.1 马尔可夫决策过程

满足马尔可夫性质的强化学习任务被称为马尔可夫决策过程(Markov Decision Process,MDP)或MDP,因此,利用马尔可夫决策过程对强化学习进行建模,可以有效完成序贯决策任务。通常,MDP可以用一个四元组{S,A,T,R}表示,其中:S是所有环境状态的集合;
A是agent可执行动作的集合;
T是状态转移函数;
R是奖赏函数。对一个MDP问题,在任意时刻t,其状态为St∈S,选择并执行动作at∈A,获得立即奖赏r(st,at)∈R,通常可以简写为rt,且转移到下一状态st+1∈S,状态转移T(st,at,st+1)的概率为Pr(st,at,st+1)。

强化学习中,策略π是指在状态s下采取动作a的概率,表示为π(s,a)。判断某一策略π的优劣程度,基本上是通过计算估计动作值函数的值进行判断。其中,估计动作值函数根据未来累积奖赏进行计算评估,定义如下:

Qπ(s,a)=Eπ{Rt|st=s,at=a}=

(1)

式中:γ是折扣率,决定着未来奖赏的当前价值。如果选择的策略是最优策略,则用最优动作值函数Q*进行表示,定义如式(2)所示。

(2)

1.2 DDPG方法

DDPG算法融合了DPG算法与DQN算法的优点,利用神经网络来模拟策略函数和Q值函数,通过训练,能够提高非线性模拟函数的准确性和高效性。此外,利用DPG算法中行动者评论家方法(Action-Critic,AC)的优势,结合DQN算法中的经验池和双网络结构,以及目标网络参数的“软更新”方式,提高神经网络的学习效率,在连续状态空间问题中取得了较好的实验效果。其中,DPG算法利用近似函数μ(s|θμ)表示动作选择,其梯度定义如下:

(3)

在随机策略中,状态和动作的值会影响策略梯度的计算,而在确定策略中,只有状态值才会影响策略梯度。相较而言,DPG算法在达到收敛条件时所需要的样本较少。DDPG算法利用式(3)更新策略网络参数,并通过式(4)对网络参数进行更新。但是,如果直接使用式(4)进行更新会导致收敛不稳定,因为在更新Q(s,a|θQ)的过程中,其目标值也在同步计算,即式(5)中的yt。

L(θQ)=Est~ρπ,at~π,rt~E[(Q(st,at|θQ)-yt)2]

(4)

yt=r(st,at)+rQ(st+1,μ(st+1)|θQ)

(5)

针对这个问题,DDPG采用“软更新”的方式,即创建新的AC网络(Q′(s,a|θQ′),μ′(s|θμ′))用于目标参数的更新。目标策略网络和目标值网络中参数的更新规则为θμ′←αθμ+(1-α)θμ′,θQ′←αθQ+(1-α)θQ′,α<<1,该方法可以降低目标值的更新速度,从而提高算法的收敛稳定性。此外,DDPG算法引入经验回放机制打破样本之间的相关性,以提高算法的学习效率。不仅如此,DDPG算法还通过引入随机噪声N来完成策略探索,使动作的选择具有一定的随机性,从而在一定程度上提高探索环境的效率,具体如式(6)所示。

(6)

1.3 Softmax策略选择方法

判断agent是否选择最优动作之后,需要对策略选择方法加以改进,或者选择合适的动作选择策略。UCB策略、ε-greedy方法、与Softmax都是强化学习中比较重要的动作选择策略。前两种策略缺陷都在于不能够有效地优化动作的选择概率。因此,一个比较有效的方法就是将选择动作的概率更改为估计值的一个分级函数,即将最高的选择概率分配给贪心动作,但是,除此之外的其他动作则根据其值的估计进行比较并分配权重,这称为软最大化动作选择规则。

动作选择概率的一般表达式可以写为它在某次操作选择动作aj的概率:

(7)

式中:τ指代的是温度系数,当τ→0时,软最大化动作选择方法就变得与贪心方法一样。

2.1 问题建模

(8)

ai,d,t={1,0} ∀a∈A,∀i∈N,∀d∈N,∀t∈N

式中:如果电气设备在特定时间打开,则ai,d,t=1,否则为0。此外,本节提出的方法中,ai,d,t等同于对动作的估计。

(9)

因此,式(8)的约束条件将同时对两个问题都有效。但是,基于不同类型的电气设备之间的差异,约束条件的整个范围会变大,如下所述。

电气设备的约束条件:假设三种类型的消耗曲线。首先,考虑时间缩放负载。对此,本节的分析仅限于空调负荷(dAC),作为每栋建筑物中较大的一组电气设备的代表,可以在优化范围内将开关次数约束为有限时间,例如灯、电视等电气设备。先前的研究表明,短期时间内减少空调的使用对最终用户舒适度的影响可忽略不计。其次,本章包括时移负载,也称为可延迟负载,即能够实现用电时间的转移,它必须在给定的时间间隔内消耗最少的电量。其中,本节将洗碗机(dDW)建模为不间断负载,该模型需要多个连续的时间步长。最后,电动汽车(dEV)被建模为可移动负载。就本节而言,根据随时间变化的设备约束ad,t的定义,提出以下假设:

(10)

条件1:在本节中,P+被认为是不可忽视的部分。

在本节中,使用DRL方法作为建筑能耗控制的优化方法,以便在不同复杂程度上执行最佳建筑能耗控制策略。DRL可以通过自动提取模式,例如能源消耗的数据,来学习比标准RL更好的行为策略。简而言之,可以从总体框架的角度将DNN方法表示为在给定输入分布上具有良好泛化能力的黑匣子模型,如式(10)所示。

(11)

2.2 奖赏函数构造

针对本节所解决的多目标优化问题,在一天结束时计算一个准确的奖赏函数,而不是在一天的每个时间步长都计算奖赏函数。因此,推导出了一个简单的包含三个奖赏组成的多任务联合奖赏:

(12)

2) 对式(9)中定义的总能耗进行如下设置:

(13)

此外,根据式(8),当有更多的能源产生时,通过时间转移能源消耗量:

(14)

空调的控制由假设2以及式(15)给出:

(15)

3) 总成本C的计算如下:

(16)

故本节用奖赏函数的1)和2)求解式(9),用奖赏函数的1)和3)求解式(8)。

2.3 基于DDPG模型的策略选择算法

之前有将基于值函数差异的探索与Softmax动作选择结合在一起,利用学习过程中产生的值差异来衡量agent对环境的不确定性,以适应在线探索参数。事实证明,这种方法可以极大地优化多臂赌博机问题的求解。但是,这种探索策略的缺点是必须记录每种状态的探索参数,在遇到大规模连续状态或动作空间时效率低下。因此,本节提出一种基于Softmax方法的策略选择方法,即S-DDPG,该方法根据agent与环境之间的交互过程中的动作值和平均动作值动态地调整探索参数。

策略选择方法的核心思想是根据agent达到目标状态的成功数量和成功率来鼓励探索。一方面,当agent获得越来越高的奖赏时,策略应该更多地被利用。另一方面,当agent由于环境变化而停止获得奖赏时,应该再次鼓励探索。因此,策略搜索算法如式(17)所示。

(17)

式中:ε的取值来源于ε-greedy方法。

该方法的总体框架如图1所示,基于DDPG模型的策略选择算法如算法1所示。

图1 策略搜索方法框架

算法1基于DDPG模型的策略选择方法

输入:状态信息数据。

输出:动作的概率。

1) 初始化Actor、Critic网络模型的超参数(α,γ,ζ);网络权重θ

2) forepisode=1 toMdo:初随机状态s

3) fort=1,T:actor根据策略方法选择动作;执行动作,返回奖赏随机状态r以及下一状态s′;并将状态转移信息存入经验池;从经验池中随机选择数据进行训练

4) 通过损失函数更新Critic网络;使用样本的策略梯度更新Actor网络

5) end for

6) end for

3.1 网络模型

为了在离散和连续动作空间下令DQN、DPG和DDPG,以及S-DDPG进行公平的比较,模型所使用的深度神经网络的架构相似,并且具有以下特征:每个强化学习状态由一个时间窗口的两个连续时间步长给出。因此,在峰值降低问题的情况下,输入层具有11个神经元,即时间步长t,以及在t-1到t时刻的基本负荷、光伏发电、空调状态、电动汽车和洗碗机的状态。需要注意的是,除了固定的基本负荷和发电量外,其他状态分量不是由智能电表测量的初始值直接给出,而是通过学习过程中获得的值动态调整。对于成本最小化的问题,输入层有一个额外的神经元,用于对分时电价进行编码。此外,该网络具有三层隐藏的神经元层,各层都包含100个神经元,其中以整流线性单元(ReLU)作为神经网络的激活函数。

由于离散动作空间和连续动作空间的任务模型不同,即DQN模型和S-DDPG等模型的输出层不同。对于DQN模型,设置输出层为8个神经元,每个神经元代表一个组合动作的Q值。每个组合动作都是多个设备的可能组合,即空调(a1)、电动汽车(a2)、洗碗机(a3)的启动或者关闭。相比之下,S-DDPG输出层只有三个神经元,每个神经元代表一个设备动作。更准确地说,它输出的是在特定输入状态执行与设备相关联的动作的概率。这是S-DDPG方法相对于DQN方法的一个明显优势,因为S-DDPG与设备的数量成线性比例。

超参数设置:在所有执行的实验中,学习率均设置为α=0.01,折扣因子设置为γ=0.99,η=0.01。本节训练了5 000个情节的模型,其中每一个情节由随机20天内的数据组成。网络结构的权重参数每两个情节更新一次。

3.2 数据描述

本节结合改进算法验证了所提出的模型,并在大型真实数据库中分析了该模型性能。首先,描述数据库。然后,针对各种建筑物的降低负荷峰值问题和最小化成本问题,给出两个问题的实验对比结果。

(1) 建筑能耗模型。数据集中包含用户每天使用能源的数据,将用电记录进行清洗分割,得到两千多万条数据,并将这些能耗数据用于构建特定的设备模型。图2和图3列出了每15分钟一次记录的两种不同类型建筑(B1和B2)的能源数据模型。在不同的建筑能源数据模型中,光伏发电的不确定性以及用户消耗能源的行为特征非常明显。在本文的实验中,使用了2010年1月至2016年12月之间的数据。

图2 B1型建筑的能源数据模型

(2) 价格数据。本文使用建筑能耗数据当地的电网公司为用户提供的分时电价。夏天的电价由高峰、中峰、低谷时段的电价组成,冬季的电价由高峰低谷电价组成。此外,在建筑上进行自发电的客户将收到由电网公司支付的光伏发电费用。

3.3 实验分析

表1和图4、图5显示了两种类型建筑物(Bi)在一年内以15 min的频率采样,显示有关单个建筑物级别的降低负荷峰值的对比结果。表1中,第一列表示峰值,第二列是优化方法,第三列是某一类型的建筑,第三、第四列中Mean与S.d分别代表平均值和标准差。对于原始数据,计算日均负荷峰值的平均值和标准差。在将四种深度强化学习算法应用于建筑能耗优化控制之后,负荷峰值均有一定程度的降低。其中:DPG方法比DQN方法的效果好;
S-DDPG算法的优化效果比DQN、DPG、DDPG等方法更好,优化之后负荷峰值明显降低。这是因为,DQN方法主要解决的是离散动作空间下的动作选择问题,在应对连续大规模状态空间的问题时,无法及时采取最优策略,只能进行离散化的动作选择,最终导致优化效果较差,而DDPG方法与S-DDPG方法能够在该状况下取得较好的实验结果。

表1 建筑物日均负荷峰值

图4 B1型建筑降低负荷峰值后的能耗

图5 B2型建筑降低负荷峰值后的能耗

在图4和图5中,横坐标表示时间步长(每15 min一次),纵坐标表示建筑能源的负荷。与图2、图3的建筑能源模式相比,使用S-DDPG算法优化后的曲线值在60至100个时间步长内已经能够表明下降的趋势,实现了负荷峰值降低的效果。此外,该建筑物中其他的电气设备也都在一定程度上降低了负荷峰值。

表2总结了两种不同类型的建筑物日均最小化成本问题的实验对比结果。相较于DQN、DPG、DDPG方法,S-DDPG对建筑能耗使用方法的优化控制,在降低负荷峰值和最小化能源使用成本方面取得了更好的效果。在前面的研究中,假设用户自发电卖出的电价和买入电网公司的电价相等,在首先考虑降低建筑电力能源的使用成本时,则可以将成本最小化问题转化为降低负荷峰值的问题,从而间接地降低负荷峰值。

表2 建筑物日均最小化成本

因此,对比图2、图4和图6,以及图3、图5和图7可以看出,不同类型的建筑物最小化能源使用成本的解决方案与其负荷峰值降低问题,以及原有的建筑能耗模型相关。此外,对B1和B2两种类型的建筑进行能耗优化控制,B2类型的建筑能耗在S-DDPG算法的优化控制下,具有更好的表现效果。

图6 B1型建筑最小化成本后的能耗

图7 B2型建筑最小化成本后的能耗

为了测试在大规模数据下的运行情况,本文使用S-DDPG和DDPG算法分别分析10座和20座建筑物的相应结果。表3表明,本文方法可以分别用于峰值降低和成本最小化问题。不仅如此,当居民在考虑降低电力使用成本时,也能够隐含地解决负荷峰值问题。在建筑物数量级别相同的前提下,S-DDPG比DDPG算法具有更好的性能。总体而言,在20座建筑物的降低成本问题中,S-DDPG算法将负荷峰值降低了25.1%,成本降低了26.9%,而DDPG算法将负荷峰值降低了10.1%,成本降低了15.6%。为可视化S-DDPG算法的性能,图8展示了20座建筑物中每座建筑物的未优化和优化的年度电力能源成本。可以观察到每个建筑物中居民的电力能源消费行为彼此并不相同,在某些优化效果较好的情况下,将S-DDPG算法应用于建筑能耗优化控制,可以将居民的年度电力能源成本降低一半。然而,在一些优化效果较差的情况下,该算法仅仅能够降低几百分点的建筑电力能耗的成本。

表3 多个建筑物年均成本的优化结果

图8 多个建筑物年均成本优化前后的对比

本节通过对实验情节的多次迭代来评估S-DDPG算法的收敛性能。图9显示了S-DDPG方法在降低负荷峰值方面的学习能力以及降低建筑物的负荷所对应的奖赏值。其中,实验的每个情节表示随机选择的20天的平均值。在实验刚开始时,可以观察到奖赏数值增加很快,而在大约100个情节之后,奖赏值增加变得缓慢。在大约100个情节之后,使用S-DDPG方法的平均峰值和优化的平均峰值会趋于收敛。

图9 S-DDPG方法降低的负荷峰值与奖赏值

本文提出一种基于深度强化学习算法的建筑能耗控制优化方法,该方法通过对建筑能耗负荷建模,在假定发电和消耗的电价相等的基础上,将峰值降低问题和成本最小化问题结合分析,构建三个奖赏函数组合而成的联合奖赏模型,用于建筑能耗控制方法模型。通过对某数据库记载的建筑能耗数据进行处理,并将DDPG和S-DDPG方法,以及基础的DQN算法与DPG算法应用于建筑能耗控制方法实验中,实验结果表明,在四种不同的方法进行对比之后,S-DDPG方法具有更好的建筑能耗优化效果。此外,在下一步的研究计划中,将考虑更加复杂与实际的情况下建筑能耗的优化方法,并希望有更多的学者参与建筑节能的研究。

猜你喜欢峰值能耗负荷“四单”联动打造适龄儿童队前教育峰值体验少先队活动(2022年9期)2022-11-23120t转炉降低工序能耗生产实践昆钢科技(2022年2期)2022-07-08能耗双控下,涨价潮再度来袭!当代水产(2021年10期)2022-01-12探讨如何设计零能耗住宅建材发展导向(2021年23期)2021-03-08日本先进的“零能耗住宅”华人时刊(2018年15期)2018-11-10防止过负荷时距离保护误动新判据东北电力技术(2016年2期)2016-05-17主动降负荷才是正经事中国化肥信息(2016年35期)2016-05-17宽占空比峰值电流型准PWM/PFM混合控制通信电源技术(2016年6期)2016-04-20基于峰值反馈的电流型PFM控制方法通信电源技术(2016年5期)2016-03-22负荷跟踪运行下反应堆一回路控制系统仿真与验证核科学与工程(2015年2期)2015-09-26

Tags: 能耗   模型   控制  

搜索
网站分类
标签列表