中国储能网讯:
摘要 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。
01 风光储系统联合调度模型
1.1 风光储联合系统功率控制原理
风光储联合发电系统是由联合调度层、风光储场站监控层以及场站设备层组成,其结构如图1所示。
图1 风光储联合发电系统
Fig.1 Wind-photovoltaic-storage hybrid power generation system
可以看出,联合调度层基于场站的监控信息实现对风电、光伏以及储能的协调控制,场站监控层主要实现对各个子系统的单独监控和各个设备的运行信息的上传,而其中场站设备层主要包括风力发电系统、光伏发电系统和储能系统。
进一步看出,上级调度机构通过联合调度层下达电网的调度指令,场站监控层接收到调度指令之后,分解后下发到设备层的各个风电、光伏以及储能单元。因此,风光储联合系统的核心功能就是通过统一协调分配风电、光伏以及储能系统的发电功率,以实现跟踪电网调度指令并且减少弃风弃光的目的。
1.2 目标函数
为了提高风光储系统的功率跟踪能力,改善其输出特性,本文建立了以风光跟踪考核成本、弃风弃光成本以及储能运行成本最小为目标的风光储协调控制模型,其目标函数为
式中:Cwpb为联合系统的总成本;Ck为联合系统跟踪偏差考核成本;Cq为弃风弃光成本;Cbt为储能运行成本,其计算式分别为
式中:T为调度周期;Pwt(t)、Ppv(t)和Pbt(t)分别是风电、光伏和储能在t时刻的控制功率;Pwt,max(t)和Ppv,max(t)分别为风电和光伏在t时刻的最大出力,属于风光的日前预测值;Pplan(t)为上级电网给定的系统在t时刻的跟踪出力计划值;csell、cunit,bt和cunit,k分别是风光售电电价、储能充放电单位成本和风光跟踪偏差单位考核成本。
为了评估联合系统的跟踪能力,引入跟踪计划平方差Es及其最大跟踪偏差Emax来量化联合系统的跟踪性能,其具体计算式为
1.3 约束条件
(1)风电场出力约束为
式中:Vwt(t)为风电场在t时刻与t–1时刻输出功率的差值,其功率限值和波动时间尺度和装机容量相关,详细可见《西北区域并网发电厂辅助服务管理实施细则》和《西北区域发电厂并网运行管理实施细则》; Vwt,max 为风电场理论输出功率的最大值。
(2)光伏电站出力约束为
式中:Vpv(t)为光伏电站在t时刻与t–1时刻输出功率的差值,其功率变化限值与风电相同; Vpv,max 为光伏电站理论输出功率的最大值。
(3)储能电站出力约束。为了引导储能设备合理充放电和避免过充过放,延长其使用时间,设置储能电站的约束条件为
式中:Pbt,max为储能设备的最大充放电功率;Hsoc,max和Hsoc,min分别为储能荷电状态(state of charge,SOC)的上限和下限;Hsoc(t)为储能设备在t时刻的荷电状态,其计算公式为
式中:ρ为储能电池的自持放电率;ΔHsoc(t)为储能设备在t时刻的荷电变化量,取决于储能设备的充放电状态和充放电功率,具体计算式为
式中:Ebt,max为储能设备的最大容量;ηc为储能设备的充电效率;ηd为储能设备的放电效率。
02 风光储联合调度模型的深度强化学习框架
强化学习是一种通过训练智能体与环境不断交互来建立环境状态与动作之间映射关系的自我学习机制。它本质上是一个马尔科夫决策过程,主要由包含状态空间S、动作空间A、状态转移概率P、折扣因子γ和回报函数R构成的五元数组{S, A, P, γ, R}。
在强化学习过程中,定义策略π为状态空间到动作空间的一个映射(S→A),表示为智能体在状态st选择动作at,执行该动作并以概率P (st, at )转移到下一状态st+1,同时接受来自环境反馈的奖赏rt。而在一个多步的强化学习过程中,假设未来每个时间步所获的立即奖赏都必须乘以一个折扣因子γ,用于削减远期决策对应的奖励,权重则从t0时刻开始到T时刻情节结束时,奖赏之和定义为
因此,智能体根据得到的奖励R来调整自身的策略并针对新的状态st+1做出新的决策at+1,以期获得最大的长期累积奖励,其原理如图2所示。
图2 强化学习原理
Fig.2 Schematic diagram of reinforcement learning
在强化学习过程中,如何根据现有的优化模型定义系统的状态变空间、动作空间以及奖励函数成为常规优化模型向强化学习模型转化的关键。
(1)状态空间S。在风光储联合调度模型中,选取联合电站跟踪计划值、储能的充放电功率、SOC、风电以及光伏的预测出力作为状态空间,即
式中:Splan为联合电站跟踪计划;Sbt和Ssoc分别为储能电站的充放电功率和SOC;Swt和Spv分别为风电和光伏的预测出力。
(2)动作空间A。在强化学习中,一般选取模型的决策变量作为系统的动作空间,如风电、光伏以及储能的出力。但是考虑到本文中决策变量之间存在时序耦合特性,直接选取上述设备出力作为决策变量将难以处理模型中存在的式(2)~(5),因此,为了简化模型学习的复杂性和考虑决策变量之间的时序耦合性,本文选取风电、光伏以及储能的出力增量作为动作空间,即
式中:Awt、Apv和Abt分别为风电、光伏和储能的出力增量。
(3)奖励函数R和折扣因子γ。为了训练智能体学习到在联合调度总成本最低下的调度策略,设置目标函数的负值作为奖励函数,即中成本越低,奖励越大,由此鼓励智能体学习最优调度计划,得到即时奖励rt的计算式为
式中:rt为智能体在某个状态st=[splan,t, sbt,t, ssoc,t, swt,t, spv,t]下选择动作at=[awt, apv, abt]得到的即时奖励。而对于整个调度周期T,为了最小化整个调度周期内的目标函数,存在累计奖励函数R为
式中:R为智能体基于系统外部状态变量得到相应的调度计划之后的获得的累计奖励;γ为折扣因子,表示未来汇报相对于当前的重要程度,γ=0时表示只考虑当前即时汇报而不考虑未来的长期回报,γ=1时表示未来的长期回报和当前的即时回报同等重要。
03 基于DDPG算法的风光储联合优化问题求解
3.1 DDPG算法
DDPG是一种无模型的强化学习算法,其由价值网络(Critic)和策略网络(Actor)组成,价值网络用以估计智能体在状态s下采取动作a之后得到的期望奖励Q值,而策略网络基于系统状态s得到使得Q值最大化的动作a。同时,DDPG引入经验回放技术,使得网络可以学习大量历史经验数据并且沿一个较为稳定的方向前进。
3.2 模型训练机制
(1)价值网络的训练。当前价值网络通过最小化的损失函数来进行参数更新,即
式中:Q(st, at|θQ)为当前网络在t时刻输出的Q值;yt为目标Q值,其计算公式为
式中:rt为从经验池中提取的t时刻即时奖励;πʹ(st+1|θπʹ)为目标策略网络在参数θπʹ下输入状态变量st+1时输出的动作变量;Qʹ(st+1,πʹ(st+1|θπʹ)|θQʹ)为目标网络在参数θQʹ下输入状态st+1和动作变量πʹ(st+1|θπʹ)下的输入Q值。
根据梯度更新法则,通过对损失函数L(θQ)求梯度,就可以得到网络更新公式为
式中:图片为第k轮学习时的价值网络参数;μQ为值网络的学习率;图片为损失函数图片对参数图片的梯度。
(2)策略网络的训练。策略网络需要学习使得价值网络输出Q值最大,因此价值网络的输出Q函数可以作为策略网络的损失函数,通过对Q函数求策略梯度,得到策略网络的更新公式为
式中:图片为第k轮学习时的当前策略网络参数;μπ为策略网络的学习率;图片 为策略梯度。
为了确保学习过程的稳定性,对于目标网络通常采取软更新技术,目标网络参数进行缓慢更新为
式中:图片分别为第k轮学习时的目标价值网络和目标策略网络参数;τ为软更新系数。
(3)基于DDPG算法的风光储联合调度模型结构如图3所示。DDPG算法中策略网络的输入是5维的状态变量st=[splan,t, sbt,t, ssoc,t, swt,t, spv,t],输出是3维的动作变量at=[awt,t, apv,t, abt,t],二者分别为状态空间S和动作空间A下的子集。而价值网络的输入是状态变量和动作变量,输出为评估在该状态下所选择动作效果的值函数Q(st, at)。网络的学习机制为DDPG算法通过与风光储调度系统的交互获得样本数据{at, st, rt, st+1},将其存入经验池中,然后在学习调度策略时,随机从样本池中采样m个样本数据按照如上参数更新公式进行梯度更新。
图3 基于DDPG算法的强化学习框架
Fig.3 Reinforcement learning framework based on DDPG algorithm
通过离线训练出策略网络之后,可以进行在线应用,通过日前风光预测数据和调度计划,确定联合系统的最优调度计划,其调度流程如图4所示。
图4 基于DDPG算法的风光储联合系统调度流程
Fig.4 Scheduling flow chart of wind-photovoltaic-storage hybrid system based on DDPG algorithm
04 仿真算例
4.1 算法参数设置
本文以西北某省的风光储联合系统为研究对象,选取该联合系统一年的风电、光伏的真实和日前预测的历史出力数据,而该联合系统的跟踪机制为通过储能配合风光场站真实出力数据跟踪日前预测结果,因此,联合系统跟踪计划为风光日前预测结果之和。该系统的风电场容量为100 MW,光伏电站容量为60 MW,储能电站为30 MW/60 MW·h。储能电站的自放电率ρ=0,充放电效率ηc=ηd=0.9,储能荷电状态上限Hsoc,max为0.8,下限Hsoc,min为0.2。
基于本文状态空间和动作空间的维数,本文设置Actor和Critic网络中隐含层神经元个数分别为200、50和50,且隐含层均采用ReLU激活函数。而Actor和Critic网络的学习率μQ=0.0001,μπ=0.00001,目标网络的软更新系数τ=0.001,mini-batch大小为64,折扣因子为0.95,经验回放池容量为106,采用Adam优化器更新网络参数。
4.2 模型训练
在上述参数基础上,本文采用Python语言,基于Pytorch的框架在硬件条件为Core i7-9700K CPU的计算机上进行了网络的训练。考虑到每次训练提取不同的风光数据导致总回报曲线存在一定的振荡,因此本文进行了相应的平滑处理,得到总回报收敛曲线如图5所示。通过不断的学习与训练,模型逐渐收敛,形成了可以适应不同风光出力的智能体。
图5 总回报收敛曲线
Fig.5 Total return convergence curve
4.3 算例对比
为了验证本文所提方法的有效性与优势,设置了如下的对比算例进行分析。
方案1:采用本文提出的基于DDPG的风光储联合优化方法,确定在不同风光出力下的联合系统运行计划。
方案2:采用风光储联合发电系统储能控制策略,建立风光储联合调度模型,并且通过动态粒子群(particle swarm optimization,PSO)算法对模型进行求解,得到联合系统的运行计划。
2种不同的方案下的风光储各自在日内(24 h,时间颗粒度为15 min)的运行计划以及成本指标如图6和表1所示,其中Pinc是方案1中的各个指标相对方案2中指标的增量百分比。
图6 不同方案下的调度计划
Fig.6 Scheduling plan under different cases
表1 不同方案下的经济指标
Table 1 Economic indicators under different cases
由图6和表1可知,为了跟踪上级调度机构给定的运行计划,联合系统需要在弃风弃光和储能的投入之间取得一个微妙的平衡。而方案2主要通过频繁使用储能来跟踪运行计划,因此其储能的充放电成本达到了97350.32元,比方案1高20.85%,方案1则通过合理的弃风弃光和储能的投入来跟踪计划,虽然其弃风弃光成本比方案2高了33.32%,但是其总成本比方案2低13.05%,并且其跟踪考核成本也比方案2低44.90%。而DDPG算法的巨大优势主要有2个原因,一方面,DDPG通过动作-评估和经验回放学习机制,可以在可行域内进行充分的探索,学习到更优的联合调度策略;另一方面,对于多时间尺度下的调度问题,DDPG算法每次实际上只有风光储出力增量3个决策变量,而粒子群算法却有288个决策变量,因此粒子群算法很容易因为维数灾而陷入局部最优。
同时,在2种方法下联合系统的出力计划如图7所示,二者的跟踪性能指标跟踪偏差平方和Es、最大跟踪偏差Emax和模型计算时间如表2所示。
图7 联合系统追踪计划曲线
Fig.7 Joint system tracking plan curve
表2 不同方案下的性能指标
Table 2 Performance indicators under different cases
由图7和表2可知,相比粒子群算法(方案2),DDPG算法(方案1)具有更好的跟踪性能,其跟踪平方和与最大跟踪偏差分别为209.79 kW2和2.12%,分别比粒子群算法低27.61%和52.88%。在保持良好跟踪性能的同时,计算效率也是DDPG算法的巨大优势,其计算时间只需要1.02 s,相比常规的粒子群算法节约了98.70%的时间。而由于风光存在间歇性和波动性,因此在联合系统中,快速得到风光储的出力计划对优化储能输出、跟踪计划以及减少弃风弃光具有重大意义。
05 结论
本文在深度强化学习的框架下,提出了一种基于DDPG算法的风光储系统联合调度策略。通过算例的对比,验证了本文方法的有效性和优势,得到如下结论。
(1)通过学习风光历史出力数据,可以适应风光出力的不确定性,具有很好的鲁棒性。
(2)采用离线训练、在线应用的机制得到的动态经济模型可以基于风光以及跟踪计划等状态变量,快速得到联合系统的调度方案。
(3)通过合理的弃风弃光和储能的充放电,可以较好地跟踪系统的联合运行计划,实现风光储联合系统的经济运行。