中国储能网讯:
该文为国家重点研发计划资助项目成果,2018年3月发表于MPCE 2018年第6卷第2期。
引文信息:
Zifa LIU, Ya LUO, Ranqun ZHUO, et al. Distributed reinforcement learning to coordinate current sharing and voltage restoration for islanded DC microgrid[J]. Journal of Modern Power Systems and Clean Energy, 2018, 6(2): 364-374
Distributed reinforcement learning to coordinate current sharing and voltage restoration for islanded DC microgrid
直流微电网协调均流和电压恢复的分布式强化学习算法
DOI:10.1007/s40565-017-0323-y
作者:刘自发,罗娅,卓然群,靳现林
由于电力系统直流电源和直流负载的比例增加,直流微电网受到的关注日益增多。直流微电网无需变流器进行交直流转换,减少了变换时的电能损耗,可避免在交流微电网中常发生的问题, 例如同步和谐波污染等;且直流电网中不需要无功补偿,电能质量和可靠性也得到了提高。因此,直流微电网控制与管理成为目前国内外学者研究的热点。为获得快速准确的控制效果,直流微电网普遍采用分布式分层下垂控制。然而直流微电网的均流和电压恢复两个重要控制目标之间存在矛盾。强化学习算法是一种直接与环境交互的学习算法, 计算条件要求低、计算过程简单、能避免陷入局部收敛,是协调直流微电网均流和电压恢复之间矛盾的有效方法。
1、直流微电网的分层协同控制方案
典型直流微电网控制策略分为两层:1)一次控制,采用下垂控制模式,控制目标为快速响应并维持系统的稳定性;2)二次控制,控制目标为电压恢复并以合理比例进行负荷分配。与交流微电网不同,直流微电网中下垂控制要预定义电压和电流的关系,为解决分布式控制方式可能导致稳态偏差和分布式电源(DG)间通信缺失的问题,二次控制中参考电压控制变化量分成两部分:1)电流调整分量,旨在实现比例功率调度;2)电压调整分量旨在校正电压偏差。基于牵制控制的分布式一致法可离散方程表示,描述了迭代过程中每个代理(agent)状态变量的变化,其变化规律与相邻代理间的联通系数、牵制增益和牵制一致预设值有关。其中,由一种自适应更新法修正联通系数,在满足即插即用条件下计算定义智能体总数;牵制一致预设值由分布式一致法计算得出。基于牵制控制的直流微电网系统的一致性过程可由所有代理状态方程构成的矩阵表示,并利用李雅普诺夫函数证明了所用分布式一致法的稳定性。
2、基于分布式强化学习法的直流微电网控制策略
本文提出的分布式强化学习(DRL)方案可以在发生扰动时瞬间响应, 实现分布式决策和协同恢复。DRL 是一种简单的迭代算法, 通过探索未知环境得到的奖励来获得最佳动作, 可用于提高控制特性。在 DRL 过程中, 该解决方案根据相应的奖励信号更新其性能。因此, 每个智能体都可以优化其相连电源、储能和负荷的控制方案, 而其解集中的某些元素可以传递给其他智能体以达到共享解决方案。DRL基本控制结构如图1所示。
图1 DRL基本控制结构
针对DRL算法难以寻求全局奖励函数的问题,本文利用分布式一致法分别计算均流技术比例系数以及和均流控制协同的电压恢复,获得局部奖励函数,局部奖励函数之和为全局奖励函数。具体流程为:1)根据直流微电网的等比例均流和电压恢复的要求,获得每个代理的局部奖励函数和相应的电流比例系数以及电压控制调整量;2)计算整个直流微电网的全局奖励函数最大值,即DRL的优化目标;3)分布式一致法来求解优化问题;4)获得DRL最优解, 通过全局奖励的同步过程,实现了直流微电网的协同比例电流共享和电压恢复。控制示意图如图2所示。
图2 控制示意图
3、DRL控制协调均流和电压恢复效果分析
本文所用的创新DRL 策略结合牵制控制和基于强化学习的分布式一致法的优点,对孤岛微电网进行快速有效的控制。所提出的分布式一致法可用于发现全局信息, 实现牵制同步, 也可以满足通信网络中变化要求,例如通信线路开关或代理即插即用操作。利用基于局部和全局奖励的DRL 可求解全局奖励最大值, 并为获得 直流微电网最佳控制方案。因此, 所提出的策略可以协调自治直流微电网的等比例均流和电压恢复。为了分析所提出的 DRL 的有效性和适应性, 在PSCAD/EMTDC 平台上模拟了一个典型的含5个分布式电源机组的直流微电网控制系统。其配置如图3所示。
图3 直流微电网控制系统配置
在 MATLAB 中编写了 DRL算法,包括局部奖励的计算、分布式一致法信息共享以及基于牵制控制的分布式一致法。将PSCAD模型和 MATLAB 程序通过基于 Fortran 语言的接口程序连接在一起, 说明模拟直流微电网的通信拓扑结构。对三种典型场景进行仿真,包括“过负荷”、“过负荷+增加一个新的通信链路”和“ 过负荷+一个DG代理的退出”,结果表明,无论在过负荷还是过负荷同时发生通信链路的改变,系统中每个代理的均流比例系数均能收敛到同一值,电压水平也能跟随电流控制量灵活调整到一个新的协同状态。以场景3“过负荷+一个DG代理的退出”为例,结果如图4所示。由图可见,每个DG的均流比例系数和局部奖励值均收敛到相同值,均流效果协同电压恢复效果很好,证明了所用方法的有效性和优越性,即 DRL 控制策略在每种情况下都能快速有效地工作。
图4仿真结果
作者介绍
刘自发:博士,华北电力大学电气与电子工程学院教授,主要研究方向包括电网规划、新能源并网技术、分布式发电技术和综合评估。
罗娅:华北电力大学硕士研究生,主要研究方向包括电网规划、风电场并网技术。
卓然群: 华北电力大学硕士研究生,主要研究方向包括电网规划、可再生能源发电分析。
靳现林:硕士,高级工程师,主要研究方向包括风电场运行管理工作。