中国储能网欢迎您!
当前位置: 首页 >首屏板块>矿产资源开发与保障 返回

数据分布多样性对锂电池SOC预测的泛化影响

作者:何林 刘江岩 刘彬 李夔宁 代帅 来源:储能科学与技术 发布时间:2024-06-25 浏览:


    本文亮点:1.对实际场景下的大规模的锂电池组数据进行SOC多步预测,研究了不同算法的应用效果 2.根据算法预测结果,进一步分析了数据分布多样性对模型的泛化能力的影响规律

 摘 要 数据驱动模型预测荷电状态(SOC)依赖高质量的实验数据,在应用于实际使用场景下的分布多样的锂电池组数据时会出现预测的准确性不稳定即泛化能力差的情况,限制了模型的实际应用。研究实际场景下的大规模数据的分布多样性对SOC预测模型的泛化性影响具有重要意义。因此,对32个锂电池组的实际运行数据集进行研究,采用经典算法与多输入多输出(MIMO)策略结合来预测多步SOC,对每份数据分别建立模型进行SOC预测,研究了不同算法的应用效果并分析了数据分布多样性对模型的泛化能力的影响规律。结果表明:对大规模的锂电池组数据,LR-MIMO模型训练精度普遍优于RF-MIMO、KNN-MIMO、LSTM-MIMO模型,其预测未来0.5 h的SOC的R2一般在0.98及以上,MAPE基本低于0.05。与其他模型相比,LR-MIMO模型有优秀的预测性能,预测其他数据集的R2基本在0.95以上。而KNN-MIMO模型的预测精度与RF-MIMO模型相当,R2大致在0.7以上,LSTM-MIMO模型的预测性能因数据集不同存在较明显的差异;当数据满足SOC与电压的相关系数≥0.9、SOC和电压分布范围广、核密度曲线呈左偏趋势、分布较均匀时,可使模型训练精度提高。

  关键词 锂离子电池;荷电状态;数据驱动;分布多样性;泛化性

  锂电池需要高效智能的电池管理系统确保其安全稳定运行,荷电状态(state of charge, SOC)估计是其中一项关键技术。数据驱动方法估计SOC具有灵活性和建模简单的特点,在复杂的电池运行情况下有潜在的优势,受到学者的广泛关注。数据驱动方法是根据大量的测量数据,将输出变量和输入变量之间的关系直接映射到数据驱动模型中。

  目前的研究利用锂电池的实验数据进行SOC的估计,包含线性回归、树模型及神经网络等方法。线性回归(linear regression, LR)算法用于探索自变量与因变量之间的线性关系,结构简单,计算量少,对实现在线SOC预测非常有利。基于树的方法是通过对特征空间进行划分,逐步建立决策树模型,来预测因变量。其中,随机森林(random forest, RF)是通过随机选择特征和样本,构建多个决策树,并将其集成,提高模型预测SOC的精度和鲁棒性。RF方法在处理多特征、高维度的锂电池数据的任务时,效果良好。K近邻(K-nearest neighbors, KNN)是基于相似性的技术,将测试点的数值估计为k个最近训练点的某属性数值的加权平均值,能捕捉锂电池特征与预测目标之间的复杂关系,获得准确的预测结果。神经网络通过输入层接收数据,再通过隐藏层的线性和非线性变换进行特征提取和表达,最后由输出层输出结果。长短期记忆网络(long short-term memory, LSTM)是常用的预测SOC的神经网络方法,具有捕获时间序列数据中的信息的优势、较强的建模和分析能力,被广泛研究。为了拓展数据驱动模型在不同类型锂电池的SOC估计中的应用,研究者们利用不同类型的锂电池实验数据,进行了模型的迁移学习研究。

  尽管使用数据驱动方法进行锂电池SOC估计的研究发展迅速,但目前仍存在一些问题:

  (1)数据驱动模型普遍利用高质量且大量的锂电池实验数据,而实际使用的锂电池数据由于生产工艺、环境条件、使用习惯等因素,在概率密度等方面分布多样,数据质量不同。不同质量的实际数据进一步影响模型内部的参数确定,可能出现过拟合,难以得到可靠的预测结果。

  (2)对数据的依赖可能会导致数据驱动模型的泛化能力差,即模型在未见过的新数据上的表现能力差。面对分布差异大的锂电池数据时,模型在原数据上学到的知识的适用性低,使得预测的准确性不稳定,预测精度下降。

  这些问题降低了数据驱动方法的实用性和可靠性,因此研究实际场景下的大规模锂电池数据的分布多样性对SOC预测模型的泛化性影响具有重要意义。本工作对32个锂电池组实际运行数据集进行研究,分别建立模型进行SOC预测,并考虑到先进电池管理技术的需求,将经典算法与多输入多输出(multi-input multi output, MIMO)策略多步预测结合来预测未来一段时间的SOC,对比研究不同算法的应用效果。在此基础上,分析了数据分布多样性对多步SOC预测模型的泛化能力的影响,有助于数据驱动方法的实际应用发展。

  1 研究方法

  研究的主要框架如图1所示,主要包含4个部分。首先,采集了不同情况下的32份锂电池组实际数据集,选取电池组总电压、电流、SOC、温度作为特征,对数据进行预处理。其次,建立SOC的多步预测模型,包含线性回归、K近邻、随机森林、长短期记忆网络4种方法。然后,将数据输入到参数寻优后的模型中,对每份数据分别进行训练并预测除本身外的其他数据集,统计每种方法的训练和预测结果。最后,分析数据分布多样性对模型泛化性的影响规律,分析结果可评估锂电池组数据集是否有利于得到高准确性的荷电状态预测模型。

图1 研究框架

  2 模型建立及预测流程

  2.1 模型算法

  本工作将经典算法拓展至SOC的多步预测,采用4种典型的算法:线性回归、K近邻回归、随机森林、长短期记忆。这4种算法的基本原理,如图2所示。

图2 经典算法原理图:(a) LR;(b) KNN;(c) RF;(d) LSTM

  2.1.1 线性回归算法

  线性回归算法LR是研究一个因变量与多个自变量的线性方法,它的一般形式如式(1)所示:

  式中,x=[x1,x2,x3…xk]是输入特征,β=[β1, β2…βk]是输入特征的回归系数,可以采用最小二乘法获得,满足实际值与预测值的残差平方和最小的要求。

  2.1.2 K近邻回归算法

  K近邻回归算法是一种非参数回归方法,首先在历史数据中提取数据特征即状态向量,然后选取k个与当前数据特征最相似的历史数据用于预测,预测结果为k个最邻近样本的某个属性平均值,见式(2)。

  式中,ωi为第i个样本的权重,一般可将邻近样本的距离作为属性的权值。

  衡量相似度的函数为距离函数,采用欧氏距离,即:

  2.1.3 随机森林算法

  随机森林是一种基于决策树的集成学习算法,加入了bagging套袋和随机子空间的思想来解决决策树模型精度不高、易过拟合的问题。随机森林采用自助法重抽样技术从数据中有放回地随机抽样来构成自助样本集,根据CART(classification and regression trees, 分类与回归树)算法构建决策树,每个树具有根节点、中间节点和叶子节点,如图2(c)所示。CART算法的属性选择量度是基尼指数,假设数据集D包含m个类别,其基尼指数GD的计算见式(4)。

  式中,pj为j类元素出现的频率。

  对于每个属性,考虑每种可能的二元划分,选择该属性产生的最小基尼指数的子集作为其分裂子集,在此规则下,由上至下不断分裂,直到生成决策树,最终取每个树结果的平均值作为预测值,即

  式中,hk表示决策树,K为树的数量。

  2.1.4 LSTM算法

  LSTM网络是一类特殊的RNN,是为了解决RNN在建模长期依赖关系时存在梯度消失或爆炸问题而提出的。常用的单个LSTM单元如图2(d)所示,LSTM主要包括3个门,即输入门、输出门和遗忘门,它们用来决定一个单元是应该记住还是忘记新获得的信息。另外,利用tanh函数和sigmoid函数对信息进行过滤。单元的每个部分如式(6)所示。

  式中,σ表示sigmoid激活函数;xk为网络在时间步长k时的输入;hk-1为前一个时间步长k-1时的输出;W代表权重;i、f、o、c分别表示输入门、遗忘门、输出门和存储单元;b是偏置。sigmoid函数的输出范围在0~1之间,它决定了将传递多少信息,例如,如果一个门的值接近0,则输入门不会记住新的输入信息,过去的记忆应该被遗忘门忘记,所以对于输出门来说,记忆不会影响后续的输出。为了防止过拟合,在模型的LSTM层之间添加了dropout层。

 2.2 模型策略

  k时刻的SOC是电池参数的函数,可以用式(7)来表达,Φk代表k时刻的电池参数,而k=1,2…tE,tE代表最后的时刻。为了进行时间序列的SOC估计,显然,需要确定输入时刻的范围tw,即输入步长,SOC可表示为式(8),而此时k≥tw>0。若要进行多时刻的估计,输出步长不止一个时刻,SOC可用式(9)表示。

  多输入多输出策略即通过建立一个多输出模型来一次预测多步SOC值,不仅利用了输入的多时刻的电池参数的相关性,并且考虑了输出的多时刻的SOC的相关性,有效减少了递归策略中的误差累积问题,总的原理图如图3所示。

图3 多步预测策略原理图

  2.3 模型预测流程

  本工作锂离子电池SOC多步预测的流程框架如图4所示,主要步骤包括:数据采集和处理、模型训练与优化、预测结果评价。

图4 基于大规模数据的SOC多步预测研究框架

  2.3.1 数据采集及预处理

  本工作数据来源于某共享电动自行车实际运行的历史数据,该电动自行车电池组由14个电池单体串联组成,其基本参数见表1。电动自行车的电池管理系统的传感器将电池的相关数据通过无线传输组件上传到云服务器进行存储,利用计算机可下载和提取数据。共采集32个实际运行数据集,内存大小总共1.66 GB,最大的数据集包含近80万条数据。每个数据集中包含的传感信息有电池温度、电池组总电压、电池单体电压、电池容量、SOC等,电池的运行状态通过电流的正负来反映充放电,图5为部分数据集的SOC曲线,可以看出不同数据集的SOC分布情况不同。每个数据集采样间隔都为10 s,记为一个时间步长。考虑到电池的SOC预测主要与温度、电池组总电压、电流、SOC 4个变量相关,所以本工作选取这些变量作为特征进行探究。

表1 锂离子电池主要参数

图5 SOC曲线:(a)数据集1;(b)数据集2;(c)数据集3

  数据采集过程中由于传输不稳定、传感器故障等,实际数据通常存在缺失值、异常值等,这不仅会影响模型的训练,也会极大地影响SOC的预测结果,所以需对数据进行预处理。数据预处理包括数据清洗和数据标准化。

  (1)数据清洗。经统计,每个数据集的缺失值占总的数据量的比例很小,所以采用简单的线性插值法来填补数据集中的缺失值,使用四分位数范围规则过滤异常值。由于共享电动车使用是随机的,数据采集过程中电动车的空闲时间较多,可能存在较多电流为0的数据,这些数据视为正常数据,不做处理。

  (2)数据标准化。数据标准化是对数据进行规范化处理,本工作使用min-max方法进行数据标准化:

  式中,x为初始数据;xmax、xmin分别表示数据中的最大值和最小值;xscale为数据标准化结果。

  2.3.2 模型训练及优化

  将预处理后的电池数据集按8∶2的比例划分为训练集和测试集,利用训练集训练多步预测模型。为减少误差累积,利用少量的电池信息预测较长时间段的SOC,输入步长设定为10,输出步长设定为180,在此基础上,利用多个实际数据集,采用网格搜索方法优化模型超参数。

  2.3.3 模型评估

  利用测试集对多步预测模型的性能进行评估,采用的评价指标为平均绝对百分比误差(mean absolute percentage error,MAPE)和拟合优度R²。平均绝对百分比误差可以表示为:

  式中,yi΄表示第i个预测值,yi表示第i个真实值,n表示样本个数。

  拟合优度表征模型的预测值与真实值之间的拟合效果,即:

  一般而言,MAPE越小,模型预测误差越小,精度越高;R²越接近1,模型的拟合效果越好,精度越高。当预测误差远大于均值基准误差,R2将出现负值,为了便于展现训练与预测效果,后续遇到这样的特殊情况时,将R2的负值设为0。

  3 数据分布多样性分析

  受不同温度、不同行驶速度、不同使用习惯等因素的影响,锂电池组数据集的分布存在多样性,本工作主要从两个角度探究其对模型泛化性的影响。

 3.1 特征相关性

  数据集特征之间的相关性强弱可能会对预测模型产生影响,若特征之间相关性强,有助于模型捕捉其内在关系,若相关性弱,模型可能对特征之间的内在联系作出误判。皮尔逊相关系数法是常用的准确衡量2个变量之间的关系密切程度的方法,本工作采用其计算特征相关性。

  当2组变量分别为X=(x1,x2…xn)、Y=(y1,y2…yn)时,变量X和Y的皮尔逊相关系数ρ(X,Y)根据式(13)计算:

  式中,X和Y代表变量;μX为变量X的平均值;μY为变量Y的平均值;ρ(X,Y)的范围为[-1,1],ρ(X,Y)绝对值越大,特征相关性越高。

 3.2 核密度分布

  数据的概率密度分布会影响模型的训练,采用非参数核密度估计方法进行估计。核密度估计的计算见式(14),x1,x2…xn为数据中独立同分布的n个样本点。

  式中,h为带宽;K(u)为核函数,通常选取以零为中心的对称单峰概率密度函数,文献[32]中指出,当带宽给定时,核函数的选择对最终的估计精度影响小,本工作选择高斯核作为核函数。带宽h对估计结果有重要影响,采用拇指法则确定最优带宽,即假定图片属于某个参数族,当平均积分均方误差取最小值时,以正态参考准则求得最优带宽,求解如式(15)所示:

  式中,n为数据的样本量;σ为数据的标准差。

 4 实验结果

  4.1 大规模数据的多步SOC预测结果

  4.1.1 模型训练性能

  LR、RF、KNN、LSTM模型结合MIMO策略的32个数据集的训练结果,如图6所示。4个模型的多个数据集的R2都在0.95以上,说明每个方法都可以准确预测多步SOC,其中,LR-MIMO模型的R2总体最高,基本维持在0.98以上。而4个模型也都出现了部分数据集精度很低的情况,这可能是受数据分布的影响。在MAPE指标方面,LR-MIMO模型明显低于其他3个模型,误差基本在0.05以下。综合来看,对多个数据集训练时,LR-MIMO模型精度高于RF-MIMO、KNN-MIMO、LSTM-MIMO模型,低精度的概率较低。

图6 不同方法的训练结果: (a) LR-MIMO;(b)KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO

  4.1.2 模型预测性能

  当步长与训练情况保持一致时,每个数据集的模型预测除本身外的数据集的R2结果如图7所示。由图得,LR-MIMO模型在预测所有数据集时,除了第1、17、30个的数据集的预测效果相对较低,其他数据集的R2预测结果下限都在0.95以上,预测精度高。

图7 不同方法的预测结果:(a) LR-MIMO;(b) KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO

  RF-MIMO、KNN-MIMO和LSTM-MIMO模型的预测数据集的R2结果的中位数基本维持在0.9及以上,整体来看,KNN-MIMO模型的预测精度与RF-MIMO模型相近,R2基本在0.7以上,LSTM-MIMO模型的预测精度下限通常高于RF-MIMO模型,上限通常低于RF-MIMO模型。

  LSTM-MIMO模型在不同数据集上的预测结果与其他3个模型存在显著差异,这种现象的原因可能是由于LSTM-MIMO模型对于数据集的特征分布敏感性较高,导致其在不同数据集上表现出不同的预测能力。经过比较,可以发现LR-MIMO模型在预测大规模数据的多步SOC时有优秀的预测性能。

  4.1.3 模型训练与预测关系

  为了全面地观察每个方法的每个数据集的SOC 多步预测效果,便于分析训练和预测的规律,将每个方法的每个数据集的训练与预测的所有R2结果绘制成热力图,如图8所示。由图得,LR-MIMO模型的结果基本都在0.9以上,精度低的结果占比小,而KNN-MIMO、RF-MIMO、LSTM-MIMO模型在0.9以上的结果占比较小。

图8 不同方法的训练与预测结果:(a) LR-MIMO;(b) KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO

  LR-MIMO模型在32个数据集的训练和预测方面表现的优秀性能可能是由于电池的相关特征之间的线性关系更为显著,而非线性关系较不明显。

  从总体来看,观察到每个方法在训练和预测SOC方面呈现出4种类型的情况:训练精度高且预测精度高、训练精度高但预测精度低、训练精度低且预测精度低、训练精度低但预测精度高。这种现象可以归因于不同方法对训练和测试数据的适应程度以及模型的泛化能力不同。高训练和预测精度表明模型在训练数据上有效学习并成功预测未知数据,而高训练但低预测精度可能是由于训练的模型泛化到新数据的能力低。低训练和预测精度意味着模型无法捕捉到数据中的关键特征或模式。低训练但高预测精度可能是模型具备一定泛化能力,能够准确预测未见过的数据。

 4.2 数据分布多样性对模型的泛化性影响

  根据图8的结果,每种方法都出现了高的训练精度,同时也存在某些数据集的训练精度低。为了进一步研究,根据R2>0.95和R2<0.55的指标寻找出4种方法基本都训练精度高、训练精度低的数据集来进行研究。

  4.2.1 数据集特征的相关性

  对训练精度高和训练精度低的共同数据集特征之间的皮尔逊相关系数进行计算,统计结果表明,数据集中SOC与电流、温度的相关性对模型训练没有呈现出明显规律。然而,SOC与电压的相关性对训练产生了影响,如图9所示,在共同数据集中,相关性按照从高到低的顺序排列。通常情况下,训练精度高的数据集中SOC与电压的相关系数ρ(SOC,电压)≥0.9,而训练精度低的数据集中SOC与电压的相关系数ρ(SOC,电压)<0.9。

图9 数据集的相关系数

  4.2.2 数据集的核密度分布

  鉴于SOC与电压相关性大小对模型训练的影响,采用核密度估计方法探究训练精度高和训练精度低的共同数据集中SOC和电压的概率密度分布。图10是共同数据集SOC和电压的核密度分布情况。训练精度高的数据集的SOC和电压分布范围广,模型可学习到的内容多,在SOC和电压分别为95~100 V、57~58 V时核密度大,其他区间核密度小,呈现出左偏趋势,总体上均匀分布,这是由于共享电动单车为了保证使用,常处于满电状态,并且良好使用时的采集数据会在各个区间都有所分布。另外,SOC数据总体均匀分布有助于模型学习到更普适的规律,提高了模型对新样本的泛化能力,从而使得模型在新数据上表现更好。

  图10 共同数据集的核密度分布:(a)高精度数据集的SOC分布;(b)低精度数据集的SOC分布;(c)高精度数据集的电压分布;(d)低精度数据集的电压分布

  而训练精度低的数据集的SOC和电压核密度分布如图10(b)、(d)所示,范围较窄,某些区间的核密度极大,SOC和电压最大值分别在0.14及1.4以上,总体不均匀,数据集分布较极端,这可能是因为共享电动单车使用后未及时进行充电维护或用户未停回站点,导致电池组的SOC和电压处于部分区间时的数据多。这使得模型训练时,可能会更容易受到某些特定部分数据的影响,导致过拟合的风险增加。

 5 结 论

  研究大规模实际使用的锂电池组数据的分布多样性对数据驱动模型泛化性的影响,可促进数据驱动方法估计SOC的实用性和可靠性发展。本工作采用经典算法与MIMO策略结合来预测多步SOC,针对32个实际锂电池组的运行数据建立了多步SOC预测模型,预测时长设定为0.5 h(输出步长为180),比较了不同算法的应用效果并探究了数据分布多样性对多步SOC预测模型的影响。具体结论如下所述。

  (1)LR-MIMO模型训练精度表现出较高的稳定性,R2基本在0.98以上,MAPE基本在0.05以下,总体优于KNN-MIMO、RF-MIMO、LSTM-MIMO模型。

  (2)在预测除本身外的数据集时,LR-MIMO模型展现出优秀的预测性能,R2基本在0.95以上,而KNN-MIMO模型的预测精度与RF-MIMO模型相当,R2大致在0.7以上,LSTM-MIMO模型的预测性能存在较为明显的差异。

  (3)为了获得高训练精度的数据驱动模型,数据集应满足以下要求:SOC与电压的相关系数≥0.9,SOC和电压分布范围广,核密度曲线呈左偏趋势,总体分布均匀。


分享到:

关键字:锂离子电池

中国储能网版权说明:

1、凡注明来源为“中国储能网:xxx(署名)”,除与中国储能网签署内容授权协议的网站外,未经本网授权,任何单位及个人不得转载、摘编或以其它方式使用上述作品。

2、凡本网注明“来源:xxx(非中国储能网)”的作品,均转载与其他媒体,目的在于传播更多信息,但并不代表中国储能网赞同其观点、立场或证实其描述。其他媒体如需转载,请与稿件来源方联系,如产生任何版权问题与本网无关。

3、如因作品内容、版权以及引用的图片(或配图)内容仅供参考,如有涉及版权问题,可联系我们直接删除处理。请在30日内进行。

4、有关作品版权事宜请联系:13661266197、 邮箱:ly83518@126.com