产品描述
今天SPSSPRO给会员朋友们分享的主题是《基于数据挖掘的电采暖电量预测及应用》,本文的作者是陈广宇,袁绍军,夏革非等,发表于《科技资讯》。
《科技资讯》是由北京市科学技术研究院主管的科技期刊,创刊于2003年。该期刊专注于报道高新技术动态,促进科技成果转化,内容涵盖新技术、材料、设备及工艺等。设有多个栏目,面向科研人员、教育机构和企业,提供学术交流平台,在学术界享有较高的声誉和影响力。
1.研究背景
在我们的日常生活中,电力的需求正随着社会的发展持续攀升,而如何提升能源的使用效率,已成为我们迫在眉睫的课题。为此,精确而高效的电力需求预测技术显得尤为重要,它不仅能够促进能源的合理利用,还能优化电网的运作状态,**配电网络的经济和稳定运行,更为电网公司的策略规划和日常工作安排提供了有力的支持。
电量预测涉及到利用历史电量数据、天气状况等信息,通过分析其变化趋势来预测未来一段时间内的电量需求。这里,我们可以分为两大类方法:一是传统的预测技术,如时间序列和回归分析法;二是较为现代的方法,比如运用支持向量机、神经网络等机器学习技术。
我们分享一下在SPSSPRO上如何使用传统的统计分析方法以及机器学习方法进行用电量的预测。
2. 数据背景
数据集涵盖了从2015年1月1日到2020年10月6日的2016天时间范围内,某个地区居民的用电需求,以及在不同季节和天气条件下用电量的变化。数据集中我们需要研究的变量如下:
从数据集的变量我们可以看到,我们需要研究的因变量Y是电力需求量,其他因素都是自变量X。值得注意的是电力需求量可能收到零售价、气温这些数据集中已有的因素影响,也有可能受到天气(晴天、雨天、阴天等)、日照时长、季节等因素的影响。
是否需要考虑更多影响因素,受到我们选择的分析方法所影响,对于像时间序列分析(ARIMA) 这样的单序列模型,我们只需要有电力需求量这一因变量Y就可以分析和建模,而对于回归分析的话,则需要将相关产生影响的自变量X也纳入模型中。如果我们数据集中的自变量X并不能解释因变量Y的变化情况,那么建立的模型有效性会较低,从而导致我们无法作出准确的预测。下面我们对比一下不同分析方法的特点。
3.统计学VS机器学习
统计学方法提供了理论基础坚实、可解释性强且广泛适用的分析框架,特别适用于数据量较小且要求模型可解释性的情况。然而,它们在处理复杂非线性关系、大数据集和高维度特征方面可能显得能力有限,且对数据质量和预处理的要求较高。在实践中,结合使用统计学方法和机器学习技术往往能够更好地解决分析问题,平衡各自的优势和劣势。
4.灰色关联分析
4.1.概念
灰色关联分析通常用于处理不完全、不确定或不充分的信息。灰色关联分析通过测量序列之间的相似度,来识别它们之间的关系强度、关联度或影响程度。若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。它特别适用于样本数据量小和信息不完全的情况。
4.2.使用方法
一般来讲,电力需求量具有明显的季节气候特性,受气温变化影响显著,而且具有较强的时序特征。在案例数据中,电量各影响因素之间的关系无法用固定的公式表示,变量之间关系呈灰态,是典型的灰色系统。 同时,电量与影响因素之间的关系是非线性的,因此平常的相关性分析方法并不适用。灰色关联分析从模糊的角度出发,分析影响因素与电量之间的关联性,对样本数据没有特殊的要求。相比于传统的相关性分析方法,灰色关联分析更适用于电采暖电量影响因素辨识,为建立电量预测模型打下基础。
接下来我们利用灰色关联分析求取各类影响因素与用电量之间的相关性,确定每一个因素与用电量之间的关联度,根据关联度大小选取特征指标。
4.3.分析过程
1. 确定分析数列,母序列为电力需求,其他因素是特征序列。
2. 数据归一化,由于不同变量之间单位不同,需要使用均值化方法统一量纲。
3. 计算关联系数。
4. 计算关联度,由于关联系数是比较序列与参考 序列在各个时刻的关联程度值,所以它不止一个。因此将各个时刻的关联系数取平均值,作为比较数列与参考数列间关联程度的数量表示。
4.4.分析结果
关联度表示各比较数列与参考数列之间的相似关 联程度,介于 0~1 之间。该值越大表示比较数列与参 考数列的关联度越高,意味着比较数列与参考数列之 间关系越紧密,相关性越高。
根据关联度大小将特征指标排序,分析指标对电 采暖电量的影响程度。在表中我们可以看到,各个影响因素与用电量之间的关联度都超过0.95,具有较强的关联关系,我们需要将全部数据集中的影响因素都纳入模型进行分析。值得注意的是,虽然我们认为这些因素都是跟因变量Y有灰色关联关系,但不代表这些因素可以全部解释因变量Y的变化情况。接下来我们分别是用统计学的回归分析以及机器学习方法来建立预测模型。
5.线性回归分析
5.1.概念
线性回归是用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
5.2.使用方法
在灰色关联分析中,全部数据集中的自变量X都有比较强的灰色关联度,所以我们将全部变量都纳入线性回归分析模型中。
从分析结果来看,除了较高气温以外,其他自变量都是显著的,与灰色关联分析的结果较为一致。但模型预测的准确性指标R^2仅有0.136,预测效果较差,导致这个结果的主要原因可能有两个,第一是因变量Y和自变量X之间并非线性关系,第二是有其他更重要的因素影响用电量。针对第一个问题,我们可以尝试使用机器学习的方法进行模型拟合和预测。
6.机器学习 - XGboost回归
6.1.概念
XGBoost(Extreme Gradient Boosting)是一种高效的机器学习算法,基于梯度提升框架的优化实现,XGBoost在回归和分类问题上表现出色,可以被用于预测短期或长期的电力需求、负荷或价格。
6.2.使用方法
在SPSSPRO上,即使是复杂的机器学习算法,也可以通过简单的拖拉拽操作,将我们需要研究的变量放在合适的变量选择框中即可,使用方法与线性回归的基本一致。
在机器学习的算法中,我们需要选择的参数比较多,常见的有以下几个:
1. 数据洗牌,对于有序数据,我们选择否。2. 训练占比,选择训练集和测试机的比例,我们将一部份(默认70%)数据作为训练集,训练出来的模型再用于测试集的预测,由于测试集我们已经知道因变量Y的值,所以通过对比模型生成的结果,以及原始数据中测试机的因变量Y的结果,即可知道我们模型的准确性。
3. 树算法参数,更深入的模型应用,我们可以调整算法参数,例如基学习器的种类和数量,学习吕、样本采样率等等,通过仔细调整算法参数,可以进一步提高模型的准确性。
6.3.分析结果
在机器学习中,我们关注的结果更多是模型的准确性(性能),没有统计分析中的假设以及前提条件,所以我们重点是通过调整变量和参数,不断提升有效性指标例,从而能获得准确的预测结果。
从模型评估结果可以看到,训练集中模型的拟合效果较好(R^2为0.959),而测试集的拟合效果较差(R^2为0.406),这种典型问题称为“过拟合”。
● 过拟合(Overfitting)
指的是模型在训练集上表现得非常好,几乎能够完美地预测或解释数据,但在未见过的测试集上表现很差。这意味着模型可能过度学习了训练数据中的噪声和细节,而不是捕捉到了数据的真实潜在规律。过拟合导致模型泛化能力差,即模型不能很好地适应新数据。
● 优化方向
1. 改变模型
XGboost是梯度提升方法,另外SPSSPRO中还提供了更为决策树、神经网络、支持向量机等机器学习方法,对比使用不同模型的预测准确性并选择合适的模型。
2. 调整参数
通过调整模型复杂度、学习速率、采样方式等等,经过对比测试,看能否有效的提高在测试集上的准确性,值得注意的是机器学习算法本身具有随机性,所以即使参数一致,多次运算也会产生变化,我们要区分清楚变化是由参数引起的,还是随机性引起的。
3. 特征工程(调整变量)
特征工程是机器学习中的一个关键过程,涉及使用领域知识选择、修改和构建适用于创建有效模型的特征。例如从原始数据中选择较相关的特征,减少模型的复杂性,提高模型的性能;创建新的特征,以揭示数据中的重要信息或模式;将特征转换为更适合模型的形式。常见的转换包括归一化、标准化、对数转换和箱型转换等。
提高模型性能的方法并非一蹴而就,随着我们对分析场景的深入理解,进行有效的特征工程,选择合适的模型,可以逐步提升模型性能,进而对研究问题由更加深入的洞察,并且将结果应用于实践,提高我们的用电效率,降低成本。
参考:
【1】数据集来自国家公开的数据库kaggle
以上文章来源于SPSSPRO,作者SPSSPRO
北京天演融智软件有限公司(科学软件网)是SPSSPRO在中国的授权经销商,为中国的软件用户提供优质的软件销售和培训服务。
手机网站
微信号码
地址:北京市 海淀区 北京市海淀区上地东路35号院1号楼3层1-312-318、1-312-319
联系人:王经理女士
微信帐号:18510103847