Prediction method of coal calorific value based on quantile regression
-
摘要: 目前应用较多的煤炭发热量预测模型以传统的线性回归模型为主,但存在难以表达较复杂的自变量和因变量关系、需要数据服从特定的分布假设、对异常值敏感等问题。针对上述问题,提出了基于分位数回归的煤炭发热量预测方法。选取全水分、灰分、挥发分等容易测量的煤炭工业分析指标,分别应用线性分位数回归和分位数回归森林2种分位数回归方法对煤炭发热量进行预测,并与传统的线性回归方法进行对比。结果表明:线性回归给出的煤炭发热量预测值仅是1个条件均值,而通过分位数回归能够给出煤炭发热量预测值的范围;分位数回归森林的预测效果优于线性回归和线性分位数回归方法;全水分对于煤炭发热量预测的重要程度远大于灰分和挥发分;全水分对低发热量煤炭的发热量预测影响大,对高发热量煤炭的发热量预测影响小;挥发分和灰分对低发热量煤炭的发热量预测影响小,对高发热量煤炭的发热量预测影响大。Abstract: At present, the traditional linear regression model is mainly used to predict the calorific value of coal. But it is difficult to express the complex relationship between independent variables and dependent variables. The model needs data to obey specific distribution assumptions. And the model is sensitive to abnormal values. In view of the above problems, a prediction method of coal calorific value based on quantile regression is proposed. The method selects the coal industry analysis indicators that are easy to measure, such as total moisture, ash and volatile matter. The method uses two quantile regression methods, linear quantile regression and quantile regression forest, to predict the calorific value of coal. The results are compared with that of the traditional linear regression method. The results show that the predicted value of calorific value of coal given by linear regression is only a conditional mean value. But the range of predicted value of calorific value of coal can be given by quantile regression. The prediction effect of quantile regression is better than linear regression and linear quantile regression. The importance of total moisture for the prediction of calorific value of coal is much greater than that of ash and volatile matter. Total moisture has great influence on the prediction of calorific value of low calorific value coal. But total moisture has little influence on the prediction of calorific value of high calorific value coal. Volatile matter and ash have little influence on the prediction of calorific value of low calorific value coal. But volatile matter and ash have a great influence on the prediction of calorific value of high calorific value coal.
-
0. 引言
煤炭发热量是评价煤质的关键指标,对于煤炭利用、煤炭价值评估等非常重要[1]。精确的煤炭发热量数据需要通过实验测试得到,但煤炭发热量的实验测定在当前技术条件下较繁琐、耗时且昂贵[2]。在对煤炭发热量精度要求不高的情况下,通常通过建立数学模型,利用测试相对廉价且容易获取的指标来预测煤炭发热量。在煤炭发热量预测方面,前人提出了线性回归[3-4]、BP神经网络[5]、支持向量回归[6-7]等方法。其中实际应用最广泛的是线性回归,该方法模型简单、计算快速,但存在以下问题:对于非线性数据拟合能力欠佳,难以表达较为复杂的自变量和因变量关系;需要数据服从特定的分布假设;对异常值敏感。
分位数回归是Roger Koenker和Gilbert Bassett于1978年提出的一种回归分析方法[8],经过不断发展形成了线性分位数回归、神经网络分位数回归、分位数回归森林等方法。分位数回归具有如下优点:不需要对数据做任何的分布假定;具有对异常点不敏感的特征;模型比较稳健;能够给出比传统回归分析更丰富的预测结果;可用来研究自变量与因变量之间的关系。目前关于分位数回归在煤炭发热量预测方面的应用研究较少。本文采用线性分位数回归和分位数回归森林2种分位数回归分析方法对煤炭发热量进行预测,分析各预测变量对结果变量的影响,并与传统线性回归方法进行对比,分析不同回归分析方法在煤炭发热量预测中的效果。
1. 数据介绍
为建立可靠的数学模型,需要充足的数据来进行回归模型训练和测试。美国地质调查局的COALQUAL(https://ncrdspublic.er.usgs.gov/coalqual/)煤炭质量数据库[9]包含了美国25个州的煤质样品测试数据,数据量大且煤质分析指标较全面,可以公开使用。本文从该数据库中选取煤质工业分析数据和元素分析数据组成数据集,考虑到实际应用中更多地使用工业分析数据进行发热量计算,选取煤炭的全水分Mt、灰分Asd、挥发分Vad 3个工业分析指标来进行回归分析,计算低位发热量Qnet,ad。
数据集中一些数据存在空值、异常值等问题,因此在回归分析之前,需要进行数据预处理,剔除包含空值的数据,删除明显在正常煤质指标范围之外的异常数据。经过数据预处理得到4 540个煤质样品测试数据,其中80%的数据用来训练回归模型,其余数据用来测试回归模型。
2. 方法原理
2.1 线性回归
线性回归方程为
$$ {y}_{i}={\beta }_{0}+{\beta }_{1}{x}_{i1}+\cdots +{\beta }_{p}{x}_{ip} $$ (1) 式中:
$ {y}_{i} $ 为第i(i=1,2,…,n,n为样本个数)个样本的因变量;$\; {\beta }_{0} $ 为常数项;$\; {\beta }_{j} $ 为第j(j=1,2,…,p,p为自变量个数)个自变量的回归系数;$ {x}_{ij} $ 为第i个样本的第j个自变量。通过已知的自变量和因变量求解式(1)中的常数项和回归系数,得到自变量和因变量之间的函数关系,利用该函数关系可对新的样本进行预测。
2.2 线性分位数回归
线性分位数回归是线性回归的扩展,其方程与线性回归方程相似:
$$ {Q}_{\tau }\left({y}_{i}\right)={\beta }_{0}\left(\tau \right)+{\beta }_{1}{\left(\tau \right)x}_{i1}+\cdots +{\beta }_{p}{\left(\tau \right)x}_{ip} $$ (2) 式中:τ为分位点,取值范围为0~1;
$ {Q}_{\tau }\left({y}_{i}\right) $ 为因变量yi的τ分位数估计值;$ {\beta }_{0}\left(\tau \right) $ 为常数项;$ {\beta }_{j}\left(\tau \right) $ 为第j个自变量的τ分位数回归系数。通过使中值绝对偏差达到最小来找到最佳的分位数回归线。
$$ M=\frac{1}{n}\sum _{i=1}^{n}{\rho }_{\tau }({y}_{i}-({\beta }_{0}\left(\tau \right)+{\beta }_{1}{\left(\tau \right)x}_{i1}+\cdots +{\beta }_{p}{\left(\tau \right)x}_{ip}) ) $$ (3) 式中:M为中值绝对偏差;
$ {\rho }_{\tau } $ 为检查函数。检查函数根据误差的分位数和符号(正或负)为误差赋予不对称权重。
$$ {\rho }_{\tau }\left(\mu \right)=\left\{\begin{array}{l}\tau \mu \qquad \qquad \mu \geqslant 0\\ \left(\tau -1\right)\mu \qquad \mu < 0\end{array}\right. $$ (4) 式中μ为单个数据点的误差。
传统线性回归分析预测的结果是因变量的条件期望,分位数回归的预测结果则是因变量的条件分位数,不同分位点对应不同的条件分位数估计值[10],多个条件分位数估计值构成了因变量的条件概率分布[11]。
2.3 分位数回归森林
由线性回归扩展得到的线性分位数回归能处理的问题有限,预测结果往往精度不高。近年来有许多学者将分位数回归思想应用到机器学习算法中[12-14],如将分位数回归与随机森林[15]结合,形成了分位数回归森林方法。该方法继承了随机森林算法抗过拟合能力强、稳定性高、无需复杂调参、可处理非线性回归问题等优点。其计算过程如下:
(1) 生成多棵决策树,存储每棵决策树每个叶节点的所有观测值。
(2) 给定观测变量x,遍历所有决策树,计算每棵决策树观测值的权重
$ {w}_{i}\left(x\right) $ 。(3) 对于所有y
$ \in $ R,利用权重$ {w}_{i}\left(x\right) $ 计算分布函数的估计:$$ \hat{F}(y\mid \boldsymbol{X}=x)=\sum _{i=1}^{n} {w}_{i}\left(x\right) I(\boldsymbol{Y} \leqslant y) $$ (5) 式中:X为自变量矩阵;I(·)为示性函数;Y为决策树节点上的因变量观测值。
(4) 计算条件分位数的估计值:
$$ {\hat{Q}}_{\tau }\left(\boldsymbol{Y}\right)=\mathrm{i}\mathrm{n}\mathrm{f}\{y:\hat{F}(y\mid \boldsymbol{X}=x) \geqslant \tau \} $$ (6) 式中inf{·}为取下限函数。
3. 结果及分析
回归模型需要先确定输入变量集,以确保所使用的自变量能够反映因变量的变化,同时自变量之间能够排除多重共线性。不同自变量之间及其与发热量之间的关系可用相关系数(表1)来表示。从表1可看出,Mt与Qnet,ad之间的相关性很高,且呈负相关,说明该指标是回归分析预测发热量的主要指标。而Vad,Asd与Qnet,ad的相关系数均较小,说明这2个指标对于发热量预测的重要性远低于Mt。Mt,Vad,Asd 3个预测变量之间的相关性也较小,则可同时使用Mt,Vad,Asd来构建回归模型。因此,发热量预测模型以Mt,Vad,Asd为预测变量,以Qnet,ad为结果变量。
表 1 煤质参数相关系数Table 1. Correlation coefficients of coal quality parameters煤质参数 相关系数 Mt Vad Asd Qnet,ad Mt 1.00 −0.20 −0.10 −0.92 Vad −0.20 1.00 −0.20 0.18 Asd −0.10 −0.20 1.00 −0.23 Qnet,ad −0.92 0.18 −0.23 1.00 利用训练数据训练线性回归模型,得到回归方程:Qnet,ad=37.736−0.087Vad−0.647Mt−0.387Asd。对线性回归方程进行检验,得到方差膨胀因子小于10,表明自变量之间不存在多重共线性,且回归方程F检验显示回归效果显著。
用测试数据对训练好的线性回归模型进行验证。选取9个分位点(τ=0.1~0.9),利用R语言软件包quantreg,quantregForest分别执行线性分位数回归、分位数回归森林,采用均方误差、平均绝对误差、均方根误差和决定系数4个指标来评价回归分析结果,得到不同回归模型评价结果,见表2。
表 2 不同回归模型评价结果Table 2. Evaluation results of different regression models方法 τ 均方
误差平均绝对
误差均方
根误差决定
系数线性回归 — 0.856 1.322 1.150 0.969 线性分位数回归 0.1 1.391 4.380 2.093 0.898 0.2 1.061 2.897 1.702 0.932 0.3 0.908 2.083 1.443 0.951 0.4 0.836 1.658 1.288 0.961 0.5 0.822 1.457 1.207 0.966 0.6 0.860 1.511 1.229 0.965 0.7 0.936 1.734 1.317 0.960 0.8 1.096 2.344 1.531 0.945 0.9 1.336 3.236 1.799 0.925 分位数回归森林 0.1 1.451 3.128 1.769 0.927 0.2 0.947 1.470 1.212 0.966 0.3 0.717 0.937 0.968 0.978 0.4 0.595 0.736 0.858 0.983 0.5 0.562 0.705 0.840 0.984 0.6 0.603 0.854 0.924 0.980 0.7 0.707 1.150 1.072 0.973 0.8 0.940 1.876 1.370 0.956 0.9 1.456 3.872 1.968 0.910 从表2可看出,不同回归分析方法得到的结果有一定差别,但决定系数均在0.96以上(τ = 0.5时),说明用Mt,Vad,Asd 3个指标来预测煤炭低位发热量是可行的,能够得到较为可信的发热量预测值。分位数回归森林方法的预测误差随分位点增大呈先减小后增大趋势,在τ = 0.5处预测误差最小,且决定系数最大达0.984,预测效果优于线性回归和线性分位数回归方法。
不同回归分析方法下回归拟合线如图1所示。可看出线性回归拟合线为1条,且穿过数据点分布范围的中心,反映的是数据点的平均趋势,但仅1条线无法限定数据点的分布范围;分位数回归拟合线为多条,大部分数据点分布在τ = 0.1和τ = 0.9对应的2条拟合线之间的范围内(未包括在该范围内的数据点为异常点)。由此可知,线性回归给出的预测值是1个均值,而通过分位数回归能够给出预测值的范围,在评估煤质时更具有实际意义。
通过线性分位数回归可计算出不同分位点对应的回归系数,见表3。
表 3 不同分位点下线性分位数回归系数Table 3. Linear quantile regression coefficients under different quantilesτ Mt回归系数 Vad回归系数 Asd回归系数 0.1 −0.767 −0.054 −0.391 0.2 −0.748 −0.073 −0.391 0.3 −0.726 −0.079 −0.394 0.4 −0.706 −0.083 −0.397 0.5 −0.684 −0.087 −0.401 0.6 −0.668 −0.090 −0.404 0.7 −0.650 −0.090 −0.406 0.8 −0.621 −0.088 −0.405 0.9 −0.599 −0.083 −0.402 为研究不同预测变量对结果变量的影响,根据表3可得线性分位数回归系数随分位点变化曲线,如图2所示。可看出Mt回归系数随分位点增大呈增大趋势,其绝对值则越来越小,说明Mt对低发热量煤炭的发热量预测影响大,对高发热量煤炭的发热量预测影响小。Vad和Asd的回归系数随分位点增大呈先减小后略增大趋势,其绝对值则先增大后稍有减小,说明Vad和Asd对低发热量煤炭的发热量预测影响小,对高发热量煤炭的发热量预测影响大。
4. 结论
(1) 应用线性回归、线性分位数回归、分位数回归森林3种回归分析方法进行了煤炭发热量预测,其中分位数回归森林的预测误差最小。
(2) 分位数回归方法能够预测煤炭发热量的条件分位数,而不仅仅是条件均值,从而为煤炭发热量预测提供了更丰富的信息。
(3) 根据煤质参数相关系数评估全水分、灰分、挥发分对于煤炭发热量预测的重要程度,结果表明全水分对于煤炭发热量预测的重要程度远大于灰分和挥发分。
(4) 利用线性分位数回归分析了全水分、灰分、挥发分对煤炭发热量预测的影响,结果表明:全水分对低发热量煤炭的发热量预测影响大,对高发热量煤炭的发热量预测影响小;挥发分和灰分对低发热量煤炭的发热量预测影响小,对高发热量煤炭的发热量预测影响大。
-
表 1 煤质参数相关系数
Table 1 Correlation coefficients of coal quality parameters
煤质参数 相关系数 Mt Vad Asd Qnet,ad Mt 1.00 −0.20 −0.10 −0.92 Vad −0.20 1.00 −0.20 0.18 Asd −0.10 −0.20 1.00 −0.23 Qnet,ad −0.92 0.18 −0.23 1.00 表 2 不同回归模型评价结果
Table 2 Evaluation results of different regression models
方法 τ 均方
误差平均绝对
误差均方
根误差决定
系数线性回归 — 0.856 1.322 1.150 0.969 线性分位数回归 0.1 1.391 4.380 2.093 0.898 0.2 1.061 2.897 1.702 0.932 0.3 0.908 2.083 1.443 0.951 0.4 0.836 1.658 1.288 0.961 0.5 0.822 1.457 1.207 0.966 0.6 0.860 1.511 1.229 0.965 0.7 0.936 1.734 1.317 0.960 0.8 1.096 2.344 1.531 0.945 0.9 1.336 3.236 1.799 0.925 分位数回归森林 0.1 1.451 3.128 1.769 0.927 0.2 0.947 1.470 1.212 0.966 0.3 0.717 0.937 0.968 0.978 0.4 0.595 0.736 0.858 0.983 0.5 0.562 0.705 0.840 0.984 0.6 0.603 0.854 0.924 0.980 0.7 0.707 1.150 1.072 0.973 0.8 0.940 1.876 1.370 0.956 0.9 1.456 3.872 1.968 0.910 表 3 不同分位点下线性分位数回归系数
Table 3 Linear quantile regression coefficients under different quantiles
τ Mt回归系数 Vad回归系数 Asd回归系数 0.1 −0.767 −0.054 −0.391 0.2 −0.748 −0.073 −0.391 0.3 −0.726 −0.079 −0.394 0.4 −0.706 −0.083 −0.397 0.5 −0.684 −0.087 −0.401 0.6 −0.668 −0.090 −0.404 0.7 −0.650 −0.090 −0.406 0.8 −0.621 −0.088 −0.405 0.9 −0.599 −0.083 −0.402 -
[1] 李纯毅. 煤质分析[M]. 北京: 北京理工大学出版社, 2012. LI Chunyi. Coal quality analysis[M]. Beijing: Beijing Institute of Technology Press, 2012.
[2] 李英华. 煤质分析应用技术指南[M]. 北京: 中国标准出版社, 1991. LI Yinghua. Technical guide for application of coal quality analysis[M]. Beijing: Standards Press of China, 1991.
[3] 郝锡林. 杏花矿洗混煤发热量回归方程的建立[J]. 煤炭技术,2006,25(3):75-77. DOI: 10.3969/j.issn.1008-8725.2006.03.040 HAO Xilin. Establishment of tropic equation for the quality of heat of washed-coal in Xinghua Coal Mine[J]. Coal Technology,2006,25(3):75-77. DOI: 10.3969/j.issn.1008-8725.2006.03.040
[4] 郝飞. 影响煤炭发热量测量的常见因素分析[J]. 煤质技术,2019,34(5):61-64. DOI: 10.3969/j.issn.1007-7677.2019.05.015 HAO Fei. Analysis of the common influencing factors which affect coal calorific value determination[J]. Coal Quality Technology,2019,34(5):61-64. DOI: 10.3969/j.issn.1007-7677.2019.05.015
[5] 李大虎,李秋科,王文才,等. 基于MIV特征选择与PSO−BP神经网络的煤炭发热量预测[J]. 煤炭工程,2020,52(11):154-160. LI Dahu,LI Qiuke,WANG Wencai,et al. Prediction of coal calorific value based on MIV characteristic variable selection and PSO-BP neural network[J]. Coal Engineering,2020,52(11):154-160.
[6] 李大虎,韦鲁滨,朱学帅,等. 基于SVR与特征变量选择方法的煤炭发热量预测[J]. 煤炭学报,2019,44(增刊1):278-288. DOI: 10.13225/j.cnki.jccs.2018.1268 LI Dahu,WEI Lubin,ZHU Xueshuai,et al. Prediction of coal calorific value based on SVR and characteristic variables selection method[J]. Journal of China Coal Society,2019,44(S1):278-288. DOI: 10.13225/j.cnki.jccs.2018.1268
[7] 潘红光,宋浩骞,苏涛,等. 基于SVM的煤炭低位发热量软测量[J]. 西安科技大学学报,2021,41(6):1130-1137. DOI: 10.13800/j.cnki.xakjdxxb.2021.0622 PAN Hongguang,SONG Haoqian,SU Tao,et al. Soft sensor of coal net calorific value based on SVM[J]. Journal of Xi'an University of Science and Technology,2021,41(6):1130-1137. DOI: 10.13800/j.cnki.xakjdxxb.2021.0622
[8] KOENKER R,BASSETT G. Regression quantiles[J]. Econometrica:Journal of the Econometric Society,1978,46(1):33-50. DOI: 10.2307/1913643
[9] PALMER C, OMAN C, PARK A, et al. The US geological survey coal quality(COALQUAL) database version 3.0[R]. Reston: US Geological Survey, 2015.
[10] 陈建宝,丁军军. 分位数回归技术综述[J]. 统计与信息论坛,2008(3):89-96. DOI: 10.3969/j.issn.1007-3116.2008.03.018 CHEN Jianbao,DING Junjun. A review of technologies on quantile regression[J]. Statistics & Information Forum,2008(3):89-96. DOI: 10.3969/j.issn.1007-3116.2008.03.018
[11] 关静. 分位数回归理论及其应用[D]. 天津: 天津大学, 2009. GUAN Jing. The theory of quantile regression and applications[D]. Tianjin: Tianjin University, 2009.
[12] MEINSHAUSEN N,RIDGEWAY G. Quantile regression forests[J]. Journal of Machine Learning Research,2006,7(2):983-999.
[13] PRADEEPKUMAR D,RAVI V. Forecasting financial time series volatility using particle swarm optimization trained quantile regression neural network[J]. Applied Soft Computing,2017,58:35-52. DOI: 10.1016/j.asoc.2017.04.014
[14] HE Yaoyao,QIN Yang,WANG Shuo,et al. Electricity consumption probability density forecasting method based on LASSO-quantile regression neural network[J]. Applied Energy,2019,233:565-575.
[15] LIAW A,WIENER M. Classification and regression by random forest[J]. R News,2002,2(3):18-22.
-
期刊类型引用(4)
1. 张艺,姚素玲,董宪姝,付元鹏,樊玉萍,马晓敏. 基于仿生算法联合优化BP的燃煤发热量预测. 太原理工大学学报. 2024(02): 287-295 . 百度学术
2. 张弛,朱宗玖. PCA-BP模型下皖北城市群PM_(2.5)浓度分析. 科学技术与工程. 2024(06): 2601-2606 . 百度学术
3. 段书然,王越,段文胜,康宁. 中国碳市场对石油天然气行业影响的实证研究. 黑龙江科学. 2024(13): 1-6+15 . 百度学术
4. 乔世超,王轶男,吕佳阳,陈衡,刘涛,徐钢,翟融融. 基于SC-XGBoost的电站燃煤低位发热量软测量方法. 煤炭科学技术. 2024(S1): 332-340 . 百度学术
其他类型引用(5)