瓦斯灾害事故是威胁煤矿安全高效开采的主要因素[1-2],为遏制瓦斯事故的发生,准确、高效的煤矿瓦斯涌出量预测方法尤为重要[3]。由于煤矿瓦斯涌出量的各影响因子间呈现出非线性关系[4],线性预测方法难以得到满意的预测结果。因此,灰色理论、神经网络和支持向量机等非线性映射方法被广泛应用于煤矿瓦斯涌出量预测。题正义等[5]基于模糊数学和灰色系统建立了瓦斯涌出量预测模型。李树刚等[6]将因子分析与BP神经网络相耦合,对瓦斯涌出量进行预测。付华等[7]提出了一种利用蚁群聚类算法优化Elman神经网络的瓦斯涌出量预测方法。孙林等[8]、董晓雷等[9]、张强等[10]利用支持向量机实现瓦斯涌出量预测;谢东海等[11]将未确知测度理论引入到瓦斯涌出量预测中。然而,煤矿瓦斯涌出量的影响因素众多且复杂,灰色理论往往不能满足预测精度要求;神经网络的预测精度依赖于样本容量,且存在训练速度慢、泛化能力差的问题;基于支持向量机的预测方法对超参数的选取有较高要求[12]。
随机森林算法具有参数少、学习速度快、适用于高维样本、可有效避免过拟合、预测精度高等优点[13-14],已被广泛用于分类和回归问题。在煤炭瓦斯防治领域,随机森林算法已在瓦斯涌出量预测、煤与瓦斯突出预测等方面有所应用,如汪明等[15]建立了回采工作面瓦斯涌出量的随机森林预测模型。温廷新等[16]提出了一种将因子分析理论与随机森林算法相结合的煤与瓦斯突出等级预测方法。郑晓亮[17]将数据挖掘多重填补算法与随机森林算法相结合进行煤与瓦斯突出预测。本文在文献[15]的基础上,分析了特征变量的影响权重,优选出影响瓦斯涌出量的关键特征变量,建立随机森林回归模型,进行煤矿瓦斯涌出量预测,提高了预测精度和效率。
随机森林算法是以Bagging算法思想为基础建立的集成学习算法[18],用于数据的分类和回归研究。该算法能够有效分析高维非线性数据,具有较好的泛化能力和预测性能[14]。随机森林算法用于研究连续变量的回归问题,称之为随机森林回归。
基于随机森林回归的煤矿瓦斯涌出量预测主要步骤如下[19]:
(1)采用bootstrap自助法重采样技术,在原始训练集中有放回地重复随机抽取n个与原始训练集样本容量相等的新训练样本数据集,未被采样选中的数据称为袋外数据。
(2)从影响煤矿瓦斯涌出量的M个输入特征中随机选择m个特征作为决策树分枝节点的备选特征变量集合,根据分枝优度准则,从集合中选取最优特征进行节点分裂,构建决策树。每棵瓦斯涌出量决策树自由完整地生长而不剪裁。
(3)构造出n颗瓦斯涌出量决策树,组成随机森林回归模型。取n颗决策树输出值的均值作为煤矿瓦斯涌出量预测结果,利用袋外数据(如残差平方均值)评价回归模型预测性能。
随机森林回归模型的超参数包括决策树数目n和随机选用的特征个数m,其取值对回归模型的拟合和预测性能有重要影响[20]。若n值过小,会因回归模型训练不足而导致预测结果误差偏大;若n值过大,则会增加模型的计算量。若m值偏小,回归模型会因过拟合而导致预测精度降低;若m值偏大,则会降低模型运算速度。因此,构建随机森林回归模型时需对超参数n和m进行寻优。
对超参数n和m进行寻优时,首先设置超参数m值,回归分析中通常默认其值为输入特征变量数的1/3[21],在m值不变的条件下,得到不同n值下袋外数据残差平方均值的变化情况。满足随机森林回归模型稳定性(残差平方均值随n值变化趋于稳定值)且模型训练效率较高时对应决策树数目n值为最优值。设n取最优值不变,计算不同m值下袋外数据残差平方均值和回归模型的拟合优度,选取残差平方均值小、拟合优度高的m值作为最优值。
在采用bootstrap自助法重采样形成随机森林回归模型训练集的过程中,每次采样约有36.8%的原始数据不会被取到,即袋外数据,它们将不参与回归模型训练,而是作为测试集对回归模型的泛化能力、预测性能和特征重要性进行评估[22]。
在随机森林回归模型中,通常是以特征变量的随机改变引起回归模型的变化程度来描述特征变量的重要性,具体是采用袋外数据残差平方均值的增加量(IncMSE)来表征特征变量的重要性,IncMSE越大,说明该特征变量对因变量越重要。对IncMSE进行归一化处理,得到各特征变量对因变量的影响权重[23],本文用累计影响权重达到90%的部分特征变量代替煤矿瓦斯涌出量的全部特征变量,用于构建随机森林回归模型。
根据文献[7],选用14个特征变量作为煤矿瓦斯涌出量预测模型的输入变量:煤层瓦斯含量X1,埋深X2,煤厚X3,煤层倾角X4,采煤高度X5,日进度X6,采煤工作面长度X7,采出率X8,邻近层瓦斯含量X9,邻近层厚度X10,邻近层间距X11,顶板管理方式X12,开采强度X13,层间岩性X14;输出变量:瓦斯涌出量Y。获取了20组原始数据,见表1。前16组原始数据用于训练回归模型,其余4组用于测试回归模型。
表1 随机森林回归模型训练和测试样本
Table 1 Training and testing samples of random forest regression model
序号X1/(m3·t-1)X2/mX3/mX4/(°)X5/mX6/(m·d-1)X7/mX8X9/(m3·t-1)X10/mX11/mX12X13/(t·d-1)X14Y/(m3·min-1)11.924082.0102.04.421550.9602.021.5020115.033.3422.144211.8111.84.131450.9502.641.6219114.753.5632.584502.3102.34.671500.9502.411.4818124.913.6742.404562.2152.24.511600.9402.551.7520124.634.1753.225162.8132.83.451800.9302.211.7212124.784.6062.805272.5172.53.281800.9402.811.8111114.514.9273.235172.8132.83.461800.9302.231.7112124.764.6183.355312.992.93.681650.9301.881.4213121.824.7893.615502.9122.94.021550.9202.121.6014124.835.23103.715733.2113.22.921750.9103.111.4613124.635.62114.215905.985.92.851700.7953.401.5018134.777.24124.036046.296.22.641800.8123.151.8016134.707.80134.806306.596.12.771650.7853.021.7417134.627.68144.676406.3116.32.751750.8022.561.7515134.607.95152.434502.7112.74.321650.9302.351.8516124.585.06163.165442.7172.73.811650.9302.811.7913124.904.93174.626296.4136.42.801700.8033.351.6119134.638.04184.536356.296.22.731600.7162.941.7317134.617.56193.875803.9113.92.851700.9203.021.3914124.725.82203.245092.5142.54.401600.9302.791.7213124.654.36
设参数m的默认值为特征变量总数的1/3,煤矿瓦斯涌出量的影响因子有14个,因此,m=5。设决策树数目n为50,100,500,1 000,利用RStudio软件平台进行编程,建立随机森林回归模型,得到n取不同值时袋外数据残差平方均值,如图1所示。从图1可知,当n超过200后,袋外数据残差平方均值变化趋于平稳。综合考虑模型运算量和预测精度,取n为500。
图1 n取不同值时的袋外数据残差平方均值(14个特征变量)
Fig.1 The mean of squared residuals of out-of-bag data when n takes different values(14 characteristic variables)
取n=500固定不变,m取1~14(步长为1),建立随机森林回归模型,得到m取不同值时模型的拟合优度与残差平方均值,如图2所示。从图2可知,m为7时对应拟合优度最大,残差平方均值最小,因此,确定最优值m=7。
图2 m取不同值时的拟合优度与残差平方均值(14个特征变量)
Fig.2 Goodness of fit and mean of squared residuals when m takes different values(14 characteristic variables)
对IncMSE值进行归一化处理,得出各特征变量对煤矿瓦斯涌出量的影响权重及累计影响权重,如图3和图4所示。
图3 各特征变量重要性及影响权重
Fig.3 Importance and influence weights of each characteristic variable
从图3可知,采煤高度、煤厚、煤层瓦斯含量、采出率、埋深、日进度、开采强度、邻近层间距等特征变量的影响权重较大,而邻近层瓦斯含量、倾角、采煤工作面长度、层间岩性、顶板管理方式、邻近层厚度等特征变量的影响权重相对较小。从图4可看出,采煤高度、煤厚、煤层瓦斯含量、采出率、埋深、日进度、开采强度、邻近层间距等特征变量的累计影响权重为91.10%,按照累计影响权重达到90%以上的关键特征变量选择规则,选取该8个特征变量作为影响煤矿瓦斯涌出量的主要因素。
图4 累计影响权重
Fig.4 Cumulative influence weight
选取重要性排序前8的特征变量作为随机森林回归模型的输入变量,在保证训练样本相同的前提下,构建随机森林回归模型。首先进行超参数寻优,结果如图5和图6所示。
图5 n取不同值时的袋外数据残差平方均值(8个特征变量)
Fig.5 The mean of squared residuals of out-of-bag data when n takes different values(8 characteristic variables)
图6 m取不同值时的拟合优度与残差平方均值(8个特征变量)
Fig.6 Goodness of fit and mean of squared residuals when m takes different values(8 characteristic variables)
从图5、图6可看出:n为500时,模型袋外数据残差平方均值变化平稳;m为2时,模型拟合优度最大,残差平方均值最小。因此,基于特征选择的随机森林回归模型的最优超参数为n=500,m=2。
为了评价基于特征变量选择的随机森林回归模型的预测性能,在保证预测样本相同的前提下,与全部14个特征变量参与的随机森林回归模型的预测结果进行对比,结果见表2。可看出,2种情况下随机森林回归模型均具有较好的预测性能,进行特征变量选择后,平均绝对误差由0.22 m3/min下降到0.21 m3/min,平均相对误差由3.55%下降到3.47%。基于特征变量选择的随机森林回归模型不仅能够保证较好的预测性能,而且降低了模型特征变量的维度,减少了原始数据获取工作,提高了预测效率。
表2 瓦斯涌出量预测误差对比
Table 2 Comparison of gas emission prediction error
样本序号实测值/(m3·min-1)全部14个特征变量8个特征变量预测值/(m3·min-1)绝对误差/(m3·min-1)相对误差/%预测值/(m3·min-1)绝对误差/(m3·min-1)相对误差/%178.047.53-0.516.327.65-0.394.88187.567.600.040.497.660.101.39195.825.78-0.040.775.79-0.030.56204.364.650.296.604.670.317.04平均值0.223.550.213.47
(1)研究了基于随机森林回归的煤矿瓦斯涌出量预测方法。通过计算袋外数据残差平方均值和拟合优度,确定随机森林回归模型的最优超参数。
(2)通过特征变量重要性分析方法,从全部14个特征变量中优选出采煤高度、煤厚、煤层瓦斯含量、采出率、埋深、日进度、开采强度、邻近层间距8个关键的特征变量,建立特征选择后的随机森林预测模型。
(3)测试结果表明,采用全部特征变量和部分特征变量的随机森林回归模型均具有较好的拟合与预测效果。进行特征变量选择后,模型的平均绝对误差由0.22 m3/min下降到0.21 m3/min,平均相对误差由3.55%下降到3.47%。基于特征变量优选的随机森林回归模型保持了较高的预测精度,同时提高了模型预测效率,更加适用于煤矿瓦斯涌出量预测。
[1] 孙继平.煤与瓦斯突出报警方法[J].工矿自动化,2014,40(11):1-5.
SUN Jiping.Alarm methods of coal and gas outburst[J].Industry and Mine Automation,2014,40(11):1-5.
[2] 施式亮,李润求,罗文柯.基于EMD-PSO-SVM的煤矿瓦斯涌出量预测方法及应用[J].中国安全科学学报,2014,24(7):43-49.
SHI Shiliang,LI Runqiu,LUO Wenke.Method for predicting coal mine gas emission based on EMD-PSO-SVM and its application[J].China Safety Science Journal,2014,24(7):43-49.
[3] 代巍,付华,冀常鹏,等.回采工作面瓦斯涌出量VMD-DE-RVM区间预测方法[J].中国安全科学学报,2018,28(9):109-115.
DAI Wei,FU Hua,JI Changpeng,et al.Interval prediction method for gas emission from coal mining face based on VMD-DE-RVM[J].China Safety Science Journal,2018,28(9):109-115.
[4] 周西华,孙家正.基于主因子分析的改进BP神经网络瓦斯涌出量预测[J].矿业安全与环保,2018,45(6):43-47.
ZHOU Xihua,SUN Jiazheng.Prediction of gas emission based on principal factor analysis and improved BP neural network[J].Mining Safety & Environmental Protection,2018,45(6):43-47.
[5] 题正义,杨艳国,丁涛.瓦斯涌出量的模糊数学与灰色系统理论的预测[J].辽宁工程技术大学学报(自然科学版),2000,19(2):126-129.
TI Zhengyi,YANG Yanguo,DING Tao.The application research of fuzzy-grey system theory in the prediction of mine gas emission[J].Journal of Liaoning Technical University(Natural Science Edition),2000,19(2): 126-129.
[6] 李树刚,马彦阳,林海飞,等.基于因子分析法的瓦斯涌出量预测指标选取[J].西安科技大学学报,2017, 37(4):461-466.
LI Shugang,MA Yanyang,LIN Haifei,et al.Selection of gas emission prediction index based on factor analysis[J].Journal of Xi'an University of Science and Technology,2017,37(4):461-466.
[7] 付华,谢森,徐耀松,等.基于ACC-ENN算法的煤矿瓦斯涌出量动态预测模型研究[J].煤炭学报,2014, 39(7):1296-1301.
FU Hua,XIE Sen,XU Yaosong,et al.Gas emission dynamic prediction model of coal mine based on ACC-ENN algorithm[J].Journal of China Coal Society,2014,39(7):1296-1301.
[8] 孙林,杨世元.基于LS-SVM的回采工作面瓦斯涌出量预测[J].煤炭学报,2008,33(12):1377-1380.
SUN Lin,YANG Shiyuan.Prediction for gas emission quantity of the working face based on LS-SVM[J].Journal of China Coal Society,2008,33(12): 1377-1380.
[9] 董晓雷,贾进章,白洋,等.基于SVM耦合遗传算法的回采工作面瓦斯涌出量预测[J].安全与环境学报,2016,16(2):114-118.
DONG Xiaolei,JIA Jinzhang,BAI Yang,et al.Prediction for gas-gushing amount from the working face of stope based on the SVM coupling genetic algorithm[J].Journal of Safety and Environment, 2016,16(2):114-118.
[10] 张强,贾宝山,董晓雷,等.PCA-GA-SVM的回采工作面瓦斯涌出量预测[J].辽宁工程技术大学学报(自然科学版),2015,34(5):572-577.
ZHANG Qiang,JIA Baoshan,DONG Xiaolei,et al.Working face gas emission prediction based on PCA-GA-SVM[J].Journal of Liaoning Technical University(Natural Science),2015,34(5):572-577.
[11] 谢东海,冯涛,朱川曲.回采工作面瓦斯涌出量的熵权均值属性测度模型及其应用[J].中南大学学报(自然科学版),2013,44(6):2482-2487.
XIE Donghai,FENG Tao, ZHU Chuanqu.Attributed measurement prediction model of entropy value for coal face gas emission and its application[J].Journal of Central South University(Science and Technology), 2013,44(6):2482-2487.
[12] 邓军,雷昌奎,曹凯,等.采空区煤自燃预测的随机森林方法[J].煤炭学报,2018,43(10):2800-2808.
DENG Jun,LEI Changkui,CAO Kai,et al.Random forest method for predicting coal spontaneous combustion in gob[J].Journal of China Coal Society, 2018,43(10):2800-2808.
[13] 张华伟,王明文,甘丽新.基于随机森林的文本分类模型研究[J].山东大学学报(理学版),2006,41(3): 139-143.
ZHANG Huawei,WANG Mingwen,GAN Lixin.Automatic text classification model based on random forest[J].Journal of Shandong University(Natural Science),2006,41(3):139-143.
[14] 曹泽涛,方子东,姚瑾,等.基于随机森林的黄土地貌分类研究[J].地球信息科学学报,2020,22(3): 452-463.
CAO Zetao,FANG Zidong,YAO Jin,et al.Loess landform classification based on random forest[J].Journal of Geo-information Science,2020,22(3):452-463.
[15] 汪明,王建军.基于随机森林的回采工作面瓦斯涌出量预测模型[J].煤矿安全,2012,43(8):182-185.
WANG Ming,WANG Jianjun.Gas emission prediction model of stope based on random forests[J].Safety in Coal Mines,2012,43(8):182-185.
[16] 温廷新,张波,邵良杉.煤与瓦斯突出预测的随机森林模型[J].计算机工程与应用,2014,50(10):233-237.
WEN Tingxin,ZHANG Bo,SHAO Liangshan.Prediction of coal and gas outburst based on random forest model[J].Computer Engineering and Applications,2014,50(10):233-237.
[17] 郑晓亮.基于瓦斯含量法的煤与瓦斯突出预测关键技术研究[D].淮南:安徽理工大学,2018.
ZHENG Xiaoliang.Research on key technology of coal and gas outburst prediction based on gas content method[D].Huainan:Anhui University of Science & Technology,2018.
[18] BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[19] 王俊红,杨赛,刘富成,等.基于随机森林算法的混凝土早期抗裂性预测研究[J].信阳师范学院学报(自然科学版),2021,34(1):158-165.
WANG Junhong,YANG Sai,LIU Fucheng,et al.Prediction of early crack resistance of concrete based on random forest algorithm[J].Journal of Xinyang Normal University(Natural Science Edition),2021, 34(1):158-165.
[20] 崔东文,金波.基于随机森林回归算法的水生态文明综合评价[J].水利水电科技进展,2014,34(5): 56-60.
CUI Dongwen,JIN Bo.Comprehensive evaluation of water ecological civilization based on random forests regression algorithm[J].Advances in Science and Technology of Water Resources,2014,34(5):56-60.
[21] LIAW A, WIENER M.Classification and regression by random forest[J].R News,2002,2/3: 18-22.
[22] 朱庆忠,胡秋嘉,杜海为,等.基于随机森林算法的煤层气直井产气量模型[J].煤炭学报,2020,45(8): 2846-2855.
ZHU Qingzhong,HU Qiujia,DU Haiwei,et al.A gas production model of vertical coalbed methane well based on random forest algorithm[J].Journal of China Coal Society,2020,45(8):2846-2855.
[23] 刘继辉,许磊,马晓龙,等.基于随机森林回归的制丝过程参数影响权重分析[J].烟草科技,2017,50(2): 63-71.
LIU Jihui,XU Lei,MA Xiaolong,et al.Weight analysis of primary processing parameters based on random forest regression[J].Tobacco Science & Technology, 2017,50(2):63-71.
WU Fengliang,HUO Yuan,GAO Jianan.Coal mine gas emission prediction method based on random forest regression[J].Industry and Mine Automation,2021,47(8):102-107.