矿井突水灾害事故危害巨大,据中国煤矿安全生产网站统计,2013—2019年我国共发生煤矿水害事故39起,占全国煤矿总事故的11.21%;因煤矿水害导致死亡的有246人,占全国煤矿总事故死亡人数的14.03%[1]。快速判断水源类别并及时确定突水危险发生位置是有效预防突水事故发生及水害治理的重要方法和技术手段。
颜丙乾等[2]通过主成分分析(Principal Component Analysis, PCA)得出不同水样的矿化程度,将马尔科夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)引入到贝叶斯(Bayes)方法中,建立了基于PCA和MCMC的Bayes方法的矿井突水水源判别模型。聂凤琴等[3]建立了基于马氏距离的矿井突水水源判别模型,通过划分不同水源间的距离对水源类型进行区分。孙福勋等[4]在Fisher判别分析理论的基础上引入质心距评价法剔除混合水样样本,实验证明改进后的模型判别准确率从60%提高到了83.3%。姜子豪等[5]提出了一种基于Bayes-可拓判别法的矿井突水水源判别方法,避免了Bayes判别法中各特征指标对总体样本的影响及可拓判别法忽视误判损失带来的判别误差问题,可有效提高水源判别精度。杨勇等[6]采用卷积神经网络(Convolutional Neural Networks, CNN)建立矿井突水水源判别模型,实验证明该模型适用于处理多维突水序列。刘东锐等[7]利用遗传算法(Genetic Algorithm,GA)对传统支持向量机(Support Vector Machine, SVM)进行优化,建立了GA-SVM水源判别模型,解决了SVM模型参数选取经验化的问题。李垣志等[8]建立了基于回声状态网络(Echo State Network, ESN)的矿井突水水源判别模型,削弱了人为因素的干扰。以上模型虽然具有一定的实用性,但仍存在非线性能力较差、模型稳定性较差、判别精度低等问题。为此,本文基于PCA和确定性分层跳跃循环网络(Cycle Reservoir with Hierarchical Jumps, CRHJ)构建了PCA-CRHJ模型。将该模型应用于2个实际煤矿的突水水源判别,以验证该模型的实用性和有效性。
假设原始数据集包括n个数据样本,每个样本具有p个指标Z1—Zp,对此数据集的PCA数据分析计算流程如下。
(1) 对原始数据集进行标准化处理,组成标准化数据矩阵。
(2) 根据Pearson相关系数[9]计算各个变量数据间的相关性,组成相关系数矩阵。
(3) 求解关于相关系数矩阵的特征方程,对求出的特征值λ进行排序(从大到小),即λ1≥λ2≥…≥λp,并求出每个特征值所对应的单位特征向量L1—Lp,所有单位特征向量组成的主成分得分矩阵为
(1)
式中lpp为单位特征向量Lp的第p个得分系数。
(4) 计算累计贡献βm,保留累计贡献率在85%以上的前m个成分作为新的主成分。
(2)
(5) 原始数据集经过PCA处理后得到重组数据集,第m个新主成分的数学模型Fm为
Fm=l1mZ1+l2mZ2+…+lpmZp
(3)
确定性循环跳跃网络(Cycle Reservoir with Regular Jumps, CRJ)是一种能够进行时间序列分析的新型递归神经网络[10],其储备池采用简单的确定型循环拓扑结构,解决了ESN储备池随机连接结构不易受控制的问题。与CRJ拓扑结构不同的是,CRHJ的储备池采用分层跳跃拓扑结构,内部活跃度明显提高,在保证内部多样性的同时增强了内部稳定性,从而增强了模型的非线性能力,使其表现出卓越的性能。
CRHJ由输入层、储备池、输出层[11]组成。输入层有K个输入单元,这K个输入单元通过输入连接权重矩阵与储备池相互连接,输入连接权重矩阵由输入连接权重r1组成,r1={-v,v},v∈(0,1),其中v为输入连接权重系数,取无理数π,将其十进制数字按d0,d1,…,di展开,对于输入层的第i个输入,若0≤di≤4,则输入连接权重取-v,若5≤di≤9,则输入连接权重取v。储备池由储备池规模N、单向连接权重r2、跳跃步长J(1<J<)、分层双向跳跃权重rjk组成,其中j表示该权重为分层跳跃权重,k表示该权重处于第几层,k为正整数。r2以顺时针方向依次连接N个内部单元,从而形成环形拓扑结构。对于常规层,分层双向跳跃权重为rj1,当(N mod J)=0时,存在N/J次跳跃,第1次跳跃是从内部单元J到内部单元J+1,最后一次跳跃是从内部单元N+1-J到内部单元J。当(N mod J)≠0时,存在N/J次跳跃,最后一次跳跃单位为N+1-(N mod J),将储备池规模扩展u(1≤u≤J)个单位,使得(N mod J(N+u))=0。完成常规层的跳跃之后,CRHJ进入更高级别的跳跃层进行跳跃,同时,跳跃步长J以2倍速度随着层级升高增大。跳跃权重为固定值,层级数量由储备池规模和跳跃步长大小决定。输出层有H个输出单元。图1为N=12,J=3的CRJ拓扑结构。图2为具有3层跳跃层的CRHJ拓扑结构。对比图1和图2可知,CRJ内部不具有分层双向跳跃权重rjk,只有用于连接2个形成跳跃的内部单元的双向跳跃权重r3,这是导致其内部多样性低于CRHJ的主要原因。
图1 N=12,J=3的CRJ拓扑结构
Fig.1 CRJ topological structure with N=12 and J=3
图2 N=18,J1=2,J2=4,J3=8的CRHJ拓扑结构
Fig.2 CRHJ topological structure with N=18 and J1=2,J2=4,J3=8
CRHJ的更新公式为[12]
x(t+1)=f(Vs(t+1)+Wx(t)+z(t+1))
(4)
式中:x(t)为t时描述储备池内部状态的状态变量,x(t)=(x1(t),x2(t),…,xN(t))T;f为储备池激活函数,通常取tanh函数或sigmoidal函数;V为输入连接权值矩阵,由输入连接权重r1={-v,v}组成,矩阵大小为N×K;s(t)为t时的输入变量,s(t)=(s1(t),s2(t),…,sK(t))T;W为储备池权值矩阵,由r2和rjk组成,矩阵大小为N×N;z(t)为独立且均匀分布的随机噪声。
y(t+1)=Ux(t+1)
(5)
式中:y(t)为t时的输出变量,y(t)=(y1(t),y2(t),…,yH(t));U为输出连接权值矩阵,利用Tikhonov正则化方法[13]求出矩阵大小为H×N。
为了验证基于PCA-CRHJ模型的矿井突水水源判别的实用性和有效性,将该模型应用到安徽淮南张集煤矿和新庄孜煤矿的突水水源判别中。
张集煤矿位于淮南煤田的潘谢矿区西缘,属于淮南煤田的中部水文地质单元,该煤矿突水水源数据较为典型,由煤顶板水(Ⅰ)、奥灰水(Ⅱ)、奥灰砂岩水(Ⅲ)3种水源类型组成。本文研究所用数据共26组,选取其中3组数据作为测试数据,余下的23组数据作为训练数据。将张集煤矿的突水水源数据集命名为A,水源指标分别为总坚固性系数(X8)、碱度(X9)、PH值(X10)、矿化度(X11)。新庄孜煤矿位于淮南矿区西部,影响矿井安全生产的地表水系主要为淮河、钱家湖及几个大小不等的塌陷积水区[14]。将该煤矿突水资料分为3个含水层:煤系砂岩含水层(Ⅰ)、石炭系太原群灰岩溶隙含水层(Ⅱ)、奥陶系灰岩溶隙含水层(Ⅲ)。研究所用数据共33组,选取3组数据作为测试数据,余下的30组数据作为训练数据。将新庄孜煤矿的突水水源数据集命名为B,水源指标分别为总坚固性系数(Y7)。
采用最大最小归一化方法分别对数据集A、B中的数据进行标准化处理。
利用Pearson相关系数ξ评估标准数据矩阵各个指标变量之间的线性相关程度。取相关程度阈值为0.8,|ξ|>0.8表示2个变量之间线性相关程度较高。数据集A各指标相关系数见表1,数据集B各指标相关系数见表2。表1中,相关系数的绝对值大于0.8的有X1和X8,X2和X8,X4和X6,X4和X11,X6和X11,X7和X11,11对指标中有6对指标相关性过大,信息重叠使得信息丰富性降低。表2中,相关系数的绝对值大于0.8的有Y3和Y4,Y1和Y5,Y1和Y7,Y5和Y7,7对指标中有4对指标相关性过大,信息重叠使得信息丰富性降低。因此,对数据进行PCA分析,突出各个指标的特征,避免对模型精度的影响。进行PCA分析时,计算得到各个主成分的特征值、贡献率、累计贡献率,见表3。
表1 数据集A各指标相关系数
Table 1 Each index correlation coefficient in data set A
相关系数X1X2X3X4X5X6X7X8X9X10X11X11.000X20.7951.000X30.3860.2151.000X40.3510.0560.4351.000X50.2730.527-0.162-0.3561.000X60.3890.1120.4070.949-0.4081.000X70.3230.0890.2670.789-0.3480.7921.000X80.9670.9230.3330.2410.3860.2930.2401.000X90.2070.325-0.070-0.3800.772-0.461-0.3280.2641.000X10-0.474-0.6650.002-0.059-0.642-0.087-0.027-0.572-0.1521.000X110.4990.2390.4350.941-0.2310.9720.8260.414-0.284-0.1991.000
表2 数据集B各指标相关系数
Table 2 Each index correlation coefficient in data set B
相关系数Y1Y2Y3Y4Y5Y6Y7Y11.000Y20.2121.000Y3-0.095-0.3441.000Y4-0.281-0.0180.8371.000Y50.9340.140-0.029-0.2701.000Y60.0020.0280.2050.073-0.0911.000Y70.9910.245-0.151-0.3180.9060.0431.000
一般情况下,取累计贡献率大于85%的成分作为新的主成分。由表3可知,数据集A经过PCA处理得到4个新主成分数据集B经过PCA处理得到4个新主成分—(式(7))。
表3 数据集A、数据集B各成分特征值、贡献率、累计贡献率
Table 3 Characteristic value, contribution rate and cumulative contribution rate of each component in data set A and set B
成分数据A特征值贡献率/%累计贡献率/%成分数据B特征值贡献率/%累计贡献率/%PA14.69842.70742.707PB13.16045.14445.144PA23.60232.74875.454PB21.73024.71269.856PA30.9308.45783.911PB31.03514.78984.645PA40.7426.74790.659PB40.92913.26597.910PA50.5545.03695.695PB50.1051.49999.409PA60.2422.20197.896PB60.0370.52799.936PA70.1291.16999.065PB70.0040.064100.000PA80.0540.49599.560PA90.0450.41099.970PA100.0030.02899.998PA110.0000.002100.000
(6)
(7)
针对不同模型设定使其性能达到最优的网络参数。基于ESN结构的模型,其性能主要由储备池稀疏度D、储备池连接权重矩阵的谱半径τ、尺度因子R决定。基于CRJ结构的模型,其性能主要由r1∈(0,1],r2∈(0,1],J(1<J<N/2),r3∈(0,1]决定。相比CRJ模型,CRHJ模型性能主要由r1∈(0,1],r2∈(0,1],J(1<J<N/2)及rjk∈(0,1]决定。PCA-CRHJ模型在CRHJ模型输入层增加了PCA方法,改变了模型结构。本文CRHJ模型和PCA-CRHJ模型均采用储备池规模为20的3层跳跃循环拓扑结构。模型参数见表4。
表4 模型参数
Table 4 Model parameters
数据集模型结构r1r2rj1rj2rj3JDτPCA-CRHJ4×20×10.50.80.70.60.520.30.3CRHJ11×20×10.50.80.70.60.520.30.3ACRJ11×20×10.50.80.7--20.30.3ESN11×20×10.50.8----0.30.3PCA-CRHJ4×20×10.50.80.70.60.520.30.3CRHJ7×20×10.50.80.70.60.520.30.3BCRJ7×20×10.50.80.7--20.30.3ESN7×20×10.50.8----0.30.3
基于数据集A与数据集B,对PCA-CRHJ、CRHJ、CRJ、ESN模型进行矿井突水水源判别模拟实验。将各个模型分别运行100次。
模拟实验采用均方根误差RMSE对模型的准确率进行评估,当RMSE接近于0时,表示模型准确率高。
基于数据集A的判别误差分布如图3所示,基于数据集B的判别误差分布如图4所示,各模型的判别结果与误差见表5。对比图3和图4可知,由于ESN的输入权值矩阵与储备池的连接权矩阵在每次训练时均需随机生成且网络内部状态不稳定,所以,模型误差分布波动性较大;PCA-CRHJ、CRHJ、CRJ的输入权值矩阵与储备池连接权值矩阵在训练前已确定且保持不变,确定性跳跃循环的拓扑结构使得训练过程中网络内部状态保持稳定,所以,模型误差分布平稳。根据表5计算分析可得:基于数据集A训练的PCA-CRHJ模型的精度比CRHJ模型提高了79.81%,比CRJ模型提高了79.95%,比ESN模型提高了86.55%;基于数据集B训练的PCA-CRHJ模型的精度比CRHJ模型提高了48.95%,比CRJ模型提高了61.43%,比ESN模型提高了61.89%。4种模型模拟准确率高低顺序如下:PCA-CRHJ>CRHJ>CRJ>ESN。由表5中期望输出与判别结果可知,PCA-CRHJ模型的判别结果与期望输出一致,模拟准确率达到了100%。
图3 基于数据集A的误差分布
Fig.3 Error distribution of data set A
图4 基于数据集B的误差分布
Fig.4 Error distribution of data set B
表5 判别结果与误差
Table 5 Discrimination results and errors
数据集模型期望输出实际输出判别结果RMSEPCA-CRHJ[1,2,3][0.956,1.880,3.080][1,2,3]0.087ACRHJ[1,2,3][0.267,1.910,2.885][0,2,3]0.431CRJ[1,2,3][0.262,1.916,2.877][0,2,3]0.434ESN[1,2,3][-0.032,2.429,2.940][0,2,3]0.647PCA-CRHJ[1,2,3][0.867,1.994,2.691][1,2,3]0.194BCRHJ[1,2,3][1.255,1.567,2.574][1,2,3]0.380CRJ[1,2,3][1.130,1.326,2.464][1,1,2]0.503ESN[1,2,3][0.995,2.843,2.755][1,3,3]0.509
PCA-CRHJ模型有5类主要参数,分别为储备池规模N、输入连接权重r1、单向连接权重r2、分层双向跳跃权重rjk、跳跃步长J。
(1) 3类权重参数的敏感度分析。保持N=20和J=2不变,依次改变其余3类权重参数值,以RMSE作为评判指标讨论3类权重参数的敏感性。PCA-CRHJ模型不同权重参数的误差分布如图5所示,其中图5(a)为误差放大前的模拟结果,图5(b)为将误差放大至[0.083,0.090]区间的模拟结果。本文所用PCA-CRHJ模型共有3层跳跃网络,故分层双向跳跃权重依次是rj1,rj2,rj3。从图5(a)可看出,输入连接权重r1对模型模拟结果的影响最大,当其取值在[0,0.4]时,RMSE随着输入连接权重r1的增大而减小,模型模拟结果误差较大,当其取值大于0.4时,RMSE趋于稳定;r2,rj1,rj2,rj3对模型模拟结果影响均较小。从图5(b)可得出,5个权重参数-RMSE曲线的斜率(θ)大小依次是θ1>θj1>θ2>θj3>θj2,因此,5个权重参数对模型误差模拟的影响大小依次为r1>rj1>r2>rj3>rj2。
(a) 误差放大前
(b) 误差放大后
图5 PCA-CRHJ模型不同权重参数的误差分布
Fig.5 Error distribution of each weight parament in PCA-CRHJ model
(2) 储备池规模及跳跃步长的敏感度分析。设3类权重参数取得最优值且保持不变,跳跃步长取值范围为[2,60],储备池规模分别取500,400,300,200,100,误差分布如图6所示。从图6横向观察,跳跃步长J对模拟结果的影响整体上趋于平稳,影响较小;纵向观察,当跳跃步长J一定时,不同储备池规模N的取值使RMSE产生较大差异,因此,储备池规模N对模型模拟结果影响较大。其原因主要在于所用水源判别的数据集太小,选用较大的储备池规模N易使模型产生过拟合现象,从而使误差增大。所以,对于PCA-CRHJ网络,当数据集较小时,选用较小的储备池规模N将得到更优的结果。
图6 PCA-CRHJ模型储备池规模参数及跳跃步长参数的误差分布
Fig.6 Error distribution of reservoir scale and jump size in PCA-CRHJ model
(1) 采用PCA对数据集进行预处理,有效提取多元时间突水序列的数据特征,重构原始数据,结合具有多元时间序列分析能力的CRHJ神经网络建立PCA-CRHJ模型,用于矿井突水水源的判别。通过与CRHJ、CRJ、ESN模型进行对比,表明PCA-CRHJ模型的实际判别效果最优,准确率可达100%。
(2) 对PCA-CRHJ模型参数敏感性进行分析,表明输入连接权重参数对模型判别结果的影响最大,5个权重参数对模型模拟结果影响大小的顺序依次是r1>rj1>r2>rj3>rj2;当3类权重参数取得最优值且保持不变时,储备池规模对模型误差影响最大,而跳跃步长的影响则较小。
[1] 武强,赵苏启,董苏宁.煤矿防治水手册[M].北京:煤炭工业出版社,2013.
WU Qiang,ZHAO Suqi,DONG Suning,et al.Coal mine prevention and control manual[M].Beijing:China Coal Industry Publishing House,2013.
[2] 颜丙乾,任奋华,蔡美峰,等.基于PCA和MCMC的贝叶斯方法的海下矿山水害源识别分析[J].工程科学学报,2019,41(11):1412-1421.
YAN Bingqian,REN Fenhua,CAI Meifeng,et al.Application of PCA and Bayesian MCMC to discriminate between water sources in seabed gold mines[J].Chinese Journal of Engineering,2019,41(11):1412-1421.
[3] 聂凤琴,许光泉,关维娟,等.马氏距离判别模型在矿井突水水源判别中应用[J].地下水,2013,35(6):41-42.
NIE Fengqin,XU Guangquan,GUAN Weijuan,et al.Application of Mahalanobis distance discrimination model in water source discrimination of mine water inrush[J].Ground Water,2013,35(6):41-42.
[4] 孙福勋,魏久传,万云鹏,等.基于Fisher判别分析和质心距评价法的矿井水源判别[J].煤田地质与勘探,2017,45(1):80-84.
SUN Fuxun,WEI Jiuchuan,WAN Yunpeng,et al.Recognition method of mine water source based on Fisher's discriminant analysis and centroid distance evaluation[J].Coal Geology & Exploration,2017,45(1):80-84.
[5] 姜子豪,胡友彪,琚棋定,等.矿井突水水源判别方法[J].工矿自动化,2020,46(4):28-33.
JIANG Zihao,HU Youbiao,JU Qiding,et al.A discrimination method of mine water inrush source[J].Industry and Mine Automation,2020,46(4):28-33.
[6] 杨勇,岳建华,李晶,等.LIF和CNN的矿井突水水源类型判别[J].光谱学与光谱分析,2019,39(8):2425-2430.
YANG Yong,YUE Jianhua,LI Jing,et al.Online discrimination model for mine water inrush source based CNN and fluorescence spectrum[J].Spectroscopy and Spectral Analysis,2019,39(8):2425-2430.
[7] 刘东锐,赵国彦,彭康.矿井水源判别的GA-SVM模型研究[J].安全与环境学报,2015,15(1):35-39.
LIU Dongrui,ZHAO Guoyan,PENG Kang.GA-SVM model for mining water discrimination[J].Journal of Safety and Environment,2015,15(1):35-39.
[8] 李垣志,牛国庆,张轩轩.矿井突水水源判别的ESN正则化模型[J].煤田地质与勘探,2018,46(1):108-114.
LI Yuanzhi,NIU Guoqing,ZHANG Xuanxuan.ESN regularization model for discriminating mine water inrush source[J].Coal Geology & Exploration,2018,46(1):108-114.
[9] 韩敏,王亚楠.基于储备池主成分分析的多元时间序列预测研究[J].控制与决策,2009,24(10):1526-1530.
HAN Min,WANG Yanan.Prediction of multivariate time series based on reservoir principal component analysis[J].Control and Decision,2009,24(10):1526-1530.
[10] MO Yuqin,LI Qi,KARIAIAN H,et al.A novel framework for daily forecasting of ozone mass concentrations based on cycle reservoir with regular jumps neural networks[J].Atmospheric Environment,2020,220:1-8.
[11] ALI R,PETER T.Simple deterministically constructed cycle reservoirs with regular jumps[J].Neural Computation,2012,24(7):1822-1852.
[12] QIN Lan,LI Weide,LI Shijia.Effective passenger flow forecasting using STL and ESN based on two improvement strategies[J].Neurocomputing,2019,356:244-256.
[13] QI Huang,YIN Xuesong,CHEN Songcan,et al.Robust nonnegative matrix factorization with structure regularization[J].Neurocomputing,2020,412:72-90.
[14] 鲁金涛,李夕兵,宫凤强,等.基于主成分分析与Fisher判别分析法的矿井突水水源识别方法[J].中国安全科学学报,2012,22(7):109-115.
LU Jintao,LI Xibing,GONG Fengqiang,et al.Recognizing of mine water inrush sources based on principal components analysis and Fisher discrimination analysis method[J].China Safety Science Journal,2012,22(7):109-115.
QIU Xingguo,WANG Ruizhi,ZHANG Weiguo,et al.Discrimination of mine inrush water source based on PCA-CRHJ model[J].Industry and Mine Automation,2020,46(11):65-71.