为预防煤矿瓦斯灾害的发生,需采取有效的方式对矿井内瓦斯浓度进行监测[1-3]。采用传感器监测瓦斯浓度时,需定期向传感器通入气体,观察其反应是否正常,这个过程称为人工调校。该过程中产生的数据称为人工调校噪声数据。在处理瓦斯浓度数据时需要滤除噪声数据,否则会对瓦斯浓度预测模型的精确度产生很大影响[4]。
近年来,许多学者在噪声处理领域进行了深入的研究。秦鹏等[5]提出了一种基于阈值分解的多级中值滤波方法以去除噪声。常威威等[6]提出了一种基于小波变换和主成分分析的去噪方法。何清等[7]提出了一种基于摄动的模糊聚类方法,用于滤除量测数据对中的噪声。杨朝辉等[8]提出了一种基于支持向量机的噪声去除方法。Zhang Weiping[9]提出了一种基于中值滤波和时域递归降噪的组合方法,用于去除噪声数据。Li Zhen等[10]提出了一种基于变分模式分解的时频峰值滤波方法来滤除随机噪声。J. A.Saez等[11]在多个数据集上证明了噪声过滤的重要性。S. Park等[12]提出了一种基于学习的自编码器去噪方法,该方法会校正输入传感器数据的不准确值。上述方法对输入数据有一定的要求,且运行时间较长。而煤矿瓦斯传感器人工调校噪声数据数量少、质量差、时间不一致、易受环境影响,难以用上述方法对其进行滤除。因此,本文结合多时间粒度、曲线拟合、最小二乘法等,提出了一种煤矿瓦斯传感器人工调校噪声数据处理方法,对人工调校过程中产生的噪声数据进行识别并删除。
为了保证传感器处于正常工作状态,检修人员会定期向其输送瓦斯气体,使传感器达到一定体积分数标准(1.5% CH4~1.8% CH4),停止向其输送气体后浓度恢复正常,恢复时间与传感器物理特性有关。噪声数据条件:1.5%<C<1.8%,C为调校时的最大瓦斯体积分数;H>60 s,H为调校持续时间。
以2019-03-02的瓦斯体积分数为例,传感器调校数据如图1所示。图1中第4个时间点—第8个时间点为人工调校过程,瓦斯体积分数先上升再下降,且人工调校前后时间点的瓦斯体积分数变化范围非常小。
图1 传感器调校数据
Fig.1 Sensor adjusted data
传感器人工调校噪声数据识别框架如图2所示。
图2 传感器人工调校噪声数据识别框架
Fig.2 Sensor manual adjustment noise data recognition framework
1.2.1 数据预处理
煤矿传感器浓度数据集中最大的问题就是数据中含有缺失值及大量的噪声数据,在处理人工调校噪声数据前需对缺失值进行填充。取缺失值前3个时刻的数据平均值来填充,将小于10条记录的数据直接删除。
1.2.2 时间粒度划分
进行曲线拟合的一个重要前提是确定滑动窗口内时间粒度的大小。如果滑动窗口内时间粒度太小,会导致样本集数量过大,算法运行时间过长;如果滑动窗口内时间粒度太大,会导致实验精确度下降。因此,采用多时间粒度进行实验,设时间粒度分别为1,5,10 min。
W={T1,T2,T3}
(1)
式中:W为时间窗口集合;T1,T2,T3为时间粒度。
1.2.3 特征集和样本集构建
传感器监测数据量十分庞大且不同传感器监测时间间隔不同,因此需要对不同传感器的监测数据进行时间窗口统一处理。根据时间窗口生成一个样本,取该时间窗口内浓度最大值中的最大值、浓度最小值中的最小值、浓度平均值的均值分别作为新样本浓度最大值、最小值、平均值,使用处理后的浓度最大值作为实验的输入浓度值。时间窗口统一处理后的样本特征为当前时刻、浓度上限预警值、传感器编号、浓度最大值、浓度最小值、浓度平均值。
1.2.4 优化的曲线拟合函数
通过对传感器人工调校噪声数据曲线分布进行观察分析,确定了一些符合其曲线分布的函数:高斯函数、混合高斯函数、二项式函数、三项式函数、分段二项式函数。
获得优化的曲线拟合函数步骤如下:首先,将原始传感器监测数据中的缺失值进行填充处理;其次,初始化时间窗口,构造特征集和样本集;然后,将人工调校噪声数据样本集中的当前时刻和浓度最大值输入到拟合函数中,使用最小二乘法求得拟合函数参数;最后,根据曲线拟合效果得到优化的拟合函数。
(1) 高斯函数:
(2)
式中:f1(t)为t时刻的高斯函数值;σ为标准差;μ为期望值。
(2) 混合高斯函数:
f2(t)=
(3)
式中:f2(t)为t时刻的混合高斯函数值;k1和k2为不同的高斯函数系数;σ1,μ1为第1种高斯函数的标准差和期望值;σ2,μ2为第2种高斯函数的标准差和期望值。
(3) 二项式函数:
f3(t)=at2+bt+c
(4)
式中:f3(t)为t时刻的二项式函数值;a为二次项系数;b为一次项系数;c为截距。
(4) 三项式函数:
f4(t)=dt3+at2+bt+c
(5)
式中:f4(t)为t时刻的三项式函数值;d为三次项系数。
(5) 分段二项式函数:
(6)
式中:f5(t)为t时刻的分段二项式函数值;t0为一段调校数据中峰值所对应的时刻;a1,b1,c1为第1段函数的二次项系数、一次项系数和截距;a2,b2,c2为第2段函数的二次项系数、一次项系数和截距。
本文使用最小二乘法获得拟合函数的参数[13-14],最小二乘法通过最小化真实值与预测值的误差平方和求得函数参数。设曲线方程为
f(ti)=bti+c
(7)
式中:f(ti)为拟合函数在ti时刻的浓度预测值;ti为第i个样本对应的时刻。
f(ti)的误差平方和为
(8)
式中:m为每个传感器处理后的样本总数;yi为ti时刻的真实浓度。
对误差平方和求偏导并化简,得参数公式为
(9)
(10)
式中:为时刻均值;为真实浓度均值。
1.2.5 人工调校噪声数据处理
通过对人工调校噪声数据的分析,可知该噪声数据与瓦斯浓度上升的斜率、峰值、调校前后浓度差这些基本特征有关。
人工调校噪声数据处理过程如下:获得处理好的煤矿传感器样本数据集;得到浓度曲线的斜率S大于斜率阈值Va的时刻;记录当前时刻为异常起始点,判断浓度上升峰值ymax是否大于传感器的预警阈值Vb;根据异常开始时刻ts与瓦斯浓度差阈值Vc得到异常结束时刻te;根据拟合函数计算异常时间段的对应浓度值,判断其与真实浓度值yi的均方误差E是否小于允许的误差阈值Vd;将符合要求的数据标记为人工调校噪声数据并删除。
传感器人工调校噪声数据处理方法步骤如下。
(1) 构建数据。对o段人工调校数据集P={P1,P2,…,Po}、n个传感器数据集D={D1,D2,…,Dn}进行缺失值填充,其中P中每个元素代表一段人工调校数据;D中每个元素代表一个传感器监测数据。根据时间窗口构造样本特征集。处理后的人工调校样本集Y为r段人工调校噪声数据,即Y={Y1,Y2,…,Yr},Y中每个元素代表经处理后的一段人工调校噪声数据。处理后的每个传感器浓度数据集U={(t1,y1),(t2,y1),…,(tm,ym)},tm为第m个样本对应的时刻。
(2) 得到曲线拟合函数。将人工调校样本集Y分别输入到拟合函数(式(2)—式(6))中进行拟合,并使用最小二乘法得到拟合函数的参数,根据曲线拟合效果得到优化的拟合函数。
(3) 获取相关阈值。人工调校噪声浓度上升的斜率阈值Va、传感器的预警阈值Vb、调校开始与结束时的瓦斯浓度差阈值Vc分别由人工调校样本集对应的斜率、预警值、浓度差的平均值得到。误差阈值Vd的取值范围为0.01~0.50,统计样本真实值与预测值的均方误差E小于Vd的样本数,取样本数最大时对应的最小Vd为最合适的误差阈值。
(4) 处理人工调校噪声数据。遍历数据集,根据求得斜率。若S>Va成立,则令ts=ti;对后面的数据进行比较,直到达到首个浓度峰值ymax,若ymax≥Vb,则令te=ti+1;将|yte-yts|<Vc成立的时刻te记为结束时刻,否则将te置为下一个时刻,继续判断该式;计算ts到te时间段的拟合函数值与真实浓度值的均方误差E,若E<Vd成立,则将这段时间的数据标记为人工调校噪声数据;最后根据标记删除人工调校噪声数据。
利用式(2)—式(6)拟合函数对数据进行拟合,拟合效果如图3—图7所示。
图3 高斯函数拟合效果
Fig.3 Gaussian function fitting effect
图4 混合高斯函数拟合效果
Fig.4 Mixed gaussian function fitting effect
为了反映拟合函数的效果,本文使用均方误差[15]指标对拟合结果进行对比。通过拟合函数预测值与真实值之差平方和的均值得到拟合函数的均方误差。拟合函数对应的均方误差见表1。可以看出,分段二项式函数和混合高斯函数拟合较为准确,混合高斯函数拟合效果最好。
图5 二项式函数拟合效果
Fig.5 Binomial function fitting effect
图6 三项式函数拟合效果
Fig.6 Trinomial function fitting effect
图7 分段二项式函数拟合效果
Fig.7 Piecewise binomial function fitting effect
表1 拟合函数的均方误差
Table 1 Mean squared error of the fitting function
拟合函数均方误差f1(t)0.001299f2(t)0.000018f3(t)0.016087f4(t)0.013334f5(t)0.000870
混淆矩阵是精确度评价的一种标准格式,用于比较分类结果和实际结果。混淆矩阵见表2,其中,TP为真正例,FP为假正例,TN为真反例,FN为假反例。本实验中,使用混淆矩阵的查准率作为评价指标,查准率表示在所有被预测为正例的样本中实际为正例的样本概率,即TP/(TP+FP)。
表2 混淆矩阵
Table 2 Confusion matrix
真实情况预测结果正例反例正例TPFN反例FPTN
本实验数据来源于重庆市某煤矿传感器监测到的瓦斯浓度数据,使用混合高斯函数进行实验。取100个传感器数据,共344个调校数据样本,其中训练集数据为104个,验证集数据为240个。
通过最小二乘法得到混合高斯函数的参数值k1=9.505,σ1=1.854,μ1=-0.424,k2=-2.625,σ2=0.440,μ2=-0.286。根据参数阈值选取原则与实验性能指标,得到各参数值Va=0.75,Vb=1,Vc=0.17,Vd=0.43。
为验证本文提出方法的真实性能情况,采集5个瓦斯传感器从2019-01-01—04-01监测到的瓦斯浓度数据进行实验,得到人工调校噪声数据的查准率为0.904 7。以2019年1月份的数据为例 ,传感器瓦斯体积分数部分数据如图8所示,传感器部分标记结果见表3。
图8 传感器瓦斯体积分数部分数据
Fig.8 Sensor gas concentration partial data
实验表明,在提出的拟合函数中,混合高斯函数拟合效果最好。人工调校噪声数据处理后得到的查准率为0.904 7,本文方法可以有效识别煤矿瓦斯传感器人工调校噪声数据。
需要说明的是,由于人工调校噪声数据受传感器灵敏度、调校持续时间、传感器分布位置等多种未知因素影响,所以,在实验中难免会存在一些数据被误判或漏判,从而导致查准率下降。
提出了一种煤矿瓦斯传感器人工调校噪声数据处理方法:首先,采用数据平均值填充煤矿瓦斯传感器浓度数据缺失值;其次,使用多时间粒度构建煤矿瓦斯传感器浓度数据的特征集和样本集;再次,运用多种曲线拟合函数拟合人工调校噪声数据,基于最小二乘法确定拟合函数参数,根据拟合效果得到最优的拟合函数;最后,利用人工调校噪声数据的基本特征识别并删除人工调校噪声数据。煤矿瓦斯监测数据的实验结果表明,混合高斯函数对人工调校噪声数据的拟合效果较好,能有效识别煤矿瓦斯传感器人工调校噪声数据。优化的时间粒度与多模型融合的噪声滤除算法将是进一步的研究工作。
表3 传感器部分标记数据
Table 3 Sensor partial labeled data
时间瓦斯体积分数平均值瓦斯体积分数最大值瓦斯体积分数最小值瓦斯体积分数上限预警值标记09:56:000.020.020.021非调校数据09:57:000.010.020.011非调校数据09:58:000.020.020.021非调校数据09:59:000.010.020.011非调校数据10:00:000.010.010.011非调校数据10:01:000.010.010.011调校数据10:02:001.21.50.981调校数据10:03:000.820.930.831调校数据10:04:000.140.210.011调校数据10:05:000.080.120.011调校数据10:06:000.010.0101调校数据10:07:000001非调校数据10:08:000001非调校数据10:09:000001非调校数据10:10:000001非调校数据10:11:000001非调校数据
[1] 徐晓建.煤矿安全风险防控及预警系统设计[J].工矿自动化,2020,46(3):105-108.
XU Xiaojian. Design of coal mine safety risk prevention and control and early warning system [J].Industry and Mine Automation, 2020,46(3):105-108.
[2] 张瑜,冯仕民,杨赛烽,等.矿工不安全行为影响因素本体构建与推理研究[J].煤矿安全,2019,50(5):300-304.
ZHANG Yu, FENG Shimin, YANG Saifeng, et al. Ontology construction and reasoning research on influencing factors of miners' unsafe behavior[J].Safety in Coal Mines,2019,50(5):300-304.
[3] 赵芳,程国强,孙业强,等.巷道高浓度瓦斯运移扩散规律的研究[J].煤炭技术,2016,35(1):193-196.
ZHAO Fang, CHENG Guoqiang, SUN Yeqiang, et al. Study on laws of high concentration gas movement and diffusion in roadway[J].Coal Technology, 2016,35(1):193-196.
[4] 尚宇炜,郭剑波,吴文传,等.数据-知识融合的机器学习(2):泛化风险[J].中国电机工程学报, 2019,39(16):4641-4649.
SHANG Yuwei, GUO Jianbo, WU Wenchuan, et al. Machine learning methods embedded with domain knowledge(Part II): generalization risk [J].Proceedings of the CSEE, 2019,39(16):4641-4649.
[5] 秦鹏,丁润涛.基于阈值分解的多级中值滤波[J].微型机与应用,2003,22(12):50-52.
QIN Peng,DING Runtao.Multistage median filtering based on threshold decomposition[J]. Microcomputer & Its Applications, 2003,22(12):50-52
[6] 常威威,郭雷,刘坤,等.基于主分量分析的高光谱遥感数据噪声消除方法[J]. 计算机测量与控制, 2009,17(6):1070-1072.
CHANG Weiwei,GUO Lei,LIU Kun,et al. Denoising of hyperspectral data based on wavelet transform and principal component analysis [J]. Computer Measurement & Control, 2009,17(6):1070-1072.
[7] 何清,徐树富,王加银,等.FCMBP聚类法在语音识别和模糊控制中的应用[J]. 系统工程学报, 2001,16(6):430-437.
HE Qing,XU Shufu,WANG Jiayin,et al. FCMBP clustering methods and its applications in speech recognition and fuzzy control[J].Journal of Systems Engineering, 2001,16(6):430-437.
[8] 杨朝辉,陈映鹰.基于支持向量机的椒盐噪声去除方法[J].计算机工程与应用, 2009, 45(22):150-152.
YANG Zhaohui,CHEN Yingying. SVM-based approach for removing salt-pepper noise from images[J].Computer Engineering and Applications, 2009, 45(22):150-152.
[9] ZHANG Weipeng.Refuge chamber image processing algorithm based on combination of median filter and time domain recursive noise reduction[J].Energy Education Science and Technology,2012,30(2):241-248.
[10] LI Zhen,GAO Jinghuai,LIU Naihao,et al.Random noise suppression of seismic data by time-frequency peak filtering with variational mode decomposition[J].Exploration Geophysics,2019,50(6):634-644
[11] SAEZ J A, KRAWCZYK B, WOZNIAK M. On the influence of class noise in medical data classification: treatment using noise filtering methods[J]. Applied Artificial Intelligence, 2016,30(4/5/6):590-609.
[12] PARK S, GIL M S, IM H, et al. Measurement noise recommendation for efficient Kalman filtering over a large amount of sensor data[J].Sensors, 2019,19(5):1168.
[13] 汪奇生,杨德宏,杨根新.总体最小二乘求解线性回归模型的迭代算法[J].工程勘察,2014,42(9):85-88.
WANG Qisheng, YANG Dehong,YANG Genxin. An iteration algorithm of total least squares for linear regression models[J].Geotechnical Investigation & Surveying, 2014,42(9):85-88.
[14] 陈永明,冯盛淼,戴颖超.基于最小二乘法的拟合曲线CCD相机畸变校正[J].机电技术,2018,42(3):31-35.
CHEN Yongming, FENG Shengmiao, DAI Yingchao. Distortion correction of fitting curve CCD camera based on least square method [J]. Mechanical & Electrical Technology, 2018,42(3):31-35.
[15] 孙文胜,张冬,张公礼.均方误差短时反馈算法的残余频偏纠正及阈值选取的研究[J].电子器件,2009,32(4):792-796.
SUN Wensheng, ZHANG Dong, ZHANG Gongli. Research of residual frequency offset correction based on the mean square error short-term feedback algorithm and decision of the threshold[J].Chinese Journal of Electron Devices, 2009,32(4):792-796.
HU Feng,YE Fuhao,WANG Guoyin,et al.Manual adjustment noise data processing method for coal mine gas sensor[J].Industry and Mine Automation,2020,46(7):70-75.