Abnormal data recognition method of coal mine monitoring system based on imbalanced data set
-
摘要: 异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。Abstract: Abnormal data recognition plays an important role in mine safety monitoring system, but abnormal data generally only accounts for about 1% of the total data of the safety monitoring system, data imbalance is an intrinsic characteristics of real-time data. At present, most of machine learning algorithms have relatively poor classification accuracy and sensitivity while dealing with classification on imbalanced data sets. In order to accurately identify abnormal data, the data collected by the distributed fiber shaft deformation monitoring system of coal mine is taken as research object, RDU-SMOTE-RF abnormal data recognition method of coal mine monitoring system based on imbalanced data set was proposed. The method uses RDU algorithm for under-sampling of majority data to remove duplicate samples,uses SMOTE algorithm for oversampling of minority abnormal data to improve the imbalance of the data set by synthesizing new abnormal data, and uses the optimized data set to train random forest (RF) classification algorithm to get abnormal data recognition model. The comparison experimental results on 6 real data sets show that the method has an average recognition accuracy rate of 99.3% for abnormal data, which has good generalization and strong robustness.
-
-
期刊类型引用(20)
1. 冼进,冼允廷. 基于STM32的智能家居安防系统设计. 信息技术. 2024(03): 49-55 . 百度学术
2. 姜思嘉,盛武. 基于KPCA-BiLSTM-iForest的瓦斯体积分数异常智能识别方法. 中国安全生产科学技术. 2024(04): 42-48 . 百度学术
3. 拓广忠,葛树峰,李荣让,谢宏坤,覃文闯,薛璐璐. 基于熵值法和DEA的电力监测异常数据自动识别算法研究. 微型电脑应用. 2023(04): 160-163+171 . 百度学术
4. 许伟,胡婷. 基于样本数据重复性的分布式数据库自动化查询方法. 自动化技术与应用. 2023(06): 87-90 . 百度学术
5. 严峻,马路遥,龙铭,崔北为. 基于大数据抓取的供应商不良行为数据监测方法. 微型电脑应用. 2023(06): 193-195+208 . 百度学术
6. 芦欣,李文静. 基于萤火虫算法的软件测试用例约简方法. 计算机仿真. 2023(12): 411-415 . 百度学术
7. 林君萍. 基于深度卷积生成对抗网络的不平衡大数据监测与诊断. 重庆科技学院学报(自然科学版). 2022(01): 99-103 . 百度学术
8. 于楚凡,郭大亮,张秋霞,宋子涛. 基于大数据挖掘的发电系统异常数据识别系统设计. 电子设计工程. 2022(06): 131-135 . 百度学术
9. 侯瑞丽. 基于EMMD-RVM的煤矿采矿机械设备异常检测系统. 能源与环保. 2022(05): 149-155 . 百度学术
10. 袁丁,薛贵军,张红梅. 分布式供热管网中异常数据识别算法设计. 计算机仿真. 2022(05): 494-498 . 百度学术
11. 赵山,苏一帆. 建筑能耗异常数据的识别算法设计与仿真. 计算机仿真. 2022(05): 499-503 . 百度学术
12. 王浩,王亚栋,贾俊伟,史友庆,贾灿灿. 基于信息技术的煤矿综合自动化实时监测系统设计. 煤炭与化工. 2022(05): 94-97 . 百度学术
13. 侯方迪,高卫东,张勇,翟哲,杨凡,吴亮. 电网总调调度信息披露不平衡性数据处理模型. 电子设计工程. 2022(17): 104-108 . 百度学术
14. 戴小凤,朱卫东. 基于卷积神经网络的电力工程造价数据异常识别方法. 兰州工业学院学报. 2022(04): 62-66 . 百度学术
15. 王昕,孙磊. 基于不平衡数据样本的工控网络态势要素提取. 长春工业大学学报. 2021(01): 40-45 . 百度学术
16. 杨思狄,王亚玲. 面向不均衡数据集的过抽样数学模型构建. 计算机仿真. 2021(05): 472-476 . 百度学术
17. 宋凯敏. 郭庄煤矿“四位一体”安全监测系统电路设计及管理分析. 煤矿现代化. 2021(04): 78-80 . 百度学术
18. 冯建宇. 考虑高频数据V-I特性的电力负荷异常值自动识别系统. 机械设计与制造工程. 2021(12): 109-112 . 百度学术
19. 李腾飞,李常友,李敬兆. 煤矿信息全面感知与智慧决策系统. 工矿自动化. 2020(03): 34-37+54 . 本站查看
20. 陈丽芳,王荣杰,刘云庆,周旭. XmR控制图的异常点检测算法研究. 中国科学技术大学学报. 2020(08): 1110-1115+1186 . 百度学术
其他类型引用(4)
计量
- 文章访问数: 85
- HTML全文浏览量: 17
- PDF下载量: 23
- 被引次数: 24