煤矿井下行人检测算法

杨清翔1,吕晨2,冯晨晨2,王振宇2

(1.山西中煤华晋能源有限责任公司 王家岭煤矿, 山西 河津 043300;2.中国矿业大学 信息与控制工程学院, 江苏 徐州 221116)

摘要针对井下光照不均匀、行人特征与背景的相似度高等导致基于计算机视觉的行人检测技术在井下应用面临很大挑战的问题,提出采用Faster区域卷积神经网络(RCNN)进行煤矿井下行人检测。Faster RCNN行人检测算法采用区域建议网络(RPN)生成候选区域,RPN 与Fast RCNN共享卷积层,以提高网络训练和检测速度;在图像特征提取过程中采用动态自适应池化方法对不同池化域进行自适应池化操作,提高了检测准确性。实验结果表明,该算法对于不同环境下图像中的行人均具有较好的检测效果。

关键词井下行人检测; 深度学习; 区域卷积神经网络; 区域建议网络; 共享卷积层; 动态自适应池化

0 引言

基于计算机视觉的行人检测方法采用摄像装置获取视频图像,通过图像处理算法对目标信息进行检测和分析,并用于后续跟踪任务[1],在智能视频监控[2]、无人汽车驾驶[3]、智能机器人[4]等领域发挥了重要作用。在智能化矿井建设中[5],采用计算机视觉技术对长距离胶带沿线、封闭巷道入口、斜巷等危险区域进行行人检测,对于提高煤矿安全生产管理水平、防范人身伤亡事故具有重要的意义。但井下光照不均匀、行人特征与背景的相似度高[6]等问题导致基于计算机视觉的行人检测技术在井下应用面临很大挑战。

鉴于基于深度学习的行人检测方法在复杂环境下的应用优势[7],本文采用Faster RCNN(Region Convolutional Neural Networks,区域卷积神经网络)[8]进行煤矿井下行人检测(Faster RCNN行人检测),并通过池化因子设计了一种动态自适应池化方法,实现了针对不同池化域的自适应池化操作,从而提高了检测准确性。实验结果验证了Faster RCNN行人检测算法针对不同环境下图像中的行人均具有较好的检测效果。

1 Faster RCNN行人检测算法

基于深度学习的行人检测算法主要思想是利用卷积和池化等操作对行人图像进行处理,获取卷积特征,采用全连接层作为分类器完成分类检测。Faster RCNN行人检测算法引入RPN(Region Proposal Network,区域建议网络)生成候选区域,采用Fast RCNN[9]检测目标,如图1所示。采用卷积层提取图像特征,在特征提取过程中进行动态自适应池化操作。RPN通过柔性最大值传输函数softmax判断锚点属于前景还是背景,再利用边框回归修正锚点,以获取精确的候选区域。感兴趣区域池化层根据输入的特征图和候选区域,采用动态自适应池化方法提取候选特征图并将其送入分类器(全连接层)。分类器计算候选区域类别,再次使用边框回归获得检测框作为检测结果。

图1 Faster RCNN行人检测算法

Fig.1 Faster RCNN pedestrian detection algorithm

Faster RCNN行人检测算法中RPN和Fast RCNN可共享卷积层,大幅提高了网络训练和检测速度,同时采用动态自适应池化方法,提高了行人检测准确性。

2 RPN与Fast RCNN共享卷积层

Faster RCNN行人检测算法中RPN目标是实现与Fast RCNN共享卷积层,主要思想为将输入图像转换为矩形目标建议框集合,并计算各框得分,该过程建模通过全卷积网络完成。

RPN只含有卷积层,最后一层输出的卷积特征为图像特征图。对其进行窗口滑动,在每个位置滑动时利用锚点机制按照3种尺寸和3种比例要求生成9种不同的锚点,并根据边框回归机制对位置进行修正。针对每个候选区域,RPN为其设置置信度,表明其可检测到行人目标的概率,并根据置信度选择合理的候选区域输入分类器进行分类检测。

RPN与Fast RCNN是独立训练的,卷积层修改方法不同。本文提出学习RPN和Fast RCNN的共享卷积层,而不是分别学习网络。在学习共享卷积层时采用交替训练算法,步骤如下。

(1) 对RPN进行训练。采用ImageNet预训练模型初始化RPN。RPN训练中采用端到端的微调。

(2) 利用RPN生成的矩形目标建议框,通过Fast RCNN训练得到检测网络。该网络采用步骤(1)中方法生成,但独立于RPN。此时RPN和检测网络未建立共享卷积层。

(3) 使用检测网络初始化RPN训练。此时不修改共享卷积层,只对RPN中独有的层进行微调。之后便可实现RPN和Fast RCNN共享卷积层。

(4) 在不改动RPN和Fast RCNN共享卷积层前提下,对Fast RCNN独有的层进行微调。之后RPN和Fast RCNN构成一个统一网络。

3 动态自适应池化

对于一幅行人图像,对可能包含行人的区域提取特征时,通常会对所获取的特征进行分析统计,以获取区域总体特征。图像中这个特定区域叫做池化域,对其进行的操作为池化。池化后得到的特征图维度与分辨率都有所下降,可有效避免过拟合现象发生。常用的池化方法有平均池化和最大池化。平均池化即计算池化域的像素平均值,并把该值作为子采样样本的特征值;最大池化即选取池化域中像素最大值作为特征值。

F为输入图像特征图中大小为c×c的子采样池化域,其偏移量为b。在池化操作过程中核的每一次移动步长为c,则采用平均池化和最大池化得到的子采样特征图分别如式(1)、式(2)所示。

(1)

Sm=maxfij+b

(2)

式中fijF中(i,j)处像素。

常用的平均池化和最大池化操作对所有的池化域采用相同池化方式,缺乏灵活性。本文提出一种动态自适应池化方法,根据特定区域的特征图动态自适应调整池化操作过程,同时根据每个池化域内容,对相应的池化权值进行自适应调整。如果池化域中只有1个值或所有值相同,则将该值作为该池化域的特征表示。设池化因子为μ,则采用动态自适应池化方法得到的子采样特征图为

Sd=μmaxfij+b

(3)

可见动态自适应池化方法是在最大池化基础上,通过池化因子μ对提取的子采样特征图进行优化,从而更加精确地表达图像的高层次抽象特征。

(4)

式中:ρ为特征系数;α为池化域中去除最大值后,其他像素的平均值;fmax为池化域中像素最大值,fmax=maxfijθ为误差矫正项。

(5)

式中ne为训练过程中迭代次数。

根据式(3)—式(5)可知,如果确定了池化域大小,并保持迭代次数不变,就可根据池化域的不同特点,自适应选取当前池化域的池化因子,从而获得最佳检测性能。如果存在池化域相同的情况,可通过调节迭代次数动态调节池化因子,最大程度上达到检测性能最优。池化因子取值范围为(0,1),这样可包含平均池化和最大池化,保证池化域含有较明显的像素最大值时输出准确结果,且在对其他池化域进行池化操作时提高最大池化提取特征信息时的准确度。

4 实验与结果分析

采用Caltech数据集,将本文算法与ACF[10],DeepCascade[11],SCF+AlexNet[12],Katamari[13],SpatialPooling+[14],TA-CNN[15],ACF++[16],LDCF[17],MS-CNN[18]算法的检测性能进行比较。

设置标准环境下图像中行人高度均超过50像素,没有或有少部分遮挡,采用不同算法时实验结果如图2所示。根据行人检测评价原则,将误检率为0.1时对应的漏检率和平衡点作为评价标准。图2各算法中的数值为其漏检率或平衡点。

(a) 漏检率-误检率曲线

(b) 精确度-查全率曲线

图2 标准环境下实验结果

Fig.2 Experimental results under standard environment

从图2可看出,本文算法漏检率最低,仅为9%,较基于卷积神经网络的TA-CNN和MS-CNN算法分别降低了12%和1%;平衡点最大,为87%,说明本文算法的查全率和精确度均优于其他算法。另外,本文算法的精确度-查全率曲线向右上角凸起的程度较其他算法大,说明本文算法的检测效果最优。

为验证本文算法针对不同背景的检测效果,选取6种参数环境进行实验,分别为部分遮挡(遮挡范围为1%~35%)、严重遮挡(遮挡范围为35%~80%)、大尺寸(行人高度大于80像素)、中小尺寸(行人高度为30~80像素)、标准宽高比和非标准宽高比,实验结果如图3所示。

从图3可看出,对于遮挡范围较小、尺寸较大的图像,各算法的检测效果较好,而对于遮挡严重、尺寸较小的图像,各算法的检测效果急剧下降,这与实际情况一致;在6种参数环境下,本文算法的漏检率均最低,证明本文算法对于不同遮挡范围、尺寸、宽高比情况的图像均能有效检测出行人。

5 结语

煤矿井下行人检测算法即Faster RCNN行人检测算法采用RPN生成候选区域,并与Fast RCNN共享卷积层,提高了网络训练和检测速度;采用动态自适应池化方法对不同特点的池化域进行自适应池化操作,提高了检测准确性。通过Caltech数据集验证了该算法对于不同环境下图像中行人均具有较好的检测效果。

(a) 部分遮挡

(b) 严重遮挡

(c) 大尺度

(d) 中小尺度

(e) 标准宽高比

(f) 非标准宽高比

图3 不同参数环境下实验结果

Fig.3 Experimental results under different parameter environments

参考文献(References):

[1] 王立松.基于深度学习的行人检测系统的设计与实现[D].北京:北京交通大学,2018.

WANG Lisong.Design and implementation of a pedestrian detection system based on deep learning[D].Beijing:Beijing Jiaotong University,2018.

[2] PRAKASH U M,THAMARAISELVI V G.Detecting and tracking of multiple moving objects for intelligent video surveillance systems[C]//The 2nd International Conference on Current Trends in Engineering and Technology,Coimbatore,2014:253-257.

[3] 王科俊,赵彦东,邢向磊.深度学习在无人驾驶汽车领域应用的研究进展[J].智能系统学报,2018,13(1):55-69.

WANG Kejun,ZHAO Yandong,XING Xianglei.Deep learning in driverless vehicles[J].CAAI Transactions on Intelligent Systems,2018,13(1):55-69.

[4] 王万良,朱炎亮,王铮,等.基于空间金字塔和特征集成的智能机器人目标检测算法[J].计算机集成制造系统,2017,23(11):2382-2391.

WANG Wanliang,ZHU Yanliang,WANG Zheng,et al.Intelligent robot object detection algorithm based on spatial pyramid and integrated features[J].Computer Integrated Manufacturing Systems,2017,23(11):2382-2391.

[5] 付国军.自动化综采工作面概念探讨[J].工矿自动化,2014,40(6):26-30.

FU Guojun.Probe on concept of automatic fully-mechanized coal mining face[J].Industry and Mine Automation,2014,40(6):26-30.

[6] 程德强,郑珍,姜海龙.一种煤矿井下图像增强算法[J].工矿自动化,2015,41(12):31-34.

CHENG Deqiang,ZHENG Zhen,JIANG Hailong.An image enhancement algorithm for coal mine underground[J].Industry and Mine Automation,2015,41(12):31-34.

[7] ZHAO Kai,DENG Jingjing,CHENG Deqiang.Real-time moving pedestrian detection using contour features[J].Multimedia Tools and Applications,2018,77(23):30891-30910.

[8] REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

[9] GIRSHICK R.Fast R-CNN[C]//IEEE International Conference on Computer Vision,Santiago,2015:1440-1448.

[10] DOLLAR P,APPEL R,BELONGIE S,et al.Fast feature pyramids for object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(8):1532-1545.

[11] ANGELOVA A,KRIZHEVSKY A,VANHOUCKE V,et al.Ferguson real-time pedestrian detection with deep network cascades[C]//The 26th British Machine Vision Conference,Swansea,2015:32.1-32.12.

[12] HOSANG J,OMRAN M,BENENSON R,et al.Taking a deeper look at pedestrians[C]//IEEE Conference on Computer Vision and Pattern Recognition,Boston,2015:4073-4082.

[13] BENENSON R,OMRAN M,HOSANG J,et al.Ten years of pedestrian detection, what have we learned?[C]//European Conference on Computer Vision,Zurich,2014:613-627.

[14] PAISITKRIANGKRAI S,SHEN C,HENGEL A V D.Pedestrian detection with spatially pooled features and structured ensemble learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,38(6):1243-1257.

[15] TIAN Yonglong,LUO Ping,WANG Xiaogang,et al.Pedestrian detection aided by deep learning semantic tasks[C]//IEEE Conference on Computer Vision and Pattern Recognition,Boston,2015:5079-5087.

[16] OHN-BAR E,TRIVEDI M M.To boost or not to boost?On the limits of boosted trees for object detection[C]//IEEE International Conference on Pattern Recognition,Cancun,2016:3350-3355.

[17] NAM W,DOLL'AR P,HAN J H.Local decorrelation for improved pedestrian detection[C]//The 28th Conference on Neural Information Processing Systems,Montreal,2014:424-432.

[18] CAI Zhaowei,FAN Quanfu,FERIS R S,et al.A unified multi-scale deep convolutional neural network for fast object detection[C]//Proceedings of 14th European Conference on Computer Vision,Amsterdam,2016:354-370.

Pedestrian detection algorithm of coal mine underground

YANG Qingxiang1, LYU Chen2, FENG Chenchen2, WANG Zhenyu2

(1.Wangjialing Coal Mine, Shanxi Zhongmei Huajin Energy Co., Ltd., Hejin 043300, China; 2.School of Information and Control Engineering, China University of Mining and Technology, Xuzhou 221116, China)

Abstract:Due to uneven underground illumination and high similarity between pedestrian characteristics and background, pedestrian detection technology based on computer vision is facing great challenges in underground application. Faster region convolutional neural networks(RCNN) was proposed for pedestrians detection of coal mine underground. Faster RCNN pedestrian detection algorithm uses region proposal network(RPN) to generate candidate regions. RPN shares convolutional layer with Fast RCNN, so as to improve network training and detection speed. A dynamic self-adaptive pooling method is adopted to perform self-adaptive pooling operation for different pooling domains in the process of image feature extraction, so as to improve detection accuracy. The experimental results show that the algorithm has better detection effect for pedestrian image in different environments.

Key words:underground pedestrian detection; deep learning; region convolutional neural networks; region proposal network; shared convolutional layer; dynamic self-adaptive pooling

中图分类号:TD76

文献标志码:A

文章编号1671-251X(2020)01-0080-05

DOI:10.13272/j.issn.1671-251x.17540

收稿日期:2019-12-21;修回日期:2020-01-02;责任编辑:李明。

基金项目:国家重点研发计划资助项目(2018YFC0808302)。

作者简介:杨清翔(1980-),男,河南新野人,高级工程师,硕士,主要研究方向为矿山机电管理,E-mail:yyqqxx001@163.com。

引用格式:杨清翔,吕晨,冯晨晨,等.煤矿井下行人检测算法[J].工矿自动化,2020,46(1):80-84.

YANG Qingxiang,LYU Chen,FENG Chenchen,et al.Pedestrian detection algorithm of coal mine underground[J].Industry and Mine Automation,2020,46(1):80-84.