A pedestrian target detection method for underground coal mine based on image fusion and improved CornerNet-Squeeze
-
摘要: 在煤矿井下无人驾驶和安防监控等领域,对行人目标的检测至关重要,但受井下光线昏暗、光照不均、背景复杂、行人目标小且密集等特殊工况环境的影响,图像中的行人目标存在边缘细节特征少、信噪比低、与背景相似度高等问题,难以有效识别遮挡多尺度下的行人目标。针对上述问题,提出了一种基于图像融合和改进CornerNet-Squeeze的煤矿井下行人目标检测方法。采用双尺度图像融合(TIF)算法将红外相机和深度相机采集的图像进行像素级融合,再进行形态学处理,减少背景干扰。在CornerNet-Squeeze网络基础上,将八度卷积(OctConv)引入沙漏型主干网络,处理图像特征中高低频信息,增强图像边缘特征,提高多尺度行人检测能力。实验结果表明:① 在深度图像、红外图像、融合图像3种数据集上,改进CornerNet-Squeeze模型在保持原算法实时性的同时,有效提升了井下行人检测精度。② 采用融合图像数据集训练的模型检测精度较红外图像和深度图像数据集训练的模型高,可见融合图像能充分发挥深度图像和红外图像的优势,有助于提高模型检测精度。③ 在不同程度遮挡和多尺度行人目标6种场景下,改进CornerNet-Squeeze训练的模型的行人漏检率最低。④ 与YOLOv4 相比,在 COCO2014 行人数据集上改进CornerNet-Squeeze算法的平均精度提高了 1.1%,检测速度提高了6.7%。⑤ 改进CornerNet-Squeeze能够有效检测出图像中远处小目标,对小目标的检测能力提升明显。Abstract: In unmanned driving and security monitoring in the coal mine, detecting pedestrian targets is very important. But under the influence of special working conditions such as dim light, uneven illumination, complex background, and small and dense pedestrian targets, the pedestrian targets in the image have some problems such as few edge details, low signal-to-noise ratio and high similarity with the background. It is difficult to effectively identify the pedestrian targets under multi-scale occlusion. In order to solve the above problems, a pedestrian detection method for underground coal mine based on image fusion and improved CornerNet-Squeeze is proposed. The image collected by the infrared camera and depth camera is fused at the pixel level using the two-scale image fusion (TIF) algorithm. The morphological processing is carried out for the fused imoge to reduce background interference. Based on the CornerNet-Squeeze network, octave convolution (OctConv) is introduced into the hourglass type backbone network to process the high and low frequency information of image features, so as to enhance the image edge features and improve the detection capability of multi-scale pedestrians. The experimental results show the following points. ① The improved CornerNet-Squeeze model can effectively improve the detection precision of underground pedestrian while maintaining the real-time performance of the original algorithm on the data sets of range image, infrared image and fusion image. ② The detection precision of the model trained by the fusion image dataset is higher than that of the models trained by the infrared image dataset or the depth image dataset. The result shows that the fusion image can give full play to the advantages of the depth image and the infrared image, and is helpful to improve the detection precision of the model. ③ In the six scenes of different degrees of occlusion and multi-scale pedestrian target, the model trained by the improved CornerNet-Squeeze has the lowest pedestrian misdetection rate. ④ Compared with YOLOv 4, the average accuracy of the improved CornerNet-Squeeze algorithm on the COCO2014 pedestrian dataset is improved by 1.1%, and the detection speed is improved by 6.7%. ⑤ The improved CornerNet-Squeeze can effectively detect the small target in the image. The detection capability of the small target is obviously improved.
-
0. 引言
近年来,随着煤矿智能化建设加速进行,机器视觉技术在井下行人检测领域应用广泛,通过图像处理算法对行人目标进行检测和分析,用于后续井下无人驾驶车辆感知和智能安防监控等,对于提高煤矿安全生产管理水平、防范人身伤亡事故具有重要意义[1-2]。受井下光线昏暗、光照不均、背景复杂、行人目标小且密集等特殊工况环境的影响,图像中的行人目标存在边缘细节特征少、信噪比低、与背景相似度高等问题,难以有效识别遮挡多尺度下的行人目标,导致基于机器视觉的行人检测技术在井下应用面临很大挑战。
基于机器视觉的行人目标检测技术主要分为基于传统图像处理算法和基于深度学习算法2种。基于传统图像处理的行人目标检测算法包括方向梯度直方图(Histogram of Oriented Gradient, HOG)+支持向量机(Support Vector Machines,SVM)、积分通道特征(Integral Channel Features,ICF)+AdaBoost、可变形部件模型(Deformable Part Model,DPM)等[3],主要依赖人工设计特征,获得的行人检测特征主观性强,鲁棒性差,无法满足煤矿井下暗光、粉尘等特殊工况的多尺度行人检测需求。基于深度学习的行人目标检测算法通过大规模数据集训练学习,主动提取特征,解决了基于传统图像处理的行人目标检测算法模型泛化能力差的问题,针对复杂环境下的图像处理问题具有更大的性能优势和应用潜力。基于深度学习的行人目标检测算法主要包括two-stage和one-stage 2类。two-stage算法通过区域生成网络产生目标候选框,并对目标候选框进行分类回归,以基于区域候选框的卷积神经网络(Region-based Convolutional Neural Networks,RCNN)及其迭代升级网络Fast RCNN、Faster RCNN[4]为代表,优点是检测效果较好;one-stage算法采用端到端的方式训练网络,无需生成区域候选框,直接对目标检测框进行分类回归并输出检测结果,主要包括SSD[5]系列、YOLO[6]系列、CornerNet[7]系列等,优点是检测速度快。李伟山等[8]提出了一种改进的Faster RCNN煤矿井下行人检测方法,以Faster RCNN算法为基础,对候选区域网络(Region Proposals Network,RPN)结果进行改进,将不同层级的特征融合,以提高行人检测准确率,但网络计算量大,无法应用于实时系统中。李现国等[9]设计了一种基于DenseNet网络的轻量级卷积神经网络作为SSD网络的基础网络﹐以满足井下视频行人实时检测需求,并设计了基于ResNet网络的辅助网络,以增强特征表征能力,虽然其检测速度很快,但在井下遮挡、密集场景下的行人检测效果不理想。张明臻[10]针对井下弱光环境中捕获图像质量不佳的问题,通过将弱光图像分解为光照图和反射图进行增强和去噪处理,并将含有残差块的 Dense 模块添加到 YOLO网络中,构建了基于 Dense-YOLO 网络的井下行人检测模型,以降低弱光环境下行人检测漏检率,但其对于一些垂直边缘较强,与背景相似度高的干扰物易造成虚警。
针对上述问题,本文提出了一种基于图像融合和改进CornerNet-Squeeze的煤矿井下行人检测方法。该方法对红外相机和深度相机采集的图像进行融合,并结合二者优势,提升井下行人检测的精度;在CornerNet-Squeeze的主干网络后加入八度卷积(Octave Convolution,OctConv),增强行人目标边缘特征,提高井下多尺度行人目标的检测能力。
1. CornerNet-Squeeze网络
CornerNet网络作为一种one-stage 的 Anchor-Free 目标检测算法,省略了生成锚框的步骤,具有与two-stage算法相媲美的检测精度[11-12],网络结构如图1所示。其中沙漏型主干网络Hourglass Network由2个全卷积网络Hourglass-52 Network组成,通过一系列下采样和上采样操作,实现输入图像的多通道特征图提取。提取的特征图输出到2个分支模块,并分别预测目标左上角和右下角2组角点位置。每个角点分支预测模块经过Corner Pooling后,输出 Heatmap、Embeddings、Offsets 3个部分[13]。Heatmap输出预测角点信息;Embeddings输出不同角点之间的距离,判断2个角点是否属于同一个实例目标;Offsets输出从输入映射到特征图的误差信息,调整目标角点位置。通过聚合三者信息预测得到目标角点,采用Soft-NMS操作去除冗余框,最终输出目标检测结果。
沙漏型主干网络Hourglass Network中单个Hourglass-52 Network网络结构如图2所示[14-16]。该网络中使用了大量的Res残差模块,当输入图像尺寸为256×256时, 主干网络部分的参数量高达18 700 万,巨大的参数量造成大部分计算资源集中消耗,导致实时性降低,且其计算复杂度会随输入图像尺寸增大呈指数增加[16]。为降低沙漏型主干网络复杂度,追求更高的实时性,CornerNet-Squeeze在CornerNet基础上结合SqueezeNet[17-18]的思想,采用SqueezeNet中的fire模块代替Hourglass network中的Res残差模块,对其进行精简处理。Res残差模块由2个3 × 3大小的卷积层和跳跃连接组成;fire模块先使用1 × 1卷积层对数据进行降维处理,再用可分离的1 × 1卷积层和3 × 3卷积层进行组合扩展。采用1× 1的卷积核参数量为3 × 3卷积核的1/9,可大大减少Hourglass network计算参数,提高模型的推理速度。
2. 改进CornerNet-Squeeze网络
CornerNet-Squeeze网络只对沙漏型主干网络做了轻量化处理,但面对复杂背景和小目标图像时,往往目标特征提取不完整,影响Heatmap热图对目标角点位置的判断,导致目标检测框定位错误。因此,本文在CornerNet-Squeeze的沙漏型主干网络后引入OctConv[19-20]特征增强模块,在 不 明 显 增 加CornerNet-Squeeze网络复杂度的情况下,加强对目标边缘特征的提取能力,提高Heatmap热图对角点预测的准确性,减少CornerNet-Squeeze网络由于目标角点漏检导致空间距离较小的同类目标及小目标误检情况。改进CornerNet-Squeeze网络结构如图3所示。
在卷积神经网络中,卷积计算得到的特征图中存在高频部分和低频部分,通过分离特征图,增加高频信息输出,可更多地提取图像中所关注目标的轮廓特征,有助于增强目标边缘特征,提高识别率。本文在CornerNet-Squeeze网络中引入OctConv特征增强模块,对经沙漏型主干网络提取的特征图中高低频特征分量进行分离,输出更多代表目标轮廓信息的高频特征,增强目标边缘特征。其处理步骤如下。
1) 采用1 × 1的Conv对主干网络提取的特征图进行降维处理。
2) 降维后的特征图通过OctConv分离−融合高低频特征信息,过程如图4所示。
首先沿通道尺寸使用系数
$ \alpha $ 将沙漏型主干网络提取的特征图分解为高频分量H和低频分量L,$ H \in {{\boldsymbol{F}}^{\left( {1 - \alpha } \right)c \times h \times w}} $ ,$ L \in {{\boldsymbol{F}}^{\alpha \times c \times \tfrac{h}{2} \times \tfrac{w}{2}}} $ ,$ {{\boldsymbol{F}}^{c \times h \times w}} $ 为输入特征张量,$ \alpha \in \left[ {0,1} \right] $ ,$ \alpha $ = 0 时仅输出高频分量,$ \alpha $ = 1 时仅输出低频分量,c为通道数,h,w为特征张量的空间维度。然后对高频分量H进行平均池化和卷积操作,对低频分量L进行卷积和上采样操作,分别输出融合特征分量$ {H_{\text{m}}} $ 和$ {L_{\text{m}}} $ 。最后加权得到融合的特征信息M。求解过程为$$ {L_{\text{m}}} = (L \otimes C) + (PH \otimes C) $$ (1) $$ {H_{\text{m}}} = (H \otimes C) + U(L \otimes C) $$ (2) $$ \begin{split} M = \left[ {\alpha {L_{\text{m}}} + (1 - \alpha ){H_{\text{m}}}} \right] \rho \end{split} $$ (3) 式中:C为k
$ \times $ k的卷积核,$ C \in {{\boldsymbol{F}}^{c \times k \times k}} $ ,k为卷积核大小;$ \otimes $ 为卷积运算;P为池化操作;U为上采样操作;$ \rho $ 为幅值系数,$ \rho \in \left( {0,1} \right) $ 。3) 输出的高频信息经过1 × 1反卷积 DConv操作,还原图像原有尺寸,在后续角点预测模块经处理生成Heatmap,计算角点得到目标检测结果。
3. 模型训练与结果分析
3.1 数据集制作
为充分采集煤矿井下行人数据,将红外相机和深度相机安装在防爆无轨胶轮车车顶,采集的原始数据以视频方式保存。通过对视频抽帧得到深度图像和红外图像,基于尺度不变特征变换算法对红外图像和深度图像进行配准对齐,对配准图像进行中心裁剪以消除边缘部分的对齐误差,最终得到1 000组 480× 360 的红外图像和深度图像对齐图像。
采用双尺度图像融合(Two-scale Image Fusion,TIF)算法[21]通过图像分解、图像合并、图像重构对1 000组红外图像和深度图像对齐图像进行融合处理。为了进一步提高融合后图像的成像品质,采用形态学方法对融合图像进行处理,突出行人的纹理细节和灰度特征,消除冗余的背景干扰。图像融合处理原理如图5所示。
1) 图像分解。首先使用均值滤波器
$ \mu \left( {x,y} \right) $ 对原始红外图像$ {f_1}\left( {x,y} \right) $ 和原始深度图像$ {f_2}\left( {x,y} \right) $ 进行图像分解,分别获得红外图像基础层图像$ f_{_1}^{\rm{b}}\left( {x,y} \right) $ 、深度图像基础层图像$ f_2^{\rm{b}}\left( {x,y} \right) $ ,并通过原始红外图像和原始深度图像与红外图像基础层图像和深度图像基础层图像的差值得到红外图像细节层图像$ f_1^{\rm{d}}\left( {x,y} \right) $ 和深度图像细节层图像$ f_2^{\rm{d}}\left( {x,y} \right) $ 。2) 图像合并。采用算术平均策略对基础层图像进行合并,得到基础层合并图像
$ {f}^{{\rm{b}}}(x,y),{f}^{{\rm{b}}}(x,y)= \dfrac{1}{2}({f}_{1}^{{\rm{b}}}\left(x,y\right)+{f}_{2}^{{\rm{b}}}\left(x,y\right)) $ 。采用加权处理策略对细节层图像进行合并,分别对原始红外图像$ {f_1}\left( {x,y} \right) $ 和原始深度图像$ {f_2}\left( {x,y} \right) $ 进行均值滤波和中值滤波,计算均值滤波图像$ {\varphi _{{f_1}}} $ ,$ {\varphi _{{f_2}}} $ 和中值滤波图像$ {\theta _{f_1}},{\theta _{f_2}} $ 的欧拉距离,得到视觉显著图像$ {\varepsilon _1}\left( {x,y} \right) $ 和$ {\varepsilon _2}\left( {x,y} \right) $ ,进一步计算得到细节层的加权合并系数矩阵$ {{\boldsymbol{\delta}} }_{1}(x,y)=\dfrac{{\varepsilon }_{1}(x,y)}{{\varepsilon }_{1}\left(x,y\right)+{\varepsilon }_{2}(x,y)} $ 和${{\boldsymbol{\delta}} }_{2}(x,y)=\dfrac{{\varepsilon }_{2}(x,y)}{{\varepsilon }_{1}\left(x,y\right)+{\varepsilon }_{2}(x,y)}$ ,细节层合并图像${f}^{{\rm{d}}}\left(x,y\right)= {{\boldsymbol{\delta}} }_{1}\left(x,y\right){f}_{1}^{{\rm{d}}}\left(x,y\right){+{\boldsymbol{\delta}} }_{2}\left(x,y\right){f}_{2}^{{\rm{d}}}\left(x,y\right)$ 。3) 图像重构。对合并后的基础层图像和细节层图像采用像素位对应相加进行图像重构,得到最后深度图像和红外图像的融合图像
$z \left( {x,y} \right) = {f^{\rm{b}}}\left( {x,y} \right) + {f^{\rm{d}}}\left( {x,y} \right)$ 。4) 形态学处理。采用先腐蚀后膨胀形态学开运算对融合后的图像进行形态学处理,消除亮度较高的细小区域,去除孤立的小点、毛刺,消除小物体,平滑较大物体边界,减小背景干扰,突出行人轮廓特征。
经过上述步骤处理后的深度图像和红外图像融合结果如图6所示。可看出融合图像结合了红外图像的行人灰度特征和深度图像的轮廓边缘,经过形态学处理后,减少了环境信息干扰,突出了行人特征,有助于提高行人检测的准确率。
3.2 模型训练
对深度图像、红外图像及融合图像使用标注软件LabelImg进行人工标注,得到3种训练数据集。整个数据集包含遮挡、密集人群、小目标在井下低照度、水雾、粉尘等特殊场景样本,总计约2 000个行人目标。
行人目标检测模型的训练平台为NVIDIA GeForce GTX 2080Ti,内存为32 GB,操作系统为Ubuntu18.04LTS,采用Pytorch 深度学习框架,推理平台为矿用本安型边缘计算装置,具有14TOP算力。红外、 深度、融合数据集均包含1 000张图像,将图像数据集按比例随机划分,训练集和验证集分别包含700张和100张图像样本,测试集包含200张图像样本。在模型训练时先对输入图像进行随机裁剪、扩充、水平翻转和不等比例缩放,以增强数据集,再对图像采用主成分分析方法(Principal Component Analysis,PCA)进行白化操作,降低输入数据的冗余性。设置最大训练周期为500,初始学习率为0.001,每经过100次迭代,学习率降为原来的0.5 倍。模型训练使用 Early-Stopping策略,当模型验证损失值多次不下降时,认为模型达到收敛状态,自动结束训练。使用改进CornerNet-Squeeze网络和原始CornerNet、CornerNet-Squeeze网络分别在3种数据集上进行训练,得到相应的模型。
选取CornerNet-Squeeze网络与改进CornerNet-Squeeze网络在同一数据集上进行训练,验证损失值曲线如图7所示。可看出迭代400次后2个模型逐渐达到收敛,改进CornerNet-Squeeze 网络较CornerNet-Squeeze网络验证损失值低,说明改进CornerNet-Squeeze网络训练模型具有更好的泛化能力。
3.3 试验结果
采用准确率p、召回率R、漏检率F、平均精度A及帧速率(Frames Per Second,FPS)作为性能评价指标。
$$ p = \frac{{{N_{{\text{TP}}}}}}{{{N_{{\text{TP}}}} + {N_{{\text{FP}}}}}} $$ (4) $$ R = \frac{{{N_{{\text{TP}}}}}}{{{N_{{{\text{TP}}}}} + {N_{{\text{FN}}}}}} $$ (5) $$ F = \frac{{{N_{{\text{FN}}}}}}{{{N_{{{\text{TP}}}}} + {N_{{\text{FN}}}}}} $$ (6) $$ A = \int_0^1 {p{\text{d}}R} $$ (7) 式中:NTP为被预测为正样本的正样本数量;NFP为被预测为正样本的负样本数量;NFN为被预测为负样本的正样本数量;A为平均精度,用来衡量算法的检测精度。
小尺度目标的评价指标为 As(像素面积小于32×32 的目标检测平均精度),中等尺度目标评价指标为 Am(像素面积大于32×32且小于96×96 的目标检测平均精度),大尺度目标评价指标为 Ab(像素面积大于96×96 的目标检测平均精度)。
训练完成后,不同模型针对不同数据集的行人目标检测性能见表1。可看出对于同一数据集,CornerNet-Squeeze模型和改进CornerNet-Squeeze模型的检测速度比CornerNet模型高;改进CornerNet-Squeeze模型的检测精度较CornerNet-Squeeze模型和CornerNet模型高,由此可见改进CornerNet-Squeeze模型在提升行人目标检测准确性的同时,保持了原算法的检测速度;同一模型采用不同数据集训练时,融合图像数据集训练得到的模型检测精度较深度图像和红外图像数据集训练得到模型检测精度高,检测速度略有下降,这是由于图像的融合处理导致计算量增加,牺牲了部分检测速率,但不影响模型的实时检测性能,说明融合图像能充分结合深度图像和红外图像二者的优势,有利于提高模型的检测精度。
表 1 不同模型的行人目标检测性能Table 1. Pedestrian target detection performance of different models数据集 模型 A/% FPS/(帧·s−1) 红外图像 CornerNet 71.18 24 CornerNet-Squeeze 73.68 31 改进CornerNet-Squeeze 78.36 31 深度图像 CornerNet 72.11 25 CornerNet-Squeeze 74.56 30 改进CornerNet-Squeeze 78.21 29 融合图像 CornerNet 75.76 22 CornerNet-Squeeze 82.63 28 改进CornerNet-Squeeze 85.36 28 为验证本文算法在不同背景下的行人检测效果,设定轻微遮挡(遮挡范围10%~30%)、部分遮挡(遮挡范围30%~60%)、严重遮挡(遮挡范围60%~80%)、大尺寸目标(行人高度大于80像素)、中小尺寸目标(行人高度40~80像素)、极小尺寸目标(行人高度小于40像素)6种行人目标测试场景,采用融合图像数据集训练的3种模型进行行人目标检测,结果见表2。可看出在6种测试场景下,改进CornerNet-Squeeze模型漏检率均最低。
表 2 不同背景下行人目标检测效果Table 2. Pedestrian target detection effect in different backgrounds测试场景 目标总
数/个漏检率/% CornerNet CornerNet-
Squeeze改进
CornerNet-Squeeze轻微遮挡 200 2.82 2.33 1.81 部分遮挡 160 11.43 9.12 8.36 严重遮挡 60 52.37 48.81 43.54 大尺寸目标 180 1.55 1.46 1.22 中小尺寸目标 150 7.39 6.88 6.12 极小尺寸目标 50 40.33 35.78 31.68 为进一步验证改进CornerNet-Squeeze的可行性和先进性,与主流目标检测算法YOLOv4在 COCO2014 行人数据集上训练得到的模型进行比较,结果见表3。可看出改进CornerNet-Squeeze算法的精度A较YOLOv4提高了 1.1%,检测速度提高了6.7%。对于小尺度行人目标,改进CornerNet-Squeeze算法的As明显优于YOLOv4算法,但对于中等和大尺寸行人目标,改进CornerNet-Squeeze算法的Am,Ab较YOLOv4算法有所下降,这是由于中等和大尺寸目标在图像中占比较大,特征相对显著,在此类图像下本文算法对目标边缘增强效果有限。
表 3 在COCO2014 行人数据集上性能对比Table 3. Performance comparison on the COCO2014 pedestrian dataset算法 检测速度/ms A/% As/% Am/% Ab/% YOLOv4 30 43.2 13.2 45.4 65.6 改进CornerNet-Squeeze 32 44.3 18.1 44.1 64.3 测试集中部分图像的行人目标检测结果如图8所示,从左到右分别为红外图像、深度图像和融合图像在CornerNet-Squeeze和改进CornerNet-Squeeze上的测试结果。可看出采用融合图像在2种模型上进行行人目标检测的置信度较红外图像和深度图像均有所提升;改进CornerNet-Squeeze有效检测出了红外图像和融合图像中远处小目标,而CornerNet-Squeeze未能检出。
4. 结论
1) 采用SqueezeNet中的fire模块替换CornerNet中沙漏型主干网络的Res模块实现轻量化改造,CornerNet-Squeeze模型较CornerNet模型在检测速率上有明显提升;引入OctConv特征增强模块,所得改进CornerNet-Squeeze模型较CornerNet-Squeeze、CornerNet模型在检测精度上显著提高。可见改进CornerNet-Squeeze模型在提升行人检测准确性的同时兼顾了检测实时性。
2) 采用融合图像数据集训练得到的模型检测精度较红外图像、深度图像数据集训练得到的模型高,FPS略有下降,表明融合图像能充分结合深度图像和红外图像的优势,有利于提高模型检测精度,但图像的融合处理导致计算量增加,牺牲了部分检测速率。
3) 改进CornerNet-Squeeze模型的漏检率最低,针对遮挡及多尺度行人目标的检测具有一定优势。
4) 与YOLOv4 相比,在 COCO2014 行人数据集上改进CornerNet-Squeeze的平均精度提高了 1.1%,检测速度提高了6.7%。
5) 改进CornerNet-Squeeze模型能够有效检测出图像中的远处小目标,对小目标的检测能力提升明显。
-
表 1 不同模型的行人目标检测性能
Table 1 Pedestrian target detection performance of different models
数据集 模型 A/% FPS/(帧·s−1) 红外图像 CornerNet 71.18 24 CornerNet-Squeeze 73.68 31 改进CornerNet-Squeeze 78.36 31 深度图像 CornerNet 72.11 25 CornerNet-Squeeze 74.56 30 改进CornerNet-Squeeze 78.21 29 融合图像 CornerNet 75.76 22 CornerNet-Squeeze 82.63 28 改进CornerNet-Squeeze 85.36 28 表 2 不同背景下行人目标检测效果
Table 2 Pedestrian target detection effect in different backgrounds
测试场景 目标总
数/个漏检率/% CornerNet CornerNet-
Squeeze改进
CornerNet-Squeeze轻微遮挡 200 2.82 2.33 1.81 部分遮挡 160 11.43 9.12 8.36 严重遮挡 60 52.37 48.81 43.54 大尺寸目标 180 1.55 1.46 1.22 中小尺寸目标 150 7.39 6.88 6.12 极小尺寸目标 50 40.33 35.78 31.68 表 3 在COCO2014 行人数据集上性能对比
Table 3 Performance comparison on the COCO2014 pedestrian dataset
算法 检测速度/ms A/% As/% Am/% Ab/% YOLOv4 30 43.2 13.2 45.4 65.6 改进CornerNet-Squeeze 32 44.3 18.1 44.1 64.3 -
[1] 王珂硕. 基于深度学习的井下行人检测方法研究[D]. 哈尔滨: 黑龙江科技大学, 2022. WANG Keshuo. Research on pedestrian detection method in mines based on deep learning[D]. Harbin: Heilongjiang University of Science and Technology, 2022.
[2] 杨清翔,吕晨,冯晨晨,等. 煤矿井下行人检测算法[J]. 工矿自动化,2020,46(1):80-84. DOI: 10.13272/j.issn.1671-251x.17540 YANG Qingxiang,LYU Chen,FENG Chenchen,et al. Pedestrian detection algorithm of coal mine underground[J]. Industry and Mine Automation,2020,46(1):80-84. DOI: 10.13272/j.issn.1671-251x.17540
[3] 李晓明,郎文辉,马忠磊,等. 基于图像处理的井下机车行人检测技术[J]. 煤矿机械,2017,38(4):167-170. DOI: 10.13436/j.mkjx.201704059 LI Xiaoming,LANG Wenhui,MA Zhonglei,et al. Pedestrian detection technology for mine locomotive based on image processing[J]. Coal Mine Machinery,2017,38(4):167-170. DOI: 10.13436/j.mkjx.201704059
[4] REN Shaoqing,HE Kaiming,GIRSHICK R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[5] 唐聪,凌永顺,郑科栋,等. 基于深度学习的多视窗SSD目标检测方法[J]. 红外与激光工程,2018,47(1):302-310. TANG Cong,LING Yongshun,ZHENG Kedong,et al. Object detection method of multi-view SSD based on deep learning[J]. Infrared and Laser Engineering,2018,47(1):302-310.
[6] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 2016: 779-788.
[7] LAW Hei,DENG Jia. CornerNet:detecting objects as paired Keypoints[J]. International Journal of Computer Vision,2020,128(2):642-656.
[8] 李伟山,卫晨,王琳. 改进的Faster RCNN煤矿井下行人检测算法[J]. 计算机工程与应用,2019,55(4):200-207. DOI: 10.3778/j.issn.1002-8331.1711-0282 LI Weishan,WEI Chen,WANG Lin. lmproved Faster RCNN approach for pedestrian detection in underground coal mine[J]. Computer Engineering and Applications,2019,55(4):200-207. DOI: 10.3778/j.issn.1002-8331.1711-0282
[9] 李现国,李斌,刘宗鹏,等. 井下视频行人检测方法[J]. 工矿自动化,2020,46(2):54-58. DOI: 10.13272/j.issn.1671-251x.2019060024 LI Xianguo,LI Bin,LIU Zongpeng,et al. Underground video pedestrian detection method[J]. Industry and Mine Automation,2020,46(2):54-58. DOI: 10.13272/j.issn.1671-251x.2019060024
[10] 张明臻. 基于Dense-YOLO网络的井下行人检测模型[J]. 工矿自动化,2022,48(3):86-90. DOI: 10.13272/j.issn.1671-251x.17861 ZHANG Mingzhen. Underground pedestrian detection model based on Dense-YOLO network[J]. Journal of Mine Automation,2022,48(3):86-90. DOI: 10.13272/j.issn.1671-251x.17861
[11] 张庆庆,朱仲杰,高明,等. 基于CornerNet-Lite的输电塔与绝缘子目标识别与检测[J]. 浙江万里学院学报,2020,33(3):85-90. DOI: 10.13777/j.cnki.issn1671-2250.2020.03.014 ZHANG Qingqing,ZHU Zhongjie,GAO Ming,et al. Target recognition and detection of transmission tower and insulator based on Corner Net-Lite[J]. Journal of Zhejiang Wanli University,2020,33(3):85-90. DOI: 10.13777/j.cnki.issn1671-2250.2020.03.014
[12] 赵文清,孔子旭,赵振兵. 隔级融合特征金字塔与CornerNet相结合的小目标检测[J]. 智能系统学报,2021,16(1):108-116. ZHAO Wenqing,KONG Zixu,ZHAO Zhenbing. Small target detection based on a combination of feature pyramid and CornerNet[J]. CAAI Transactions on Intelligent Systems,2021,16(1):108-116.
[13] 刘宇航,马健霄,王羽尘,等. 基于改进CornerNet-Lite的林区行人检测算法[J]. 林业工程学报,2021,6(4):154-156. LIU Yuhang,MA Jianxiao,WANG Yuchen,et al. Forest-pedestrian detection algorithm based on improved CornerNet-Lite[J]. Journal of Forestry Engineering,2021,6(4):154-156.
[14] 刘子威,邓春华,刘静. 基于非对称沙漏网络结构的目标检测算法[J]. 计算机应用,2020,40(12):3526-3533. LIU Ziwei,DENG Chunhua,LIU Jing. Object detection algorithm based on asymmetric hourglass network structure[J]. Journal of Computer Applications,2020,40(12):3526-3533.
[15] 吴佳豪,周凤,李亮亮. 基于堆叠沙漏网络的人体姿态估计[J]. 计算机系统应用,2021,30(10):295-300. WU Jiahao,ZHOU Feng,LI Liangliang. Human pose estimation based on stacked hourglass network[J]. Computer Systems & Applications,2021,30(10):295-300.
[16] 江洪,宋勇,隋国成,等. 智能选矸机器人系统的研究与应用[J]. 选煤技术,2020(4):81-87. DOI: 10.16447/j.cnki.cpt.2020.04.019 JIANG Hong,SONG Yong,SUI Guocheng,et al. Study and application of the intelligent robotic gangue picking system[J]. Coal Preparation Technology,2020(4):81-87. DOI: 10.16447/j.cnki.cpt.2020.04.019
[17] 李坤伦,魏泽发,宋焕生. 基于SqueezeNet卷积神经网络的车辆颜色识别[J]. 长安大学学报(自然科学版),2020,40(4):109-116. LI Kunlun,WEI Zefa,SONG Huansheng. Vehicle color recognition based on SqueezeNet[J]. Journal of Chang'an University(Natural Science Edition),2020,40(4):109-116.
[18] 王继霄,李阳,王家宝,等. 基于SqueezeNet的轻量级图像融合方法[J]. 计算机应用,2020,40(3):837-841. WANG Jixiao,LI yang,WANG Jiabao. Light-weight image fusion method based on SqueezeNet[J]. Journal of Computer Applications,2020,40(3):837-841.
[19] 蒙双,陈乐庚,肖晨晨. 基于改进OctConv的车道线检测算法研究[J]. 计算机仿真,2021,38(5):142-145,218. MENG Shuang,CHEN Legeng,XIAO Chenchen. Researchon lane detection algorithm based on improved OctConv[J]. Computer Simulation,2021,38(5):142-145,218.
[20] 高原,陈爱斌,周国雄,等. 基于OctConv的DCNN在遥感图像场景分类中的应用[J]. 电子测量与仪器学报,2020,34(1):61-67. GAO Yuan,CHEN Aibin,ZHOU Guoxiong,et al. Application of DCNN based on OctConv in scene classification of remote sensing images[J]. Journal of Electronic Measurement and Instrumentation,2020,34(1):61-67.
[21] BAVIRISETI DP,DHULI R. Two-scale image fusion of visible and infrared images using saliency detection[J]. Infrared Physics & Technology,2016,76:52-64.
-
期刊类型引用(1)
1. 宋恒,张宜声,耿天宝,王东杰. 一种受监督热图隧道衬砌线识别算法. 工程科学与技术. 2024(04): 78-87 . 百度学术
其他类型引用(5)