轻量化煤矸目标检测方法研究

杜京义; 史志芒; 郝乐; 陈瑞

doi:10.13272/j.issn.1671-251x.2021040029

轻量化煤矸目标检测方法研究

1.
1. 西安科技大学电气与控制工程学院, 陕西西安 710054;
2.
2. 西安科技大学安全科学与工程学院, 陕西西安 710054

基金项目:

工信部物联网集成创新与融合应用项目（工信部科函〔2018〕470号）。

详细信息

作者简介:
杜京义(1965-),男,山东淄博人,教授,研究方向为模式识别与神经网络,E-mail:517571853@qq.com。

中图分类号: TD67
计量
- 文章访问数: 163
- HTML全文浏览量: 13
- PDF下载量: 35
出版历程
- 收稿日期: 2021-04-10
- 修回日期: 2021-11-06
- 刊出日期: 2021-11-19

Research on lightweight coal and gangue target detection method

1.
College of Electrical and Control Engineering, Xi'an University of Science and Technology, Xi'an 710054, China;
2.
College of Safety Science and Engineering, Xi'an University of Science and Technology, Xi'an 710054, China

摘要

摘要: 针对目前基于深度学习的煤矸目标检测方法精度低、实时性差、小目标易漏检等问题，采用轻量化网络、自注意力机制、锚框优化方法对SSD模型进行改进，构建Ghost-SSD模型，进而提出一种轻量化煤矸目标检测方法。Ghost-SSD模型以SSD模型为基础框架，采用GhostNet轻量化特征提取网络代替主体网络层VGG16，以提高煤矸目标检测速度；针对浅层特征图中包含较多背景噪声及语义信息不足问题，引入自注意力模块对浅层特征图进行特征增强，提高对前景区域的关注度，并采用扩张卷积增大浅层特征图的感受野，丰富浅层特征图的语义信息；采用K-means算法对锚框进行聚类，优化锚框尺寸设置，进一步提高煤矸目标检测精度。实验结果表明，基于Ghost-SSD模型进行煤矸目标检测时，平均精度均值较SSD模型提高3.6%，检测速度提高75帧/s，且检测精度与速度均优于Faster-RCNN，Yolov3模型，同时对煤矸小目标具有较好的检测效果。
- 煤矸分选 /
- 煤矸识别 /
- 煤矸目标检测 /
- 自注意力机制 /
- SSD模型 /
- GhostNet /
- 锚框聚类优化
Abstract: In order to solve the problems of low precision, poor real-time performance and easy missing detection of small targets in the current deep learning-based coal and gangue target detection methods, the SSD model is improved by using lightweight network, self-attention mechanism and anchor frame optimization method to construct Ghost-SSD model, and then a lightweight coal and gangue target detection method is proposed.The Ghost-SSD model is based on the SSD model, and the GhostNet lightweight characteristic extraction network is used to replace the main network layer VGG16 so as to improve the detection speed of coal and gangue targets.In order to solve the problem that the shallow characteristic map contains more background noise and insufficient semantic information, the self-attention module is introduced to enhance the characteristics of the shallow characteristic map and increase the focus on the foreground region.Moreover, the dilated convolution is applied to increase the receptive field of the shallow characteristic maps and enrich the semantic information of the shallow characteristic maps.The K-means algorithm is used to cluster the anchor frames, optimize the size of the anchor frame, and further improve the precision of coal and gangue target detection.The experimental results show that when the Ghost-SSD model is applied in coal and gangue target detection, the mean average precision is 3.6% higher than that of the SSD model, the detection speed is increased by 75 frames/s, and the detection precision and speed are better than that of the Faster-RCNN and Yolov3 models.Moreover, the model has a good detection effect on small coal and gangue targets.
- coal and gangue separation /
- coal and gangue identification /
- coal and gangue target detection /
- self-attention mechanism /
- SSD model /
- GhostNet /
- anchor frame clustering optimization

HTML全文

0. 引言

近年来，在煤矿生产过程中由于不按规定佩戴安全帽引发的安全事故频发。正确佩戴安全帽可有效保护工人头部免受坠落物、碰撞和其他意外的侵害，因此，及时发现并纠正安全帽佩戴不符合规定的煤矿工人，实现安全帽佩戴检测至关重要^[1]。然而，当前大部分安全帽佩戴检测存在人力成本高、易受环境影响、准确率和效率不高等问题。

进入深度学习时代，利用计算机视觉技术进行图像处理分析已成为业界的主要研究方向^[2-3]。基于计算机视觉技术的安全帽佩戴检测研究分为2类。一类是利用传统目标检测算法进行检测，由于安全帽有着区别于背景的颜色特征及区别于人头的形状特征，所以多是与图像分割技术相结合。李琪瑞^[4]首先通过方向梯度直方图找到人体区域，然后用“凸”字型头部特征获取头部信息，最后用梯度直方图（Histogram of Gradient，HOG）+支持向量机（Support Vector Machine，SVM）技术检测安全帽。Sun Xiaoming等^[5]采用视觉背景差分算法检测工人，通过头部与全身的比例关系确定安全帽的初始定位，利用基于贝叶斯优化的SVM模型对安全帽进行检测。Li Tan等^[6]使用视觉背景提取（Visual Background Extractor，ViBe）算法进行背景建模，同时基于运动目标分割图像，使用实时人体分类框架定位行人，然后利用头部位置、色彩空间变换和色彩特征实现安全帽佩戴检测。另一类是利用基于深度学习的目标检测算法进行检测。徐守坤等^[7]对更快的区域卷积神经网络（Faster Regions with CNN features，Faster RCNN）进行不同尺度的训练，并引入在线难例挖掘策略以增强网络检测不同尺寸目标的能力，最终采用多部件结合算法进行安全帽佩戴检测。Wang Xuanyu等^[8]通过添加大尺寸的特征输入进行多尺度预测以改进YOLOv3模型，从而实现安全帽佩戴检测。罗欣宇^[9]先采用限制对比度自适应直方图均衡（Contrast Limited Adaptive Histogram Equalization，CLAHE）算法进行图像预处理，再使用RetinaNet算法进行安全帽目标检测。梁思成^[10]使用密集连接网络来改善模型对安全帽特征的提取能力。张培基^[11]在YOLOv5基础上，通过增加上采样模块构成显著性目标检测（Salient Object Detection，SOD）算法，以解决复杂场景下安全帽佩戴检测困难问题。

但上述算法都未能很好地平衡检测速度与检测精度之间的关系，且模型的计算量、参数量较大，无法在相关智能视频监控终端上实现嵌入式安装，同时作为小目标的安全帽也进一步加大了检测难度。因此本文使用网络结构较简单的YOLOv4^[12]作为安全帽佩戴检测算法框架，并在此基础上提出轻量化的M−YOLO模型。本文主要贡献如下：① 在YOLOv4模型的基础上，引入MobileNetV2轻量级网络^[13]模型，并融合具有分组特征的混洗坐标注意力（Shuffle Coordinate Attention，SCA）模块，组成S−MobileNetV2特征提取网络以替换原有的CSPDarknet53网络，在降低模型参数量的前提下，提高对目标特征位置信息的提取能力，改善复杂环境下特征提取困难的问题。② 将原有的空间金字塔池化（Spatial Pyramid Pooling，SPP）^[14-15]方式改为串行连接，将3个不同大小的池化核统一替换成5×5的池化核，减少运算复杂度，有效提高计算效率。③ 将包含足够多空间和细节特征信息的浅层特征加入特征融合网络，有效实现浅层高分辨率特征和深层语义特征的融合，改善对安全帽小目标检测能力较弱的问题。同时在特征融合网络中引入深度可分离卷积，有效降低添加浅层特征带来的参数量与计算量。

1. M−YOLO模型原理

1.1 M−YOLO结构

M−YOLO在YOLOv4基础上进行改进，结构如图1所示，其中红色方框表示改进的部分。

图 1 M−YOLO结构

Figure 1. M-YOLO structure

下载: 全尺寸图片幻灯片

主干网络使用由SCA模块组成的S−MobileNetV2特征提取网络提取特征信息，颈部网络使用添加了浅层特征和快速空间金字塔池化（Spatial Pyramid Pooling-Fast，SPPF）结构的特征融合网络，通过组合自上而下和自下而上的2种特征融合方式，实现对特征提取网络中提取到的深层特征和浅层特征的融合，使模型更好地综合大、中、小尺度信息。同时为进一步减小模型的参数量和计算量，将YOLOv4特征融合网络中的部分卷积修改为深度可分离卷积。由于Mish激活函数比Leaky−ReLU激活函数拥有更好的非线性特征，所以在主干网络输出至特征融合网络中的13×13特征层处使用CBM模块，在模型的后续特征融合部分使用DBL模块取代CBL模块，以提高模型的泛化能力。

1.2 S−MobileNetV2特征提取网络

煤矿井下图像背景复杂且存在目标尺寸较小等特点，整体特征提取难度较大，单纯减少模型参数量的操作会导致模型检测能力明显下降。为在保证模型特征提取能力的前提下满足轻量化的要求，M−YOLO模型使用S−MobileNetV2特征提取网络替换YOLOv4的特征提取网络CSPDarknet53。

MobileNetV2模型是轻量级卷积神经网络中的重要标志性模型，具有很好的改进可扩展性，将其应用在目标检测网络中，可有效满足应用环境对模型轻量化的要求，相较于MobileNetV1、MobileNetV3^[16]、GhostNet^[17]等轻量级网络，其特征提取能力表现更佳。但在应用于安全帽佩戴检测时，虽然相较于CSPDarknet53网络，MobileNetV2轻量级主干网络减少了较多计算量和参数量，但其特征提取能力也随之下降。

为提高MobileNetV2的特征提取能力，将注意力模块嵌入到卷积神经网络中。轻量级网络的注意力模块受限于轻量化需求，大多采用通道注意力模块（Squeeze and Excitation，SE）^[18]和卷积块注意力模块（Convolutional Block Attention Module，CBAM）^[19]，但SE模块只考虑了特征通道间的信息，忽略了特征的位置信息，而CBAM模块虽然在降维操作后通过添加卷积来获取特征的位置信息，但相关卷积只能获取到特征位置的局部关系，无法对长距离的特征关系进行提取。

坐标注意力模块^[20]则有效解决了上述2种注意力模块存在的问题。坐标注意力模块将横向和纵向的位置信息编码到通道注意力中，同时为避免通道注意力的二维全局平均池化导致的完整位置特征信息的损失，注意力模块将通道注意力划分为2个并行的一维特征编码，从而高效地将空间坐标信息整合到生成的注意力映射图中。

坐标注意力模块结构如图2所示。在通道注意力中，对于输入特征图m，先使用2个不同尺寸的池化核分别沿着水平（X）和竖直（Y）这2张坐标方向对各个通道进行平均池化，这2种池化分别沿水平和竖直空间方向聚合特征，得到2张包含方向信息的特征图。这与通道注意力中生成单一特征向量的SE模块有很大区别。这种方式使得坐标注意力模块在提取到其中一个空间方向的长距离的依赖关系时，还可保存另外一个空间方向的相关位置信息，从而使网络在面对待检目标时可以更精确地定位。

图 2 坐标注意力模块结构

Figure 2. Coordinate attention module structure

下载: 全尺寸图片幻灯片

通过坐标注意力模块获得全局感受野和感兴趣目标的位置信息特征。为充分利用这些信息，将上述分开的特征堆叠（Concat）在一起，然后使用1×1大小的卷积对其进行降维操作，沿着空间维度对中间特征图在水平方向和竖直方向进行分离操作，切分为竖直方向的特征张量${{\boldsymbol{f}}^1} \in {{\bf{R}}^{c/r \times h}}$和水平方向的特征张量 ${{\boldsymbol{f}}^2} \in {{\bf{R}}^{c/r \times w}}$，其中$c$为通道数，r为下采样的比例，用以控制模块大小，$h$，$w$分别为特征图高度、宽度。再利用2个1×1大小的竖直方向上的卷积${F_1}$和水平方向上的卷积${F_2}$，将特征张量${{\boldsymbol{f}}^1}$和${{\boldsymbol{f}}^2}$的通道数升维至m（m为输出特征的通道数），具体公式如下。

$$ {G^1} = \sigma ({F_1}({{\boldsymbol{f}}^1})) $$

(1)

$$ {G^2} = \sigma ({F_2}({{\boldsymbol{f}}^2})) $$

(2)

式中：${G^1}$和${G^2}$分别为竖直、水平方向上扩展后的注意力权重；$\sigma $（·）为Sigmoid激活函数。

坐标注意力模块通过提取2个方向上的并行特征来保留完整的位置特征信息，但这无疑会增加参数量。因此，本文提出了SCA模块，在减少坐标注意力参数量的前提下，有效改善特征之间的联系。

SCA模块结构如图3所示。首先将原始特征图沿通道维度平均分成g组，然后对每组通道进行坐标注意操作，将2个并行的特征进行融合，最后进行通道混洗操作^[21]，对特征组进行重排，以改善不同特征组之间的信息交流。

图 3 SCA模块结构

Figure 3. Shuffle coordinate attention module structure

下载: 全尺寸图片幻灯片

MobileNetV2中的每一个Bottleneck都是由2个1×1普通卷积和1个3×3深度卷积组成。安全帽普遍较小，将SCA模块加入Bottlenetck中形成SCA−Bottleneck，将得到更准确的位置特征信息，更有利于检测小目标。

初始MobileNetV2中有17个Bottlenetck，如果将所有Bottlenetck全部替换为SCA−Bottleneck模块，会导致模型的参数量与计算量增大，检测速度下降明显，因此选用输出特征图尺寸为104×104、52×52、26×26、13×13的Bottlenetck进行替换，模块中的分组数g选定为4。融合了SCA模块的S−MobileNetV2结构见表1。

表 1 S−MobileNetV2结构

Table 1. S-MobileNetV2 structure

输入	执行操作	扩张系数	通道维度	步长
416×416×3	Conv2d 3×3	—	32	2
208×208×32	Bottleneck	1	16	1
208×208×16	SCA−Bottleneck×2	6	24	2
104×104×24	SCA−Bottleneck×3	6	32	2
52×52×32	Bottleneck×4	6	64	2
26×26×64	SCA−Bottleneck×3	6	96	1
26×26×96	SCA−Bottleneck×3	6	160	2
13×13×160	Conv2d 1×1	6	320	1

下载: 导出CSV

| 显示表格

1.3 SPP结构改进

YOLOv4的SPP结构如图4所示。对输入的特征图分别使用3个不同尺度的最大池化得到3张感受野扩大的特征图。池化核尺寸越大，提取到的特征就越具全局语义性；池化核尺寸较小时，提取到的特征更多地包含局部细节信息。将3张经过不同池化核的特征图与输入特征图进行拼接，融合成新的特征。通过最大池化操作可降低卷积层参数误差造成的估计均值偏移，从而保留更多的浅层特征信息。

图 4 SPP结构

Figure 4. Spatial pyramid pooling structure

下载: 全尺寸图片幻灯片

虽然SPP结构对于特征提取起到了积极作用，但9×9、13×13的最大池化会给模型增添部分计算复杂度，同时并联3个不同尺度的最大池化也会导致模型运算时间增加。为提高模型对安全帽佩戴检测的速度，本文使用SPPF结构，如图5所示，将SPP结构中的各个并行池化改为串行池化。

图 5 SPPF结构

Figure 5. Spatial pyramid pooling-fast structure

下载: 全尺寸图片幻灯片

串行2个池化核大小为5×5的最大池化层的计算结果和1个池化核大小为9×9的最大池化层的计算结果相同，而串行3个池化核大小为5×5的最大池化层的计算结果和1个池化核大小为13×13的最大池化层的计算结果相同。结合主干网络添加的注意力模块，将SPP结构中3个并行的不同尺度最大池化层替换为3个串行的池化核大小相等的最大池化层，这样不仅实现了全局特征与局部特征的融合，还将原来3个5×5、9×9、13×13大小的池化核统一替换成5×5大小的池化核，减少了相关模型运算的复杂度，有效提高了计算效率。

1.4 特征融合网络重构

将主干网络提取到的不同尺度特征充分融合是提高目标检测性能的一个重要手段。主干网络中深层特征图由于经过多次卷积，其特征信息表现得更具语义性，但分辨率很低，对细节的感知能力较差，而浅层特征图由于经过的卷积次数少，其特征信息表现得更具细节化，同时也由于其经过的卷积少，语义性较差，包含的噪声也更多^[22]。在实际应用中，安全帽多以小目标出现，因此应提高模型对于小目标检测的精度。但YOLOv4特征融合结构并没有特意加强对小目标检测的操作，随着主干网络卷积层的不断加深，小尺寸的安全帽目标在特征图上的信息逐渐丢失，如图6所示，可看出卷积层次越深，图像特征就越抽象，细节特征就越少。为提高安全帽小目标检测的准确性，需要对浅层特征图上的细节信息进行充分利用。

图 6 特征图可视化

Figure 6. Feature map visualization

下载: 全尺寸图片幻灯片

为降低模型对安全帽的漏检率，改善模型对小目标的检测效果，本文对特征融合网络进行改进。将主干网络中的浅层特征图加入到特征融合网络中，具有高分辨率、多细节纹理信息的浅层特征图可有效加强模型对检测目标特征表达能力的提取，使得浅层的表征信息和深层的语义信息充分融合^[23]，提高目标检测的准确性。

主干网络结构如图7所示。将416×416大小的图像输入YOLOv4，主干网络和特征融合网络之间传输13×13、26×26和52×52这3种不同尺寸的特征图。这3种特征图分别经过特征融合网络的各项操作，最终分别用于检测大、中、小目标。为丰富特征图的细节特征，本文在特征图P3—P5的基础上额外增加浅层特征图进入特征融合网络。虽然特征图P1包含较多空间和细节特征信息，但P1因为经过的卷积层过少，其包含的背景噪声信息过多，加大了模型检测难度。而特征图P2相较于P1经过了若干卷积层的提取，减少了因浅层特征而带来的背景噪声，同时相比于特征图P3—P5，其包含了足够多的空间和细节特征信息，因此本文选择将特征图P2加入特征融合网络，实现浅层高分辨率特征和深层语义特征的融合。

图 7 主干网络结构

Figure 7. Backbone network structure

下载: 全尺寸图片幻灯片

2. 实验结果与分析

实验使用由Munkhjargal Gochoo收集的5 000张图像组成的SHWD（Safety Helmet Wearing Dataset）数据集，原有数据集包含5个类别：安全帽、戴安全帽的头部、戴安全帽的人、头部、不戴安全帽的人。为方便研究和展示检测效果，本文对数据集的标签XML文件进行更新，只保留戴安全帽的头部（helmet）和不戴安全帽的人（no-helmet）2个类别。按照8∶1∶1的比例设置训练集、验证集、测试集。

同时为验证模型性能的鲁棒性，本文引入公开数据集Pascal VOC，数据集包含人、自行车、汽车等20个类别的图像，使用VOC2007和VOC2012数据集中的16551张图像进行训练，VOC2007test部分的4 952张图像进行测试。

2.1 基础MobileNetV2特征提取能力实验

为验证MobileNetV2主干网络的特征提取能力，对不同主干网络在VOC数据集、SHWD数据集上进行实验。按照主干网络差异，将不同主干网络的M−YOLO模型分别命名：主干网络为CSPDarkNet53的M−YOLO、主干网络为MobileNetV1的M1−YOLO、主干网络为MobileNetV2的M2−YOLO、主干网络为MobileNetV3的M3−YOLO、主干网络为GhostNet的G−YOLO。不同主干网络实验结果见表2。

表 2 不同主干网络实验结果

Table 2. Experimental results of different backbone networks

模型	平均精度均值/%		每秒浮点运算次数/10⁹	参数量/ 10⁶个	处理速度/ （帧·s⁻¹）
模型	VOC	SHWD	每秒浮点运算次数/10⁹	参数量/ 10⁶个	处理速度/ （帧·s⁻¹）
M−YOLO	84.71	94.14	60.0	63.9	17.2
M1−YOLO	79.54	86.92	28.5	39.5	24.3
M2−YOLO	80.36	88.11	26.1	37.3	26.1
M3−YOLO	79.06	87.57	25.5	38.3	25.6
G−YOLO	78.45	85.81	24.9	38.0	29.9

下载: 导出CSV

| 显示表格

从表2可看出，相较于其他轻量级网络，M2−YOLO模型在VOC数据集、SHWD数据集上的检测精度最高。

2.2 不同SCA模块位置实验

为进一步探究SCA模块对网络特征提取能力的贡献，在SCA−Bottleneck模块中使用不同位置的SCA模块来进行实验。SCA模块融入到逆残差结构Bottleneck不同位置的方式如图8所示。

图 8 SCA模块不同分布位置

Figure 8. Different distribution positions of shuffle coordinate attention module

下载: 全尺寸图片幻灯片

分别由SCA−Bottleneck−1、SCA−Bottleneck−2、SCA−Bottleneck−3、SCA−Bottleneck−4组成的不同S−MobileNetV2的实验结果见表3。可看出采用SCA−Bottleneck−3的位置分布时检测精度最高，且处理速度较快。

表 3 不同位置SCA模块实验结果

Table 3. Results of shuffle coordinate attention module experiments at different positions

残差模块	平均精度均值/%		处理速度/（帧·s⁻¹）
残差模块	VOC	SHWD	处理速度/（帧·s⁻¹）
Bottleneck	80.36	85.91	26.1
SCA−Bottleneck−1	80.19	87.31	24.3
SCA−Bottleneck−2	80.98	87.98	23.2
SCA−Bottleneck−3	81.53	88.75	23.3
SCA−Bottleneck−4	80.56	86.95	24.0

下载: 导出CSV

| 显示表格

2.3 消融实验

为进一步评估各项改进对检测效果的影响，针对M−YOLO的各项轻量化改进在SHWD数据集上进行了消融实验，结果见表4。

表 4 消融实验结果

Table 4. Ablation experiment results

模型	S−MobileNetV2	SPPF	重构特征融合网络	平均精度均值/%	处理速度/ （帧·s⁻¹）
M2−YOLO				85.91	25.4
M−YOLO	√			88.75	23.3
	√	√		89.47	26.9
	√	√	√	91.10	33.6

下载: 导出CSV

| 显示表格

从表4可看出，使用S−MobileNetV2主干网络的M−YOLO相较于使用MobileNetV2主干网络的M2−YOLO平均精度均值提高了2.84%；M−YOLO使用SPPF结构后，模型在平均精度均值提升0.72%的基础上，处理速度提高了3.6帧/s；使用深度可分离卷积替换特征融合网络的部分卷积后，模型在平均精度均值提高1.63%的同时，处理速度提高了6.7帧/s。

2.4 模型对比实验

为进一步评估M−YOLO模型对安全帽佩戴检测的性能，将M−YOLO与其他目标检测模型进行对比实验，结果见表5。

表 5 不同模型对比实验结果

Table 5. Comparative experimental results of different models

模型	平均精度均值/%		每秒浮点运算次数/ 10⁹	参数量/ 10⁶个	处理速度/ （帧·s⁻¹）	模型大小/MiB
模型	VOC	SHWD	每秒浮点运算次数/ 10⁹	参数量/ 10⁶个	处理速度/ （帧·s⁻¹）	模型大小/MiB
SSD^[24]	74.06	76.14	60.9	23.8	11.6	99.46
Efficientdet−d4^[25]	76.51	82.14	105.0	20.6	11.2	78.25
Faster R−CNN^[26]	76.86	85.01	369.7	136.7	7.2	523.69
YOLOv4^[12]	84.71	91.94	60.0	63.9	21.9	242.58
YOLOv5−M	83.47	89.55	50.6	21.2	19.1	77.58
CenterNet^[27]	77.69	89.97	70.2	32.7	23.3	122.28
YOLOX−M^[28]	81.64	88.68	73.7	25.3	15.4	96.44
DETR^[29]	78.05	83.18	114.2	36.7	10.7	156.79
YOLOX−S^[28]	78.51	88.02	26.8	8.9	32.9	33.39
YOLOv4−tiny^[30]	72.24	78.49	6.8	5.9	48.1	22.42
YOLOv5−S^[31]	81.01	87.37	16.5	7.1	30.5	28.9
Efficientdet−d0^[25]	69.22	79.03	4.7	3.8	36.5	15.87
M−YOLO	83.95	91.10	15.3	17.4	33.6	44.75

下载: 导出CSV

| 显示表格

从表5可看出，在SHWD数据集上，M−YOLO模型的平均精度均值只比轻量化改进前的YOLOv4模型低了0.84%，但模型的计算量、参数量、模型大小相较于YOLOv4模型分别减小了74.5%，72.8%，81.6%，检测速度提高了53.4%。相较于其他YOLO系列模型、以Transformer为基础的DETR模型、无锚框策略的CenterNet和YOLOX系列模型，M−YOLO模型在准确率和实时性方面取得了较好的平衡。虽然YOLOX−S，YOLOv4−tiny，YOLOv5−S，Efficientdet−d0这4种轻量级模型的检测速度与M−YOLO模型相近或略优，但在平均精度均值上低于M−YOLO模型，无法满足工业场景下准确检测的要求。

2.5 实际场景检测效果对比实验

在实际场景检测中，将M−YOLO模型与除YOLOv4模型外表现较好的2个模型YOLOv5−M，CenterNet进行检测效果对比，结果如图9所示。

图 9 实际场景检测结果

Figure 9. Detection result of actual scenarios

下载: 全尺寸图片幻灯片

从图9可看出，对于黑白场景的煤矿井下监控视频，其具有目标与背景对比度低的特点，虽然M−YOLO，YOLOv5−M，CenterNet都正确检测到了目标，但这3种模型对目标检测的置信度不同，M−YOLO对安全帽目标的置信度为0.99，而CenterNet、YOLOv5−M对安全帽目标的置信度分别为0.57，0.49。对于正常场景下目标个数为24的煤矿井下图像，可看到M−YOLO正确检测到23个目标，漏检1个目标，无错检； YOLOv5−M正确检测到19个目标，漏检1个目标，错检4个目标；CenterNet正确检测到21个目标，漏检2个目标，错检1个目标。M−YOLO模型虽然因安全帽不完整而导致漏检1个目标，但整体效果依然优于YOLOv5−M和CenterNet模型。

3. 结论

1）以YOLOv4模型为基础，提出了一种融合坐标注意力与多尺度的轻量级模型M−YOLO用于安全帽佩戴检测。该模型通过在轻量级主干网络中使用SCA模块，以提高网络的特征提取能力；在特征融合网络中使用SPPF结构和深度可分离卷积，以加快检测速度；同时将特征提取网络中的浅层特征加入特征融合网络，改善了模型对于复杂场景小目标的检测效果。

2）实验结果表明，该模型在保证检测精度的前提下，具有参数量少、计算复杂度低、处理速度快等特点，满足在相关智能视频监控终端上嵌入式安装和使用的需求。

3）虽然该模型实现了对安全帽佩戴的精准检测，但是需依托大量安全帽数据集来进行训练，未来可进一步研究无监督或弱监督的安全帽佩戴检测算法，以减少相应样本标注工作，增强算法的泛化性。

参考文献(22)

[1]	商德勇,章林,牛艳奇,等.煤矸分拣机器人设计与关键技术分析[J/OL].煤炭科学技术:1-7[2021-04-08]. http://kns.cnki.net/kcms/detail/11.2402.TD.20200616.1022.004.html. SHANG Deyong,ZHANG Lin,NIU Yanqi,et al.Design and key technology analysis of coal and gangue sorting robot[J/OL].Coal Science and Technology:1-7[2021-04-08]. http://kns.cnki.net/kcms/detail/11.2402.TD.20200616.1022.004.html.
[2]	郭永存,何磊,刘普壮,等.煤矸双能X射线图像多维度分析识别方法[J].煤炭学报,2021,46(1):300-309. GUO Yongcun,HE Lei,LIU Puzhuang,et al.Multi-dimensional analysis and recognition method of coal and gangue dual-energy X-ray images[J].Journal of China Coal Society,2021,46(1):300-309.
[3]	ROBBEN C,CONDORI P,PINTO A,et al.X-ray-transmission based ore sorting at the San Rafael tin mine[J].Minerals Engineering,2020,145:105870.
[4]	杨慧刚,乔志敏,高绘彦,等.煤与矸石分选系统设计[J].工矿自动化,2018,44(8):91-95. YANG Huigang,QIAO Zhimin,GAO Huiyan,et al.Design of separation system of coal and gangue[J].Industry and Mine Automation,2018,44(8):91-95.
[5]	李曼,段雍,曹现刚,等.煤矸分选机器人图像识别方法和系统[J].煤炭学报,2020,45(10):3636-3644. LI Man,DUAN Yong,CAO Xiangang,et al.Image identification method and system for coal and gangue sorting robot[J].Journal of China Coal Society,2020,45(10):3636-3644.
[6]	薛光辉,李秀莹,钱孝玲,等.基于随机森林的综放工作面煤矸图像识别[J].工矿自动化,2020,46(5):57-62. XUE Guanghui,LI Xiuying,QIAN Xiaoling,et al.Coal-gangue image recognition in fully-mechanized caving face based on random forest[J].Industry and Mine Automation,2020,46(5):57-62.
[7]	DOU Dongyang,ZHOU Deyang,YANG Jianguo,et al.Coal and gangue recognition under four operating conditions by using image analysis and Relief-SVM[J].International Journal of Coal Preparation and Utilization,2018,40(7):473-482.
[8]	HOU Wei.Identification of coal and gangue by feed-forward neural network based on data analysis[J].International Journal of Coal Preparation and Utilization,2019,39(1):33-43.
[9]	DHILLON A,VERMA G K.Convolutional neural network: a review of models,methodologies and applications to object detection[J].Progress in Artificial Intelligence,2020,9(2):85-112.
[10]	徐志强,吕子奇,王卫东,等.煤矸智能分选的机器视觉识别方法与优化[J].煤炭学报,2020,45(6):2207-2216. XU Zhiqiang,LYU Ziqi,WANG Weidong,et al.Machine vision recognition method and optimization for intelligent separation of coal and gangue[J].Journal of China Coal Society,2020,45(6):2207-2216.
[11]	PU Yuanyuan,APEL D B,SZMIGIEL A,et al.Image recognition of coal and coal gangue using a convolutional neural network and transfer learning[J].Energies,2019,12(9):1-11.
[12]	LI Dongjun,ZHANG Zhenxin,XU Zhihua,et al.An image-based hierarchical deep learning framework for coal and gangue detection[J].IEEE Access,2019,7:184686-184699.
[13]	王鹏,曹现刚,夏晶,等.基于机器视觉的多机械臂煤矸石分拣机器人系统研究[J].工矿自动化,2019,45(9):47-53. WANG Peng,CAO Xiangang,XIA Jing,et al.Research on multi-manipulator coal and gangue sorting robot system based on machine vision[J].Industry and Mine Automation,2019,45(9):47-53.
[14]	LYU Ziqi,WANG Weidong,XU Zhiqiang,et al.Cascade network for detection of coal and gangue in the production context[J].Powder Technology,2021,377:361-371.
[15]	LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single shot multibox detector[C]//European Conference on Computer Vision,Amsterdam,2016:21-37.
[16]	REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(6):1137-1149.
[17]	REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,2016:779-788.
[18]	LUO Wenjie,LI Yujia,URTASUN R,et al.Understanding the effective receptive field in deep convolutional neural networks[Z/OL].arXiv Preprint,arXiv:1701.04128,2017.
[19]	HAN Kai,WANG Yunhe,TIAN Qi,et al.Ghostnet:more features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:1580-1589.
[20]	HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas,2016:770-778.
[21]	ZHANG Han,GOODFELLOW I,METAXAS D,et al.Self-attention generative adversarial networks[C]//International Conference on Machine Learning,Long Beach,2019:7354-7363.
[22]	SELVARAJU R R,COGSWELL M,DAS A,et al.Grad-cam:visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision,Long Beach,2017:618-626.

施引文献(7)

期刊类型引用(2)

1.	韩忠利. 基于卷积神经网络的矿用安全帽佩戴检测. 工矿自动化. 2024(S1): 82-87 . 本站查看
2.	刘飞，刘明辉，张乐群，王飞骅. 基于残差网络的运煤皮带异物分类方法. 电子测量技术. 2024(17): 163-171 . 百度学术

其他类型引用(5)

资源附件(0)

计量

文章访问数: 163
HTML全文浏览量: 13
PDF下载量: 35
被引次数: 7

0. 引言
1. M−YOLO模型原理
1.1 M−YOLO结构
1.2 S−MobileNetV2特征提取网络
1.3 SPP结构改进
1.4 特征融合网络重构
2. 实验结果与分析
2.1 基础MobileNetV2特征提取能力实验
2.2 不同SCA模块位置实验
2.3 消融实验
2.4 模型对比实验
2.5 实际场景检测效果对比实验
3. 结论

0. 引言
1. M−YOLO模型原理
1.1 M−YOLO结构
1.2 S−MobileNetV2特征提取网络
1.3 SPP结构改进
1.4 特征融合网络重构
2. 实验结果与分析
2.1 基础MobileNetV2特征提取能力实验
2.2 不同SCA模块位置实验
2.3 消融实验
2.4 模型对比实验
2.5 实际场景检测效果对比实验
3. 结论

参考文献(22)

施引文献(7)

资源附件(0)

轻量化煤矸目标检测方法研究

作者简介: 杜京义(1965-),男,山东淄博人,教授,研究方向为模式识别与神经网络,E-mail:517571853@qq.com。

计量

出版历程