Lightweight safety helmet wearing detection fusing coordinate attention and multiscale feature
-
摘要: 针对现有煤矿工人安全帽佩戴检测算法存在检测精度与速度难以取得较好平衡的问题,以YOLOv4模型为基础,提出了一种融合坐标注意力与多尺度的轻量级模型M−YOLO,并将其用于安全帽佩戴检测。该模型使用融入混洗坐标注意力模块的轻量化特征提取网络S−MobileNetV2替换YOLOv4的特征提取网络CSPDarknet53,在减少相关参数量的前提下,有效改善了特征之间的联系;将原有空间金字塔池化结构中的并行连接方式改为串行连接,有效提高了计算效率;对特征融合网络进行改进,引入具有高分辨率、多细节纹理信息的浅层特征,以有效加强对检测目标特征的提取,并将原有Neck结构中的部分卷积修改为深度可分离卷积,在保证检测精度的前提下进一步降低了模型的参数量和计算量。实验结果表明,与YOLOv4模型相比,M−YOLO模型的平均精度均值仅降低了0.84%,但计算量、参数量、模型大小分别减小了74.5%,72.8%,81.6%,检测速度提高了53.4%;相较于其他模型,M−YOLO模型在准确率和实时性方面取得了良好的平衡,满足在智能视频监控终端上嵌入式加载和部署的需求。Abstract: The existing algorithm for detecting the helmet wear by coal miners has the problem of difficulty in achieving a good balance between detection accuracy and speed. In order to solve the above problem, based on the YOLOv4 model, a lightweight model (M-YOLO) that integrates coordinate attention and multi-scale is proposed and applied in safety helmet wearing detection. This model replaces YOLOv4's feature extraction network CSPDarknet53 with a lightweight feature extraction network S-MobileNetV2 composed of a mixed coordinate attention module. It effectively improves the connection between features while reducing the number of related parameters. The model changes the parallel connection method in the original spatial pyramid pooling structure to serial connection. It effectively improves computational efficiency. The feature fusion network is improved by introducing shallow features with high-resolution and multi detail texture information. It effectively enhances the extraction of object features. Some convolutions in the original Neck structure are modified to deep separable convolutions, further reducing the model's parameter and computational complexity while ensuring detection precision. The experimental results show that compared with the YOLOv4 model, the mean average precision of the M-YOLO model is only reduced by 0.84%. But the computational complexity, parameter quantity, and model size are reduced by 74.5%, 72.8%, and 81.6%, respectively. The detection speed is improved by 53.4%. Compared to other models, the M-YOLO model achieves a good balance between accuracy and real-time performance, meeting the requirements of embedded loading and deployment on intelligent video surveillance terminals.
-
0. 引言
近年来,在煤矿生产过程中由于不按规定佩戴安全帽引发的安全事故频发。正确佩戴安全帽可有效保护工人头部免受坠落物、碰撞和其他意外的侵害,因此,及时发现并纠正安全帽佩戴不符合规定的煤矿工人,实现安全帽佩戴检测至关重要[1]。然而,当前大部分安全帽佩戴检测存在人力成本高、易受环境影响、准确率和效率不高等问题。
进入深度学习时代,利用计算机视觉技术进行图像处理分析已成为业界的主要研究方向[2-3]。基于计算机视觉技术的安全帽佩戴检测研究分为2类。一类是利用传统目标检测算法进行检测,由于安全帽有着区别于背景的颜色特征及区别于人头的形状特征,所以多是与图像分割技术相结合。李琪瑞[4]首先通过方向梯度直方图找到人体区域,然后用“凸”字型头部特征获取头部信息,最后用梯度直方图(Histogram of Gradient,HOG)+支持向量机(Support Vector Machine,SVM)技术检测安全帽。Sun Xiaoming等[5]采用视觉背景差分算法检测工人,通过头部与全身的比例关系确定安全帽的初始定位,利用基于贝叶斯优化的SVM模型对安全帽进行检测。Li Tan等[6]使用视觉背景提取(Visual Background Extractor,ViBe)算法进行背景建模,同时基于运动目标分割图像,使用实时人体分类框架定位行人,然后利用头部位置、色彩空间变换和色彩特征实现安全帽佩戴检测。另一类是利用基于深度学习的目标检测算法进行检测。徐守坤等[7]对更快的区域卷积神经网络(Faster Regions with CNN features,Faster RCNN)进行不同尺度的训练,并引入在线难例挖掘策略以增强网络检测不同尺寸目标的能力,最终采用多部件结合算法进行安全帽佩戴检测。Wang Xuanyu等[8]通过添加大尺寸的特征输入进行多尺度预测以改进YOLOv3模型,从而实现安全帽佩戴检测。罗欣宇[9]先采用限制对比度自适应直方图均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)算法进行图像预处理,再使用RetinaNet算法进行安全帽目标检测。梁思成[10]使用密集连接网络来改善模型对安全帽特征的提取能力。张培基[11]在YOLOv5基础上,通过增加上采样模块构成显著性目标检测(Salient Object Detection,SOD)算法,以解决复杂场景下安全帽佩戴检测困难问题。
但上述算法都未能很好地平衡检测速度与检测精度之间的关系,且模型的计算量、参数量较大,无法在相关智能视频监控终端上实现嵌入式安装,同时作为小目标的安全帽也进一步加大了检测难度。因此本文使用网络结构较简单的YOLOv4[12]作为安全帽佩戴检测算法框架,并在此基础上提出轻量化的M−YOLO模型。本文主要贡献如下:① 在YOLOv4模型的基础上,引入MobileNetV2轻量级网络[13]模型,并融合具有分组特征的混洗坐标注意力(Shuffle Coordinate Attention,SCA)模块,组成S−MobileNetV2特征提取网络以替换原有的CSPDarknet53网络,在降低模型参数量的前提下,提高对目标特征位置信息的提取能力,改善复杂环境下特征提取困难的问题。② 将原有的空间金字塔池化(Spatial Pyramid Pooling,SPP)[14-15]方式改为串行连接,将3个不同大小的池化核统一替换成5×5的池化核,减少运算复杂度,有效提高计算效率。③ 将包含足够多空间和细节特征信息的浅层特征加入特征融合网络,有效实现浅层高分辨率特征和深层语义特征的融合,改善对安全帽小目标检测能力较弱的问题。同时在特征融合网络中引入深度可分离卷积,有效降低添加浅层特征带来的参数量与计算量。
1. M−YOLO模型原理
1.1 M−YOLO结构
M−YOLO在YOLOv4基础上进行改进,结构如图1所示,其中红色方框表示改进的部分。
主干网络使用由SCA模块组成的S−MobileNetV2特征提取网络提取特征信息,颈部网络使用添加了浅层特征和快速空间金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)结构的特征融合网络,通过组合自上而下和自下而上的2种特征融合方式,实现对特征提取网络中提取到的深层特征和浅层特征的融合,使模型更好地综合大、中、小尺度信息。同时为进一步减小模型的参数量和计算量,将YOLOv4特征融合网络中的部分卷积修改为深度可分离卷积。由于Mish激活函数比Leaky−ReLU激活函数拥有更好的非线性特征,所以在主干网络输出至特征融合网络中的13×13特征层处使用CBM模块,在模型的后续特征融合部分使用DBL模块取代CBL模块,以提高模型的泛化能力。
1.2 S−MobileNetV2特征提取网络
煤矿井下图像背景复杂且存在目标尺寸较小等特点,整体特征提取难度较大,单纯减少模型参数量的操作会导致模型检测能力明显下降。为在保证模型特征提取能力的前提下满足轻量化的要求,M−YOLO模型使用S−MobileNetV2特征提取网络替换YOLOv4的特征提取网络CSPDarknet53。
MobileNetV2模型是轻量级卷积神经网络中的重要标志性模型,具有很好的改进可扩展性,将其应用在目标检测网络中,可有效满足应用环境对模型轻量化的要求,相较于MobileNetV1、MobileNetV3[16]、GhostNet[17]等轻量级网络,其特征提取能力表现更佳。但在应用于安全帽佩戴检测时,虽然相较于CSPDarknet53网络,MobileNetV2轻量级主干网络减少了较多计算量和参数量,但其特征提取能力也随之下降。
为提高MobileNetV2的特征提取能力,将注意力模块嵌入到卷积神经网络中。轻量级网络的注意力模块受限于轻量化需求,大多采用通道注意力模块(Squeeze and Excitation,SE)[18]和卷积块注意力模块(Convolutional Block Attention Module,CBAM)[19],但SE模块只考虑了特征通道间的信息,忽略了特征的位置信息,而CBAM模块虽然在降维操作后通过添加卷积来获取特征的位置信息,但相关卷积只能获取到特征位置的局部关系,无法对长距离的特征关系进行提取。
坐标注意力模块[20]则有效解决了上述2种注意力模块存在的问题。坐标注意力模块将横向和纵向的位置信息编码到通道注意力中,同时为避免通道注意力的二维全局平均池化导致的完整位置特征信息的损失,注意力模块将通道注意力划分为2个并行的一维特征编码,从而高效地将空间坐标信息整合到生成的注意力映射图中。
坐标注意力模块结构如图2所示。在通道注意力中,对于输入特征图m,先使用2个不同尺寸的池化核分别沿着水平(X)和竖直(Y)这2张坐标方向对各个通道进行平均池化,这2种池化分别沿水平和竖直空间方向聚合特征,得到2张包含方向信息的特征图。这与通道注意力中生成单一特征向量的SE模块有很大区别。这种方式使得坐标注意力模块在提取到其中一个空间方向的长距离的依赖关系时,还可保存另外一个空间方向的相关位置信息,从而使网络在面对待检目标时可以更精确地定位。
通过坐标注意力模块获得全局感受野和感兴趣目标的位置信息特征。为充分利用这些信息,将上述分开的特征堆叠(Concat)在一起,然后使用1×1大小的卷积对其进行降维操作,沿着空间维度对中间特征图在水平方向和竖直方向进行分离操作,切分为竖直方向的特征张量${{\boldsymbol{f}}^1} \in {{\bf{R}}^{c/r \times h}}$和水平方向的特征张量 ${{\boldsymbol{f}}^2} \in {{\bf{R}}^{c/r \times w}}$,其中$c$为通道数,r为下采样的比例,用以控制模块大小,$h$,$w$分别为特征图高度、宽度。再利用2个1×1大小的竖直方向上的卷积${F_1}$和水平方向上的卷积${F_2}$,将特征张量${{\boldsymbol{f}}^1}$和${{\boldsymbol{f}}^2}$的通道数升维至m(m为输出特征的通道数),具体公式如下。
$$ {G^1} = \sigma ({F_1}({{\boldsymbol{f}}^1})) $$ (1) $$ {G^2} = \sigma ({F_2}({{\boldsymbol{f}}^2})) $$ (2) 式中:${G^1}$和${G^2}$分别为竖直、水平方向上扩展后的注意力权重;$\sigma $(·)为Sigmoid激活函数。
坐标注意力模块通过提取2个方向上的并行特征来保留完整的位置特征信息,但这无疑会增加参数量。因此,本文提出了SCA模块,在减少坐标注意力参数量的前提下,有效改善特征之间的联系。
SCA模块结构如图3所示。首先将原始特征图沿通道维度平均分成g组,然后对每组通道进行坐标注意操作,将2个并行的特征进行融合,最后进行通道混洗操作[21],对特征组进行重排,以改善不同特征组之间的信息交流。
MobileNetV2中的每一个Bottleneck都是由2个1×1普通卷积和1个3×3深度卷积组成。安全帽普遍较小,将SCA模块加入Bottlenetck中形成SCA−Bottleneck,将得到更准确的位置特征信息,更有利于检测小目标。
初始MobileNetV2中有17个Bottlenetck,如果将所有Bottlenetck全部替换为SCA−Bottleneck模块,会导致模型的参数量与计算量增大,检测速度下降明显,因此选用输出特征图尺寸为104×104、52×52、26×26、13×13的Bottlenetck进行替换,模块中的分组数g选定为4。融合了SCA模块的S−MobileNetV2结构见表1。
表 1 S−MobileNetV2结构Table 1. S-MobileNetV2 structure输入 执行操作 扩张系数 通道维度 步长 416×416×3 Conv2d 3×3 — 32 2 208×208×32 Bottleneck 1 16 1 208×208×16 SCA−Bottleneck×2 6 24 2 104×104×24 SCA−Bottleneck×3 6 32 2 52×52×32 Bottleneck×4 6 64 2 26×26×64 SCA−Bottleneck×3 6 96 1 26×26×96 SCA−Bottleneck×3 6 160 2 13×13×160 Conv2d 1×1 6 320 1 1.3 SPP结构改进
YOLOv4的SPP结构如图4所示。对输入的特征图分别使用3个不同尺度的最大池化得到3张感受野扩大的特征图。池化核尺寸越大,提取到的特征就越具全局语义性;池化核尺寸较小时,提取到的特征更多地包含局部细节信息。将3张经过不同池化核的特征图与输入特征图进行拼接,融合成新的特征。通过最大池化操作可降低卷积层参数误差造成的估计均值偏移,从而保留更多的浅层特征信息。
虽然SPP结构对于特征提取起到了积极作用,但9×9、13×13的最大池化会给模型增添部分计算复杂度,同时并联3个不同尺度的最大池化也会导致模型运算时间增加。为提高模型对安全帽佩戴检测的速度,本文使用SPPF结构,如图5所示,将SPP结构中的各个并行池化改为串行池化。
串行2个池化核大小为5×5的最大池化层的计算结果和1个池化核大小为9×9的最大池化层的计算结果相同,而串行3个池化核大小为5×5的最大池化层的计算结果和1个池化核大小为13×13的最大池化层的计算结果相同。结合主干网络添加的注意力模块,将SPP结构中3个并行的不同尺度最大池化层替换为3个串行的池化核大小相等的最大池化层,这样不仅实现了全局特征与局部特征的融合,还将原来3个5×5、9×9、13×13大小的池化核统一替换成5×5大小的池化核,减少了相关模型运算的复杂度,有效提高了计算效率。
1.4 特征融合网络重构
将主干网络提取到的不同尺度特征充分融合是提高目标检测性能的一个重要手段。主干网络中深层特征图由于经过多次卷积,其特征信息表现得更具语义性,但分辨率很低,对细节的感知能力较差,而浅层特征图由于经过的卷积次数少,其特征信息表现得更具细节化,同时也由于其经过的卷积少,语义性较差,包含的噪声也更多[22]。在实际应用中,安全帽多以小目标出现,因此应提高模型对于小目标检测的精度。但YOLOv4特征融合结构并没有特意加强对小目标检测的操作,随着主干网络卷积层的不断加深,小尺寸的安全帽目标在特征图上的信息逐渐丢失,如图6所示,可看出卷积层次越深,图像特征就越抽象,细节特征就越少。为提高安全帽小目标检测的准确性,需要对浅层特征图上的细节信息进行充分利用。
为降低模型对安全帽的漏检率,改善模型对小目标的检测效果,本文对特征融合网络进行改进。将主干网络中的浅层特征图加入到特征融合网络中,具有高分辨率、多细节纹理信息的浅层特征图可有效加强模型对检测目标特征表达能力的提取,使得浅层的表征信息和深层的语义信息充分融合[23],提高目标检测的准确性。
主干网络结构如图7所示。将416×416大小的图像输入YOLOv4,主干网络和特征融合网络之间传输13×13、26×26和52×52这3种不同尺寸的特征图。这3种特征图分别经过特征融合网络的各项操作,最终分别用于检测大、中、小目标。为丰富特征图的细节特征,本文在特征图P3—P5的基础上额外增加浅层特征图进入特征融合网络。虽然特征图P1包含较多空间和细节特征信息,但P1因为经过的卷积层过少,其包含的背景噪声信息过多,加大了模型检测难度。而特征图P2相较于P1经过了若干卷积层的提取,减少了因浅层特征而带来的背景噪声,同时相比于特征图P3—P5,其包含了足够多的空间和细节特征信息,因此本文选择将特征图P2加入特征融合网络,实现浅层高分辨率特征和深层语义特征的融合。
2. 实验结果与分析
实验使用由Munkhjargal Gochoo收集的5 000张图像组成的SHWD(Safety Helmet Wearing Dataset)数据集,原有数据集包含5个类别:安全帽、戴安全帽的头部、戴安全帽的人、头部、不戴安全帽的人。为方便研究和展示检测效果,本文对数据集的标签XML文件进行更新,只保留戴安全帽的头部(helmet)和不戴安全帽的人(no-helmet)2个类别。按照8∶1∶1的比例设置训练集、验证集、测试集。
同时为验证模型性能的鲁棒性,本文引入公开数据集Pascal VOC,数据集包含人、自行车、汽车等20个类别的图像,使用VOC2007和VOC2012数据集中的16551张图像进行训练,VOC2007test部分的4 952张图像进行测试。
2.1 基础MobileNetV2特征提取能力实验
为验证MobileNetV2主干网络的特征提取能力,对不同主干网络在VOC数据集、SHWD数据集上进行实验。按照主干网络差异,将不同主干网络的M−YOLO模型分别命名:主干网络为CSPDarkNet53的M−YOLO、主干网络为MobileNetV1的M1−YOLO、主干网络为MobileNetV2的M2−YOLO、主干网络为MobileNetV3的M3−YOLO、主干网络为GhostNet的G−YOLO。不同主干网络实验结果见表2。
表 2 不同主干网络实验结果Table 2. Experimental results of different backbone networks模型 平均精度均值/% 每秒浮点
运算次数/109参数量/
106个处理速度/
(帧·s−1)VOC SHWD M−YOLO 84.71 94.14 60.0 63.9 17.2 M1−YOLO 79.54 86.92 28.5 39.5 24.3 M2−YOLO 80.36 88.11 26.1 37.3 26.1 M3−YOLO 79.06 87.57 25.5 38.3 25.6 G−YOLO 78.45 85.81 24.9 38.0 29.9 从表2可看出,相较于其他轻量级网络,M2−YOLO模型在VOC数据集、SHWD数据集上的检测精度最高。
2.2 不同SCA模块位置实验
为进一步探究SCA模块对网络特征提取能力的贡献,在SCA−Bottleneck模块中使用不同位置的SCA模块来进行实验。SCA模块融入到逆残差结构Bottleneck不同位置的方式如图8所示。
分别由SCA−Bottleneck−1、SCA−Bottleneck−2、SCA−Bottleneck−3、SCA−Bottleneck−4组成的不同S−MobileNetV2的实验结果见表3。可看出采用SCA−Bottleneck−3的位置分布时检测精度最高,且处理速度较快。
表 3 不同位置SCA模块实验结果Table 3. Results of shuffle coordinate attention module experiments at different positions残差模块 平均精度均值/% 处理速度/(帧·s−1) VOC SHWD Bottleneck 80.36 85.91 26.1 SCA−Bottleneck−1 80.19 87.31 24.3 SCA−Bottleneck−2 80.98 87.98 23.2 SCA−Bottleneck−3 81.53 88.75 23.3 SCA−Bottleneck−4 80.56 86.95 24.0 2.3 消融实验
为进一步评估各项改进对检测效果的影响,针对M−YOLO的各项轻量化改进在SHWD数据集上进行了消融实验,结果见表4。
表 4 消融实验结果Table 4. Ablation experiment results模型 S−MobileNetV2 SPPF 重构特征
融合网络平均精度
均值/%处理速度/
(帧·s−1)M2−YOLO 85.91 25.4 M−YOLO √ 88.75 23.3 √ √ 89.47 26.9 √ √ √ 91.10 33.6 从表4可看出,使用S−MobileNetV2主干网络的M−YOLO相较于使用MobileNetV2主干网络的M2−YOLO平均精度均值提高了2.84%;M−YOLO使用SPPF结构后,模型在平均精度均值提升0.72%的基础上,处理速度提高了3.6帧/s;使用深度可分离卷积替换特征融合网络的部分卷积后,模型在平均精度均值提高1.63%的同时,处理速度提高了6.7帧/s。
2.4 模型对比实验
为进一步评估M−YOLO模型对安全帽佩戴检测的性能,将M−YOLO与其他目标检测模型进行对比实验,结果见表5。
表 5 不同模型对比实验结果Table 5. Comparative experimental results of different models模型 平均精度均值/% 每秒浮点
运算次数/
109参数量/
106个处理速度/
(帧·s−1)模型大
小/MiBVOC SHWD SSD[24] 74.06 76.14 60.9 23.8 11.6 99.46 Efficientdet−d4[25] 76.51 82.14 105.0 20.6 11.2 78.25 Faster R−CNN[26] 76.86 85.01 369.7 136.7 7.2 523.69 YOLOv4[12] 84.71 91.94 60.0 63.9 21.9 242.58 YOLOv5−M 83.47 89.55 50.6 21.2 19.1 77.58 CenterNet[27] 77.69 89.97 70.2 32.7 23.3 122.28 YOLOX−M[28] 81.64 88.68 73.7 25.3 15.4 96.44 DETR[29] 78.05 83.18 114.2 36.7 10.7 156.79 YOLOX−S[28] 78.51 88.02 26.8 8.9 32.9 33.39 YOLOv4−tiny[30] 72.24 78.49 6.8 5.9 48.1 22.42 YOLOv5−S[31] 81.01 87.37 16.5 7.1 30.5 28.9 Efficientdet−d0[25] 69.22 79.03 4.7 3.8 36.5 15.87 M−YOLO 83.95 91.10 15.3 17.4 33.6 44.75 从表5可看出,在SHWD数据集上,M−YOLO模型的平均精度均值只比轻量化改进前的YOLOv4模型低了0.84%,但模型的计算量、参数量、模型大小相较于YOLOv4模型分别减小了74.5%,72.8%,81.6%,检测速度提高了53.4%。相较于其他YOLO系列模型、以Transformer为基础的DETR模型、无锚框策略的CenterNet和YOLOX系列模型,M−YOLO模型在准确率和实时性方面取得了较好的平衡。虽然YOLOX−S,YOLOv4−tiny,YOLOv5−S,Efficientdet−d0这4种轻量级模型的检测速度与M−YOLO模型相近或略优,但在平均精度均值上低于M−YOLO模型,无法满足工业场景下准确检测的要求。
2.5 实际场景检测效果对比实验
在实际场景检测中,将M−YOLO模型与除YOLOv4模型外表现较好的2个模型YOLOv5−M,CenterNet进行检测效果对比,结果如图9所示。
从图9可看出,对于黑白场景的煤矿井下监控视频,其具有目标与背景对比度低的特点,虽然M−YOLO,YOLOv5−M,CenterNet都正确检测到了目标,但这3种模型对目标检测的置信度不同,M−YOLO对安全帽目标的置信度为0.99,而CenterNet、YOLOv5−M对安全帽目标的置信度分别为0.57,0.49。对于正常场景下目标个数为24的煤矿井下图像,可看到M−YOLO正确检测到23个目标,漏检1个目标,无错检; YOLOv5−M正确检测到19个目标,漏检1个目标,错检4个目标;CenterNet正确检测到21个目标,漏检2个目标,错检1个目标。M−YOLO模型虽然因安全帽不完整而导致漏检1个目标,但整体效果依然优于YOLOv5−M和CenterNet模型。
3. 结论
1) 以YOLOv4模型为基础,提出了一种融合坐标注意力与多尺度的轻量级模型M−YOLO用于安全帽佩戴检测。该模型通过在轻量级主干网络中使用SCA模块,以提高网络的特征提取能力;在特征融合网络中使用SPPF结构和深度可分离卷积,以加快检测速度;同时将特征提取网络中的浅层特征加入特征融合网络,改善了模型对于复杂场景小目标的检测效果。
2) 实验结果表明,该模型在保证检测精度的前提下,具有参数量少、计算复杂度低、处理速度快等特点,满足在相关智能视频监控终端上嵌入式安装和使用的需求。
3) 虽然该模型实现了对安全帽佩戴的精准检测,但是需依托大量安全帽数据集来进行训练,未来可进一步研究无监督或弱监督的安全帽佩戴检测算法,以减少相应样本标注工作,增强算法的泛化性。
-
表 1 S−MobileNetV2结构
Table 1 S-MobileNetV2 structure
输入 执行操作 扩张系数 通道维度 步长 416×416×3 Conv2d 3×3 — 32 2 208×208×32 Bottleneck 1 16 1 208×208×16 SCA−Bottleneck×2 6 24 2 104×104×24 SCA−Bottleneck×3 6 32 2 52×52×32 Bottleneck×4 6 64 2 26×26×64 SCA−Bottleneck×3 6 96 1 26×26×96 SCA−Bottleneck×3 6 160 2 13×13×160 Conv2d 1×1 6 320 1 表 2 不同主干网络实验结果
Table 2 Experimental results of different backbone networks
模型 平均精度均值/% 每秒浮点
运算次数/109参数量/
106个处理速度/
(帧·s−1)VOC SHWD M−YOLO 84.71 94.14 60.0 63.9 17.2 M1−YOLO 79.54 86.92 28.5 39.5 24.3 M2−YOLO 80.36 88.11 26.1 37.3 26.1 M3−YOLO 79.06 87.57 25.5 38.3 25.6 G−YOLO 78.45 85.81 24.9 38.0 29.9 表 3 不同位置SCA模块实验结果
Table 3 Results of shuffle coordinate attention module experiments at different positions
残差模块 平均精度均值/% 处理速度/(帧·s−1) VOC SHWD Bottleneck 80.36 85.91 26.1 SCA−Bottleneck−1 80.19 87.31 24.3 SCA−Bottleneck−2 80.98 87.98 23.2 SCA−Bottleneck−3 81.53 88.75 23.3 SCA−Bottleneck−4 80.56 86.95 24.0 表 4 消融实验结果
Table 4 Ablation experiment results
模型 S−MobileNetV2 SPPF 重构特征
融合网络平均精度
均值/%处理速度/
(帧·s−1)M2−YOLO 85.91 25.4 M−YOLO √ 88.75 23.3 √ √ 89.47 26.9 √ √ √ 91.10 33.6 表 5 不同模型对比实验结果
Table 5 Comparative experimental results of different models
模型 平均精度均值/% 每秒浮点
运算次数/
109参数量/
106个处理速度/
(帧·s−1)模型大
小/MiBVOC SHWD SSD[24] 74.06 76.14 60.9 23.8 11.6 99.46 Efficientdet−d4[25] 76.51 82.14 105.0 20.6 11.2 78.25 Faster R−CNN[26] 76.86 85.01 369.7 136.7 7.2 523.69 YOLOv4[12] 84.71 91.94 60.0 63.9 21.9 242.58 YOLOv5−M 83.47 89.55 50.6 21.2 19.1 77.58 CenterNet[27] 77.69 89.97 70.2 32.7 23.3 122.28 YOLOX−M[28] 81.64 88.68 73.7 25.3 15.4 96.44 DETR[29] 78.05 83.18 114.2 36.7 10.7 156.79 YOLOX−S[28] 78.51 88.02 26.8 8.9 32.9 33.39 YOLOv4−tiny[30] 72.24 78.49 6.8 5.9 48.1 22.42 YOLOv5−S[31] 81.01 87.37 16.5 7.1 30.5 28.9 Efficientdet−d0[25] 69.22 79.03 4.7 3.8 36.5 15.87 M−YOLO 83.95 91.10 15.3 17.4 33.6 44.75 -
[1] 方伟立,丁烈云. 工人不安全行为智能识别与矫正研究[J]. 华中科技大学学报(自然科学版),2022,50(8):131-135. FANG Weili,DING Lieyun. Artificial intelligence-based recognition and modification of workers' unsafe behavior[J]. Journal of Huazhong University of Science and Technology(Natural Science Edition),2022,50(8):131-135.
[2] 程德强,钱建生,郭星歌,等. 煤矿安全生产视频AI识别关键技术研究综述[J]. 煤炭科学技术,2023,51(2):349-365. CHENG Deqiang,QIAN Jiansheng,GUO Xingge,et al. Review on key technologies of AI recognition for videos in coal mine[J]. Coal Science and Technology,2023,51(2):349-365.
[3] 程德强,徐进洋,寇旗旗,等. 融合残差信息轻量级网络的运煤皮带异物分类[J]. 煤炭学报,2022,47(3):1361-1369. CHENG Deqiang,XU Jinyang,KOU Qiqi,et al. Lightweight network based on residual information for foreign body classification on coal conveyor belt[J]. Journal of China Coal Society,2022,47(3):1361-1369.
[4] 李琪瑞. 基于人体识别的安全帽视频检测系统研究与实现[D]. 成都:电子科技大学,2017. LI Qirui. A research and implementation of safety-helmet video detection system based on human body recognition[D]. Chengdu:University of Electronic Science and Technology of China,2017.
[5] SUN Xiaoming,XU Kaige,WANG Sen,et al. Detection and tracking of safety helmet in factory environment[J]. Measurement Science and Technology,2021,32(10). DOI: 10.1088/1361-6501/ac06ff.
[6] LI Tan,LYU Xinyue,LIAN Xiaofeng,et al. YOLOv4_Drone:UAV image target detection based on an improved YOLOv4 algorithm[J]. Computers & Electrical Engineering,2021,93(8). DOI: 10.1016/j.compeleceng.2021.107261.
[7] 徐守坤,王雅如,顾玉宛,等. 基于改进Faster RCNN的安全帽佩戴检测研究[J]. 计算机应用研究,2020,37(3):901-905. XU Shoukun,WANG Yaru,GU Yuwan,et al. Safety helmet wearing detection study based on improved Faster RCNN[J]. Application Research of Computers,2020,37(3):901-905.
[8] WANG Xuanyu,NIU Dan,LUO Puxuan,et al. A safety helmet and protective clothing detection method based on improved-YoloV3[C]. Chinese Automation Congress,Shanghai,2020:5437-5441.
[9] 罗欣宇. 基于深度学习的工地安全防护检测系统[D]. 杭州:杭州电子科技大学,2020. LUO Xinyu. Construction site safety protection detection system based on deep learning[D]. Hangzhou:Hangzhou Dianzi University,2020.
[10] 梁思成. 基于卷积神经网络的安全帽检测研究[D]. 哈尔滨:哈尔滨工业大学,2021. LIANG Sicheng. Research on safety helmet wearing detection based on convolutional neural network[D]. Harbin:Harbin Institute of Technology,2021.
[11] 张培基. 工业监控视频中的安全服与安全帽检测方法研究[D]. 武汉:华中科技大学,2021. ZHANG Peiji. Research on detection methods of safety clothing and safety helmet in industrial surveillance video[D]. Wuhan:Huazhong University of Science and Technology,2021.
[12] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4:optimal speed and accuracy of object detection[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:9-12.
[13] SANDLER M,HOWARD A,ZHU Menglong,et al. MobileNetV2:inverted residuals and linear bottlenecks[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:4510-4520.
[14] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916. DOI: 10.1109/TPAMI.2015.2389824
[15] LIU Shu,QI Lu,QIN Haifang,et al. Path aggregation network for instance segmentation[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:8759-8768.
[16] HOWARD A,SANDLER M,CHEN Bo,et al. Searching for MobileNetV3[C]. IEEE/CVF International Conference on Computer Vision,Seoul,2019:1314-1324.
[17] HAN Kai,WANG Yunhe,TIAN Qi,et al. GhostNet:more features from cheap operations[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:1577-1586.
[18] HU Jie,SHEN Li,SUN Gang. Squeeze-and-excitation networks[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:7132-7141.
[19] WOO S H,PARK J Y,LEE J Y,et al. CBAM:convolutional block attention module[C]. European Conference on Computer Vision,Munich,2018:3-19.
[20] HOU Qibin,ZHOU Daquan,FENG Jiashi. Coordinate attention for efficient mobile network design[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Nashville,2021:13708-13717.
[21] ZHANG Xiangyu,ZHOU Xinyu,LIN Mengxiao,et al. ShuffleNet:an extremely efficient convolutional neural network for mobile devices[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:6848-6856.
[22] 寇旗旗,黄绩,程德强,等. 基于语义融合的域内相似性分组行人重识别[J]. 通信学报,2022,43(7):153-162. KOU Qiqi,HUANG Ji,CHENG Deqiang,et al. Person re-identification with intra-domain similarity grouping based on semantic fusion[J]. Journal on Communications,2022,43(7):153-162.
[23] CHENG Deqiang,CHEN Liangliang,LYU Chen,et al. Light-guided and cross-fusion U-Net for anti-illumination image super-resolution[J]. IEEE Transactions on Circuits and Systems for Video Technology,2022,32(12):8436-8449. DOI: 10.1109/TCSVT.2022.3194169
[24] LIU Wei,ANGUELOV D,ERHAN D,et al. SSD:single shot multibox detector[C]. European Conference on Computer Vision,Amsterdam,2016:21-37.
[25] TAN Mingxing,PANG Ruoming,QUOC V L. EfficientDet:scalable and efficient object detection[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:10781-10790.
[26] REN Shaoqing,HE Kaiming,GIRSHICK R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149. DOI: 10.1109/TPAMI.2016.2577031
[27] DUAN Kaiwen,BAI Song,XIE Lingxi,et al. CenterNet:keypoint triplets for object detection[C]. IEEE/CVF International Conference on Computer Vision,Seoul,2019:6568-6577.
[28] GE Zheng,LIU Songtao,WANG Feng,et al. YOLOX:exceeding YOLO series in 2021[EB/OL].[2023-08-03]. https://arxiv.org/abs/2107.08430.
[29] NICOLAS C,FRANCISCO M,GABRIEL S,et al. End-to-end object detection with transformers[C]. European Conference on Computer Vision,Glasgow,2020:213-229.
[30] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. Scaled-YOLOv4:scaling cross stage partial network[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Nashville,2021:13024-13033.
[31] Ultralytics. YOLOv5[EB/OL]. [2023-08-12]. https://github.com/ultralytics/yolov5.
-
期刊类型引用(2)
1. 韩忠利. 基于卷积神经网络的矿用安全帽佩戴检测. 工矿自动化. 2024(S1): 82-87 . 本站查看
2. 刘飞,刘明辉,张乐群,王飞骅. 基于残差网络的运煤皮带异物分类方法. 电子测量技术. 2024(17): 163-171 . 百度学术
其他类型引用(5)