An underground coal mine multi-target detection algorithm
-
摘要:
目前基于深度学习的煤矿井下目标检测算法在面对光照强度分布不均、目标环境复杂及多类目标尺度分布不均衡时,对复杂小目标的检测效果不佳,易出现漏检和误检现象。针对上述问题,基于单阶段目标检测算法YOLOv8n,提出了一种基于动态蛇形卷积的特征提取(FEDSC)−双向特征金字塔网络与语义和细节融合的特征融合(FFBD)的煤矿井下多目标检测算法,即采用FEDSC替换YOLOv8n的主干网络,扩大感受野;将FFBD作为颈部网络,减少目标误检和漏检;引入SIoU的解耦检测头作为检测层,提高模型对小目标的适应能力与模型收敛速度。实验结果表明:① FEDSC−FFBD算法的mAP@0.5为97.00%,模型参数量为4.22×106个,每秒浮点运算数为21.7×109。② FEDSC−FFBD算法的mAP@0.5较YOLOv8n算法提升了3.40%,对安全帽小目标的识别准确率为90.90%,较YOLOv8n算法提升了11%。③ 与其他YOLO系列算法相比,FEDSC−FFBD算法的mAP@0.5最高,较YOLOv5s,YOLOv9c,YOLOv10n和YOLOv11n算法分别提升了3.60%,1%,10.50%和6.40%。④ FEDSC−FFBD算法在面对煤矿井下光照强度分布不均、目标环境复杂及尺度分布不均衡的条件下,提高了多类别目标的检测精度,改善了小目标漏检和误检的问题。基于FEDSC−FFBD的煤矿井下多目标检测算法在无图像质量增强算法的前提下,克服了光照强度分布不均对小尺度目标检测带来的挑战。
Abstract:Currently, underground coal mine target detection algorithms based on deep learning show poor performance in detecting complex small targets under conditions of uneven light intensity distribution, complex target environments, and imbalanced multi-class target scale distribution, often resulting in missed detection and false detection. To address these issues, based on the single-stage target detection algorithm YOLOv8n, this study proposed an underground coal mine multi-target detection algorithm based on feature extraction by dynamic snake convolution (FEDSC)-feature fusion by bi-directional feature pyramid network and semantic and detail fusion (FFBD). FEDSC replaced the backbone network of YOLOv8n to expand the receptive field, while FFBD acted as the neck network to reduce target false detection and missed detection. Additionally, a decoupling detection head of SIoU was used as the detection layer to improve the model's adaptability to small targets and the convergence speed. The results showed that: ① The mAP@0.5 of the FEDSC-FFBD algorithm was 97.00%, the number of model parameters was 4.22×106, and the number of floating point operations per second was 21.7×109. ② The mAP@0.5 of the FEDSC-FFBD alorithm was 3.40% higher than the YOLOv8n algorithm, and the recognition accuracy of the helmet small target was 90.90%, 11% higher than the YOLOv8n algorithm. ③ Compared with other YOLO series algorithms, the FEDSC-FFBD algorithm achieved the highest mAP@0.5, which was 3.60%, 1%, 10.50%, and 6.40% higher than YOLOv5s, YOLOv9c, YOLOv10n, and YOLOv11n algorithms, respectively. ④ The FEDSC-FFBD algorithm improved the detection accuracy of multi-class targets and reduced missed detection and false detection of small targets under conditions of uneven light intensity distribution, complex target environments, and imbalanced target scale distribution in underground coal mine. The underground coal mine multi-target detection algorithm based on FEDSC-FFBD overcame the challenge of small-scale target detection caused by uneven light intensity distribution without relying on image quality enhancement algorithms.
-
0. 引言
煤矿井下环境复杂、设备密集及作业人员多,易存在安全隐患。目前,许多研究人员通过煤矿井下视频监控图像进行安全状态实时监测与预警,并取得了丰富成果[1-2]。然而,由于固定视角下的视频监控图像覆盖多目标且尺度分布不均衡、井下光照强度分布不均干扰目标可视化特征,造成对复杂环境下小目标的精准检测难度大,易出现漏检和误检[3]。因此,研究能够克服煤矿井下复杂工况条件并精确识别与定位小目标的检测算法,对提高煤矿井下安全状态监测与生产管理水平具有重要意义[4]。
近年来,应用于煤矿井下目标检测的算法主要包括两阶段和单阶段目标检测算法[5]。两阶段目标检测算法包括候选框生成和目标分类精细调整2个阶段,能够实现高精度的目标定位与分类,代表性的算法包括R−CNN,Fast−RCNN和Faster−RCNN。两阶段目标检测算法在提高煤矿井下目标检测准确率上取得了一定的进展[6-9],但所构建的检测模型仍存在计算复杂度高和难部署于计算资源有限的煤矿井下设备等不足。单阶段目标检测算法能够实现在网络中同时预测目标类别和边界框的位置,无需单独生成候选区域,简化了目标检测处理流程,可有效降低检测模型计算复杂度,提高检测速度,更便于部署于计算资源有限的煤矿井下设备。代表性的单阶段目标检测算法包括YOLO系列算法(YOLOv5,YOLOv8,YOLOv7和YOLOX等)、单发射多盒检测器(Single Shot MultiBox Detector,SSD)算法等。章赛等[9]针对煤矿井下光照强度不均衡导致无人电机车轨道障碍物检测准确率低的问题,基于YOLOX算法,融合通道注意力机制,设计了一种面向低照度图像的多特征融合目标检测算法,实现了在微光条件下的目标有效检测与识别。唐俊等[10]针对煤矿井下弱光环境中目标检测精度低的问题,设计了一种基于Faster−YOLOv7的带式输送机异物实时检测算法,先采用限制对比度自适应直方图均衡化算法对原始图像进行增强,再将Mobilenetv3网络融合原始YOLOv7主干网络,降低检测模型参数和浮点运算量,并通过融合通道注意力机制和Alpha−IoU损失函数,提高检测精度,同时满足轻量化需求。Huang Kaifeng等[11]提出了一种基于改进YOLOv5的煤矿带式输送机输送点异物识别检测算法,先采用递归滤波和具有色彩恢复的多尺度Retinex算法对低质量图像进行预处理,再基于YOLOv5算法融合多尺度注意力模块,有效抑制冗余图像特征,进而提高检测准确率。Luo Bingxin等[12]提出了一种基于改进YOLOv5的非煤异物快速检测和识别方法,先采用暗通道去噪方法对在恶劣采矿环境中采集的原始低质量图像进行预处理,提高图像清晰度,之后,对YOLOv5的主干和颈部进行了改进,构建了一个深度轻量级的目标检测网络,有效平衡了检测准确率与推理速度。杨文轲等[13]针对煤矿变电所工人未穿戴绝缘手套和绝缘胶鞋的不安全行为,提出了一种基于改进YOLOv7的绝缘手套和绝缘胶鞋目标检测方法,该方法引入深度可分离卷积,提高模型特征提取能力的同时有效降低模型的计算复杂度。 田佳伟等[14]针对原始YOLOv5算法应用于煤矿井下时检测精度低,以及深层网络结构易发生梯度消失和过拟合的问题,引入Transformer来改进YOLOv5算法,实现检测精度的有效提升。虽然上述研究成果在提高煤矿井下目标检测精度上取得了一定进展,但在面对光照强度分布不均、目标环境复杂及多类目标尺度分布不均衡时,目前算法对复杂小目标的检测效果不佳,仍易出现漏检和误检。
针对上述问题,本文开展单阶段目标检测算法的研究,从提高检测模型对不同尺度目标的特征提取性能和多尺度特征图高效融合的能力入手,在无图像质量增强算法的前提下,利用有限的实例级标记图像训练检测模型,克服光照强度分布不均对小尺度目标检测带来的挑战,进而提高对煤矿井下多类别小目标的检测准确率。
虽然YOLOv11为目前最新版本的YOLO系列算法,也在主干网络、颈部网络和检测层做出一定的优化,但其网络结构相比于YOLOv8n并未有较大改进,此外,在面向受环境和光照影响较大的煤矿图像数据时,YOLOv11未能表现出明显的优势。因此,本文基于YOLOv8n提出一种新的煤矿井下多目标检测算法,采用基于动态蛇形卷积(Dynamic Snake Convolution,DSConv)进行特征提取−采用基于双向特征金字塔网络(Bi-directional Feature Pyramid Network,BiFPN)与语义和细节融合(Semantic and Detail Infusion,SDI)进行特征融合 (Feature Extraction by Dynamic Snake Convolution-Feature Fusion by Bi-directional Feature Pyramid Network and Semantic and Detail Infusion,FEDSC−FFBD),即采用FEDSC替换YOLOv8n的主干网络以扩大感受野,将FFBD作为颈部网络以减少目标误检和漏检,引入SIoU的解耦检测头作为检测层,提高模型对小目标的适应能力与模型收敛速度。
1. 基于FEDSC−FFBD的煤矿井下多目标检测算法(以下称FEDSC−FFBD算法)
1.1 算法整体结构
FEDSC−FFBD算法结构如图1所示。
1.2 主干网络改进
FEDSC模块由Conv,C2f,C2f_DSC,CA和SPPF模块构成,其中,C2f_DSC模块设置在FEDSC网络的L3,L5,L7和L9层,在SPPF模块(L11层)之前引入CA注意力机制模块,增强目标检测模型对复杂煤矿背景中小目标的特征提取能力,同时加强对背景噪声的抑制,提高检测性能。
1) 引入DSConv提高目标特征提取能力。采用DSConv(图2)模块替换C2f模块中的标准卷积Conv模块,进而获得C2f_DSC模块(图3),以扩大感受野,增强检测模型对复杂且不规则目标特征的提取能力[15]。
2) 引入CA注意力机制(图4 )提高目标定位精度。CA注意力机制利用目标位置信息对通道关系和长距离上的依赖关系进行编码,得到通道维度信息,并捕获横向、纵向的空间信息,实现对每个通道权重信息的动态分配,进而将目标位置信息合并到通道聚焦模块中,扩大特征提取网络的信息获取范围,以实现特征提取过程中聚焦目标位置信息并提高目标检测精度[16]。图4中C为通道数,H为高,W为宽,r为压缩比,X为水平方向,Y为垂直方向。
1.3 颈部网络改进
FFBD自下而上的融合路径包括3个C2f_DSC模块(L14,L17和L20层)、3个SDI模块(L13,L16和L19层)和3个上采样模块(L12,L15和L18层)。自上而下的路径包括3组相同的模块结构(1个Conv模块、1个Concat_BiFPN模块和1个C2f模块)。其中,Concat_BiFPN模块是加权融合计算模块。在上述结构基础上,进一步将L5和L7层输出的特征图输入到L22和L25层参与特征融合。
1) 基于 BiFPN的多尺度特征融合。不同输入特征图的分辨率之间有差别,对输出特征的贡献也不同,而YOLOv8n直接使用同样的权重实现融合,易造成重要特征信息融合不足及冗余特征信息干扰[17]。BiFPN是一种基于加权的双向特征融合结构。因此,采用BiFPN对参与融合的不同尺度特征赋予权重,通过网络的不断学习来更新特征的贡献度,实现更高效融合。
2) 引入SDI增强多尺度特征融合。以3层不同尺度特征图的融合为例,描述SDI(图5)模块融合过程,定义M层特征图为$ \{ f_1^0,f_2^0, \cdots ,f_M^0\} $,$ f_m^0 $($ 1 \leqslant m \leqslant M $)为待融合的第m层特征图。首先,将待融合的第m层特征图$ f_m^0 $经过空间注意力机制和通道注意力机制模块处理,获得包含局部空间信息和全局通道信息的特征图$ f_m^1 $,再利用$1 \times 1$卷积处理$ f_m^1 $,减小其通道数,获得通道数减小的特征图$ f_m^2 $。然后,对每个第n层的特征图尺寸重新调节来匹配特征图$ f_m^2 $的分辨率,获得尺寸调整后的特征图$ f_{mn}^3 $,再利用$3 \times 3$卷积对$ f_{mn}^3 $进行平滑卷积运算,获得与其相对应的平滑特征图$ f_{mn}^4 $。最后,为进一步强化第m层特征图融合更多目标语义信息和目标边界细节信息,采用Hadamard乘积对第m层特征图进行处理,获得SDI模块输出的融合特征图$ f_m^5 $。
$$ f_{mn}^3 = \left\{ {\begin{array}{*{20}{l}} {{F_{\mathrm{D}}}(f_n^2,({H_m},{W_m}))} \\ {{F_{\mathrm{I}}}(f_n^2)} \\ {{F_{\mathrm{U}}}(f_n^2,({H_m},{W_m}))} \end{array}} \right.\begin{array}{*{20}{c}} {}&{\begin{array}{*{20}{c}} {n \lt m} \\ {n = m} \\ {n \gt m} \end{array}} \end{array} $$ (1) $$ f_{mn}^4{\text{ = }}{\rho _{mn}}(f_{mn}^3) $$ (2) $$ f_m^5 = {\delta _{{\mathrm{had}}}}([f_{m1}^4,f_{m2}^4, \cdots ,f_{mN}^4]) $$ (3) 式中:$ {F_{\mathrm{D}}} $,$ {F_{\mathrm{I}}} $和$ {F_{\mathrm{U}}} $分别为对第n层通道数减小的特征图$ f_n^2 $进行自适应平均池化、恒等映射和双线性插值运算,进而使其分辨率匹配为$ {H_m} \times {W_m} $,$ {H_m} $与$ {W_m} $分别为$ f_n^2 $特征图的高和宽;$ {\rho _{mn}} $为平滑运算操作的参数;$ {\delta _{{\mathrm{had}}}}( \cdot ) $为Hadamard乘积运算[18];$ f_{m1}^4 $,$ f_{m2}^4 $,···,$ f_{mN}^4 $分别为在第m层的第1,2,···,N个平滑特征图。
3) 引入C2f_DSC模块增强特征提取与提高对复杂小目标的敏感度。为了在特征融合过程中进一步提高特征提取性能,聚焦小目标的位置信息,进而提高定位精度,将C2f_DSC模块引入特征融合网络FFBD中。
1.4 损失函数改进
将FFBD的L20,L23,L26和L29层分别连接解耦检测头,因此,检测层共包含4个解耦检测头,每个检测头均包括回归分支和分类分支。YOLOv8算法采用CIoU损失函数用于回归任务,但在面对受复杂环境噪声干扰的小目标检测任务时,预测的小像素目标帧内微小位置偏差会对CIoU计算产生不利影响,导致识别准确率下降。此外,CIoU损失函数在面对纵横比或比例变化不明显的小目标时,其收敛速率不高,进而影响整个回归任务的性能。因此,本文引入SIoU损失函数[19]替换CIoU损失函数,以提高模型对小目标的适应能力与模型收敛速度。 SIoU损失函数的计算考虑了真实标记框与预测框相关的角度损失,由于在检测模型训练的初始阶段,预测框和标记框通常不相交,对此,通过引入角度损失的计算,能够加速真实标记框与预测框之间距离的计算,从而实现整个回归任务更快的收敛。
2. 实验结果分析
为验证基于FEDSC−FFBD的煤矿井下多目标检测算法对煤矿井下环境小目标检测的优越性,采用某煤矿井下实际视频监控图像构建实验数据集。
2.1 数据集
某煤矿井下原始视频监控图像数据集共包含500张图像,按7∶2∶1的比例随机划分训练集、测试集和验证集。采用LabelImg标注工具对数据集中7种类别目标进行标注,分别为管道、轨道、人、安全帽、有衣物、胶带和无衣物。数据集中部分图像样本如图6所示。
2.2 实验设置
本文采用PyTorch深度学习框架进行目标检测算法的训练和测试,使用Python语言进行开发,实验平台环境配置见表1。选用SGD优化器进行训练损失的优化,设置批处理大小为16,初始学习率为0.001,权重衰减为
0.0005 ,动量为0.937,Epoch为160。为了保证实验模型初始条件相同,本文在任何消融实验和模型训练过程中都不使用预先训练的权重。表 1 实验平台环境配置Table 1. Environment configuration of the experimental platform名称 版本信息 CPU Intel(R) i7−13700KF 3.40 GHz 操作系统 Windows 10 内存/GiB 32 GPU NVIDIA GeForce RTX 4080 CUDA 12.1 Python 3.11 PyTorch 2.1.1 2.3 实验评价指标
采用目前领域内被广泛使用的准确率(Precision,P)、平均准确率(Average Precision,AP)、平均准确率的均值(mean Average Precision, mAP)、模型参数量(Parameters of Model,PM)和每秒浮点运算数(Floating Point Operations Per Second,FLOPs)[20]作为评价指标。其中,mAP表示模型的识别精度,本文的mAP采用mAP@0.5,即IoU阈值为0.5时的mAP,PM和FLOPs分别表示模型的存储需求和计算资源消耗。
2.4 算法有效性验证
为验证FEDSC−FFBD算法的有效性,与目前一些主流的单阶段目标检测算法开展对比实验,不同算法的目标检测实验结果见表2。
表 2 目标检测结果对比Table 2. Comparison of target detectiont results算法 AP/% mAP@0.5/% P/% FLOPs/109 PM/106个 管道 轨道 人 安全帽 有衣物 胶带 无衣物 YOLOv8n 99.50 98.80 97.10 79.90 93.40 99.50 86.80 93.60 93.80 8.1 3.00 YOLOv8m 99.50 99.20 96.50 77.90 93.90 99.50 93.20 94.20 94.30 79.1 25.80 YOLOv8l 99.50 99.40 97.50 82.40 95.50 99.50 87.20 94.40 94.90 165.4 43.60 YOLOv8x 99.50 99.30 96.70 85.10 93.80 99.50 91.20 95.00 93.80 257.4 68.10 YOLOv8s 99.50 99.10 96.80 81.90 93.30 99.50 93.50 94.80 92.70 28.5 11.10 YOLOv5n 99.50 99.40 97.20 74.50 92.20 99.50 77.10 91.30 91.50 7.2 2.50 YOLOv5m 99.50 99.30 95.90 76.70 93.70 99.50 81.60 92.30 93.40 64.4 25.10 YOLOv5l 99.50 99.20 95.50 74.80 94.10 99.50 85.90 92.70 94.70 135.3 53.10 YOLOv5x 99.50 98.70 97.40 77.90 92.10 99.50 91.70 93.80 91.50 246.9 97.20 YOLOv5s 99.50 99.00 96.00 81.30 95.20 99.50 83.50 93.40 95.50 23.8 9.10 YOLOv6n 99.50 98.10 95.50 72.20 95.10 99.50 85.80 92.30 94.90 11.6 4.16 YOLOv9c 99.50 99.10 97.10 88.10 96.20 99.50 92.00 96.00 93.10 84.1 21.30 YOLOv10n 99.50 97.10 86.50 65.90 88.90 99.50 68.40 86.50 87.90 8.4 2.70 YOLOv11n 99.50 98.80 96.20 67.90 90.10 99.50 81.90 90.60 89.33 6.3 2.58 FEDSC−FFBD 99.50 98.40 96.70 90.90 96.10 99.50 97.90 97.00 95.90 21.70 4.22 由表2可看出,FEDSC−FFBD算法对7种不同目标的AP分别达99.50%,98.40%,96.70%,90.90%,96.10%,99.50%和97.90%,mAP@0.5为97.00%,准确率为95.90%,PM为4.22×106个,FLOPs为21.7×109。FEDSC−FFBD算法的mAP@0.5与准确率较YOLOv8n算法分别提升了3.4%和2.1%,但FEDSC−FFBD算法的PM和FLOPs较YOLOv8n算法有一定程度的提升;与其他YOLO系列算法相比,FEDSC−FFBD算法的mAP@0.5最高,较YOLOv5s,YOLOv9c,YOLOv10n和YOLOv11n算法分别提升了3.60%,1.00%,10.50%和6.40%。但相较于YOLOv8m,YOLOv8l,YOLOv8s和YOLOv8x算法,FEDSC−FFBD算法在具有更高的mAP与准确率的同时,PM与FLOPs更低。
各算法对管道、轨道、人、有衣物、胶带和无衣物目标的识别检测准确率均可达到90%以上,而安全帽的检测准确率明显较低,主要是因为安全帽本身尺寸小,在视频监控图像中的尺度不均衡,更易受到其他尺度较大目标的遮挡及煤矿井下环境背景干扰。而FEDSC−FFBD算法通过对检测算法的主干网络、颈部网络和检测头损失函数3个方面的优化,增强了模型对煤矿井下小目标的检测准确率,对安全帽的识别准确率达90.90%。
煤矿井下多目标检测结果如图7所示,可看出不同算法在较大尺度目标检测框的回归预测效果上差距不太明显,但针对尺度较小的安全帽目标,不同算法间的差距明显,FEDSC−FFBD算法的预测结果最接近标定图像,进一步验证了该算法的有效性。
为验证本文所提FEDSC模型的有效性,将加入DSConv+CA注意力机制前后检测模型的特征可视化热力图进行对比,如图8所示。可看出引入DSConv+CA注意力机制后能够明显提升对不同目标特征的关注与提取,且对复杂环境的干扰有一定程度的抑制,使提取出的特征更有利于不同目标的分类识别。
2.5 消融实验
为验证FEDSC−FFBD算法中改进策略的有效性,基于DSConv、CA注意力机制、BiFPN结构和SDI网络,开展消融实验,结果见表3。M1模型为YOLOv8n+DSConv,M2模型为YOLOv8n+DSConv+CA,M3模型为YOLOv8n+FEDSC+BiFPN,M4模型为YOLOv8n+FEDSC+BiFPN+DSConv,M5模型为YOLOv8n+FEDSC+BiFPN+DSConv+SDI,M6模型为YOLOv8n+SIoU,M7模型为YOLOv8n+SIoU+DSConv,M8模型为YOLOv8n+SIoU+DSConv+CA,M9模型为YOLOv8n+SIoU+FEDSC+ BiFPN,M10模型为YOLOv8n+SIoU+FEDSC+ BiFPN+DSConv,M11模型为YOLOv8n+SIoU+FEDSC+BiFPN+DSConv+SDI。
由表3可看出,M1模型的mAP@0.5和准确率较YOLOv8n模型分别提高了1.76%和1.70%,PM较YOLOv8n模型减少了0.04×106,但由于DSConv的引入,在一定程度上增加了模型的FLOPs;M2模型的mAP@0.5和准确率较YOLOv8n模型分别提高了1.80%和1.80%,PM较YOLOv8n模型减少了0.03×106;M3模型的mAP@0.5和准确率较YOLOv8n模型分别提高了1.50%和0.50%;M4模型的mAP@0.5较YOLOv8n模型提高了2.16%,准确率下降了0.40%;M5模型mAP@0.5较YOLOv8n模型提高了3.24%,准确率下降了0.50%;M6模型的mAP@0.5较YOLOv8n模型减少了1.10%,但准确率上升了1.50%;M7模型的mAP@0.5较YOLOv8n模型提高了2.30%,准确率持平;M8模型的mAP@0.5较YOLOv8n模型提高了2.50%,准确率下降0.70%;M9模型的mAP@0.5较YOLOv8n模型提高了2.80%,准确率提升了1.60%;M10模型的mAP@0.5较YOLOv8n模型提高了3.10%,准确率提升了1.50%;M11模型(本文模型)的mAP@0.5和准确率较YOLOv8n模型分别提高了3.40%和2.10%。上述实验结果对比表明,本文采用的改进策略能够有效提升模型的mAP@0.5,但DSConv和CA注意力机制的引入会导致模型计算复杂度有一定程度的提升。
表 3 消融实验结果Table 3. Ablation experiment results模型 AP/% mAP0.5/% P/% FLOPs/109 PM/106个 管道 轨道 人 安全帽 有衣物 胶带 无衣物 YOLOv8n 99.50 98.80 97.10 79.90 93.40 99.50 86.80 93.60 93.80 8.10 3.00 M1 99.50 98.40 97.50 88.90 96.50 99.50 87.20 95.36 95.50 12.70 2.96 M2 99.50 98.60 96.00 89.00 96.50 99.50 88.70 95.40 95.60 12.90 2.97 M3 99.50 99.50 97.50 83.60 96.50 99.50 89.50 95.10 94.30 13.00 2.99 M4 99.50 99.30 96.10 88.90 96.50 99.50 90.50 95.76 93.40 13.50 3.09 M5 99.50 99.40 96.80 93.40 97.00 99.50 92.30 96.84 93.30 21.70 4.22 M6 99.50 98.40 96.50 78.90 93.50 99.50 80.90 92.50 95.30 8.10 3.0 M7 99.50 98.60 96.60 88.60 96.60 99.50 91.60 95.90 93.80 12.70 2.96 M8 99.50 99.30 94.20 86.40 95.90 99.50 98.20 96.10 93.10 12.90 2.97 M9 99.50 98.70 97.30 83.60 97.00 99.50 99.50 96.40 95.40 13.00 2.99 M10 99.50 99.10 97.50 90.50 96.50 99.50 94.50 96.70 95.30 13.50 3.09 M11 99.50 98.40 96.70 90.90 96.10 99.50 97.90 97.00 95.90 21.70 4.22 表 4 不同注意力机制下的消融实验结果对比Table 4. Comparison of ablation experiment results under different attention mechanisms注意力机制 算法 AP/% mAP@0.5/% P/% FLOPs/
109PM/
106个管道 轨道 人 安全帽 有衣物 胶带 无衣物 DAM FEDSC 99.50 99.20 96.50 87.80 97.00 99.50 83.10 94.70 92.30 13.1 3.23 FEDSC−BiFPN 99.50 98.40 96.80 90.20 96.10 99.50 96.70 96.70 93.30 13.2 3.25 FEDSC−BiFPN−DSC 99.50 98.80 96.00 87.70 95.40 99.50 90.70 95.40 90.60 13.7 3.35 FEDSC−FFBD 99.50 99.40 97.60 85.50 95.30 99.50 82.50 94.20 92.30 21.6 4.39 SEM FEDSC 99.50 98.70 94.90 86.20 93.70 99.50 83.50 93.70 92.60 12.9 2.97 FEDSC−BiFPN 99.50 98.70 97.10 87.20 95.70 99.50 99.50 82.10 94.30 13.0 2.99 FEDSC−BiFPN−DSC 99.50 99.30 96.10 85.70 96.60 99.50 90.30 95.30 90.60 13.5 3.08 FEDSC−FFBD 99.50 99.40 96.30 87.40 94.70 99.50 80.60 93.90 96.30 21.4 4.13 CBAM FEDSC 99.50 99.10 96.80 89.10 96.60 99.50 85.00 95.10 94.10 12.9 2.98 FEDSC−BiFPN 99.50 98.90 94.90 87.10 96.60 99.50 84.30 94.40 92.80 13.0 3.0 FEDSC−BiFPN−DSC 99.50 98.70 96.70 86.40 94.90 99.50 84.80 94.40 94.10 13.5 3.09 FEDSC−FFBD 99.50 99.30 96.50 88.20 97.40 99.50 90.40 95.80 95.10 21.4 4.14 EMA FEDSC 99.50 99.50 96.70 89.00 94.20 99.50 95.40 96.20 92.30 12.9 2.97 FEDSC−BiFPN 99.50 98.80 97.10 90.00 93.10 99.50 94.70 96.10 94.00 12.9 2.98 FEDSC−BiFPN−DSC 99.50 99.40 97.30 88.20 97.70 99.50 90.80 96.10 94.20 13.4 3.08 FEDSC−FFBD 99.50 99.40 97.00 91.50 96.40 99.50 79.20 94.60 94.50 21.4 4.13 CA FEDSC 99.50 99.30 94.20 86.40 95.90 99.50 98.20 96.10 93.10 12.9 2.97 FEDSC−BiFPN 99.50 98.70 97.30 83.60 97.00 99.50 99.50 96.40 95.40 13.0 2.99 FEDSC−BiFPN−DSC 99.50 99.10 97.50 90.50 96.50 99.50 94.50 96.70 95.30 13.5 3.09 FEDSC−FFBD 99.50 98.40 96.70 90.90 96.10 99.50 97.90 97.00 95.90 21.7 4.22 为进一步验证本文在特征提取网络中引入CA注意力机制的有效性,开展不同注意力机制融入特征提取网络下的消融实验,结果见表4。可看出在FEDSC−FFBD算法使用CA注意力机制时的mAP@0.5较使用DAttention(DAM),SEAttention(SEM),CBAM(Convolutional Block Attention Module,卷积注意模块)和EMA(Efficient Multi-scale Attention,高效的多尺度关注)时分别提高了2.80%,3.10%,1.20%和2.40%。
3. 结论
1) 为实现对煤矿井下复杂环境多目标的精确检测,提出了一种FEDSC−FFBD算法。该算法引入DSConv与CA注意力机制构建特征提取网络,基于BiFPN与SDI模块构建特征融合网络,引入SIoU改进检测头损失函数。
2) 对比实验结果表明,FEDSC−FFBD算法的mAP@0.5为97.00%,模型参数量为4.22×106个,浮点运算量为21.7×109,说明FEDSC−FFBD算法能够有效提升煤矿井下多目标检测精度,尤其是针对复杂环境中的小目标。
3) 消融实验结果表明,针对特征提取网络、特征融合网络和检测头损失函数3个方面的优化策略能够有效提升煤矿井下多目标检测准确率。
4) 特征提取网络FEDSC中通过引入CA注意力机制,有效提升了检测模型对煤矿复杂环境下的多目标特征提取能力。
-
表 1 实验平台环境配置
Table 1 Environment configuration of the experimental platform
名称 版本信息 CPU Intel(R) i7−13700KF 3.40 GHz 操作系统 Windows 10 内存/GiB 32 GPU NVIDIA GeForce RTX 4080 CUDA 12.1 Python 3.11 PyTorch 2.1.1 表 2 目标检测结果对比
Table 2 Comparison of target detectiont results
算法 AP/% mAP@0.5/% P/% FLOPs/109 PM/106个 管道 轨道 人 安全帽 有衣物 胶带 无衣物 YOLOv8n 99.50 98.80 97.10 79.90 93.40 99.50 86.80 93.60 93.80 8.1 3.00 YOLOv8m 99.50 99.20 96.50 77.90 93.90 99.50 93.20 94.20 94.30 79.1 25.80 YOLOv8l 99.50 99.40 97.50 82.40 95.50 99.50 87.20 94.40 94.90 165.4 43.60 YOLOv8x 99.50 99.30 96.70 85.10 93.80 99.50 91.20 95.00 93.80 257.4 68.10 YOLOv8s 99.50 99.10 96.80 81.90 93.30 99.50 93.50 94.80 92.70 28.5 11.10 YOLOv5n 99.50 99.40 97.20 74.50 92.20 99.50 77.10 91.30 91.50 7.2 2.50 YOLOv5m 99.50 99.30 95.90 76.70 93.70 99.50 81.60 92.30 93.40 64.4 25.10 YOLOv5l 99.50 99.20 95.50 74.80 94.10 99.50 85.90 92.70 94.70 135.3 53.10 YOLOv5x 99.50 98.70 97.40 77.90 92.10 99.50 91.70 93.80 91.50 246.9 97.20 YOLOv5s 99.50 99.00 96.00 81.30 95.20 99.50 83.50 93.40 95.50 23.8 9.10 YOLOv6n 99.50 98.10 95.50 72.20 95.10 99.50 85.80 92.30 94.90 11.6 4.16 YOLOv9c 99.50 99.10 97.10 88.10 96.20 99.50 92.00 96.00 93.10 84.1 21.30 YOLOv10n 99.50 97.10 86.50 65.90 88.90 99.50 68.40 86.50 87.90 8.4 2.70 YOLOv11n 99.50 98.80 96.20 67.90 90.10 99.50 81.90 90.60 89.33 6.3 2.58 FEDSC−FFBD 99.50 98.40 96.70 90.90 96.10 99.50 97.90 97.00 95.90 21.70 4.22 表 3 消融实验结果
Table 3 Ablation experiment results
模型 AP/% mAP0.5/% P/% FLOPs/109 PM/106个 管道 轨道 人 安全帽 有衣物 胶带 无衣物 YOLOv8n 99.50 98.80 97.10 79.90 93.40 99.50 86.80 93.60 93.80 8.10 3.00 M1 99.50 98.40 97.50 88.90 96.50 99.50 87.20 95.36 95.50 12.70 2.96 M2 99.50 98.60 96.00 89.00 96.50 99.50 88.70 95.40 95.60 12.90 2.97 M3 99.50 99.50 97.50 83.60 96.50 99.50 89.50 95.10 94.30 13.00 2.99 M4 99.50 99.30 96.10 88.90 96.50 99.50 90.50 95.76 93.40 13.50 3.09 M5 99.50 99.40 96.80 93.40 97.00 99.50 92.30 96.84 93.30 21.70 4.22 M6 99.50 98.40 96.50 78.90 93.50 99.50 80.90 92.50 95.30 8.10 3.0 M7 99.50 98.60 96.60 88.60 96.60 99.50 91.60 95.90 93.80 12.70 2.96 M8 99.50 99.30 94.20 86.40 95.90 99.50 98.20 96.10 93.10 12.90 2.97 M9 99.50 98.70 97.30 83.60 97.00 99.50 99.50 96.40 95.40 13.00 2.99 M10 99.50 99.10 97.50 90.50 96.50 99.50 94.50 96.70 95.30 13.50 3.09 M11 99.50 98.40 96.70 90.90 96.10 99.50 97.90 97.00 95.90 21.70 4.22 表 4 不同注意力机制下的消融实验结果对比
Table 4 Comparison of ablation experiment results under different attention mechanisms
注意力机制 算法 AP/% mAP@0.5/% P/% FLOPs/
109PM/
106个管道 轨道 人 安全帽 有衣物 胶带 无衣物 DAM FEDSC 99.50 99.20 96.50 87.80 97.00 99.50 83.10 94.70 92.30 13.1 3.23 FEDSC−BiFPN 99.50 98.40 96.80 90.20 96.10 99.50 96.70 96.70 93.30 13.2 3.25 FEDSC−BiFPN−DSC 99.50 98.80 96.00 87.70 95.40 99.50 90.70 95.40 90.60 13.7 3.35 FEDSC−FFBD 99.50 99.40 97.60 85.50 95.30 99.50 82.50 94.20 92.30 21.6 4.39 SEM FEDSC 99.50 98.70 94.90 86.20 93.70 99.50 83.50 93.70 92.60 12.9 2.97 FEDSC−BiFPN 99.50 98.70 97.10 87.20 95.70 99.50 99.50 82.10 94.30 13.0 2.99 FEDSC−BiFPN−DSC 99.50 99.30 96.10 85.70 96.60 99.50 90.30 95.30 90.60 13.5 3.08 FEDSC−FFBD 99.50 99.40 96.30 87.40 94.70 99.50 80.60 93.90 96.30 21.4 4.13 CBAM FEDSC 99.50 99.10 96.80 89.10 96.60 99.50 85.00 95.10 94.10 12.9 2.98 FEDSC−BiFPN 99.50 98.90 94.90 87.10 96.60 99.50 84.30 94.40 92.80 13.0 3.0 FEDSC−BiFPN−DSC 99.50 98.70 96.70 86.40 94.90 99.50 84.80 94.40 94.10 13.5 3.09 FEDSC−FFBD 99.50 99.30 96.50 88.20 97.40 99.50 90.40 95.80 95.10 21.4 4.14 EMA FEDSC 99.50 99.50 96.70 89.00 94.20 99.50 95.40 96.20 92.30 12.9 2.97 FEDSC−BiFPN 99.50 98.80 97.10 90.00 93.10 99.50 94.70 96.10 94.00 12.9 2.98 FEDSC−BiFPN−DSC 99.50 99.40 97.30 88.20 97.70 99.50 90.80 96.10 94.20 13.4 3.08 FEDSC−FFBD 99.50 99.40 97.00 91.50 96.40 99.50 79.20 94.60 94.50 21.4 4.13 CA FEDSC 99.50 99.30 94.20 86.40 95.90 99.50 98.20 96.10 93.10 12.9 2.97 FEDSC−BiFPN 99.50 98.70 97.30 83.60 97.00 99.50 99.50 96.40 95.40 13.0 2.99 FEDSC−BiFPN−DSC 99.50 99.10 97.50 90.50 96.50 99.50 94.50 96.70 95.30 13.5 3.09 FEDSC−FFBD 99.50 98.40 96.70 90.90 96.10 99.50 97.90 97.00 95.90 21.7 4.22 -
[1] 程德强,钱建生,郭星歌,等. 煤矿安全生产视频AI识别关键技术研究综述[J]. 煤炭科学技术,2023,51(2):349-365. CHENG Deqiang,QIAN Jiansheng,GUO Xingge,et al. Review on key technologies of AI recognition for videos in coal mine[J]. Coal Science and Technology,2023,51(2):349-365.
[2] 王树奇,刘贝,邹斐. 一种新的矿井监控视频增强目标检测算法[J]. 西安科技大学学报,2019,39(2):347-353. WANG Shuqi,LIU Bei,ZOU Fei. A new image enhancement target detection algorithm based on monitoring video in coal mine tunnel[J]. Journal of Xi'an University of Science and Technology,2019,39(2):347-353.
[3] 寇发荣,肖伟,何海洋,等. 基于改进YOLOv5的煤矿井下目标检测研究[J]. 电子与信息学报,2023,45(7):2642-2649. DOI: 10.11999/JEIT220725 KOU Farong,XIAO Wei,HE Haiyang,et al. Research on target detection in underground coal mines based on improved YOLOv5[J]. Journal of Electronics & Information Technology,2023,45(7):2642-2649. DOI: 10.11999/JEIT220725
[4] 崔铁军,王凌霄. YOLOv4目标检测算法在煤矿工人口罩佩戴监测工作中的应用研究[J]. 中国安全生产科学技术,2021,17(10):66-71. CUI Tiejun,WANG Lingxiao. Research on application of YOLOv4 object detection algorithm in monitoring on masks wearing of coal miners[J]. Journal of Safety Science and Technology,2021,17(10):66-71.
[5] 董彦强,程德强,张云鹤,等. 基于注意力和重构特征融合的轻量级煤矿安全帽检测方法[J]. 计算机工程与应用,2024,60(15):297-306. DOI: 10.3778/j.issn.1002-8331.2304-0421 DONG Yanqiang,CHENG Deqiang,ZHANG Yunhe,et al. Lightweight coal mine safety helmet detection method based on attention and reconfiguration feature fusion[J]. Computer Engineering and Applications,2024,60(15):297-306. DOI: 10.3778/j.issn.1002-8331.2304-0421
[6] 李伟山,卫晨,王琳. 改进的Faster RCNN煤矿井下行人检测算法[J]. 计算机工程与应用,2019,55(4):200-207. DOI: 10.3778/j.issn.1002-8331.1711-0282 LI Weishan,WEI Chen,WANG Lin. Improved faster RCNN approach for pedestrian detection in underground coal mine[J]. Computer Engineering and Applications,2019,55(4):200-207. DOI: 10.3778/j.issn.1002-8331.1711-0282
[7] LI Dongjun,ZHANG Zhenxin,XU Zhihua,et al. An image-based hierarchical deep learning framework for coal and gangue detection[J]. IEEE Access,2019,7. DOI: 10.1109/ACCESS.2019.2961075.
[8] LIANG Bin,WANG Zhongbin,SI Lei,et al. A novel pressure relief hole recognition method of drilling robot based on SinGAN and improved faster R-CNN[J]. Applied Sciences,2022,13(1). DOI: 10.3390/APP13010513.
[9] 章赛,纪凡,卢才武,等. 低照度下改进YOLOX的煤矿无人电机车轨道障碍物检测方法[J]. 安全与环境学报,2024,24(3):952-961. ZHANG Sai,JI Fan,LU Caiwu,et al. An improved YOLOX detection method for tracking obstacles of unmanned electric locomotives in coal mines under low lighting[J]. Journal of Safety and Environment,2024,24(3):952-961.
[10] 唐俊,李敬兆,石晴,等. 基于Faster−YOLOv7的带式输送机异物实时检测[J]. 工矿自动化,2023,49(11):46-52,66. TANG Jun,LI Jingzhao,SHI Qing,et al. Real time detection of foreign objects in belt conveyors based on Faster-YOLOv7[J]. Journal of Mine Automation,2023,49(11):46-52,66.
[11] HUANG Kaifeng,LI Shiyan,CAI Feng,et al. Detection of large foreign objects on coal mine belt conveyor based on improved[J]. Processes,2023,11(8). DOI: 10.3390/PR11082469.
[12] LUO Bingxin,KOU Ziming,HAN Cong,et al. A faster and lighter detection method for foreign objects in coal mine belt conveyors[J]. Sensors,2023,23(14). DOI: 10.3390/S23146276.
[13] 杨文轲,孟祥瑞,王向前. 基于改进YOLOv7的煤矿工人不安全行为识别方法[J]. 哈尔滨商业大学学报(自然科学版),2024,40(6):664-670. YANG Wenke,MENG Xiangrui,WANG Xiangqian. Method for identifying unsafe behaviors of coal mine workers based on improved YOLOv7[J]. Journal of Harbin University of Commerce(Natural Sciences Edition),2024,40(6):664-670.
[14] 田佳伟, 唐子山. 基于边缘计算和ST−YOLO的矿井智能监控技术研究[J]. 煤炭工程, 2024, 56(7): 165-173. TIAN Jiawei, TANG Zishan. Mine intelligent monitoring technology based on edge computing and ST-YOLO.[J]. Coal Engineering, 2024, 56(7): 165-173.
[15] QI Yaolei,HE Yuting,QI Xiaoming,et al. Dynamic snake convolution based on topological geometric constraints for tubular structure segmentation[C]. IEEE/CVF International Conference on Computer Vision ,Paris,2023:6070-6079.
[16] HOU Qibin,ZHOU Daquan,FENG Jiashi. Coordinate attention for efficient mobile network design[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Nashville,2021:13713-13722.
[17] TAN Mingxing,PANG Ruoming,LE Q V. EfficientDet:scalable and efficient object detection[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:10778-10787.
[18] ZHOU Shilong,ZHOU Haijin. Detection based on semantics and a detail infusion feature pyramid network and a coordinate adaptive spatial feature fusion mechanism remote sensing small object detector[J]. Remote Sensing,2024,16(13). DOI: 10.3390/RS16132416.
[19] CHEN Fuxun,ZHANG Lanxin,KANG Siyu,et al. Soft-NMS-enabled YOLOv5 with SIOU for small water surface floater detection in UAV-captured images[J]. Sustainability,2023,15(14). DOI: 10.3390/SU151410751.
[20] XIE Weining,SUN Xiaoyong,MA Weifeng. A light weight multi-scale feature fusion steel surface defect detection model based on YOLOv8[J]. Measurement Science and Technology,2024,35(5). DOI: 10.1088/1361-6501/AD296D.