Fault detection algorithm for underground conveyor belt deviation based on improved RT-DETR
-
摘要:
目前输送带跑偏检测研究主要集中于提取输送带边缘的直线特征,该方式需设定特定阈值,易受环境因素的制约,导致检测速度慢、精度不高。针对该问题,提出了一种基于改进RT−DETR的井下输送带跑偏故障检测算法,使用改进RT−DETR直接对一组托辊检测,根据左右托辊的暴露程度识别是否跑偏。针对实时检测转换器(RT−DETR)主干网络进行3个方面的改进:① 为了减少主干网络的参数量和浮点运算数量(FLOPs),使用FasterNet Block替换ResNet34中的BasicBlock;② 为了提升模型的精度和效率,在FasterNet Block结构中,引入结构重参数化的思想;③ 为了提升FasterNet Block在特征提取方面的性能,引入了高效多尺度注意力机制(EMA),更加有效地捕捉全局和局部特征图。为了拓展感受野并捕获更有效、更广泛的上下文信息,以获得更为丰富的特征表达,采用改进高级筛选特征融合金字塔网络(HS−FPN)来优化多尺度特征融合。实验结果表明,与基准模型相比较,改进RT−DETR模型的参数量和FLOPs分别减少了8.4×106 个和17.8 G,mAP@0.5达94.5%,严重跑偏检测精度达99.2%,检测速度达41.0 帧/s,优于TOOD,ATSS等目标检测模型,满足煤矿生产对目标检测实时性和准确性的需求。
Abstract:Current research on conveyor belt deviation detection mainly focuses on extracting the straight-line features of belt edges. The method requires setting specific thresholds and is easily affected by environmental factors, resulting in slow detection speed and low accuracy. To address the issue, an underground conveyor belt deviation fault detection algorithm based on an improved real-time detection transformer (RT-DETR) was proposed. The improved RT-DETR was used to directly detect a set of idlers and identify deviation based on the exposure degree of the left and right idlers. Three improvements were made to the RT-DETR backbone network: ① To reduce the number of parameters and floating-point operations (FLOPs), FasterNet Block was used to replace the BasicBlock in ResNet34. ② To enhance model accuracy and efficiency, the concept of structural reparameterization was introduced into the FasterNet Block structure. ③ To improve the feature extraction capability of FasterNet Block, an efficient multi-scale attention (EMA) Module was incorporated to capture both global and local feature maps more effectively. To expand the receptive field and capture more effective and comprehensive contextual information for richer feature representation, an improved high-level screening feature fusion pyramid network (HS-FPN) was adopted to optimize multi-scale feature fusion. Experimental results showed that compared to the baseline model, the improved RT-DETR reduced parameters and FLOPs by 8.4×106 and 17.8 G, respectively. The mAP@0.5 reached 94.5%, with a severe deviation detection accuracy of 99.2% and a detection speed of 41.0 frame per second, outperforming TOOD and ATSS object detection models, meeting the real-time and accuracy requirements of coal mine production.
-
0. 引言
跑偏是煤矿井下带式输送机的常见故障类型[1]。输送带跑偏会引起输送带边缘与输送机架之间摩擦,造成输送带边缘严重磨损、脱胶,甚至引起断带、撕裂等严重事故。因此,需要实时检测和调整输送带的跑偏状态,防止安全事故的发生和扩大。目前,输送带跑偏检测技术分为接触式和非接触式[2]。其中接触式跑偏检测技术存在微动开关触点老化、接触不良等问题。非接触式的机器视觉检测技术被广泛应用于输送带跑偏检测。机器视觉跑偏检测方法可分为两大类:一类是基于传统图像处理的边缘检测方法,另一类是基于机器学习的目标检测方法。边缘检测方法通过分析边缘与特定区域的位置关系来判断是否跑偏,但对光线变化敏感。目标检测方法通过识别托辊判断是否跑偏,但易受暗光影响,可能导致漏检。
文献[3]利用改进的Canny边缘检测算子与Hough直线检测技术获取输送带边缘,实现跑偏检测。然而,该方法图像处理复杂,处理速度慢。文献[4]利用YOLOv5目标检测网络实现输送带检测,解决了输送带边缘特征的快速提取和输送带跑偏分析,但该方法易受复杂环境影响,导致输送带检测失准,影响跑偏检测的准确度。文献[5]提出基于深度边缘特征和梯度约束的输送带实时偏差检测方法,能更好地适应各种场景,检测结果受照明不足和灰尘的影响较小,但区域遮挡会影响性能。文献[6]提出一种基于机器视觉的输送带偏差检测方法,实现了对输送带跑偏故障的识别,但该方法在输送带跑偏程度不明显、偏移量较低时检测误差较大。文献[7]提出一种基于检测机器人和深度学习的带式输送机偏差检测方法,用于检测其任意位置的偏差,该方法通过计算输送带和滚筒边缘之间的距离实现偏差检测,但处理速度较慢,且基于模板匹配的滚筒边缘检测不稳定。
针对上述问题,提出一种基于改进实时检测转换器(Real-Time Detection Transformer,RT−DETR)的井下输送带跑偏故障检测算法。使用改进RT−DETR直接对一组托辊检测,提取跑偏和正常托辊特征,相较于传统算法,显著降低了对环境适应性的要求,无需提取输送带边缘直线,也无需设定特定的阈值,对恶劣及复杂环境的敏感度较低。
1. 输送带跑偏故障检测模型
1.1 RT−DETR模型及改进方法
RT−DETR模型由主干网络(Backbone)、混合编码器(Hybrid Encoder)和带有辅助预测头的Transformer解码器组成[8],如图1所示。采用主干网络最后3个阶段的输出特征{S3,S4,S5}作为编码器的输入。混合编码器由基于注意力的尺度内特征交互(Attention-based Intra-scale Feature Interaction,AIFI)模块和跨尺度特征融合(CNN based Cross-scale Feature-Fusion Module,CCFM)模块组成。AIFI模块只对S5进行尺度内交互,CCFM模块通过自底向上和自顶向下2条路径进行特征融合,将多尺度特征转换为图像特征序列。CBS是基础卷积模块,由卷积层(Conv)、批归一化层(Batch Normalization,BN)和激活函数层(SiLU)组成。采用交并比(Intersection Over Union,IoU)感知的查询选择机制,从编码器的输出序列中选择固定数量的图像特征作为解码器的初始对象查询。最后,带有辅助预测头的解码器迭代优化对象查询,生成边界框和置信度分数。
模型改进方法如下:
1) 针对主干网络,进行3个方面的改进:① 在优化神经网络性能的过程中,减少浮点运算数量(FLOPs)是常见的优化目标之一。FasterNet[9]是一种高效的神经网络架构,主要应用于目标检测任务。为了减少主干网络ResNet34中BasicBlock的参数量和FLOPs,使用FasterNet中的FasterNet Block替换Resnet34中的BasicBlock。② 为了提升模型的精度和效率,在FasterNet Block结构中,引入结构重参数化[10]的思想。③ 为了提升FasterNet Block在特征提取方面的性能,引入了高效多尺度注意力机制(Efficient Multi-Scale Attention Module with Cross-Spatial Learning,EMA)[11],更加有效地捕捉全局和局部特征图。将改进后的FasterNet Block命名为FRE Block。
2) 针对特征融合部分,对高级筛选特征融合金字塔网络(High-level Screening Feature Fusion Pyramid Network,HS−FPN)[12]进行改进,使用上下文锚定注意力(Context Anchor Attention,CAA)模块[13]替换HS−FPN中原来的通道注意力(CA)模块,并命名为CAA−HSFPN。
改进后模型检测精度高、体积较小、检测速度快,有效解决了传统方法准确率不高、检测速度缓慢的问题,从而可更加高效地应对输送带跑偏故障。
1.2 FRE Block设计
1.2.1 FRE Block结构及原理
FRE Block结构如图2所示。采用部分卷积(Partial Convolution,PConv)技术,以减少冗余计算和并行存储访问,更高效地提取空间特征,有效降低了模型参数量;引入结构重参数化策略,在训练阶段实现具有3条分支的卷积结构,而在推理阶段则采用单分支3×3卷积,以减少网络分支数量及结构复杂度;为了增强模型对特征的聚焦能力,在各分支合并相加后融入EMA。
PConv的核心思想是仅对输入通道的局部区域执行卷积操作,以获取空间特征,同时保持其他区域尺寸不变。在处理连续内存访问时,使用首尾连续通道作为特征图的代表进行计算,并假设输入输出特征图通道数相同。PConv的计算量为$ HWk^2C_{\mathrm{p}}^2 $,其中H为通道的高,W为通道的宽,k为滤波器,Cp为连续网络通道。对于典型比率r=Cp/C=1/4,PConv的计算量仅为常规Conv的1/16倍。此外,PConv 的内存访问量较小,为$ 2HWC_{\mathrm{p}}+k^2C_{\mathrm{p}}^2\approx2HWC_{\mathrm{p}} $。PConv的工作原理如图3所示。
1.2.2 结构重参数化
多分支结构性能较好,但单分支在工业部署上更优。因此,建议采用重参数化技术,训练时用多分支,推理时转为单分支。这种技术在推理时将多个计算模块合并为1个,训练时则将它们拆分为多个分支,实现功能等效的集成方法。在主干FasterNet Block结构中,引入结构重参数化[10]的思想,对卷积模块进行重构。训练时使用3×3卷积分支、1×1卷积分支和BN分支并行的策略,并将这3个分支的输出相加,最后使用激活函数处理,实现多分支卷积层结构,从而提升网络性能。而推理时将分支的参数重参数化到主分支上,将其变为单分支的3×3卷积,使用单路结构提升网络效率。
1.2.3 EMA结构
在对输送带进行跑偏检测的过程中,由于有些跑偏程度不大,输送带的偏移量较小,容易造成误检。为了进一步提升FasterNet Block在特征提取方面的性能,引入了EMA[11]。EMA通过其并行子网络块捕捉不同维度间的交互,并建立依赖关系,无需降维,防止了特征信息丢失,同时保持了高精度和较低的参数量。 EMA的整体结构如图4所示。
对于任何给定的输入特征图 ,EMA会将其跨通道维度方向划分为G个子特征,以学习不同的语义。EMA采用3个并行路线来提取分组特征图的注意力权重。为了捕获跨所有通道的依赖关系并降低计算量,在1×1分支中采用2个1D全局平均池化操作分别沿2个空间方向对通道进行编码,并且在3×3分支中仅堆叠单个3×3内核,以捕获多尺度特征表示。引入了2个张量,其中一个是1×1分支的输出,另一个是3×3分支的输出。然后,利用2D全局池化对1×1分支输出中的全局空间信息进行编码。
为实现高效计算,采用2D高斯映射在二维全局平均池化层的输出上对非线性函数Softmax进行线性变换拟合。将上述并行处理的输出与矩阵进行点积运算,得出了第1个空间注意力图。此外,同样利用2D全局平均池化在3×3分支中编码全局空间信息,1×1分支将在通道特征的联合激活机制之前直接转换为相应的维度形状。之后,导出第2个空间注意力图,它保留了整个精确的空间位置信息。最后,针对每组输出特征图,计算2个生成的空间注意力权重值的聚合。随后,应用Sigmoid函数捕捉像素级别的成对关系,并进一步突出显示全局上下文信息。
1.3 CAA−HSFPN结构
受输送距离影响,采集的带式输送机辊轮大小存在差异,采用HS−FPN实现多尺度特征融合,使得模型能够捕获更全面的辊轮特征信息。为了进一步扩大感受野,提取更重要、更全面的特征,采用CAA模块,CAA模块构建了一个加权注意力图,该图能够依据全局上下文信息对特征图的不同区域进行加权,进而实现对具有不同重要性的特征进行有选择性的强化或抑制。CAA模块采用了2个深度可分离的条带卷积,分别在水平方向和垂直方向上进行,在自制的跑偏数据集中,标注的是一组细长形状的辊轮目标,而条带卷积对于处理长形目标时表现突出,应用2个深度条形卷积作为标准大核深度卷积的近似,能够在保持轻量化的同时,显著扩大感受野,更有效地捕获更大范围的上下文信息,并在特征提取过程中增强中心特征的表达能力,促进局部和全局上下文信息的自适应特征提取。
CAA−HSFPN包括特征选择模块和特征融合模块2个主要部分,如图5所示。特征选择模块:AIFI和CAA模块处理输入特征图,经过平均池化后通过1×1卷积得到局部区域特征,再使用Sigmoid激活函数确定每个通道的权重值,有效提取重要通道信息。特征融合模块:Backbone网络生成的多尺度特征图Pi包含丰富的语义信息,但目标定位相对较粗。相反,低尺度特征提供精确的目标位置,但包含有限语义信息。而选择性特征融合机制通过使用高级特征作为权重来过滤低尺度特征中包含的必要语义信息。为了统一高级特征和低尺度特征的维度,使用转置卷积和双线性插值来向上或向下采样高级特征,然后使用CAA模块将高级特征转换为相应的注意力权重,以过滤低尺度特征,得到融合特征Ni。
2. 实验及结果分析
实验运行环境为CentOs Linux release 7.6.1810(Core)操作系统,使用Intel(R) Xeon(R) Gold 6226R CPU @ 2.90 GHz,NVIDIA GeForce RTX3090显卡,显存容量为24 GiB。编程语言为Python3.8.5,深度学习框架为Torch 1.13.1、CUDA 11.6。
2.1 数据集及超参数设置
实验所用数据集来自某煤矿井下输送带工作时的监控视频,逐帧提取视频每一帧的图像,筛选掉大量相似图像和不合格图像,为了有效提高算法的鲁棒性,对采集到的数据集进行亮度调整,采用添加噪声、对比度调整等方式进行数据增强。数据集经过数据增强后一共包含3 480张输送带图像。测量左右两侧暴露出的托辊长度,当其中一边托辊上边缘未被输送带遮挡的像素长度与另一边托辊上边缘暴露的像素长度之比小于2时,判断输送带正常;大于等于2并且小于3时,判断输送带轻微跑偏;大于等于3或者左右托辊一边被完全遮挡时,判断输送带严重跑偏。通过OpenCV辅助处理图像,根据欧几里得距离公式计算出托辊上边缘矩形对角线的长度,从而得到左右两侧暴露出的托辊上边缘像素长度,使用LabelImg标注软件进行手动标注,测量方法如图6所示,左侧托辊暴露的上边缘像素长度为108,右侧托辊暴露的上边缘像素长度为51,即输送带跑偏。构建了包含输送带正常运行(normal)、轻微跑偏(deviation)和严重跑偏(Serious deviation)3种检测类别的数据集,各类别图像数量如图7所示。
将数据集图像按7∶1∶2的比例划分为训练集、测试集和验证集。随机选取2 436张图像作为训练集,348张图像作为验证集,剩下696张图像作为测试集。训练集的输送带图像相对清晰,为了检验算法的鲁棒性,测试集的图像质量低于训练集。
为了评估改进模型的性能,使用平均精度(mAP@0.5)、参数量、帧率、FLOPs、模型体积作为模型评估指标。mAP@0.5代表平均精度,当预测框与标注框的交并比大于0.5时,认为这个对象预测正确;参数用来度量模型复杂性。本文网络训练阶段的超参数设置见表1。
表 1 网络训练超参数Table 1. Network training hyperparameters参数名称 参数设置 参数名称 参数设置 训练次数 300 学习率动量 0.937 批次大小 4 对象查询 300 初始学习率 0.01 解码器 4 2.2 消融实验
为了验证FRE Block的性能,进行了消融实验,结果见表2。使用FasterNet Block对ResNet结构中的BasicBlock进行改进后,参数量减少6.7×106个,FLOPs降低16.5 G,mAP@0.5提升了0.8%。EMA注意力机制使模型对严重跑偏的检测精度进一步提升,达99.0%,使用重参数化卷积使模型对输送带轻微跑偏的检测精度达83.5%。最终FRE−Block使模型的mAP@0.5提高了1.6%,同时参数量减少6.5×106个,FLOPs降低12.7 G。FRE Block不仅能够带来显著的性能提升,而且能够有效降低计算资源的消耗。
为了验证特征融合效果,基于RT−DETR中的CCFM进行对比实验,选取HSFPN,CAA−HSFPN及加权双向特征金字塔网络BiFPN[14]作为对比,结果见表3。可看出,CAA−HSFPN可提升模型性能,对于输送带正常、轻微跑偏和严重跑偏的检测精度分别提高1.0%,2.8%和1.9%,mAP@0.5提高1.5%,并且参数量减少了2.4×106 个,FLOPs降低2.1 G。
表 2 FRE Block消融实验结果Table 2. Results of FRE Block ablation experimentsFasterNet
BlockEMA 重参
数化参数量/106 个 FLOPs/G mAP@0.5/% 模型
体积/MiB帧率/
(帧·s−1)正常 轻微跑偏 严重跑偏 均值 × × × 31.1 88.8 97.4 80.5 98.0 92.0 61.5 52.2 √ × × 24.4 72.3 98.5 81.4 98.6 92.8 48.5 52.1 √ × √ 24.4 72.3 98.2 83.5 98.8 93.5 48.7 51.3 √ √ × 24.6 76.1 97.7 80.5 99.0 92.4 48.9 43.3 √ √ √ 24.6 76.1 98.8 82.9 99.1 93.6 49.1 41.9 表 3 CAA−HSFPN对比实验结果Table 3. Comparative experimental results of CAA-HSFPN特征融合机制 参数量/106 个 FLOPs/G mAP@0.5/% 模型
体积/MiB帧率/
(帧·s−1)正常 轻微跑偏 严重跑偏 均值 CCFM 31.1 88.8 97.4 80.5 98.0 92.0 61.5 52.2 HSFPN 28.2 83.5 97.6 81.8 98.9 92.8 55.6 53.2 BiFPN 30.4 94.5 97.1 80.4 98.7 92.1 60.3 50.3 CAA-HSFPN 28.7 86.7 98.4 83.3 98.9 93.5 56.5 48.9 为了进一步验证CAA−HSFPN和FRE Block对模型检测性能的影响,基于RT−DETR进行消融实验,结果见表4。可看出,RT−DETR模型相比基准模型,mAP@0.5提高2.5%,参数量和FLOPs分别下降了8.4 M和17.8 G,推理速度降低11.2 帧/s,模型体积减小了17.5 MiB,表明FRE Block和CAA−HSFPN可有效提升模型性能。
表 4 改进RT−DETR消融实验结果Table 4. Results of improved RT-DETR ablation experimentsFRE−
BlockCAA−
HSFPN参数
量/106 个FLOPs/G mAP@0.5/% 模型
体积/MiB帧率/
(帧·s−1)正常 轻微跑偏 严重跑偏 均值 × × 31.1 88.8 97.4 80.5 98.0 92.0 61.5 52.2 √ × 24.6 76.1 98.8 82.9 99.1 93.6 49.1 41.9 × √ 28.7 86.7 98.4 83.3 98.9 93.5 56.5 48.9 √ √ 22.7 71.0 98.3 86.0 99.2 94.5 44.0 41.0 2.3 不同检测模型结果对比分析
为了进一步验证改进RT−DETR模型的检测性能,与目前主流的目标检测模型进行对比实验,包括TOOD[15],ATSS[16],Deformable DETR[17],Conditional DETR[18],YOLOv7[19],YOLOv8m[20],YOlOv9c[21],Faster−YOLOv7[22],SlimNeck−YOLOv7[23],GAM−YOLOv8[24],结果见表5。
表 5 输送带跑偏数据集上各模型实验结果Table 5. Experimental results of each model on conveyor belt deviation data set模型 参数量/106 个 FLOPs/G mAP@0.5/% 模型
体积/MiB帧率/
(帧·s−1)正常 轻微跑偏 严重跑偏 均值 TOOD 32.0 199 97.2 77.4 88.0 87.5 247.2 22.2 ATSS 38.9 110 97.1 78.8 84.9 86.9 298.3 11.4 Deformable DETR 40.1 193 92.6 59.0 87.5 79.9 486.0 16.2 Conditional DETR 43.4 101 90.6 60.6 86.8 79.3 508.9 23.5 YOLOv7 36.5 103.2 95.7 86.8 93.8 92.1 73.0 55.5 YOlOv8m 25.8 78.7 95.9 84.2 92.7 91.0 50.8 60.8 YOlOv9c 50.7 236.6 96.3 85.5 95.7 92.5 100.3 29.1 Faster−YOLOv7 22.7 35.6 95.1 86.5 94.9 92.2 45.0 93.9 SlimNeck−YOLOv7 31.4 90.4 94.5 85.6 93.3 91.1 61.6 56.4 GAM−YOLOv8 34.0 85.2 96.4 84.2 93.7 91.4 68.4 61.7 本文方法 22.7 71.0 98.3 86.0 99.2 94.5 44.0 41.0 由表5可看出,TOOD,ATSS,Deformable DETR和Conditional DETR模型参数量大,体积大,模型运行速度慢,模型平均检测精度分别低于本文方法7.0%,7.6%,14.6%和15.2%,对于严重跑偏的检测精度分别低11.2%,14.3%,11.7%和12.4%。对于YOLO类型,本文方法相较YOLOv7,YOLOv8m和YOLOv9c平均精度分别高2.4%,3.5%和2.0%,对于严重跑偏的检测精度分别高5.4%、6.5%和5.5%,对于轻微跑偏的检测精度较YOLOv7低0.8%,且YOLOv7和YOLOv8m的推理速度更快。Faster−YOLOv7和SlimNeck−YOLOv7是基于YOLOv7网络改进的模型,体积更小,检测速度更快,平均精度比本文方法分别低2.3%和3.4%,但Faster−YOLOv7对于输送带轻微跑偏的检测精度相较于本文方法高0.5%;GAM−YOLOv8是基于YOLOv8网络的改进模型,其参数量和计算量有所增加,平均精度比本文方法低3.1%。改进RT−DETR模型对于输送带严重跑偏的检测精度达99.2%,具有明显的优势,计算更加高效,满足了实时检测要求。
2.4 不同模型的可视化检测结果
为了展示改进RT−DETR在输送带跑偏数据集上的可视化对比,检测结果如图8—图12所示。
从图8—图12可看出对于输送带向左和向右严重跑偏,由于辊轮特征明显,算法都能识别出来。对于输送带向右轻微跑偏,算法Conditional DETR出现错检;对于输送带向左轻微跑偏,算法TOOD,ATSS,Deformable DETR和Conditional DETR均出现错检,并且ATSS算法出现漏检,而Faster−YOLOv7,YOLOv8m,YOLOv9c和改进RT−DETR对输送带明显跑偏和不明显跑偏都能正常识别出来,没有出现误检和漏检现象。在针对输送带轻微向右或向左跑偏的场景中,YOLOv9c展现出比改进RT−DETR更高的目标置信度,然而,二者在目标置信度的整体表现上差异不大。此外,改进RT−DETR在处理输送带严重跑偏情况下的目标置信度显著高于其他比较算法。
3. 结论
1) 提出了一种基于改进RT−DETR的井下输送带跑偏故障检测算法。对左右一组托辊进行检测,根据左右托辊的暴露程度识别是否跑偏,该方法不需要提取输送带边缘线特征,不易受环境影响,不需要设置特殊阈值,避免了误检和错检现象。
2) 对RT−DETR模型进行改进,针对主干网络设计了FRE Block,针对特征融合部分,对HS−FPN进行改进,设计了CAA−HSFPN,使得模型在拥有更高精度的同时,降低了模型参数量和计算量,增强了对托辊的特征提取能力。
3) 在自制的输送带跑偏数据集上,改进RT−DETR模型的mAP@0.5达94.5%,严重跑偏检测精度达99.2%,检测速度达41.0 帧/s,优于TOOD、ATSS、Deformable DETR、Conditional DETR、YOLOv7、YOLOv8m和YOlOv9c等目标检测模型,同时参数量、计算量和模型体积更小,满足煤矿生产对目标检测实时性和准确性的需求。
4) 未来会对输送带跑偏故障进行更精细分类,并且寻找更轻量化检测网络,在精度得到确保的情况下,进一步减小模型体积,实现移动端部署。
-
表 1 网络训练超参数
Table 1 Network training hyperparameters
参数名称 参数设置 参数名称 参数设置 训练次数 300 学习率动量 0.937 批次大小 4 对象查询 300 初始学习率 0.01 解码器 4 表 2 FRE Block消融实验结果
Table 2 Results of FRE Block ablation experiments
FasterNet
BlockEMA 重参
数化参数量/106 个 FLOPs/G mAP@0.5/% 模型
体积/MiB帧率/
(帧·s−1)正常 轻微跑偏 严重跑偏 均值 × × × 31.1 88.8 97.4 80.5 98.0 92.0 61.5 52.2 √ × × 24.4 72.3 98.5 81.4 98.6 92.8 48.5 52.1 √ × √ 24.4 72.3 98.2 83.5 98.8 93.5 48.7 51.3 √ √ × 24.6 76.1 97.7 80.5 99.0 92.4 48.9 43.3 √ √ √ 24.6 76.1 98.8 82.9 99.1 93.6 49.1 41.9 表 3 CAA−HSFPN对比实验结果
Table 3 Comparative experimental results of CAA-HSFPN
特征融合机制 参数量/106 个 FLOPs/G mAP@0.5/% 模型
体积/MiB帧率/
(帧·s−1)正常 轻微跑偏 严重跑偏 均值 CCFM 31.1 88.8 97.4 80.5 98.0 92.0 61.5 52.2 HSFPN 28.2 83.5 97.6 81.8 98.9 92.8 55.6 53.2 BiFPN 30.4 94.5 97.1 80.4 98.7 92.1 60.3 50.3 CAA-HSFPN 28.7 86.7 98.4 83.3 98.9 93.5 56.5 48.9 表 4 改进RT−DETR消融实验结果
Table 4 Results of improved RT-DETR ablation experiments
FRE−
BlockCAA−
HSFPN参数
量/106 个FLOPs/G mAP@0.5/% 模型
体积/MiB帧率/
(帧·s−1)正常 轻微跑偏 严重跑偏 均值 × × 31.1 88.8 97.4 80.5 98.0 92.0 61.5 52.2 √ × 24.6 76.1 98.8 82.9 99.1 93.6 49.1 41.9 × √ 28.7 86.7 98.4 83.3 98.9 93.5 56.5 48.9 √ √ 22.7 71.0 98.3 86.0 99.2 94.5 44.0 41.0 表 5 输送带跑偏数据集上各模型实验结果
Table 5 Experimental results of each model on conveyor belt deviation data set
模型 参数量/106 个 FLOPs/G mAP@0.5/% 模型
体积/MiB帧率/
(帧·s−1)正常 轻微跑偏 严重跑偏 均值 TOOD 32.0 199 97.2 77.4 88.0 87.5 247.2 22.2 ATSS 38.9 110 97.1 78.8 84.9 86.9 298.3 11.4 Deformable DETR 40.1 193 92.6 59.0 87.5 79.9 486.0 16.2 Conditional DETR 43.4 101 90.6 60.6 86.8 79.3 508.9 23.5 YOLOv7 36.5 103.2 95.7 86.8 93.8 92.1 73.0 55.5 YOlOv8m 25.8 78.7 95.9 84.2 92.7 91.0 50.8 60.8 YOlOv9c 50.7 236.6 96.3 85.5 95.7 92.5 100.3 29.1 Faster−YOLOv7 22.7 35.6 95.1 86.5 94.9 92.2 45.0 93.9 SlimNeck−YOLOv7 31.4 90.4 94.5 85.6 93.3 91.1 61.6 56.4 GAM−YOLOv8 34.0 85.2 96.4 84.2 93.7 91.4 68.4 61.7 本文方法 22.7 71.0 98.3 86.0 99.2 94.5 44.0 41.0 -
[1] CHU Qi,MENG Guoying,FAN Xun. Analysis of speed and belt deviation of the conveyor belt[J]. Advanced Materials Research,2011,339:444-447.
[2] 徐世昌,程刚,袁敦鹏,等. 基于三维点云的带式输送机跑偏及堆煤监测方法[J]. 工矿自动化,2022,48(9):8-15,24. XU Shichang,CHENG Gang,YUAN Dunpeng,et al. Belt conveyor deviation and coal stacking monitoring method based on three-dimensional point cloud[J]. Journal of Mine Automation,2022,48(9):8-15,24.
[3] ZHANG Mengchao,SHI Hao,YU Yan,et al. A computer vision based conveyor deviation detection system [J]. 2020,10(7). DOI:10.3390/ app10072402.
[4] ZHANG Mengchao,JIANG Kai,CAO Yueshuai,et al. A deep learning-based method for deviation status detection in intelligent conveyor belt system[J]. Journal of Cleaner Production,2022,363. DOI:10.1016/j. jclepro.2022.132575.
[5] XU Xinchao,ZHAO Hanguang,FU Xiaotian,et al. Real-time belt deviation detection method based on depth edge feature and gradient constraint[J]. Sensors,2023,23(19). DOI: 10.3390/s23198208.
[6] WU Xiangfan,WANG Chusen,TIAN Zuzhi,et al. Research on belt deviation fault detection technology of belt conveyors based on machine vision[J]. Machines,2023,11(12). DOI: 10.3390/machines11121039.
[7] LIU Yi,MIAO Changyun,LI Xianguo,et al. Research on deviation detection of belt conveyor based on inspection robot and deep learning[EB/OL]. [2024-06-10]. https://onlinelibrary.wiley.com/doi/10.1155/2021/3734560.
[8] ZHAO Yian,LYU Wenyu,XU Shangliang,et al. DETRs beat YOLOs on real-time object detection[EB/OL]. [2024-06-10]. https://arxiv.org/html/2304.08069v3.
[9] CHEN Jierun,KAO S H,HE Hao,et al. Run,don't walk:chasing higher FLOPS for faster neural networks[EB/OL]. [2024-06-10]. https://arxiv.org/abs/2303.03667v3.
[10] DING Xiaohan,ZHANG Xiangyu,MA Ningning,et al. RepVGG:making VGG-style ConvNets great again[EB/OL]. [2024-06-10]. https://arxiv.org/abs/2101.03697.
[11] OUYANG Daliang,HE Su,ZHAN Guozhong,et al. Efficient multi-scale attention module with cross-spatial learning[C]. IEEE International Conference on Acoustics,Speech and Signal Processing,Rhodes Island,2023:776-780.
[12] CHEN Yifei,ZHANG Chenyan,CHEN Ben,et al. Accurate leukocyte detection based on deformable-DETR and multi-level feature fusion for aiding diagnosis of blood diseases[J]. Computers in Biology and Medicine,2024,170. DOI: 10.1016/j.compbiomed.2024.107917.
[13] CAI Xinhao,LAI Qiuxia,WANG Yuwei,et al. Poly kernel inception network for remote sensing detection[EB/OL]. [2024-06-10]. https://arxiv.org/abs/2403.06258v2.
[14] TAN Mingxing,PANG Ruoming,LE Q V,et al. EfficientDet:scalable and efficient object detection[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:10778-10787.
[15] FENG Chengjian,ZHONG Yujie,GAO Yu,et al. TOOD:task-aligned one-stage object detection[C]. IEEE/CVF International Conference on Computer Vision,Montreal,2021:3490-3499.
[16] ZHANG Shifeng,CHI Cheng,YAO Yongqiang,et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[EB/OL]. [2024-06-10]. https://arxiv.org/abs/1912.02424v4.
[17] ZHU Xizhou,SU Weijie,LU Lewei,et al. Deformable DETR:deformable transformers for end-to-end object detection[EB/OL]. [2024-06-10]. https://arxiv.org/pdf/2010.04159v1.
[18] MENG Depu,CHEN Xiaokang,FAN Zejia,et al. Conditional DETR for fast training convergence[C]. IEEE/CVF International Conference on Computer Vision,Montreal,2021:3651-3660.
[19] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Vancouver,2023:7464-7475.
[20] REIS D,KUPEC J,HONG J,et al. Real-time flying object detection with YOLOv8[EB/OL]. [2024-06-10]. https://arxiv.org/abs/2305.09972.
[21] WANG C Y,YEH I H,MARK LIAO H Y M. YOLOv9:learning what you want toLearn using programmable gradient information[C]. European Conference on Computer Vision,Milan,2024:1-21.
[22] 唐俊,李敬兆,石晴,等. 基于Faster−YOLOv7的带式输送机异物实时检测[J]. 工矿自动化,2023,49(11):46-52,66. TANG Jun,LI Jingzhao,SHI Qing,et al. Real time detection of foreign objects in belt conveyors based on Faster-YOLOv7[J]. Journal of Mine Automation,2023,49(11):46-52,66.
[23] 冯恒健,韩李涛,张鹏飞,等. 基于改进YOLOv7的高效行人检测方法[J]. 计算机应用,2024,44(增刊1):290-296. FENG Hengjian,HAN Litao,ZHANG Pengfei,et al. Efficient Pedestrian Detection Method based on improved YOLOv7[J]. Journal of Computer Applications,2019,44(S1):290-296.
[24] WANG Zhenyue,YUAN Guowu,ZHOU Hao,et al. Foreign-object detection in high-voltage transmission line based on improved YOLOv8m[J]. Applied Sciences,2023,13(23). DOI: 10.3390/app132312775.