基于改进YOLOv5s模型的煤矸目标检测

我国已将煤炭清洁高效开发利用作为能源转型发展的立足点和首要任务[1]，煤矸分选作为现代化煤矿清洁生产的重要环节，为推动煤炭清洁利用贡献了力量。随着智能检测和机器人技术的发展，煤矸自动化分选逐渐成为可行及具有前景的方案，其中，煤矸识别是煤矸自动化分选方案的基础环节。传统的煤矸识别方法有射线识别法[2]、重介法[3]、硬度识别法[4]等，射线识别法的射线辐射强度大，重介法增加了重介质的净化回收工序，工艺流程相对复杂，硬度识别法对破碎力大小要求高且应用理论研究少。

近年来，机器视觉技术在煤矸识别领域应用广泛，主要分为图像处理算法与深度学习算法2种。图像处理算法[5-7]通过设计特定的卷积滤波器对煤矸的颜色、灰度、边缘、轮廓等特征进行提取，然后通过图像分割算法检测出煤矸目标，但实际应用中需根据不同场景人为调整参数，且算法鲁棒性较差、实用性不强。深度学习算法识别率较高且鲁棒性强，在煤矸识别方面得到快速推广[8-10]。在煤矸目标检测应用中，王中举等[11]提出了一种基于深度学习网络的煤矸图像分类方法，识别率较高，但没有进行准确的煤矸目标位置和尺寸检测。来文豪等[12]利用多光谱系统采集3个波段构成伪RGB图像数据集，再利用改进后的YOLOv4[13]模型进行煤矸目标检测，但单帧检测时间长达4.18 s，无法实现煤矸实时检测。本文在YOLOv5s[14]模型的基础上，将自校正卷积网络(Self-Calibrated Convolutions，SCConv)[15]嵌入到YOLOv5s模型的Backbone区域中，删除Neck和Prediction区域的19×19特征图分支，对K-means算法聚类得到的锚框进行线性缩放，提出了一种改进YOLOv5s模型，并将其应用于煤矸目标检测，在检测速度和检测精度上都有一定的提升。

1 煤矸目标检测流程

基于改进YOLOv5s模型的煤矸目标检测流程如图1所示。具体步骤：在煤矸分选处进行相机参数配置和启动，采集实时图像；采用改进YOLOv5s煤矸目标检测算法读取实时图像并检测；将检测到的所有矸石的坐标信息传给机械臂，机械臂执行矸石分拣动作；若相机终止采集，流程结束；反之，则继续图像采集。

2 改进YOLOv5s模型

2.1 YOLOv5s模型

YOLOv5s模型在YOLOv4模型的基础上，主要实现了对模型大小和性能的灵活配置，同时引入最新的网络模块和训练技巧，如马赛克数据增强、DropBlock机制、Hardswish激活函数、GIoU边界框回归损失等。YOLOv5s模型主要由输入、Backbone、Neck、Prediction等区域组成，每个区域由CBL(Conv+BN+Leaky_Relu)、CSP(CBL+Res unit+Concat+BN+Leaky_Relu)、Focus、SPP等模块构成，如图2所示。

2.2 Backbone区域改进

YOLOv5s的Backbone区域主要采用多组残差模块堆叠而成。然而，残差模块无法充分融合多尺度特征信息，因此，引入SCConv，SCConv是一种在不改变模型架构的前提下，通过加强特征图内在通信，达到扩增感受野效果的网络组件。SCConv结构如图3所示，其中，C×H×W为输入特征图X的维度，X1，X2为被拆分后的特征图，K1—K4为卷积核，F1—F4为处理后的特征图，r为平均池化降采样倍数，Y1，Y2分别为分支1和分支2输出的特征图维度，Y为输出的特征图。SCConv按照通道维度分为2个分支，分支1利用下采样来增大特征图感受野，分支2用于常规的卷积操作，合并2个分支通道信息，从而增加模型的特征提取和表达能力。

本文将SCConv结构嵌入YOLOv5s模型的Backbone区域，如图4所示，在不明显增加YOLOv5s模型复杂度的情况下，改善Backbone区域的特征提取能力。

2.3 Neck和Prediction区域改进

YOLOv5s模型中的Neck区域采用多路径结构聚合特征，增强网络特征融合能力。由于煤块和矸石的尺寸相对整张图像过小，使得Neck区域进行大目标检测变得冗余。为提高模型检测速度，对YOLOv5s模型Neck区域进行适当精简，将其中拥有最大感受野、适合检测较大尺寸对象的19×19特征图分支进行删除，如图5所示，从而降低模型复杂度并提高检测实时性。

2.4 锚框生成改进

在YOLOv5s模型训练过程中，锚框集合是对数据集中的目标边界框进行K-means算法聚类生成的。由于Neck区域中删除了预测大目标的19×19特征图分支，所以将聚类的锚框数量由9组降低为6组。经过标准K-means算法聚类后获得的6组锚框尺寸分别为(41，63)，(47，94)，(54，69)，(54，51)，(64，84)，(64，120)。

通过K-means算法聚类生成的锚框尺寸相对比较集中，有相当一部分物体真实标记框尺寸与K-means算法聚类得到的锚框尺寸存在较大差异，聚类得到的锚框尺寸无法很好地覆盖数据集中绝大部分标记框的真实尺寸，致使模型收敛较慢且很难达到最优状态。因此，将K-means算法聚类生成的6组锚框进行线性尺度缩放，缩放公式为

式中：xi为第i组锚框(按锚框宽度尺寸从小到大排序)的宽度，

为缩放后的锚框宽度；A为锚框缩小倍数，A=0.5；B为锚框放大倍数，B=1.5(根据数据集来确定缩放系数A,B，以确保缩放后的锚框尺寸能覆盖到数据集中所有标记框尺寸)；yi为第i组锚框的高度；

为缩放后的锚框高度。

经过缩放后的锚框尺寸分别为(20，31)，(39，79)，(62，80)，(62，59)，(96，126)，(96，180)。

3 实验与结果分析

3.1 数据集

模型训练平台为NVIDIA GeForce GTX 2080Ti，推理平台为矿用本安型边缘计算设备，该设备具有14TOPS算力。模型输入图像尺寸为608×608，通道为3。模型训练时设置动量系数为0.937，权重衰减系数为0.000 5，学习率为0.01，学习率更新采用warm-up方法，批尺寸为16，训练迭代次数为300。

采集原始分辨率为1 280×960的图像样本526张，每张图像包括的煤矸数量在4个以上，且含有煤矸堆叠和遮挡等情况，总计约3 000个煤矸目标。为了降低人工标注成本，使用辅助标注工具对煤矸数据集进行初步标注，之后通过开源工具LabelImg进行可视化，完成煤矸数据集制作。实验过程中训练集和验证集分别包含373和77张图像样本，测试集包含76张图像样本。

3.2 检测结果

为验证本文改进YOLOv5s模型的检测效果，在YOLOv5s模型基础上进行不同改进来做对比实验，结果见表1(FPS为每秒传输帧数，mAP为平均精度均值)。可看出YOLOv5s模型大小为6.74 MB，测试集上的mAP为87.5%，FPS为30.5帧/s；YOLOv5s-SCC模型在Backbone区域嵌入SCConv网络作为主干特征提取网络，在模型大小增加0.26 MB、FPS降低0.9 帧/s的前提下，mAP相较于YOLOv5s模型提高了0.7%，表明SCConv网络能够改善模型检测精度；YOLOv5s-TA模型在Neck和Prediction区域删除19×19特征图分支，在模型大小降低1.69 MB、FPS增加3.2帧/s的前提下，mAP相较于YOLOv5s模型仅降低了0.7%，表明YOLOv5s-TA模型能够提高模型检测速度；YOLOv5s-DS模型对K-means算法聚类生成的锚框进行线性尺度缩放，在模型大小降低1.69 MB、FPS增加3.1帧/s的前提下，mAP相较于YOLOv5s模型仅降低了0.1%，表明YOLOv5s-DS模型在检测精度趋于稳定的前提下能够提高模型检测速度；改进的YOLOv5s模型大小相较于YOLOv5s模型降低1.57 MB，FPS增加了2.1帧/s，且mAP提高了1.7%，表明改进的YOLOv5s模型在检测速度和检测精度上均有提升。

以精确率P为横轴、召回率R为纵轴绘制YOLOv5s及4种改进模型的P-R曲线(图6)，P-R曲线与横纵坐标围成的面积即为平均检测精度。由图6可知，改进YOLOv5s模型检测精度最高，性能最优。

煤矸目标检测结果如图7所示。可看出改进YOLOv5s模型能准确检测出相应的煤块和矸石，且检测精度相较于YOLOv5s模型有所提升。

4 结论

(1)在YOLOv5s模型的Backbone区域嵌入SCConv作为特征提取网络，解决了模型多尺度特征提取不充分问题；删除YOLOv5s模型的Neck和Prediction区域的19×19特征图分支，有效降低了模型大小；对通过K-means算法聚类得到的锚框进行线性缩放操作，提高了模型检测精度。

(2)相较于YOLOv5s模型，改进YOLOv5s模型大小降低了1.57 MB，减少了模型参数，FPS增加了2.1帧/s，mAP提高了1.7%，表明改进YOLOv5s模型在检测速度和检测精度上均有提升。

[1] 孙超,姜琳,袁广玉.“十四五”期间我国煤炭供需趋势分析[J].煤炭工程,2021,53(5):193-196.

SUN Chao,JIANG Lin,YUAN Guangyu.Trend analysis of China's coal supply and demand during the 14th Five-Year Plan[J].Coal Engineering,2021,53(5):193-196.

[2] ZHANG Ningbo,LIU Changyou.Radiation characteristics of natural gamma-ray from coal and gangue for recognition in top coal caving[J].Scientific Reports,2018,8(1):1-9.

[3] MOHANTA K S,MEIKAPB C.Influence of medium particle size on the separation performance of an air dense medium fluidized bed separator for coal cleaning[J].Journal of the Southern African Institute of Mining and Metallurgy,2015,115(8):761-766.

[4] 李建平,郑克洪,杜长龙.煤和矸石的冲击破碎粒度分布特征[J].煤炭学报,2013,38(增刊1):54-58.

LI Jianping,ZHENG Kehong,DU Changlong.The distribution discipline of impact crushed on coal and gangue[J].Journal of China Coal Society,2013,38(S1):54-58.

[5] 曹现刚,李莹,王鹏,等.煤矸石识别方法研究现状与展望[J].工矿自动化,2020,46(1):38-43.

CAO Xiangang,LI Ying,WANG Peng,et al.Research status of coal-gangue identification method and its prospect[J].Industry and Mine Automation,2020,46(1):38-43.

[6] 刘富强,钱建生,王新红,等.基于图像处理与识别技术的煤矿矸石自动分选[J].煤炭学报,2000,25(5):534-537.

LIU Fuqiang,QIAN Jiansheng,WANG Xinhong,et al.Automatic separation of waste rock in coal mine based on image procession and recognition[J].Journal of China Coal Society,2000,25(5):534-537.

[7] 刘丽,赵凌君,郭承玉,等.图像纹理分类方法研究进展和展望[J].自动化学报,2018,44(4):584-607.

LIU Li,ZHAO Lingjun,GUO Chengyu,et al.Texture classification:state-of-the-art methods and prospects[J].Acta Automatica Sinica,2018,44(4):584-607.

[8] ZHANG Ning,DONAHUE J,GIRSHICK R,et al.Part-based R-CNNs for fine-grained category detection[C]//European Conference on Computer Vision(ECCV),Zurich,2014:834-849.

[9] LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single shot multibox detector[C]//European Conference on Computer Vision(ECCV),Amsterdam,2016:21-37.

[10] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//Conference on Computer Vision and Pattern Recognition(CVPR),Las Vegas,2016:779-788.

[11] 王中举,毛馨凯,孙江.基于视频解析的智能煤矸分选技术研究[J].工矿自动化,2021,47(增刊1):122-125.

WANG Zhongju,MAO Xinkai,SUN Jiang.Research on intelligent coal-gangue separation technology based on video analysis[J].Industry and Mine Automation,2021,47(S1):122-125.

[12] 来文豪,周孟然,胡锋,等.基于多光谱成像和改进YOLO v4的煤矸石检测[J].光学学报,2020,40(24):72-80.

LAI Wenhao,ZHOU Mengran,HU Feng,et al.Coal gangue detection based on multi-spectral imaging and improved YOLO v4[J].Acta Optica Sinica,2020,40(24):72-80.

[13] DU Shuangjiang,ZHANG Pin,ZHANG Baofu,et al.Weak and occluded vehicle detection in complex infrared environment based on improved YOLOv4[J].IEEE Access,2021,9:25671-25680.

[14] JI Weizhen,LIU Deer,MENG Yifei,et al.Exploring the solutions via Retinex enhancements for fruit recognition impacts of outdoor sunlight:a case study of navel oranges[J].Evolutionary Intelligence,2021:1-37.

[15] LIU Jiangjiang,HOU Qibin,CHENG Mingming,et al.Improving convolutional networks with self-calibrated convolutions[C]//Conference on Computer Vision and Pattern Recognition(CVPR),Seattle,2020:10093-10102.