基于卷积神经网络的井下行人重识别算法

王侠, 孟广瑞

王侠, 孟广瑞. 基于卷积神经网络的井下行人重识别算法[J]. 工矿自动化, 2024, 50(S2): 237-238,245.
引用本文: 王侠, 孟广瑞. 基于卷积神经网络的井下行人重识别算法[J]. 工矿自动化, 2024, 50(S2): 237-238,245.
WANG Xia, MENG Guangrui. Underground pedestrian recognition algorithm based on convolutional neural network[J]. Journal of Mine Automation, 2024, 50(S2): 237-238,245.
Citation: WANG Xia, MENG Guangrui. Underground pedestrian recognition algorithm based on convolutional neural network[J]. Journal of Mine Automation, 2024, 50(S2): 237-238,245.

基于卷积神经网络的井下行人重识别算法

基金项目: 

安徽省高校自然科学研究重点项目(2022AH053007)。

详细信息
    作者简介:

    王侠(1982—),女,安徽淮南人,讲师,研究方向为人工智能、图像识别及算法,E-mail:carolxxx@126.com。

  • 中图分类号: TD67

Underground pedestrian recognition algorithm based on convolutional neural network

  • 摘要: 针对矿井无监督行人重识别任务,提出一种基于软标签学习的无监督行人重识别算法。该算法利用软标签显示图像的相似程度,通过求解概率分布关联图片,软标签识别后判断出需要度量图片间的相似程度时,可充分利用井下行人的编号及摄像头的编号。并提出跨摄像头激励机制,用于对不同摄像视角下行人图像标签优化,将全局外观和局部细节作为辅助模型训练的激励信息。实验结果表明,基于软标签学习的无监督行人重识别算法的准确率和全类平均精度(mAP)分别提高了24.3%和16.6%,辅以摄像头激励后改善了原有不同相机识别图像的困难。
  • 煤炭作为我国的主体能源,是能源供给的“压舱石”[1-3]。近年来,我国煤矿智能化发展迅速,煤炭开采正在迈向“少人化、无人化”阶段[4-6],对于实时检测的需求也逐渐从运输巷、变电所等简单场景转向采掘工作面等复杂场景。但受煤矿井下采掘工作面高粉尘、低照度等环境因素影响,传统的目标检测方法存在目标尺度跨度大、多目标间相互遮挡严重及检测精度低等问题,因此研究一种可以适应煤矿采掘工作面复杂环境的多目标检测算法,对煤矿井下的多目标检测具有重要意义。

    基于深度学习的多目标检测算法逐渐成为研究热点[7-8]。基于深度学习的多目标检测算法可分为两阶段多目标检测算法和单阶段多目标检测算法[9]。两阶段多目标检测算法主要以Fast R−CNN[10]、Faster R−CNN[11]及Mask R−CNN[12]为代表。杨文斌[13]采用Faster R−CNN算法检测刮板输送机中的角铁和锚杆等多种异物,识别精度达90%以上。郭永存等[14]以Mask R−CNN模型为基础,通过引入压缩−激励模块与混合空洞卷积,提高了模型对煤矿井下巷道中的信号灯和小石块等多目标的检测精度。史凌凯等[15]采用K−meansⅡ聚类算法和Laplace算子优化Mask R−CNN模型,提高了模型对角铁、钢板及铁锹等异物的检测精度和检测速度。但上述算法模型体积大,检测速度慢,无法满足实时检测的需求。

    单阶段多目标检测算法主要以YOLO[16]系列算法、SSD[17]系列算法、CornerNet[18]系列算法等为代表,其中YOLO系列算法检测效率高且泛化能力强[19]。王科平等[20]以YOLOv4为基础,通过引入残差自注意力机制和深度可分离卷积,平衡了模型的参数量、计算量及检测精度,并在此基础上提高了模型对综采工作面的采煤机、刮板输送机及行人等多目标的检测精度。杨艺等[21]先使用CSPDarknet网络、空间金字塔池化(Spatial Pyramid Pooling,SPP)模型及路径聚合网络(Path Aggregation Network,PANet)提取综采工作面视频特征,再使用深度可分离卷积对YOLOv4模型进行轻量化处理,从而提高了模型对线槽、采煤机、行人等6种目标的检测精度。郭永存等[22]采用K−means++算法、四尺度预测网络及SPP模块对YOLOv4−Tiny算法进行改进,提高了模型对矿井巷道中的碎石、行人及电机车等多目标的检测精度;樊红卫等[23]使用Partial Conv模块、Res2Net网络和ECA注意力机制优化YOLOv5模型,提高了模型对带式输送机中的煤、矸石和螺母等多目标的检测精度,降低了模型参数量和计算量。上述研究通过在YOLO系列算法中引入轻量化网络、注意力机制、深度可分离卷积等,一定程度上提升了煤矿多目标检测速度与精度,但其所针对的应用场景较为简单,而煤矿采掘工作面环境恶劣,同时还存在人机相互遮挡、目标尺度变化剧烈等复杂工况,容易引起误检、漏检与检测精度降低等问题。

    因此,为实现煤矿井下复杂环境下的多目标实时检测任务,本文以YOLOv5s为基础,通过FasterNet网络、双向特征金字塔网络(Bi-directional Feature Pyramid Network,BiFPN)、ECIoU损失函数对模型的各部分进行改进,提出了一种基于FBEC−YOLOv5s的采掘工作面多目标检测算法,并通过实验验证了该算法的有效性。

    YOLOv5s网络主要包括输入端(input)、骨干网络(backbone)、颈部(neck)和预测端(head)4个部分。输入端主要是对数据进行预处理,包括Mosaic数据增强、图像大小缩放及预定义候选框尺寸计算等;骨干网络进行物体的特征提取,由跨阶段部分网络(Cross Stage Partial Network,CBS)、BottleneckCSP/C3卷积块及快速空间金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)等组成;颈部能够连接不同尺度的特征层并进行特征融合,一般由特征金字塔网络(Feature Pyramid Network,FPN)和PANet组成;预测端对图像特征进行预测,生成边界框和预测类别。

    FBEC−YOLOv5s的网络结构如图1所示。

    图  1  FBEC−YOLOv5s的网络结构
    Figure  1.  Network structure of FBEC-YOLOv5s

    为提高模型检测精度与训练效率,本文在原YOLOv5s模型中引入FasterNet[24]网络(图2),凭借其残差连接与批标准化模块,增强模型的特征提取和语义信息捕捉能力,并减少数据传输中的噪声干扰与数据交错频次。FasterNet网络共有4个阶段,每个阶段前均有1个嵌入层(Embedding)或1个合并层(Merging),用于空间下采样及通道数扩展,且每个阶段均有少量FasterNet模块(FasterNet Block)以循环使用输入特征,最后的全局池化层(Global Pool)、卷积层(Conv 1×1)、全连接层(Full Connected,FC)则被用于特征分类。图2中,Cnn=1,2,3,4)为FasterNet网络第n个阶段的通道数,hw分别为输入图像的高和宽,ln为FasterNet网络第n个阶段的数量。

    图  2  FasterNet网络架构
    Figure  2.  Architecture of FasterNet

    由于煤矿井下采掘工作面工作人员及采掘装备在多种作业场景中的姿态持续变化,导致多种目标尺度跨度增大,模型检测精度降低。BiFPN[25]能够进行高效的双向跨尺度连接与加权特征图融合操作,实现多尺度特征的快速捕捉与融合。因此,本文采用BiFPN结构替换PANet[26]结构,以增强YOLOv5s网络模型的多尺度适应能力,如图3所示。

    图  3  不同特征金字塔网络结构对比
    Figure  3.  Comparison of different features pyramid network structures

    YOLOv5s模型的损失函数由边框回归损失、置信度损失及分类概率损失3个部分组成。原YOLOv5s模型中主要采用CIoU[27]与EIoU[28]作为损失函数,其中,采用CIoU进行回归计算时,易限制模型检测框与真实框的相似性优化;当检测框存在较远边缘时,采用EIoU损失函数易引起模型收敛速度降低。因此,本文采用ECIoU[29]损失函数提升检测框定位精度和模型收敛速度。

    ECIoU损失函数先采用CIoU调整预测框的长宽比,再采用EIoU调整预测框的每条边。

    $$ E = 1 - I + \alpha v + \frac{{{\rho ^2}\left( {{b^{{\mathrm{gt}}}},b} \right)}}{{{a^2}}} + \frac{{{\rho ^2}\left( {{h^{{\mathrm{gt}}}},h} \right)}}{{d^2}} + \frac{{{\rho ^2}\left( {{w^{{\mathrm{gt}}}},w} \right)}}{{f^2}} $$ (1)
    $$ \nu = \frac{4}{{{{\text{π}} ^2}}}\left(\arctan \frac{{{w^{{\mathrm{gt}}}}}}{{{h^{{\mathrm{gt}}}}}} - \arctan \frac{w}{h}\right) $$ (2)

    式中:I为预测框与真实框面积的交并比;$ \alpha $为平衡尺度的权重参数;$ \nu $为预测框和真实框间纵横比的一致性度量;$ {\rho }^{2}({b}^{{\mathrm{gt}}}, b) $为预测框和真实框中心点之间的欧几里得距离平方值;$ {\rho }^{2}({h}^{{\mathrm{gt}}}, h) $和$ {\rho }^{2}({w}^{{\mathrm{gt}}}, w) $分别为预测框和真实框高度和宽度的平方差值;$ a,{d},{f} $分别为两框最小闭包区域的对角线长度、高度和宽度;b为预测框中心;$ {w^{{\mathrm{gt}}}},{h^{{\mathrm{gt}}}},{b^{{\mathrm{gt}}}} $分别为真实框的宽、高、中心点。

    本文所使用的数据集来源于多个煤矿采掘工作面的生产监控视频,通过对视频进行抽帧处理,得到500张图像,再采用高斯噪声(noise)、随机对比度(contra)、水平翻转(H−flip)、垂直翻转(V−flip)、HSV变换及随机剪裁与填充(Cr−pad)等数据增强方法对图像进行处理,处理后的部分图像如图4所示,最终将500张原始图像扩充至2 000张图像,作为本文实验的数据集。

    图  4  数据增强部分图像
    Figure  4.  Data enhanced partial images

    采用LabelImg工具对数据集进行标注,将标注后的2 000张图像按8∶1∶1的比例划分为训练集、验证集及测试集,分为person(行人)、R−cutting(掘进机截割头)、S−cutting(采煤机截割头)、A−juMibtolter(机载锚杆钻机)、H−juMibtolter(手持锚杆钻机)及Support(液压支架)。部分标注图像如图5所示。

    图  5  图像标注部分图像
    Figure  5.  Image annotated partial images

    参数设置:图像大小为640×640,通道数为32,批次样本数为16,动量因子为0.937,迭代次数为300,权重衰减系数为0.000 5,学习率初始值为0.01。本文实验所有算法的训练、验证及测试均在同台计算机的ubuntu20.04上进行,环境配置见表1

    表  1  网络训练环境
    Table  1.  Network training environment
    环境 配置参数
    CPU 15 vCPU Intel(R) Xeon(R) Platinum 8358P CPU
    GPU RTX 3090(24 GB)
    加速环境 Python3.8,Cuda11.3
    语言环境 Python3.8
    下载: 导出CSV 
    | 显示表格

    本文采用准确率、平均精度及平均检测精度均值作为模型的评价指标。

    $$ P=\frac{N\mathrm{_{TP}}}{N\mathrm{_{TP}}+N\mathrm{_{FP}}} $$ (3)

    式中:P为准确率;NTP为被正确检测为正确目标的采掘装备及工作人员数量;NFP为被错误检测为正确目标的采掘装备及工作人员数量。

    平均精度是指模型对某个单一目标的平均检测精度,以精确率P为横坐标,召回率R为纵坐标,绘制PR曲线,PR曲线与横纵坐标轴围成的面积即为平均检测精度。

    $$ M = \frac{{\displaystyle\sum Q }}{n} $$ (4)

    式中:M为平均精度均值;Q为各分类的平均精度;n为待检测目标的类别数量。

    为验证各改进模块的有效性,本文以相同训练策略开展消融实验,结果见表2。可看出优化模型1(YOLOv5s+ECIoU)的准确率较YOLOv5s的准确率提升了0.7%,平均检测精度均值提升了0.8%,平均检测速度(Frames Per Second, FPS)提升了0.3帧/s;优化模型2(YOLOv5s+BiFPN)的准确率较YOLOv5s的准确率提升1.4%,平均检测精度均值提升了1.6%,参数量上升了1.06 MiB,FPS下降了5.6帧/s;优化模型3(YOLOv5s+FasterNet)的准确率较YOLOv5s的准确率提升了0.9%,平均检测精度均值提升了1%,参数量上升了1.03 MiB,FPS下降了3.8帧/s;优化模型4(YOLOv5s+ECIoU+BiFPN)的准确率较YOLOv5s的准确率提升了1.3%,平均检测精度均值提升了1.9%,参数量上升了1.06 MiB,FPS下降了5.6帧/s;优化模型5(YOLOv5s+ECIoU+FasterNet)的准确率较YOLOv5s的准确率提升了0.9%,平均检测精度均值提升了1.7%,参数量上升了1.03 MiB,FPS下降了10.7帧/s;优化模型6(YOLOv5s+BiFPN+FasterNet)的准确率较YOLOv5s的准确率提升了3.1%,平均检测精度均值提升 2.5%,参数量上升了1.12 MiB,FPS下降了13.5帧/s;优化模型7(YOLOv5s+ECIoU+BiFPN+FasterNet)即FBEC−YOLOv5s模型的准确率较YOLOv5s的准确率提升了3.6%,平均检测精度均值提升了2.8%,参数量上升了1.12 MiB, 提高了模型的检测精度,由于网络结构的改进使得网络层数增加,导致参数量上升1.12 MiB,FPS下降10.1帧/s,但仍满足煤矿井下实时检测的要求。

    表  2  消融实验结果
    Table  2.  Results of ablation experiments
    模型 ECIoU BiFPN FasterNet 准确率/% 平均检测精度均值/% 参数量/MiB FPS/(帧·s−1
    YOLOv5s × × × 93.8 89.6 7.03 138.9
    优化模型1 × × 94.5 90.4 7.03 139.2
    优化模型2 × × 95.2 91.2 8.09 133.3
    优化模型3 × × 94.7 90.6 8.06 135.1
    优化模型4 × 95.1 91.5 8.09 133.3
    优化模型5 × 94.7 91.3 8.06 128.2
    优化模型6 × 96.9 92.1 8.15 125.4
    优化模型7 97.4 92.4 8.15 128.8
    下载: 导出CSV 
    | 显示表格

    为进一步验证FBEC−YOLOv5s算法的先进性,将其与YOLOv3−tiny、YOLOv5s、YOLOv7及YOLOv7−tiny模型进行对比实验,实验结果见表3。可看出与YOLOv5s模型相比,YOLOv3−tiny模型的平均检测精度均值下降了5.4%,参数量上升了1.65 MiB,FPS上升了17.4帧/s;YOLOv7模型的平均检测精度均值上升了1.2%,参数量上升了29.48 MiB,FPS下降了54.2帧/s;YOLOv7−tiny模型的平均检测精度均值下降了8.7%,参数量下降了1.01 MiB,FPS上升了41.6帧/s;FBEC−YOLOv5s模型的平均检测精度均值上升了2.8%,参数量上升了1.12 MiB,FPS下降了10.1帧/s。综合上述分析可见,FBEC−YOLOv5s模型的综合检测性能比其他模型好,平均检测精度均值为92.4%,能够满足实时检测要求。

    表  3  对比实验结果
    Table  3.  Comparison of experimental results
    模型 平均检测精度均值/% 参数量/MiB FPS/(帧·s−1
    YOLOv5s 89.6 7.03 138.9
    YOLOv3−tiny 84.2 8.68 156.3
    YOLOv7 90.8 36.51 84.7
    YOLOv7−tiny 80.9 6.02 180.5
    FBEC−YOLOv5s 92.4 8.15 128.8
    下载: 导出CSV 
    | 显示表格

    将不同模型在测试集上进行3组实验,部分检测结果如图6所示。第1组实验在环境恶劣(背景与待检测目标灰度值接近)的工况下进行,其中,YOLOv3−tiny和YOLOv7−tiny模型对person和S−cutting的检测精度较低,平均检测精度均值均低于86%,而YOLOv7、YOLOv5s及FBEC−YOLOv5s模型对person和S−cutting的检测精度相对一致。第2组在多目标间相互遮挡的工况下进行实验,YOLOv3−tiny模型出现漏检情况且检测精度低(平均检测精度均值<86%),YOLOv7−tiny模型对被遮挡人员的检测精度低(平均检测精度均值<82%),YOLOv5s和FBEC−YOLOv5s模型对被遮挡人员的检测精度高,平均检测精度均值分别为90%~95%和92%~93%,FBEC−YOLOv5s模型检测效果较优,而YOLOv7模型对被遮挡人员的平均检测精度均值高于97%,但其参数量约为FBEC−YOLOv5s模型的4.5倍,检测速度较慢(FPS=84.7帧/s),难以满足煤矿井下的实时检测需求。第3组在多目标位姿持续变化且尺度跨度大的工况下进行实验,YOLOv3−tiny和YOLOv7−tiny模型对工作人员的检测精度较低(平均检测精度均值<86%),YOLOv7、YOLOv5s及FBEC−YOLOv5s模型对工作人员的检测精度分别为90%~97%、92%~95%和94%~95%,其中,FBEC−YOLOv5s模型对工作人员的检测精度范围跨度最小且鲁棒性最高。综合上述分析可知,本文提出的FBEC−YOLOv5s模型的综合检测性能最好,能够在恶劣环境、多目标间相互遮挡严重及目标尺度跨度大导致检测精度降低等情况下表现出良好的实时检测能力且具有更好的鲁棒性。

    图  6  不同算法部分检测结果
    Figure  6.  Partial detection results of different algorithms

    1) 3种改进措施能够不同程度地提高模型的检测精度。在YOLOv5s模型主干网络中融合FasterNet网络,以增强模型的特征提取和语义信息捕捉能力,使得模型平均检测精度均值提升了1%;在YOLOv5s模型颈部引入BiFPN网络,以实现多尺度特征的快速捕捉与融合,使得模型平均检测精度均值提升了1.6%;采用ECIoU代替CIoU损失函数,以提升检测框定位精度和模型收敛速度,使得模型平均检测精度均值提升了0.8%。

    2) 与YOLOv5s、YOLOv7−tiny及YOLOv7等其他YOLO系列算法相比,FBEC−YOLOv5s算法综合检测性能最好,平均检测精度均值达92.4%(最大提升2.8%),实时检测速度达128.8 帧/s。该算法能够为煤矿井下生产场景的智能感知与安全管理提供技术支持与有效保障。

  • [1] 林榕辉.基于行人重识别的目标关联方法研究[D].北京:中国人民公安大学,2024.
    [2] 杨东贺.基于分组卷积的无监督注意机制行人重识别方法研究[D].包头:内蒙古科技大学,2023.
    [3] 王雯.面向行人重识别的多维信息联合建模与表征[D].北京:北京交通大学,2023.
    [4] 周彩云.基于卷积神经网络的行人重识别技术研究[D].青岛:中国石油大学(华东),2021.
    [5] 涂园园,贺松,姚绍华.基于局部特征融合的行人重识别方法[J].智能计算机与应用,2021,11(12):122-125,132.
    [6] 周刊,胡士强,吴桐.基于深度度量学习的行人重识别方法[J].传感器与微系统,2020,39(5):61-64.
    [7]

    ZHAO Liming,LI Xi,WANG Jingdong,et al.Deeply-learned part-aligned representations for person re-identification[C].Proceedings of the 16th IEEE International Conference on Computer Vision.Piscataway,2017:3219-3228.

  • 期刊类型引用(1)

    1. 问永忠,贾澎涛,夏敏高,张龙刚,王伟峰. 基于改进YOLOv8n的井下人员多目标检测. 工矿自动化. 2025(01): 31-37+77 . 本站查看

    其他类型引用(0)

计量
  • 文章访问数:  0
  • HTML全文浏览量:  0
  • PDF下载量:  0
  • 被引次数: 1
出版历程
  • 收稿日期:  2024-11-30

目录

/

返回文章
返回