基于深度神经网络的综采工作面视频目标检测

杨艺, 付泽峰, 高有进, 崔科飞, 王科平

杨艺,付泽峰,高有进,等. 基于深度神经网络的综采工作面视频目标检测[J]. 工矿自动化,2022,48(8):33-42. DOI: 10.13272/j.issn.1671-251x.2022040003
引用本文: 杨艺,付泽峰,高有进,等. 基于深度神经网络的综采工作面视频目标检测[J]. 工矿自动化,2022,48(8):33-42. DOI: 10.13272/j.issn.1671-251x.2022040003
YANG Yi, FU Zefeng, GAO Youjin, et al. Video object detection of the fully mechanized working face based on deep neural network[J]. Journal of Mine Automation,2022,48(8):33-42. DOI: 10.13272/j.issn.1671-251x.2022040003
Citation: YANG Yi, FU Zefeng, GAO Youjin, et al. Video object detection of the fully mechanized working face based on deep neural network[J]. Journal of Mine Automation,2022,48(8):33-42. DOI: 10.13272/j.issn.1671-251x.2022040003

基于深度神经网络的综采工作面视频目标检测

基金项目: 河南省科技攻关计划项目(212102210390);河南省煤矿智能开采技术创新中心支撑项目(2021YD01)。
详细信息
    作者简介:

    杨艺(1980-),男,湖北利川人,副教授,博士,主要研究方向为深度学习、强化学习和智能控制,E-mail:yangyi@hpu.edu.cn

    通讯作者:

    付泽峰(1995-),男,江西抚州人,硕士研究生,主要研究方向为信息处理与网络控制,E-mail:18864770547@163.com

  • 中图分类号: TD67

Video object detection of the fully mechanized working face based on deep neural network

  • 摘要: 综采工作面环境较复杂,地形狭长,多目标多设备经常出现在同一场景当中,使得目标检测难度加大。目前应用于煤矿井下的目标检测方法存在特征提取难度较大、泛化能力较差、检测目标类别较为单一等问题,且主要应用于巷道、井底车场等较为空旷场景,较少应用于综采工作面场景。针对上述问题,提出了一种基于深度神经网络的综采工作面视频目标检测方法。首先,针对综采工作面环境复杂多变、光照不均、煤尘大等不利条件,针对性挑选包含各角度、各环境条件下的综采工作面关键设备和人员的监控视频,并进行剪辑、删选,制作尽可能涵盖工作面现场各类场景的目标检测数据集。然后,通过对 YOLOv4模型进行轻量化改进,构建了LiYOLO目标检测模型。该模型利用CSPDarknet、SPP、PANet等加强特征提取模块对视频特征进行充分提取,使用6分类YoloHead进行目标检测,对综采工作面环境动态变化、煤尘干扰等具有较好的鲁棒性。最后,将LiYOLO目标检测模型部署到综采工作面,应用Gstreamer对视频流进行管理,同时使用TensorRT对模型进行推理加速,实现了多路视频流的实时检测。与YOLOv3、YOLOv4模型相比,LiYOLO目标检测模型具有良好的检测能力,能够满足综采工作面视频目标检测的实时性和精度要求,在综采工作面数据集上的平均准确率均值为96.48%,召回率为95%,同时视频检测帧率达67帧/s。工程应用效果表明,LiYOLO目标检测模型可同时检测、展示6路视频,且对于不同场景下的检测目标都有较好的检测效果。
    Abstract: The environment of the fully mechanized working face is complex. The terrain is long and narrow. The multi-object and multi-equipment often appear in the same scene, which makes object detection more difficult. At present, the object detection method applied to the underground coal mine has the problems of high difficulty in characteristic extraction, poor generalization capability, and relatively single detection object category. The existing method is mainly applied to open scenes such as a roadway, a shaft bottom station, and is rarely applied to scenes of a fully mechanized working face. In order to solve the above problems, a video object detection method based on deep neural network is proposed. Firstly, in view of the unfavorable conditions such as complex and changeable environments, uneven illumination, and much coal dust in the fully mechanized working face, the monitoring videos are selected which containing key equipment and personnel of the fully mechanized working face at various angles and under various environmental conditions. By editing, deleting and selecting, an object detection data set covering various scenes of the working face site as much as possible is produced. Secondly, the LiYOLO object detection model is constructed by lightweight improvement of YOLOv4 model. The model fully extracts video characteristics by using CSPDarknet, SPP, PANet and other enhanced characteristic extraction modules. This model uses 6-classification YoloHead for object detection, which has good robustness to the dynamic change of environment and coal dust interference in fully mechanized working face. Finally, the LiYOLO object detection model is deployed to the fully mechanized working face. While the video stream is managed by Gstreamer, TensorRT is used to accelerate the reasoning of the model, and realize the real-time detection of multi-channel video streams. Compared with the YOLOv3 and YOLOv4 models, the LiYOLO object detection model has good detection capability, and can meet the real-time and precision requirements of video object detection in the fully mechanized working face. The mean average precision on the data set of fully mechanized working face is 96.48%, the recall rate is 95%, and the frame rate of video detection can reach 67 frames/s. The engineering application results show that the LiYOLO object detection model can detect and display 6-channel videos at the same time. The model has relatively good detection effect for detection of objects in different scenes.
  • 液压支架是综采工作面的核心设备之一[1-2]。在回采过程中,液压支架主要起顶板支护、保护作业人员安全等作用[3-4]。准确获取液压支架姿态是工作面环境感知的关键内容,也是工作面设备智能控制的基础[5]。激光不受光照条件的影响,且信息具备三维特征,因此,激光点云是获取液压支架姿态的有效途径之一[6]。而将液压支架各个关键部件从繁杂的激光点云数据中分割出来,是获取液压支架姿态的前提和关键[7]

    传统的点云分割算法包括基于边缘检测的算法、基于曲面拟合的算法及基于特征聚类的算法[8-10]。传统的点云分割算法对于点云的质量要求较高,且依赖于手动设定特征。然而,煤尘对激光束的吸附作用使得工作面点云的质量相对较差;此外,大量液压支架线性排列且处于动态变化中,液压支架易受遮挡,点云数据容易出现残缺,特征提取难度大。因此,传统的点云分割算法难以满足液压支架点云精确分割的要求。

    近年来,随着以深度学习为代表的人工智能技术不断取得突破,利用深度神经网络处理复杂点云场景成为点云分割研究领域的热点[11]。目前,基于深度神经网络的点云分割算法大体上可分为3类:基于体素的算法、基于多视图的算法和基于点的算法。基于体素的算法是将无序的点云采样为有序的体素,并通过三维卷积对体素进行处理[12-13]。这类算法解决了点云分布无序的难题,并保留了点云内在的几何结构。然而,待分割对象相对于整个工作面场景来说,具有很强的稀疏性。因此,这类算法难以获取细粒度的点云特征,且运算开销随着体素分辨率的提高而增大。基于多视图的算法将三维点云投影到多个视图中,不规则的点云数据被转换为有序的像素数据,并使用二维卷积提取像素级别的特征,然后融合这些特征对图像进行语义分割,再将结果映射回三维空间[14-15]。由于二维卷积在图像分割领域的应用较为成熟,这类算法取得了一定成效。然而,点云的部分结构信息无法通过投影获得,且无法较好处理点云间的遮挡问题。基于点的算法使用多层感知器(Multilayer Perceptron,MLP)对原始点云数据直接进行分割。如:PointNet[16]利用权值共享的MLP提取每个输入点的特征,并通过最大池化将所有点的信息聚合得到全局特征,降低了点云的无序性;PointNet++[17]在PointNet的基础上引入层级聚合结构和球形邻域查询来学习不同分辨率的局部特征;RandLA−Net[18]采用随机采样法进行下采样,并通过局部空间编码学习保留几何结构信息;SCF−Net[19]通过双距离注意力池化聚合特征提升特征聚合的有效性;LEARD−Net[20]通过对颜色特征进行单独处理并使用交叉编码对特征进行增强。然而,基于点的算法采用基于欧氏距离的$ k $近邻算法采集邻域点,导致在邻域内引入一些语义信息不相似的点,特别是在不同点云类别的分界处。

    为提高液压支架激光点云分割的精度,本文提出了一种基于邻域特征编码优化的液压支架激光点云分割算法。该算法在传统三维坐标编码的基础上引入极坐标编码和质心偏移,来模拟点云的复杂空间结构;以特征距离为度量,优化局部邻域的特征组成;通过最大池化和注意力池化来聚合邻域内的显著特征和重要特征,以获取精确的单点特征表示;通过对特征进行2次聚合来扩大局部感受野,提升特征的丰富性。

    基于邻域特征编码优化的液压支架激光点云分割算法框架如图1所示。N为点云的点数;din为输入特征维度;c为类别数量。

    图  1  基于邻域特征编码优化的液压支架激光点云分割算法框架
    Figure  1.  Architecture of laser point cloud segmentation algorithm for hydraulic support based on neighborhood feature encoding and optimization

    在编码器中,通过1个全连接层提取点云初级特征,并将维度提升至8。然后通过邻域扩张模块扩展单个点的感受野,捕获更多上下文信息。最后通过随机下采样减少点数,以获取全局特征。经过4个邻域扩张模块和随机下采样后,点数从N逐步减少至N/128,输出的特征维度依次为32,64,128和256。在该过程中,特征被逐步抽象和聚合,最终得到含有局部和全局信息的高维特征。这些高维特征经过一个MLP进一步转换和整合,产生一个统一的特征表示,以便为后续的解码阶段提供更有效的信息。

    在解码器中,使用最邻近插值对点云进行特征的上采样,将点云数量调整到与原始点云数量相等,逐步恢复特征的空间分辨率,并通过跳跃连接与编码层特征进行拼接,保留更多原始信息,避免在多层特征提取过程中丢失重要的细节信息,再通过MLP对特征进行进一步的细化和重建。经过解码器后输出的特征保留了编码器阶段提取的丰富语义信息和全局上下文信息。

    在分类器中,使用3个全连接层对解码器输出的特征进行语义标签预测。

    感受野的大小与点云语义分割的性能直接相关,较大的感受野可以使算法在处理单个点时关注到更大范围的区域,从而更好地捕捉待分割点云的整体几何结构。为扩展单个点的感受野,设计了邻域扩张模块,结构如图2所示(dout为输出特征维度)。输入特征首先经过一个共享MLP(Shared MLP)提取特征并转换特征维度为dout/4,随后经过2组串联的局部邻域特征聚合模块进行邻域特征提取、优化和聚合,得到的单点特征再通过共享MLP将维度升至dout,以提供更丰富和抽象的表达。同时,输入特征通过一个共享MLP映射添加到聚合后特征上,并经过Leaky ReLU函数激活得到输出特征。

    图  2  邻域扩张模块结构
    Figure  2.  Structure of neighborhood expanding module

    邻域扩张模块通过对特征进行2次聚合,有效扩展了单个点的感受野,能够捕获的上下文信息显著增加。将特征映射添加到聚合后的特征上,是一种高效的残差连接方式,可实现特征复用,弥补在特征提取过程中丢失的原始信息,也有助于算法捕捉输入特征与聚合后特征的长距离依赖关系。

    在综采工作面场景中,采集到的激光点云质量较差,且激光点云具有无序性和稀疏性等特点,直接对点云进行处理,难以提取到点云局部邻域的几何特征。为增强局部特征的表达能力,通过局部邻域特征聚合模块对单个点的局部邻域进行特征聚合,充分利用邻域点之间的空间关系和特征相似性,从而将局部区域内的点用一个更具代表性的特征向量来表示。局部邻域特征聚合模块由邻域特征编码模块、邻域特征优化模块、混合池化模块组成,其中混合池化模块包括注意力池化和最大池化。

    为更好地感知点云的空间结构并提升局部特征的丰富性,最大程度地减少局部细节特征的丢失,邻域特征编码模块在传统三维坐标编码的基础上加入极坐标编码,并通过质心偏移来更新极坐标编码后的局部方向角来获得点云的空间位置关系信息。邻域特征编码模块由局部邻域构建、空间位置编码和特征融合增强3个部分组成,如图3所示。

    图  3  邻域特征编码模块结构
    Figure  3.  Structure of neighborhood feature encoding module

    1) 局部邻域构建。针对输入点云中的一个中心点i,通过$ k $近邻算法收集K个邻居点作为中心点i的邻域,从而得到相对于中心点坐标$ {p_i} $和特征$ {f_i} $的第k个邻域点坐标$ {{p}}_i^k $和特征$ f_i^k $,k∈[1,K]。

    2) 空间位置编码。为保证点云关于Z轴的旋转不变性,降低特征对于水平朝向的敏感度,将点云在笛卡尔坐标系下的表示转换到极坐标系下。

    $$ \varphi _i^k = {\text{arctan}} {\frac{{y_i^k}}{{x_i^k}}} $$ (1)
    $$ \phi _i^k = {\text{arctan}} {\frac{{{\textit{z}}_i^k}}{{\sqrt {x_i^k + y_i^k} }}} $$ (2)

    式中:$ \varphi _i^k $,$ \phi _i^k $分别为极坐标系下中心点i与第k个邻域点的水平方向角和垂直方向角;$ ({x}_{i}^{k},{y}_{i}^{k},{{\textit{z}}}_{i}^{k}) $为中心点i和第k个邻域点在笛卡尔坐标系下的相对坐标。

    邻域点云极坐标转换如图4所示。

    为高效模拟点云复杂的几何结构并提升算法面对随机采样操作的鲁棒性[21],引入质心偏移操作,即计算局部邻域的质心,求得质心与中心点i的水平方向角$ \varphi _i^{} $和垂直方向角$ \phi _i^{} $,并对中心点与邻域点的角度进行偏移更新。

    图  4  邻域点云极坐标转换
    Figure  4.  Polar coordinate transformation of neighborhood point cloud
    $$ \varphi _i^{k'} = \varphi _i^k - \varphi _i^{} $$ (3)
    $$ \phi _i^{k'} = \phi _i^k - \phi _i^{} $$ (4)

    式中$ \varphi _i^{k'} $,$ \phi _i^{k'} $分别为更新后中心点i与第k个邻域点的水平方向角和垂直方向角。

    质心偏移如图5所示。

    图  5  质心偏移
    Figure  5.  Centroid offset

    为完整利用邻域空间内的可利用特征和充分学习点之间的关系信息,将中心点i与第k个邻域点的相对坐标$ \left( {{p_i} - p_i^k} \right) $、欧氏距离$ \left\| {{p_i} - p_i^k} \right\| $及通过邻域点云极坐标转换和质心偏移更新后的水平方向角$ \varphi _i^{k'} $和垂直方向角$ \phi _i^{k'} $拼接,再经过MLP后得到空间位置编码后的特征$ P_i^k\overline{\overline{ }} $。

    $$ P_i^k = {\text{MLP}}\left( {\varphi _i^{k'} \oplus \phi _i^{k'} \oplus \left( {{p_i} - p_i^k} \right) \oplus \left\| {{p_i} - p_i^k} \right\|} \right) $$ (5)

    式中$ \oplus $为拼接操作。

    3) 特征融合增强。计算中心点i与第k个邻域点的特征距离$ \left\| {{f_i} - f_i^k} \right\| $,并将邻域点特征$ f_i^k $与空间位置编码后的特征$ P_i^k $进行拼接,得到增强后的点云邻域特征$ r_i^k $。

    $$ r_i^k = P_i^k \oplus f_i^k $$ (6)

    邻域特征编码模块获得点云的空间位置关系信息,但没有考虑增强后的点云邻域特征$ r_i^k $中是否包含冗杂的信息。同时,$ k $近邻算法通常以欧氏距离作为尺度来寻找邻域点,没有考虑到语义距离在其中起到的作用,导致部分邻域点在语义特征上可能与中心点不相似。为解决这些问题,设计了邻域特征优化模块,丢弃与中心点语义特征相似度较低的点,优化整个邻域空间的特征信息,使算法能够更加准确地学习点云局部细粒度特征。

    邻域特征优化模块结构如图6所示。首先,计算邻域内K个点的平均特征距离$ \overline D $,将平均特征距离$ \overline D $和中心点i与第k个邻域点的特征距离$ \| {f_i} - f_i^k \| $进行比较。若$ \left\| {{f_i} - f_i^k} \right\| $>$ \overline D $,则将该邻域点的权重置为0,表明该邻域点在语义特征中距离中心点较远,忽视该点特征。最终将得到的权重$ w $与增强后的点云邻域特征$ r_i^k $进行点乘,得到优化后的点云邻域特征$ \tilde r_i^k $。

    图  6  邻域特征优化模块结构
    Figure  6.  Structure of neighborhood feature optimization module

    逐点特征表示的准确性是影响点云分割性能的关键性因素之一,现有算法多采用单一的池化单元聚合编码后的局部特征,导致信息提取不够充分,出现信息丢失。为解决上述问题,并充分利用编码和优化后的特征,设计了混合池化模块来聚合邻域特征。混合池化模块由提取显著性特征的最大池化和辐射全局获取特征间相似性的注意力池化组成,如图7所示。

    图  7  混合池化模块结构
    Figure  7.  Structure of mixed pooling module

    首先,为强化算法对于特征的表达能力,使用注意力池化来捕捉邻域点之间的特征相似性。这里利用增强后的点云邻域特征$ r_i^k $来计算注意力分数,特征越重要则注意力分数越高。注意力分数$ s_i^k $通过一个共享参数的MLP和一个softmax函数来学习。

    $$ s_i^k=\operatorname{softmax}\left(\operatorname{MLP}\left(r_i^k\right)\right) $$ (7)

    其次,将学习到的注意力分数与特征相乘并求和,得到经过注意力池化聚合后的特征$ \tilde f{\text{ }} $。

    $$ \tilde f{\text{ = }}\sum\limits_{{{k = 1}}}^K {{\text{(}}r_i^k s_i^k)} $$ (8)

    然后,通过最大池化来聚合优化后的点云邻域特征,得到整个局部邻域内最显著的特征$ \bar f $。

    $$ \bar f = {\text{ }}\mathop {\max }\limits_{{k}} \left( {\tilde r_{{i}}^{{k}}} \right) $$ (9)

    最后,拼接这2种聚合后的特征,得到该中心点的准确特征表示$ \hat f $。

    $$ \hat f = {\text{ }}\tilde f \oplus \bar f $$ (10)

    使用Ouster 32线激光雷达作为液压支架激光点云分割数据集的采集设备,将其安装于小车和滑轨上,并沿采煤机前进方向移动,采集多帧液压支架激光点云数据。

    为了使算法可以更好地学习不同空间位置、姿态和尺度的液压支架点云,从而表现出更好的分割性能,采用Cloud Compare软件对点云场景进行旋转、缩放、剪切等操作(图8),以实现对原始点云数据的增强。

    图  8  数据增强方式
    Figure  8.  Data enhancement mode

    在液压支架激光点云分割数据集中共有300个点云场景,其中200个点云场景用于训练(其中50个点云场景经过数据增强),100个点云场景用于测试。激光点云的主要分割对象为液压支架,主要包括立柱、顶梁、掩护梁、底座、连杆等,如图9所示。使用Cloud Compare软件在每个场景中标注4个类别,分别为立柱、顶梁、掩护梁和其他,其对应标签分别为0,1,2,3。

    图  9  液压支架结构
    Figure  9.  Hydraulic support structure

    采用平均交并比(mean Intersection over Union,mIoU)、总体准确率(Over all Accuracy,OA)和平均准确率(mean class Accuracy,mAcc)作为点云分割精度的评价指标。

    $$ {\mathrm{mIoU}} = \frac{1}{c}\mathop \sum \limits_{j = 0}^{c - 1} \frac{{{{\rm{TP}}_j}}}{{{{\rm{TP}}_j} + {{\rm{FP}}_j} + {{\rm{FN}}_j}}} $$ (11)
    $${\mathrm{ OA}} = \frac{\rm{TP}}{{{N_{}}}} $$ (12)
    $$ {\mathrm{mAcc}} = \frac{1}{c}\mathop \sum \limits_{j = 0}^{c - 1} \frac{{{{\rm{TP}}_j} + {{\rm{TN}}_j}}}{{{{\rm{TP}}_j} + {{\rm{TN}}_j} + {{\rm{FP}}_j} + {{\rm{FN}}_j}}} $$ (13)

    式中:$ {{\rm{TP}}_j} $,$ {{\rm{TN}}_j} $,$ {{\rm{FP}}_j} $,FNj分别为第j个类别中真阳性、真阴性、假阳性和假阴性的点数;${\mathrm{ TP}} $为所有为真阳性的点数。

    实验运行环境:CPU为Intel Xeon(R) Gold 6146 CPU@3.20 GHz,GPU为NVIDIA Tesla T4,操作系统为Ubuntu 18.04.6 LTS。算法基于Tensorflow框架实现。实验选用Adam优化算法,初始学习率设置为0.01,每训练1轮衰减5%。每次抽取固定数量的点(10 240个)进行训练,设置邻域点的数量K为16,批尺寸大小为4,最大训练轮数为60。

    为验证本文算法在分割液压支架激光点云上的有效性,与常用于分割大规模点云场景数据的RandLA−Net算法进行对比。

    本文算法与RandLA−Net算法在液压支架激光点云分割数据集上测试的各项评价指标结果见表1,其中在立柱、顶梁、掩护梁和其他这4个类别上的交并比(Intersection over Union,IoU)对比结果见表2。可看出本文算法在mAcc,OA和mIoU上较RandLA−Net算法分别高出0.49%,0.52%和0.75%,在4个类别上的IoU均高于RandLA−Net算法。

    表  1  不同算法评价指标对比
    Table  1.  Comparison of evaluation indexes of different algorithms %
    算法mAccOAmIoU
    RandLA−Net95.9396.3192.51
    本文算法96.4296.8393.26
    下载: 导出CSV 
    | 显示表格
    表  2  不同算法在各类别上的IoU对比
    Table  2.  Intersection over union(IoU) comparison of different algorithms in various categories %
    算法 IoU
    掩护梁 立柱 顶梁 其他
    RandLA−Net 92.99 88.78 93.23 95
    本文算法 93.96 89.28 93.79 96
    下载: 导出CSV 
    | 显示表格

    本文算法与RandLA−Net算法分割结果可视化对比如图10所示。

    图  10  不同算法整体分割结果可视化对比
    Figure  10.  Visual comparison of overall segmentation results by different algorithms

    在场景1中的A处,液压支架高度较低,且远离激光雷达的部分液压支架掩护梁的尾部B处出现残缺,导致RandLA−Net算法对点云做出错误分割,如在顶梁、挡煤板和护栏距离较近的A2位置,将顶梁错分为挡煤板和护栏的一部分,在B2处将掩护梁识别为立柱;而本文算法使用更加有效的空间位置编码,全面学习了点与点的空间位置关系,强化了局部邻域内的特征表示,从而可有效区分不同的几何结构,得到了正确的分割结果。

    在场景2中,立柱、顶梁、挡煤板和护栏接触的C处部分点云较为稀疏,且点云边界模糊,分割难度大。本文算法虽然没有对C3处的所有点做出完全正确的分割,但仍对边界做出了大致的划分,尤其是对顶梁做出了正确的分割,效果优于RandLA−Net算法在C2处的分割。

    在场景3中,立柱、掩护梁和顶梁在D和E处接触较为紧密,RandLA−Net算法在立柱的底部D2位置及立柱、掩护梁和顶梁三者的交界E2位置均做出错误分割;而本文算法由于加入了邻域特征优化模块,在不同语义类别物体接触紧密的区域内,去除了冗余的特征,在D3处和E3处对不同类别的点云做出了准确分割。

    在场景4中,受激光雷达采集角度影响,点云数量较少。在挡煤板和护栏的尾部F处,RandLA−Net算法将其错分为掩护梁,而本文算法则做出了正确分割。

    为进一步测试算法的先进性,对整体分割效果较差场景(OA低于85%)中的部件进行对比分析,可视化结果如图11所示。

    图  11  不同算法部件分割结果可视化对比
    Figure  11.  Visual comparison of component segmentation results by different algorithms

    在立柱与掩护梁较为接近的位置,RandLA−Net算法将立柱与掩护梁混为一体,本文算法虽对部分支柱做出了错误分割,但仍大致判断出了立柱的轮廓,做出了正确的分割。

    在顶梁的尾部,可利用点数较少,RandLA−Net算法做出了错误分割,本文算法则识别出顶梁结构。

    在掩护梁被遮挡导致结构不完整的部分,RandLA−Net算法由于无法完整学习到整体的几何结构,将掩护梁错分为顶梁,而本文算法充分利用空间内的特征,最终进行了正确的分割。

    为验证邻域特征编码模块、邻域特征优化模块、混合池化模块和邻域扩张模块对于算法性能的影响,进行消融实验,结果见表3(以仅使用1次注意力池化的RandLA−Net算法为基准算法1)。

    表  3  消融实验结果
    Table  3.  Results of ablation experiments
    算法 邻域特征
    编码模块
    邻域特征
    优化模块
    混合池化模块 邻域扩张模块 mIoU/%
    1 × × × × 91.97
    2 × × × 92.50
    3 × × 92.76
    4 × 92.90
    5 93.26
    下载: 导出CSV 
    | 显示表格

    表3可看出:算法1的mIoU最低;算法2使用以极坐标转换和质心偏移为核心的邻域特征编码模块替代原有仅在笛卡尔坐标系下进行编码的模块,解决了特征编码不具体和编码后信息不充分的问题,mIoU得到了提升;算法3在算法2的基础上引入了邻域特征优化模块,实现了对冗余特征的剥离,邻域的特征表示更加准确,mIoU较算法2提升了0.26%;算法4用混合池化替代注意力池化后,算法性能得到改善,这是由于混合池化使得算法可以关注局部最显著的特征,同时也能面向所有邻域点自适应地聚合重要特征;算法5(本文算法)在算法4的基础上引入了邻域扩张模块,通过组合残差连接和2组局部邻域特征聚合模块替代使用1个局部邻域特征聚合模块的方式,扩大了局部感受野,丰富了局部邻域的上下文信息,mIoU达到最优。

    1) 为提高液压支架激光点云的分割精度,提出了一种基于邻域特征编码优化的液压支架激光点云分割算法。该算法引入了由邻域特征编码模块、邻域特征优化模块和混合池化模块组成的局部邻域特征聚合模块,以实现特征提取、优化和聚合;通过由2组局部邻域特征聚合模块和残差连接组成的邻域扩张模块来扩大感受野范围,保留更大范围的上下文信息。

    2) 邻域特征编码模块在传统三维坐标编码的基础上引入邻域空间方向角信息,使提取到的特征更加全面和具有可区分性,降低了点云数据残缺对于特征提取的影响;邻域特征优化模块通过判断特征距离保留与中心点更为相近的特征,优化局部空间内的特征表达;混合池化模块结合注意力池化和最大池化,有针对性地聚合邻域内的显著特征和重要特征,从而得到具有丰富信息的特征向量,减少信息丢失。

    3) 在液压支架激光点云分割数据集上的实验结果表明,所提算法的mIoU为93.26%,mAcc为96.42%,相较于RandLA−Net算法分别提升了0.75%和0.49%;可有效区分液压支架不同的几何结构,精准确定部件边界,实现液压支架各部件的准确分割。

  • 图  1   综采工作面视频目标检测流程

    Figure  1.   Flow of video object detection in fully mechanized working face

    图  2   不同条件下的综采工作面图像

    Figure  2.   Images of fully mechanized working face under different conditions

    图  3   数据集标注示例

    Figure  3.   Example of dataset annotation

    图  4   LiYOLO模型结构

    Figure  4.   LiYOLO model structure

    图  5   改进前后 的YoloHead

    Figure  5.   YoloHead before and after improved

    图  6   YOLOv4模型的mAP和损失变化曲线

    Figure  6.   mAP and loss variation curves of YOLOv4 model

    图  7   LiYOLO模型的mAP和损失变化曲线

    Figure  7.   mAP and loss variation curves of LiYOLO model

    图  8   3种模型对不同场景下设备及行人的检测效果

    Figure  8.   Detection effect of three models for devices and pedestrians in different scenes

    图  9   LiYOLO模型工程部署过程

    Figure  9.   Project deployment process of LiYOLO model

    图  10   多路视频检测效果

    Figure  10.   Multi-video detection effect

    表  1   不同条件下的图像采集数量

    Table  1   Number of image samples under different conditions

    位置环境图像采集数量/张
    无尘轻微严重
    端头顺光4 5242 2632 263
    逆光1 132565565
    中部顺光22 62211 31311 313
    逆光5 6572 8282 828
    下载: 导出CSV

    表  2   标签分类

    Table  2   Classification of labels

    序号标签名称序号标签名称
    1Groove(线槽) 4Roller(滚筒)
    2Conveyer(刮板输送机)5Person(人)
    3Shearer(采煤机)6face_guard(护帮板)
    下载: 导出CSV

    表  3   主要实验结果对比

    Table  3   Comparison of main experimental results %

    模型mAPRecall
    YOLOv481.6990
    LiYOLO96.4895
    下载: 导出CSV

    表  4   检测时间

    Table  4   Detection time

    模型检测时间/ms传输帧率/(帧·s−1
    YOLOv329.927.9
    YOLOv416.259.1
    LiYOLO16.166.8
    下载: 导出CSV

    表  5   未加速与加速后模型FPS对比

    Table  5   Comparison of FPS between the unaccelerated model and the accelerated model 帧/s

    未加速FPS加速后FPS
    1路1路4路6路
    55.285.420.8×413.9×6
    下载: 导出CSV
  • [1] 王国法,刘峰,庞义辉,等. 煤矿智能化−煤炭工业高质量发展的核心技术支撑[J]. 煤炭学报,2019,44(2):349-357. DOI: 10.13225/j.cnki.jccs.2018.2041

    WANG Guofa,LIU Feng,PANG Yihui,et al. Coal mine intellectualization:the core technology of high quality development[J]. Journal of China Coal Society,2019,44(2):349-357. DOI: 10.13225/j.cnki.jccs.2018.2041

    [2] 高有进,杨艺,常亚军,等. 综采工作面智能化关键技术现状与展望[J]. 煤炭科学技术,2021,49(8):1-22. DOI: 10.13199/j.cnki.cst.2021.08.001

    GAO Youjin,YANG Yi,CHANG Yajun,et al. Status and prospect of key technologies of intelligentization of fully mechanized coal mining face[J]. Coal Science and Technology,2021,49(8):1-22. DOI: 10.13199/j.cnki.cst.2021.08.001

    [3] 王道元,王俊,孟志斌,等. 煤矿安全风险智能分级管控与信息预警系统[J]. 煤炭科学技术,2021,49(10):136-144. DOI: 10.13199/j.cnki.cst.2021.10.019

    WANG Daoyuan,WANG Jun,MENG Zhibin,et al. Intelligent hierarchical management and control and information pre-warning system of coal mine safety risk[J]. Coal Science and Technology,2021,49(10):136-144. DOI: 10.13199/j.cnki.cst.2021.10.019

    [4] 郭金刚,李化敏,王祖洸,等. 综采工作面智能化开采路径及关键技术[J]. 煤炭科学技术,2021,49(1):128-138. DOI: 10.13199/j.cnki.cst.2021.01.007

    GUO Jingang,LI Huamin,WANG Zuguang,et al. Path and key technologies of intelligent mining in fully-mechanized coal mining face[J]. Coal Science and Technology,2021,49(1):128-138. DOI: 10.13199/j.cnki.cst.2021.01.007

    [5] 王国法,任怀伟,庞义辉,等. 煤矿智能化(初级阶段)技术体系研究与工程进展[J]. 煤炭科学技术,2020,48(7):1-27. DOI: 10.13199/j.cnki.cst.2020.07.001

    WANG Guofa,REN Huaiwei,PANG Yihui,et al. Research and engineering progress of intelligent coal mine technical system in early stages[J]. Coal Science and Technology,2020,48(7):1-27. DOI: 10.13199/j.cnki.cst.2020.07.001

    [6] 任怀伟,孟祥军,李政,等. 8 m大采高综采工作面智能控制系统关键技术研究[J]. 煤炭科学技术,2017,45(11):37-44.

    REN Huaiwei,MENG Xiangjun,LI Zheng,et al. Study on key technology of intelligent control system applied in 8 m large mining height fully-mechanized face[J]. Coal Science and Technology,2017,45(11):37-44.

    [7]

    DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [EB/OL]. (2017-02-23)[2022-02-20]. https://blog.csdn.net/yurnm/article/details/56673837.

    [8]

    LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60(2):91-110. DOI: 10.1023/B:VISI.0000029664.99615.94

    [9]

    FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model[EB/OL]. [2022-01-20]. https://ieeexplore.ieee.org/document/4587597/footnotes#footnotes.

    [10] 孙继平,贾倪. 矿井视频图像中人员目标匹配与跟踪方法[J]. 中国矿业大学学报,2015,44(3):540-548. DOI: 10.13247/j.cnki.jcumt.000264

    SUN Jiping,JIA Ni. Human target matching and tracking method in coal mine video[J]. Journal of China University of Mining & Technology,2015,44(3):540-548. DOI: 10.13247/j.cnki.jcumt.000264

    [11] 徐美华,龚露鸣,郭爱英,等. 基于自适应CtF DPM特征提取的快速行人检测模型[J]. 复旦大学学报(自然科学版),2018,57(4):453-461.

    XU Meihua,GONG Luming,GUO Aiying,et al. A fast pedestrian detection model based on adaptive CtF DPM feature extraction[J]. Journal of Fudan University(Natural Science),2018,57(4):453-461.

    [12] 张银萍. 煤矿地面轨道运输环境感知系统研究[D]. 徐州: 中国矿业大学, 2020.

    ZHANG Yinping. Study on environmental perception system of coal mine ground rail transportation[D]. Xuzhou: China University of Mining and Technology, 2020.

    [13] 卢万杰,付华,赵洪瑞. 基于深度学习算法的矿用巡检机器人设备识别[J]. 工程设计学报,2019,26(5):527-533. DOI: 10.3785/j.issn.1006-754X.2019.05.005

    LU Wanjie,FU Hua,ZHAO Hongrui,et al. Equipment recognition of mining patrol robot based on deep learning algorithm[J]. Chinese Journal of Engineering Design,2019,26(5):527-533. DOI: 10.3785/j.issn.1006-754X.2019.05.005

    [14] 林俊,党伟超,潘理虎,等. 基于计算机视觉的井下输送带跑偏检测方法[J]. 煤矿机械,2019,40(10):169-171. DOI: 10.13436/j.mkjx.201910057

    LIN Jun,DANG Weichao,PAN Lihu,et al. Deviation monitoring method of underground conveyor belt based on computer vision[J]. Coal Mine Machinery,2019,40(10):169-171. DOI: 10.13436/j.mkjx.201910057

    [15] 董昕宇,师杰,张国英. 基于参数轻量化的井下人体实时检测算法[J]. 工矿自动化,2021,47(6):71-78. DOI: 10.13272/j.issn.1671-251x.2021010035

    DONG Xinyu,SHI Jie,ZHANG Guoying. Real-time detection algorithm of underground human body based on lightweight parameters[J]. Industry and Mine Automation,2021,47(6):71-78. DOI: 10.13272/j.issn.1671-251x.2021010035

    [16] 南柄飞, 郭志杰, 王凯, 等. 基于视觉显著性的煤矿井下关键目标对象实时感知研究[J/OL]. 煤炭科学技术: 1-11[2022-07-15]. http://kns.cnki.net/kcms/detail/11.2402.TD.20210512.1304.004.html.

    NAN Bingfei, GUO Zhijie, WANG Kai, et al. Real-time perception method of target ROI in coal mine underground based on visual saliency[J/OL]. Coal Science and Technology: 1-11[2022-07-15]. http://kns.cnki.net/kcms/detail/11.2402.TD.20210512.1304.004.html.

    [17] 韩江洪,沈露露,卫星,等. 基于轻量级CNN的井下视觉识别策略[J]. 合肥工业大学学报(自然科学版),2020,43(11):1469-1475,1562.

    HAN Jianghong,SHEN Lulu,WEI Xing,et al. Downhole visual recognition strategy based on lightweight CNN[J]. Journal of Hefei University of Technology(Natural Science),2020,43(11):1469-1475,1562.

    [18]

    BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2022-01-20]. https://doi.org/10.48550/arXiv.2004.10934.

    [19]

    REDMON J, FARHADI A. YOLO9000: better, faster, stronger[EB/OL]. [2022-01-22]. https://wenku.baidu.com/view/d74b46407b3e0912a21614791711cc7931b778d6.html.

    [20]

    HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,37(9):1904-1916.

    [21]

    LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[EB/OL]. [2022-01-15]. https://ieeexplore.ieee.org/document/8579011.

  • 期刊类型引用(10)

    1. 李鹏,程晨,臧润泽. 基于UM-HE的火力发电厂继电器室巡检机器人视觉图像增强研究. 电力设备管理. 2025(01): 177-179 . 百度学术
    2. 白宇宸,苗作华,徐厚友,王梦婷. 基于光照约束的煤矿井下低光照图像增强算法. 煤矿安全. 2025(03): 207-214 . 百度学术
    3. 张旭辉,麻兵,杨文娟,董征,李语阳. 煤矿井下非均匀照度图像去噪研究. 工矿自动化. 2024(02): 1-8 . 本站查看
    4. 段一凡,刘然,刘小杰,李欣,袁雪涛,吕庆. 图像识别技术在高炉风口识别与监测中的应用前景探索. 钢铁. 2024(05): 56-70 . 百度学术
    5. 郭永辉. 煤矿井下图像增强算法研究. 矿山机械. 2024(06): 53-57 . 百度学术
    6. 程子豪,裴玉瑶,周义祥,张文东,王常青,周璇,王艳玲,吴茜. 基于强度和图像梯度的瞳孔中心定位. 贵州大学学报(自然科学版). 2024(04): 64-69 . 百度学术
    7. 马骞. 基于多模态特征的重载铁路钢轨损伤检测方法. 无损检测. 2024(09): 69-74 . 百度学术
    8. 李谦一,张宏宇,房媛. 基于改进RRD-Net的低照度图像增强网络. 照明工程学报. 2024(05): 61-67 . 百度学术
    9. 谷亚楠,李晴,刘晨晨,张富凯. 基于增强网格网络的井下尘雾图像清晰化算法. 工矿自动化. 2024(10): 120-127+159 . 本站查看
    10. 王智军. 基于透射率约束的降质图像视觉效果增强处理方法. 传感器世界. 2024(12): 27-32 . 百度学术

    其他类型引用(4)

图(10)  /  表(5)
计量
  • 文章访问数:  342
  • HTML全文浏览量:  56
  • PDF下载量:  74
  • 被引次数: 14
出版历程
  • 收稿日期:  2022-03-31
  • 修回日期:  2022-08-08
  • 网络出版日期:  2022-08-08
  • 刊出日期:  2022-08-25

目录

/

返回文章
返回