矿用无人驾驶车辆行人检测技术研究

周李兵, 于政乾, 卫健健, 蒋雪利, 叶柏松, 赵叶鑫, 杨斯亮

周李兵,于政乾,卫健健,等. 矿用无人驾驶车辆行人检测技术研究[J]. 工矿自动化,2024,50(10):29-37. DOI: 10.13272/j.issn.1671-251x.2024050058
引用本文: 周李兵,于政乾,卫健健,等. 矿用无人驾驶车辆行人检测技术研究[J]. 工矿自动化,2024,50(10):29-37. DOI: 10.13272/j.issn.1671-251x.2024050058
ZHOU Libing, YU Zhengqian, WEI Jianjian, et al. Research on pedestrian detection technology for mining unmanned vehicles[J]. Journal of Mine Automation,2024,50(10):29-37. DOI: 10.13272/j.issn.1671-251x.2024050058
Citation: ZHOU Libing, YU Zhengqian, WEI Jianjian, et al. Research on pedestrian detection technology for mining unmanned vehicles[J]. Journal of Mine Automation,2024,50(10):29-37. DOI: 10.13272/j.issn.1671-251x.2024050058

矿用无人驾驶车辆行人检测技术研究

基金项目: 江苏省科技成果转化专项项目(BA2022040);天地科技股份有限公司科技创新创业资金专项项目(2023-TD-ZD005-003);天地(常州)自动化股份有限公司科研项目(2022TY1003)。
详细信息
    作者简介:

    周李兵(1984—),男,湖北黄梅人,高级工程师,研究方向为矿山机电系统智能化、智能检测与控制等,E-mail:yjj20002022@163.com

  • 中图分类号: TD67

Research on pedestrian detection technology for mining unmanned vehicles

  • 摘要: 矿用无人驾驶车辆的工作环境光照条件复杂,行人检测经常出现漏检现象,导致矿用无人驾驶车辆可靠性及安全性不足。针对巷道光照条件复杂的问题,提出了一种弱光图像增强算法:将弱光图像由RGB图像空间分解为HSV图像空间,通过Logarithm函数对亮度分量先进行光照,再通过双边滤波器去除噪声;采用形态学对饱和度分量进行闭操作,再通过高斯滤波器滤除噪声;将图像转换回RGB图像空间,通过半隐式ROF去噪模型对图像再次进行去噪,得到增强图像。针对行人检测存在漏检、精度低的问题,提出了一种基于改进YOLOv3的矿用无人驾驶车辆行人检测算法:采用密集连接块取代YOLOv3中的Residual连接,提高特征图利用率;采用Slim−neck结构优化YOLOv3的特征融合结构,使得特征图之间能够进行高效的信息融合,进一步提高对小目标行人的检测精度,并利用其内部特殊的轻量化卷积结构,提高检测速度;加入轻量级的卷积注意力模块(CBAM)增强算法对目标类别和位置的注意程度,提高行人检测精度。实验结果表明:① 提出的弱光图像增强算法能够有效提高图像可见度,图像中行人的纹理更加清晰,并具有更好的噪声抑制效果。② 基于增强后图像的矿用无人驾驶车辆行人检测算法的平均精度达95.68%,相较于基于改进YOLOv7和ByteTrack的煤矿关键岗位人员不安全行为识别算法、YOLOv5、YOLOv3算法分别提高了2.53%,6.42%,11.77%,且运行时间为29.31 ms。③ 基于增强后图像,YOLOv3和基于改进YOLOv7和ByteTrack的煤矿关键岗位人员不安全行为识别算法出现了漏检和误检的问题,而矿用无人驾驶车辆行人检测算法有效改善了该问题。
    Abstract: The working environment of mining unmanned vehicles features complex lighting conditions, leading to frequent occurrences of missed detections in pedestrian detection, which undermines the reliability and safety of these vehicles. To address the challenges posed by intricate tunnel lighting conditions, a low-light image enhancement algorithm was proposed. This algorithm decomposed low-light images from the RGB color space into the HSV color space, applied a Logarithm function to enhance the V component, and employed a bilateral filter to reduce noise. Morphological operations were applied to the S component for closing, followed by Gaussian filtering to further eliminate noise. The enhanced image was then transformed back into the RGB color space and subjected to a semi-implicit ROF denoising model for additional noise reduction, resulting in an enhanced image. To tackle issues of missed detections and low accuracy in pedestrian detection, an improved YOLOv3-based pedestrian detection algorithm for mining unmanned vehicles was introduced. This approach replaced the Residual connections in YOLOv3 with densely connected modules to enhance feature map utilization. Additionally, a Slim-neck structure optimized the feature fusion architecture of YOLOv3, facilitating efficient information fusion between feature maps and further improving the detection accuracy for small-target pedestrians, while its unique lightweight convolutional structure enhanced detection speed. Finally, a lightweight convolutional block attention module (CBAM) was integrated to improve attention to object categories and locations, thereby enhancing pedestrian detection accuracy. Experimental results demonstrated that the proposed low-light image enhancement algorithm effectively improved image visibility, making pedestrian textures clearer and achieving better noise suppression. The average precision of the pedestrian detection algorithm for mining unmanned vehicles based on enhanced images reached 95.68%, representing improvements of 2.53%, 6.42%, and 11.77% over YOLOv5, YOLOv3, and a coal mine key position personnel unsafe behavior recognition method based on improved YOLOv7 and ByteTrack, respectively, with a runtime of 29.31 ms. YOLOv3 and a coal mine key position personnel unsafe behavior recognition method based on improved YOLOv7 and ByteTrack experienced missed detections and false positives based on enhanced images, while the proposed pedestrian detection algorithm effectively mitigated these issues.
  • 目前我国大多数煤矿的运输车辆仍然依赖于驾驶员操作,由于井下巷道环境复杂,作业人员众多,驾驶员在疲劳或操作失误时容易发生车辆碰撞和侧翻等事故,威胁井下作业人员的生命安全[1]。矿用运输车辆的无人化作为智慧矿山建设的重要组成部分,对提升煤矿智能化开采水平起着决定性作用。因此,研究煤矿无人驾驶技术,减少因驾驶员人为因素造成的安全事故,变得尤为迫切。无人驾驶技术的基础是车辆的环境感知能力,特别是在井下环境中对行人的有效检测,这对于保障井下作业人员的生命安全至关重要。然而,在矿用无人驾驶车辆的行人检测领域,高漏检率的问题一直存在,这限制了无人驾驶技术的安全性和可靠性。井下弱光环境是导致高漏检率的主要原因之一,尽管车辆本身的灯光可以在一定程度上改善井下光照条件,但在极端条件下,如复杂光照、反光干扰、强噪声和运动模糊等,会导致目标物体边界不清晰、目标形态变化大[2],从而限制了行人识别的效果,增加了检测难度,降低了无人驾驶车辆的可靠性[3]。因此,研究有效的弱光图像增强算法和行人检测方法,对于提高矿用无人驾驶车辆的安全性和可靠性,具有重要的实际应用价值。

    针对井下行人检测技术,许多学者做了大量研究,并取得了一定的进展。董观利等[4]设计了一种基于视频的矿井行人越界检测系统,该系统能够进行主动安全监测,有效克服灯光闪烁等干扰,可快速识别行人位置及跨越方向,稳定性好,准确度较高,在D1分辨率、25 帧/s的高清监控下可实现在线实时处理,但该系统采用混合高斯背景建模方法,导致其泛化能力不强,鲁棒性差。刘备战等[5]将Dense连接加入到ResNet网络中,提出了Dense−RetinaNet网络,增加了网络特征信息的使用率,但该网络运行时间较长,实时性不足。为了提高检测算法的鲁棒性和小目标检测能力,李伟山等[6]采用全连接和多尺度卷积方法,利用区域候选网络(Region Proposals Network,RPN)来解决井下目标存在的多尺度问题,同时加入特征融合技术,将不同卷积层的输出融合,增强网络中特征的多尺度表征能力,但应用全连接层也同时增加了网络参数,降低了实时性。针对YOLOv3目标检测网络在井下复杂环境难以适应的问题,罗坤鑫[7]提出了一种Caps−YOLO井下矿用车辆行人检测算法,该算法将采用Dense连接的Dense Block作为特征提取网络的主要单元,以提高特征图利用率。在目标分类和定位方面,采用Capsule结构结合动态路由机制代替Bounding Box回归,以提高分类和定位的准确性。虽然该方法提高了井下行人检测的精度,但检测速度较慢。张应团等[8]提出了一种基于YOLO网络的改进井下行人目标检测方法,交换原网络中第8层的卷积层和下采样层的顺序,在第8层后添加1×1卷积并在最后加入反卷积来扩展维度,从而更好地保存网络的细节特征,提高网络对行人细节信息的处理能力,但该方法忽略了井下弱光环境对目标检测精度的影响。

    针对复杂光照环境导致井下行人检测高漏检率和误检现象,本文提出了一种矿用无人驾驶车辆行人检测技术。采用弱光增强方法,改善检测输入图像可见度及噪声点;通过优化YOLOv3,提高在复杂光照环境下的行人检测效果。

    光源是影响可见光图像传感器成像结果的主要因素之一。井下采集的图像常常受到低光照因素的影响,导致图像可见度非常差。弱光图像内嵌的噪声随着弱光图像的增强而增强,因此对弱光图像增强时需同时兼顾光照增强和去噪处理。弱光图像增强算法原理如图1所示:首先,将弱光图像由RGB图像空间分解为HSV图像空间,通过Logarithm函数对亮度分量先进行光照,再通过双边滤波器去除噪声;然后,采用形态学对饱和度分量进行闭操作,以凸显图像的纹理,再通过高斯滤波器滤除噪声;最后,将图像转换回RGB图像空间,通过半隐式ROF去噪模型[9]对图像再次进行去噪,得到增强的图像。

    图  1  弱光图像增强算法原理
    Figure  1.  Principle of low-light image enhancement method

    RGB图像空间没有分离色彩和照明信息,因此直接在RGB图像空间增强图像会造成色彩失真。相对于RGB图像空间,HSV图像空间包含色调、饱和度和亮度,是由RGB三原色衍生的一种色彩空间 [10]。HSV图像空间和RGB图像空间的转换关系为

    $$ H=\frac{\mathrm{arccos}\left\{\dfrac{\left(R-G\right)\left(R-B\right)}{2\left[\left(R-G\right)^2+\left(R-B\right)\left(R-G\right)^2\right]}\right\}}{360} $$ (1)
    $$ S=1-\frac{3}{R+B+G}\left\{\rm{min}\left(\mathit{R},\mathit{G},\mathit{B}\right)\right\} $$ (2)
    $$ V=\frac{1}{3}\left(R+G+B\right) $$ (3)

    式中:$ H $为色调值;$ R $为红色分量的强度值;$ G $为绿色分量的强度值;$ B $为蓝色分量的强度值;$ S $为饱和度值;$ V $为亮度值。

    HSV图像空间将色彩和亮度采用不同的分量表示,因此对V分量的亮度增强所造成的色彩失真比较小,转换到HSV图像空间更加有利于图像增强。相对于正常光照的图像,弱光图像中包含更多的设备内嵌噪声,这些噪声会随着图像像素的增强而增强。将弱光图像转换到HSV图像空间,发现大多噪声都是处于色调和饱和度2个分量之中,如图2所示。本文主要针对亮度和饱和度分量进行增强,色调分量保持不变,从而避免色彩失真。在饱和度分量上,采用形态学闭操作来闭合纹理之间的空洞[11],并连接纹理,通过高斯滤波器滤除高斯噪声。在亮度分量上,采用Logarithm函数增强图像亮度,然后采用双边滤波器滤除亮度分量中被增强的噪声。

    图  2  弱光图像HSV图像空间分量
    Figure  2.  HSV component of low-light images

    弱光图像在HSV图像空间中各分量的噪声主要以加性高斯噪声为主,因此,增强后的图像中也是以加性高斯噪声为主。高斯噪声是一种随机噪声,由时变平均值和2个瞬时的协方差函数确定[12],其概率密度函数服从高斯分布:

    $$ G\left(x,y\right)=\frac{1}{2{\text{π}} {\sigma }^{2}}{{\mathrm{exp}}}\left(-\frac{{x}^{2}+{y}^{2}}{2{\sigma }^{2}}\right)$$ (4)

    式中:$ G\left(x,y\right) $为二维空间中点$ \left(x,y\right) $的高斯函数值;$ \sigma $为标准差。

    本文采用半隐式ROF模型去除从HSV图像空间转换到RGB图像空间的高斯噪声。半隐式ROF去噪模型的数学表达式为[13]

    $$ O\left(I\right)=\min\iint_{\rho}^{ }\left|\nabla I\right|\mathrm{d}x\mathrm{d}y+\alpha\iint_{\rho}^{ }\left|I-F\right|^2\mathrm{d}x\mathrm{d}y $$ (5)

    式中:O(·)为目标函数;I为噪声图像F对应的清晰图像;$ \rho $为去噪区域;$ \displaystyle \iint_\rho {\left| {\nabla I} \right|{\mathrm{d}}x{\mathrm{d}}y} $和$ \displaystyle\iint_{\rho}^{ }\left|I-F\right|^2\mathrm{d}x\mathrm{d}y $分别为保真项和平滑项;$ \alpha $为平衡因子。

    ROF模型通过梯度下降流和显式有限差分格式离散迭代的方式,将图像变得更加清晰。

    $$ \frac{\partial I}{\partial t}={\mathrm{div}}\left[\frac{\nabla I}{\left|\nabla I\right|}\right]-2\alpha \left(I-f\right) $$ (6)
    $$ {I}_{ij}^{n+1}=\Delta t\left[{\mathrm{div}}\left(\frac{\nabla {I}_{ij}^{n}}{\left|\nabla {I}_{ij}^{n}\right|}\right)-2\alpha \left({I}_{ij}^{n}-F\right)\right]+{I}_{ij}^{n} $$ (7)

    式中:t为时间;f为参考图像;$ \Delta t $为时间步长;$ {\mathrm{div}}\left(\dfrac{\nabla {I}_{ij}^{n}}{\left|\nabla {I}_{ij}^{n}\right|}\right) $为梯度下降流;$ {I}_{ij}^{n} $和$ {I}_{ij}^{n+1} $分别为当前迭代n和空间位置(xy)中的图像和迭代n+1后和空间位置(xy)的图像。

    由于显式差分会受到库朗条件(Courant−Friedrichs−Lewy,CFL)的限制,如果要使显式差分表达式保持稳定,则需要时间步长非常小,限制了算法运行速度。隐式差分不受时间步长的约束,在采用较大步长的情况下依然能够保持稳定,但是隐式差分迭代式的联立方程组往往是非线性的,对计算量的要求会有所提升。本文采用半隐式差分,将联立方程组转换为线性差分方程,便于计算。

    半隐式有限差分离散迭代方程表达式为

    $$ {I}_{ij}^{n+1}=\frac{1}{1+\alpha \Delta t}\left\{{I}_{ij}^{n}+ \Delta t {\mathrm{div}}\left(\frac{\nabla {I}_{ij}^{n}}{\left|\nabla {I}_{ij}^{n}\right|}\right)+\alpha \Delta t F\right\} $$ (8)

    在迭代过程中,迭代终止条件为

    $$\frac{||{{I}_{ij}^{n}-I}_{ij}^{n+1}||}{||{I}_{ij}^{n}||} < p $$ (9)

    式中$ p $为迭代终止条件,$ p $=0.01。

    1) 定量结果。为了验证本文弱光图像增强算法的效果,与RetinexNet[14]和LLFlow[15]2个弱光图像增强算法在自制井下弱光数据集上进行对比实验。本文采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)[16]2种客观评价指标进行定量分析,结果见表1

    表  1  弱光图像增强算法定量分析结果
    Table  1.  Quantitative results of low-light images enhancement algorithm
    算法PSNRSSIM
    RetinexNet16.510.646 1
    LLFlow25.270.924 9
    本文增强算法26.480.996 7
    下载: 导出CSV 
    | 显示表格

    表1可看出,本文增强算法的PSNR和SSIM较RetinexNet和LLFlow 高,说明本文增强算法在视觉质量和噪声抑制方面具有显著优势,这是由于采用了半隐式ROF去噪模型。

    2) 定性结果。采用弱光图像增强算法对井下图像增强前后的效果如图3图4所示。可看出增强后的图像可见度有明显改善,图像中行人的纹理更加清晰,且噪声抑制效果良好。

    图  3  增强前的井下弱光图像
    Figure  3.  Underground low-light images before enhancement
    图  4  增强后的井下弱光图像
    Figure  4.  Enhanced underground low-light images

    基于改进YOLOv3的矿用无人驾驶车辆行人检测算法的网络结构如图5所示。首先在YOLOv3的基础上,采用密集连接块(Dense Block)[17]取代YOLOv3中的Residual连接,提升主干网络的特征提取能力,加强网络前向传播过程中图像特征利用率,避免网络训练时梯度消失问题。然后,采用Slim-neck[18]结构优化原始YOLOv3的特征融合结构,使得特征图之间能够进行高效的信息融合,进一步提高矿用无人驾驶车辆行人检测算法对小目标行人的检测精度,并利用其内部特殊的轻量化卷积结构,提高检测速度。最后,加入轻量级的卷积注意力模块(Convolutional Block Attention Module,CBAM)[19]细化主干网络提取的特征图,加强特征对小目标的表征,提高网络对弱光图像下的行人检测能力和小目标检测能力。

    图  5  基于改进YOLOv3的矿用无人驾驶车辆行人检测算法的网络结构
    Figure  5.  Network structure of pedestrian detection algorithm for mining unmanned vehicles based on improved YOLOv3

    矿用无人驾驶车辆行人检测算法的密集连接块结构如图6所示,图中绿色箭头是特征图主要的流动方向。1个密集连接块包含6个密集连接层,每个密集连接层包含2种卷积层,一种是由3×3卷积、BatchNorm和Leaky ReLU激活函数组成(用蓝色方块表示),以降低特征图的维度和大小;另一种是由1×1卷积、BatchNorm和Leaky ReLU激活函数组成(用红色的方块表示),以调整特征图的大小和通道数。对于一个密集连接层,其输入为所属密集连接块内之前所有密集连接层输出的跳跃连接堆叠,其中跳跃连接是将非相邻密集连接层输出特征叠加并通过激活函数运算[20]。通过采用跳跃连接将前后的密集连接层连接起来,特征图中的信息在密集块的传递过程中能够更好的被保留,有利于特征信息在梯度反向传播过程中的利用[21]

    图  6  密集连接块结构
    Figure  6.  Densely connected block structure

    Slim−neck是一种用于优化卷积神经网络特征融合能力的结构。通过在原始YOLOv3中引入Slim−neck结构,可以提高矿用无人驾驶车辆行人检测算法对小目标行人的检测精度,并利用其内部特殊的轻量化卷积结构、提高检测速度。 改进YOLOv3网络中Slim−neck结构如图7所示。GSConv是一种减少计算复杂性的轻量级卷积,用于减少行人检测算法的运行时间;VoVGSCSP是跨阶段部分网络模块,用于在不同阶段的特征图之间进行高效的信息融合,提高行人检测精度。

    图  7  改进YOLOv3网络中Slim−neck结构
    Figure  7.  Slim-neck structure in improved YOLOv3 network

    CBAM模块是一个即插即用的卷积神经网络组件,可自适应计算空间注意力和通道注意力权重,达到自适应细化特征的效果[22]。CBAM结构如图8所示(其中输入特征是经过VoVGSCSP跨阶段部分网络模块处理后的输出结果),主要包括通道注意力模型(Channel Attention Model,CAM)和空间注意力模型(Spatial Attention Model,SAM)2个部分,CAM模块对输入特征计算得到通道注意力图,SAM模块的输入特征是通道注意力图与输入特征相乘后的输出[23]

    图  8  CBAM结构
    Figure  8.  Convolutional block attention module (CBAM) structure

    CAM先对输入特征进行全局最大池化和平均池化操作,再经过共享多层感知机(Multilayer Perceptron,MLP)模块得到2个中间特征,将这2个中间特征相加,再由Softmax函数计算得到通道注意力图[24]。CAM结构如图9所示。

    图  9  CAM结构
    Figure  9.  Channel attention model (CAM) structure

    输入特征经过CAM处理后的结果为

    $$ {{M}}_{{{\mathrm{c}}}}\left({Q}\right)=\mu \left({M}\left({\delta }\left({Q}\right)\right)+{M}\left({\tau }\left({Q}\right)\right)\right) $$ (10)

    式中:$ Q $为输入特征图;$ \mu (\cdot )$为Softmax激活函数;$ M (\cdot )$为多层感知机;$ \delta (\cdot )$为全局最大池化操作;$ \tau (\cdot )$为全局平均池化操作。

    SAM结构如图10所示,首先采用全局最大池化和平均池化整合信息,然后再使用卷积将2个池化层的结果连接,最后由Softmax函数计算得到空间注意力图[25]

    图  10  SAM结构
    Figure  10.  Spatial attention model(SAM) structure

    输入特征经过SAM处理后的结果为

    $$ {{M}}_{{{\mathrm{s}}}}\left({{Q}}'\right)={\mu }\left({{h}}^{7\times 7}\left(\right[{\delta }\left({Q}\right);{\tau }\left({Q}\right)\left]\right)\right) $$ (11)

    式中 $ h $为卷积层的卷积核,大小为7×7。

    通过矿用无轨胶轮车进行井下行人数据集的采集,如图11所示,可见光摄像头放置在车机盖位置,该摄像头型号为Intel d435i,可采集三通道(RGB)、分辨率为$ 640\times 640 $的彩色图像。采用弱光图像增强算法对采集到的4 355张原始图像进行增强,再以8∶2的比例划分为训练集(3 484张)和验证集(871张),标签类别为“person”,并对原始图像进行划分和标注,进而完成井下行人数据集的构建。在训练基于改进YOLOv3的矿用无人驾驶车辆行人检测算法时,采用Adam优化器,动量参数为0.9,均方根参数为0.999,学习率为0.01,batch size设置为16,一共训练200个epoch。

    图  11  矿用无轨胶轮车行人检测平台
    Figure  11.  Pedestrian detection platform for trackless rubber-wheeled vehicle in mining applications

    实验使用的硬件计算平台如图12所示,该平台具有1路以太网接口、1路USB3.0接口,与相机平台连接,并针对基于改进YOLOv3的矿用无人驾驶车辆行人检测算法结构和前向传播过程设计了相应的加速算子,运行的操作系统为Ubuntu20.04,采用的深度学习框架为Pytorch,编程语言为Python3。

    图  12  实验硬件计算平台
    Figure  12.  Experimental hardware computing platform

    常用的行人检测性能评价指标包括精确率P(Precision)、召回率R(Recall)及平均精度E(Average Precision)和运行时间。

    $$ P = \frac{{{N_{{\mathrm{TP}}}}}}{{{N_{{\mathrm{TP}}}} + {N_{{\mathrm{FP}}}}}} $$ (12)
    $$ R = \frac{{{N_{{\mathrm{TP}}}}}}{{{N_{{\mathrm{TP}}}} + {N_{{\mathrm{FN}}}}}} $$ (13)
    $$ E = \int_0^1 {PR{\text{d}}R} $$ (14)

    式中:NTP为预测正确的正样本数量;NFP为预测错误的正样本数量;NFN为预测错误的负样本数量。

    为了测试矿用无人驾驶车辆行人检测算法的性能及不同输入图像对检测效果的影响,将训练好的矿用无人驾驶车辆行人检测算法与文献[26]基于改进YOLOv7和ByteTrack的煤矿关键岗位人员不安全行为识别算法、YOLOv5、YOLOv3、Faster R−CNN、RetinaNet和SSD 6个算法在不同的图像输入下进行对比,结果见表2

    表  2  各行人检测算法性能比较
    Table  2.  Comparison of the performance of various pedestrian detection algorithms
    输入 算法 平均精度/% 运行时间/ms
    弱光图像SSD35.2257.66
    RetinaNet37.7346.45
    Faster R−CNN44.2284.41
    YOLOv372.2333.56
    YOLOv579.3732.98
    文献[26]81.8131.52
    本文算法83.6731.28
    增强图像SSD36.5152.88
    RetinaNet51.6346.31
    Faster R−CNN45.7283.27
    YOLOv383.9131.46
    YOLOv589.2630.47
    文献[26]93.1529.59
    本文算法95.6829.31
    下载: 导出CSV 
    | 显示表格

    表2可看出,本文算法在井下弱光情况下的平均精度较文献[26]、YOLOv5、YOLOv3、Faster R−CNN、RetinaNet、SSD分别提高了1.86%,4.3%,11.44%,39.45%,45.94%,48.45%,且在精度保持领先的情况下,运行时间也有明显缩短。对于增强后图像,本文算法的平均精度达95.68%,相较于文献[26]、YOLOv5、YOLOv3、Faster R−CNN、RetinaNet、SSD分别提高了2.53%,6.42%,11.77%,49.96%,44.05%,59.17%,运行时间为29.31 ms,较其他算法的运行时间短。

    通过消融实验验证密集连接块、Slim-neck和CBAM在YOLOv3中的提升效果,结果见表3。A表示原始YOLOv3+密集连接块特征提取,B表示A+ Slim−neck特征融合。可看出对于弱光图像,A的平均精度较YOLOv3提高5.48%,运行时间增加1.41 ms;B的平均精度较YOLOv3提高8.93%,运行时间减少了4.21 ms;本文算法的平均精度较YOLOv3提高11.44%,运行时间减少了2.28 ms。对于增强图像,A的平均精度较YOLOv3提高4.78%,运行时间增加1.26 ms;B的平均精度较YOLOv3提高9.62%,运行时间减少4.55 ms;本文算法的平均精度较YOLOv3提高11.77%,运行时间减少了2.15 ms。综上根据消融实验结果得出:加入密集连接块,可更有效地保留和利用特征图中的信息,提高行人检测精度;加入Slim−neck特征融合结构能够在提高行人检测精度的同时减少行人检测模型的运行时间;加入CBAM特征细化能够加强特征在通道和空间上的信息关联,增强模型对目标类别和位置的注意程度,提高行人检测精度。

    表  3  消融实验结果
    Table  3.  Results of ablation experiments
    输入 算法 密集连
    接块
    Slim−neck CBAM 平均精
    度/%
    运行时
    间/ms
    弱光图像YOLOv3×××72.2333.56
    A××77.7134.97
    B×81.1629.35
    本文算法83.6731.28
    增强图像YOLOv3×××83.9131.46
    A××88.6932.72
    B×93.5326.91
    本文算法95.6829.31
    下载: 导出CSV 
    | 显示表格

    为了直观展示矿用无人驾驶车辆行人检测算法在煤矿巷道弱光图像和增强图像上的检测效果,与YOLOv3及文献[26]中的行人检测算法进行对比,结果如图13图14所示。可看出虽然将增强图像作为输入可提高检测精度,但YOLOv3和文献[26]还是出现了漏检和误检的问题,而矿用无人驾驶车辆行人检测算法有效改善了该问题,能够有效提升矿用无人驾驶车辆在复杂环境下的行人检测能力。

    图  13  不同算法在煤矿巷道弱光图像下的行人检测结果
    Figure  13.  Pedestrian detection results of different algorithms on low-light images of coal mine roadway
    图  14  不同算法在煤矿巷道增强图像下的行人检测结果
    Figure  14.  Pedestrian detection results of different algorithms on enhanced images of coal mine roadway

    1) 针对井下采集的图像中出现弱光或低光照情况,设计了一种弱光图像增强算法,通过图像空间转换,对弱光图像进行光照增强并抑制光照增强过程中的噪声。

    2) 对YOLOv3进行改进,提出了矿用无人驾驶车辆行人检测算法。采用密集连接块取代YOLOv3中的Residual连接,提高特征图利用率;采用Slim−neck结构优化原始YOLOv3的特征融合结构,使得特征图之间能够进行高效的信息融合,进一步提高了对小目标行人的检测精度,并利用其内部特殊的轻量化卷积结构,提高了检测速度;加入CBAM特征细化能够加强特征在通道和空间上的信息关联,增强模型对目标类别和位置的注意程度,提高行人检测精度。

    3) 通过实验对比发现,对弱光图像进行增强处理能够有效提高图像可见度和行人检测效果,基于增强后图像的矿用无人驾驶车辆行人检测算法的平均精度达95.68%,相较于文献[26]、YOLOv5、YOLOv3的检测精度分别提高了2.53%,6.42%,11.77%,且运行时间为29.31 ms,相较于其他算法也具备明显优势。

  • 图  1   弱光图像增强算法原理

    Figure  1.   Principle of low-light image enhancement method

    图  2   弱光图像HSV图像空间分量

    Figure  2.   HSV component of low-light images

    图  3   增强前的井下弱光图像

    Figure  3.   Underground low-light images before enhancement

    图  4   增强后的井下弱光图像

    Figure  4.   Enhanced underground low-light images

    图  5   基于改进YOLOv3的矿用无人驾驶车辆行人检测算法的网络结构

    Figure  5.   Network structure of pedestrian detection algorithm for mining unmanned vehicles based on improved YOLOv3

    图  6   密集连接块结构

    Figure  6.   Densely connected block structure

    图  7   改进YOLOv3网络中Slim−neck结构

    Figure  7.   Slim-neck structure in improved YOLOv3 network

    图  8   CBAM结构

    Figure  8.   Convolutional block attention module (CBAM) structure

    图  9   CAM结构

    Figure  9.   Channel attention model (CAM) structure

    图  10   SAM结构

    Figure  10.   Spatial attention model(SAM) structure

    图  11   矿用无轨胶轮车行人检测平台

    Figure  11.   Pedestrian detection platform for trackless rubber-wheeled vehicle in mining applications

    图  12   实验硬件计算平台

    Figure  12.   Experimental hardware computing platform

    图  13   不同算法在煤矿巷道弱光图像下的行人检测结果

    Figure  13.   Pedestrian detection results of different algorithms on low-light images of coal mine roadway

    图  14   不同算法在煤矿巷道增强图像下的行人检测结果

    Figure  14.   Pedestrian detection results of different algorithms on enhanced images of coal mine roadway

    表  1   弱光图像增强算法定量分析结果

    Table  1   Quantitative results of low-light images enhancement algorithm

    算法PSNRSSIM
    RetinexNet16.510.646 1
    LLFlow25.270.924 9
    本文增强算法26.480.996 7
    下载: 导出CSV

    表  2   各行人检测算法性能比较

    Table  2   Comparison of the performance of various pedestrian detection algorithms

    输入 算法 平均精度/% 运行时间/ms
    弱光图像SSD35.2257.66
    RetinaNet37.7346.45
    Faster R−CNN44.2284.41
    YOLOv372.2333.56
    YOLOv579.3732.98
    文献[26]81.8131.52
    本文算法83.6731.28
    增强图像SSD36.5152.88
    RetinaNet51.6346.31
    Faster R−CNN45.7283.27
    YOLOv383.9131.46
    YOLOv589.2630.47
    文献[26]93.1529.59
    本文算法95.6829.31
    下载: 导出CSV

    表  3   消融实验结果

    Table  3   Results of ablation experiments

    输入 算法 密集连
    接块
    Slim−neck CBAM 平均精
    度/%
    运行时
    间/ms
    弱光图像YOLOv3×××72.2333.56
    A××77.7134.97
    B×81.1629.35
    本文算法83.6731.28
    增强图像YOLOv3×××83.9131.46
    A××88.6932.72
    B×93.5326.91
    本文算法95.6829.31
    下载: 导出CSV
  • [1] 林燕霞,苏丹. 基于SLAM技术的矿区巷道巡检机器人路径规划优化[J]. 金属矿山,2024(4):209-214.

    LIN Yanxia,SU Dan. Path planning optimization of mine roadway inspection robot based on SLAM technique[J]. Metal Mine,2024(4):209-214.

    [2] 韩江洪,卫星,陆阳,等. 煤矿井下机车无人驾驶系统关键技术[J]. 煤炭学报,2020,45(6):2104-2115.

    HAN Jianghong,WEI Xing,LU Yang,et al. Driverless technology of underground locomotive in coal mine[J]. Journal of China Coal Society,2020,45(6):2104-2115.

    [3] 杨伟康,吕文生,杨鹏,等. 基于倒置残差的井下无人车目标检测研究[J]. 矿业研究与开发,2024,44(4):222-227.

    YANG Weikang,LYU Wensheng,YANG Peng,et al. Research on target detection of underground unmanned vehicle based on inverted residual[J]. Mining Research and Development,2024,44(4):222-227.

    [4] 董观利,宋春林. 基于视频的矿井行人越界检测系统[J]. 工矿自动化,2017,43(2):29-34.

    DONG Guanli,SONG Chunlin. Underground pedestrian crossing detection system based on video[J]. Industry and Mine Automation,2017,43(2):29-34.

    [5] 刘备战,赵洪辉,周李兵. 面向无人驾驶的井下行人检测方法[J]. 工矿自动化,2021,47(9):113-117.

    LIU Beizhan,ZHAO Honghui,ZHOU Libing. Unmanned driving-oriented underground mine pedestrian detection method[J]. Industry and Mine Automation,2021,47(9):113-117.

    [6] 李伟山,卫晨,王琳. 改进的Faster RCNN煤矿井下行人检测算法[J]. 计算机工程与应用,2019,55(4):200-207.

    LI Weishan,WEI Chen,WANG Lin. Improved Faster RCNN approach for pedestrian detection in underground coal mine[J]. Computer Engineering and Applications,2019,55(4):200-207.

    [7] 罗坤鑫. 矿用车辆多信息融合行人检测技术研究[D]. 西安:西安科技大学,2021.

    LUO Kunxin. Research on pedestrian detection technology of multi-information fusion for mining vehicles[D]. Xi'an:Xi'an University of Science and Technology,2021.

    [8] 张应团,李涛,郑嘉祺. 基于DCNN的井下行人监测方法研究[J]. 计算机与数字工程,2019,47(8):2027-2032. DOI: 10.3969/j.issn.1672-9722.2019.08.039

    ZHANG Yingtuan,LI Tao,ZHENG Jiaqi. Research of underground pedestrian monitoring method based on DCNN[J]. Computer & Digital Engineering,2019,47(8):2027-2032. DOI: 10.3969/j.issn.1672-9722.2019.08.039

    [9] 谭显静. 图像去噪的ROF模型的理论分析与算法研究[D]. 重庆:重庆大学,2019.

    TAN Xianjing. Theoretical analysis and algorithm of ROF model for image denoising[D]. Chongqing:Chongqing University,2019.

    [10] 刘寿鑫,龙伟,李炎炎,等. 基于HSV色彩空间的低照度图像增强[J]. 计算机工程与设计,2021,42(9):2552-2560.

    LIU Shouxin,LONG Wei,LI Yanyan,et al. Low-light image enhancement based on HSV color space[J]. Computer Engineering and Design,2021,42(9):2552-2560.

    [11] 余化鹏,李舟,杨新瑞,等. 基于目标检测结果的轮廓及颜色识别研究[J]. 成都大学学报(自然科学版),2019,38(3):276-280. DOI: 10.3969/j.issn.1004-5422.2019.03.011

    YU Huapeng,LI Zhou,YANG Xinrui,et al. Research on object contours extraction and color recognition based on object detection result[J]. Journal of Chengdu University (Natural Science Edition),2019,38(3):276-280. DOI: 10.3969/j.issn.1004-5422.2019.03.011

    [12] 董红召,赵龙钢,赵晨馨,等. OBD支持下公交车到达时间的回归预测方法[J]. 高技术通讯,2021,31(4):425-434. DOI: 10.3772/j.issn.1002-0470.2021.04.010

    DONG Hongzhao,ZHAO Longgang,ZHAO Chenxin,et al. Regression prediction method of bus arrival time supported by OBD[J]. Chinese High Technology Letters,2021,31(4):425-434. DOI: 10.3772/j.issn.1002-0470.2021.04.010

    [13]

    RUDIN L I,OSHER S,FATEMI E. Nonlinear total variation based noise removal algorithms[J]. Physica D:Nonlinear Phenomena,1992,60(1/2/3/4):259-268.

    [14]

    WEI Chen,WANG Wenjing,YANG Wenhan,et al. Deep Retinex decomposition for low-light enhancement[EB/OL]. (2022-08-21)[2024-04-22]. https://arxiv.org/abs/1808.04560v1.

    [15]

    WANG Yufei,WAN Renjie,YANG Wenhan,et al. Low-light image enhancement with normalizing flow[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(3):2604-2612. DOI: 10.1609/aaai.v36i3.20162

    [16]

    WANG Zhou,BOVIK A C,SHEIKH H R,et al. Image quality assessment:from error visibility to structural similarity[J]. IEEE Transactions on Image Processing,2004,13(4):600-612. DOI: 10.1109/TIP.2003.819861

    [17] 舒军,蒋明威,杨莉,等. DenseNet模型轻量化改进研究[J]. 华中师范大学学报(自然科学版),2020,54(2):187-193.

    SHU Jun,JIANG Mingwei,YANG Li,et al. Lightweight improvement research of DenseNet model[J]. Journal of Central China Normal University(Natural Sciences),2020,54(2):187-193.

    [18]

    LI Hulin,LI Jun,WEI Hanbing,et al. Slim-neck by GSConv:a lightweight-design for real-time detector architectures[J]. Journal of Real-Time Image Processing,2024,21(3). DOI: 10.1007/s11554-024-01436-6.

    [19]

    WOO S,PARK J,LEE J Y,et al. CBAM:convolutional block attention module[M]. Cham:Springer International Publishing,2018:3-19.

    [20] 吴永俊,汪泓,杨晨. 基于改进DeepLabV3+的石漠化地区裸岩信息提取[J]. 航天返回与遥感,2024,45(1):123-135.

    WU Yongjun,WANG Hong,YANG Chen. Extraction of bare rock information in rocky desertification area based on improved DeepLabV3+[J]. Spacecraft Recovery & Remote Sensing,2024,45(1):123-135.

    [21] 吕璐璐,陈树越,王利平,等. 深度特征融合与重构的微纤维识别算法[J]. 现代电子技术,2022,45(1):83-88.

    LYU Lulu,CHEN Shuyue,WANG Liping,et al. Microfiber recognition algorithm based on deep feature fusion and reconstruction[J]. Modern Electronics Technique,2022,45(1):83-88.

    [22] 樊嵘,马小陆. 面向带钢表面小目标缺陷检测的改进YOLOv7算法[J]. 合肥工业大学学报(自然科学版),2024,47(3):303-308,316.

    FAN Rong,MA Xiaolu. Improved YOLOv7 algorithm for small target defect detection on strip steel surface[J]. Journal of Hefei University of Technology(Natural Science),2024,47(3):303-308,316.

    [23] 韩崇,樊卫北,郭澳. 基于特征融合的毫米波雷达行为识别算法[J/OL]. 计算机科学:1-10[2024-03-12]. http://kns.cnki.net/kcms/detail/50.1075.TP.20240513.1347.011.html.

    HAN Chong,FAN Weibei,GUO Ao. Millimeter wave radar human activity recognition algorithm based on feature fusion [J/OL]. Computer Science:1-10[2024-03-12]. http://kns.cnki.net/kcms/detail/50.1075.TP.20240513.1347.011.html.

    [24] 彭垚潘,张荣芬,刘宇红,等. 融入特征交互与注意力的轻量化混凝土裂缝分割算法[J/OL]. 光电子·激光:1-11[2024-03-12]. http://kns.cnki.net/kcms/detail/12.1182.O4.20240428.1852.016.html.

    PENG Yaopan,ZHANG Rongfen,LIU Yuhong,et al. Lightweight concrete crack segmentation algorithm integrating feature interaction and attention[J/OL]. Journal of Optoelectronics·Laser:1-11[2024-03-12]. http://kns.cnki.net/kcms/detail/12.1182.O4.20240428.1852.016.html.

    [25] 韩康,战洪飞,余军合,等. 基于空洞卷积和增强型多尺度特征自适应融合的滚动轴承故障诊断[J]. 浙江大学学报(工学版),2024,58(6):1285-1295.

    HAN Kang,ZHAN Hongfei,YU Junhe,et al. Rolling bearing fault diagnosis based on dilated convolution and enhanced multi-scale feature adaptive fusion[J]. Journal of Zhejiang University(Engineering Science),2024,58(6):1285-1295.

    [26] 韩康,李敬兆,陶荣颖. 基于改进YOLOv7和ByteTrack的煤矿关键岗位人员不安全行为识别[J]. 工矿自动化,2024,50(3):82-91.

    HAN Kang,LI Jingzhao,TAO Rongying. Recognition of unsafe behaviors of key position personnel in coal mines based on improved YOLOv7 and ByteTrack[J]. Journal of Mine Automation,2024,50(3):82-91.

图(14)  /  表(3)
计量
  • 文章访问数:  343
  • HTML全文浏览量:  25
  • PDF下载量:  45
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-05-17
  • 修回日期:  2024-10-19
  • 网络出版日期:  2024-09-28
  • 刊出日期:  2024-10-24

目录

/

返回文章
返回