基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型

顾清华, 苏存玲, 王倩, 陈露, 熊乃学

顾清华,苏存玲,王倩,等. 基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型[J]. 工矿自动化,2024,50(1):49-56, 114. DOI: 10.13272/j.issn.1671-251x.2023060021
引用本文: 顾清华,苏存玲,王倩,等. 基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型[J]. 工矿自动化,2024,50(1):49-56, 114. DOI: 10.13272/j.issn.1671-251x.2023060021
GU Qinghua, SU Cunling, WANG Qian, et al. A multi-target road detection model in a low-light environment in an open-pit mining area based on hyperbolic embedding[J]. Journal of Mine Automation,2024,50(1):49-56, 114. DOI: 10.13272/j.issn.1671-251x.2023060021
Citation: GU Qinghua, SU Cunling, WANG Qian, et al. A multi-target road detection model in a low-light environment in an open-pit mining area based on hyperbolic embedding[J]. Journal of Mine Automation,2024,50(1):49-56, 114. DOI: 10.13272/j.issn.1671-251x.2023060021

基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型

基金项目: 国家自然科学基金项目(52074205);陕西省自然科学基金杰青项目(2020JC-44)。
详细信息
    作者简介:

    顾清华(1981—),男,山东诸城人,教授,博士研究生导师,主要研究方向为矿业工程,E-mail:qinghuagu@126.com

    通讯作者:

    苏存玲(1996—),女,陕西商洛人,硕士研究生,主要研究方向为机器视觉、智能采矿,E-mail:2574818699@qq.com

  • 中图分类号: TD67

A multi-target road detection model in a low-light environment in an open-pit mining area based on hyperbolic embedding

  • 摘要: 露天矿环境特殊,道路场景复杂多变,在光照不足时会导致矿区道路多目标识别不清、定位不准,进而影响检测效果,给矿区无人矿用卡车的安全行驶带来严重安全隐患。目前的道路障碍物检测模型不能有效解决矿区暗光环境对模型检测效果的影响,同时对矿区小目标障碍物的识别也有较大误差,不适用于矿区特殊环境下障碍物的检测与识别。针对上述问题,提出了一种基于双曲嵌入的露天矿区暗光环境下多目标检测模型。首先,在模型的图像预处理阶段引入卷积神经网路Retinex−Net对暗图像进行增强,提高图像清晰度;然后,针对数据集中特征过多而无重点偏好的问题,在加强特征提取部分添加全局注意力机制,聚集3个维度上更关键的特征信息;最后,在检测模型预测阶段引入双曲全连接层,以减少特征丢失,并防止过拟合现象。实验结果表明:① 基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型不仅对露天矿区暗光环境下的大尺度目标具有较高的分类与定位精度,对矿用卡车及较远距离的小尺度目标即行人也可准确检测与定位,能够满足无人矿用卡车在矿区特殊环境下驾驶的安全需求。② 模型的检测准确率达98.6%,检测速度为51.52 帧/s,较SSD、YOLOv4、YOLOv5、YOLOx、YOLOv7分别提高20.31%,18.51%,10.53%,8.39%,13.24%,对于矿区道路上的行人、矿用卡车及挖机的检测精度达97%以上。
    Abstract: The environment of open-pit mines is distinctive, and the conditions of the roads in them are complex and constantly changing. Insufficient lighting in the area being mined can make it challenging to identify and position multiple targets on the roads. This, in turn, affects the results of detection and poses serious risks to the safe operation of uncrewed mining trucks.Currently available models to identify obstacles on roads cannot accommodate the impact of poor lighting, and thus, yield inaccurate results. They also have significant shortcomings in identifying small obstacles in the mining area. In this study, we develop a multi-target model of detection for the dark/light environment of an open-pit mine using hyperbolic embedding to address the above-mentioned issues. We introduce the Retinex-Net convolutional neural network to the image preprocessing stage of the detection model to enhance dark images and improve their clarity. To address the issue of an excessively large number of features in the dataset without a clear preference for focus, we incorporate the global attention mechanism into the improved process of feature extraction. This enabled the collection of critical feature-related information in three dimensions. Finally, we incorporate a fully connected hyperbolic layer into the prediction stage of the model to minimize feature loss and prevent overfitting. The results of experiments to verify the proposed model showed that ① it could reliably classify and accurately identify large-scale targets in the low-light environment of the open-pit mining area, and was able to highly accurately identify mining trucks and small vehicles over long distances. It could also accurately identify and locate scaled targets, including pedestrians, such that this satisfies meeting the safety-related requirements of uncrewed mining trucks operating in diverse environments.② The model achieved an accuracy of detection of 98.6% while maintaining a speed of 51.52 frames/s, where this was 20.31%, 18.51%, 10.53%, 8.39%, and 13.24% higher than the accuracies of the SSD, YOLOv4, YOLOv5, YOLOx, and YOLOv7, respectively. Its accuracy of detection of pedestrians, mining trucks, and excavators on mining roads exceeded 97%.
  • 随着自动驾驶技术不断发展,露天矿区无人矿用卡车(以下称矿卡)逐步投入应用。由于矿区环境特殊,道路场景复杂多变,在光照不足时会使矿区道路多目标识别不清、定位不准,进而影响检测效果,给无人矿卡的安全行驶带来严重安全隐患,因此亟需对露天矿区暗光环境下道路多目标精准检测展开研究。

    道路障碍物检测方法主要包括基于机器视觉、基于毫米波雷达、基于毫米波雷达与其他传感器融合的检测方法3类。基于机器视觉的障碍物检测方法应用较为广泛,可分为双阶段检测和单阶段检测。经典双阶段检测算法(如R−CNN[1-3]等)需先生成候选框再进行目标检测,检测速度慢,不适用于对实时性要求较高的场景。而单阶段检测算法只需一次特征提取即可实现目标检测,如单步多框目标检测(Single Shot MultiBox Detector,SSD)[4-6]、YOLO系列[7-10]等,虽然检测速度快,但检测精度比双阶段检测算法低,可通过改进模型来提升检测精度,因此单阶段检测算法在道路障碍物检测方面应用居多。文献[11]在模型预处理阶段进行数据增强,以提高YOLO模型对小目标的检测性能。文献[12]针对结构复杂、参数庞大的SSD模型进行骨干改进,以降低延时,提升检测精度。文献[13]通过对YOLOv3模型进行图像裁剪,生成适合网络输入的数据尺寸,并通过引入旋转边界框的方法实现目标的快速识别与定位。上述研究虽有效提升了单阶段检测算法的检测精度,但均未考虑环境光照对检测效果的影响。为此,许多学者针对环境光照对检测精度的影响进行了相关研究。文献[14]基于热特征的负障碍物检测,根据夜间环境下障碍物散热情况,对红外图像进行局部强度剖析以确认障碍物,但障碍物附近的非目标物体会使周围温度上升,影响检测准确率,且该方法仅限于在夜间应用。毫米波雷达抗干扰能力强,可解决外界天气对障碍物识别的影响[15-16],但易受杂波干扰,分辨率较低,无法精确识别反射界面较小的物体。针对该问题文献[17-18]提出将毫米波雷达与其他传感器融合的方法,实验表明该融合方法能够解决单传感器检测不准的问题,但对于特殊场景的矿区,易受到湿度、温度、大气压等因素的影响,不能在暗光环境下精确检测障碍物,且使用成本过高,不利于矿区实际应用。文献[19]受自然视觉视网膜机制启发,开发了夜间图像增强方法,该方法不受夜间湿度、温度等因素影响,对车辆有较好的检测效果,但有效的监控摄像机系统建立的前提条件难以满足,适用范围受限。

    研究表明,现有检测模型均有一定的弊端,不能有效解决矿区暗光环境对模型检测效果的影响,同时对矿区小目标障碍物的识别也有较大误差,不适用于矿区特殊环境下障碍物的检测与识别,本文提出一种基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型。首先,在模型预处理阶段通过暗光环境增强算法提高图像质量;然后,在模型加强特征提取部分引入全局注意力机制(Global Attention Mechanism,GAM),增加网络对矿区小目标的特征偏好,提高目标特征表达能力;最后,在网络的Head层引入双曲全连接层,解决因目标尺寸差距过大导致检测难度大的问题,进而提升整个模型检测精度与速度。

    基于露天矿区对目标检测精度及速度的要求,选用YOLOv5单阶段检测算法,其网络结构如图1所示。

    图  1  YOLOv5网络结构
    Figure  1.  YOLOv5 network structure

    该网络由Input、Backbone、Neck、Head 4个部分构成。输入的图像分辨率为640×640。Backbone包含数据预处理及特征提取2个部分。预处理包括Mosaic(马赛克)数据增强、自适应锚框计算及自适应图像缩放;特征提取由Focus切片结构[20]、跨阶段局部网络(Cross Stage Paritial Network,CSP)[21]层结构及空间金字塔池化(Spatial Pyramid Pooling,SPP)[22]3个部分组成。Neck采用特征金字塔(Feature Pyramid Networks,FPN)+路径聚合网络(Path Aggregation Network,PAN) [23-24]结构,对骨干特征提取的3个有效特征层分别进行上下采样,融合特征通道,以提升网络整体性能。Head将Neck层提取的3个加强特征层进行分类与回归预测,对目标进行准确识别与定位。

    YOLOv5模型未考虑暗光环境对检测效果的影响,无法将此模型直接用于矿区暗光环境障碍物检测。为解决暗光环境的影响,在模型的图像预处理阶段引入Retinex−Net卷积神经网络[25-26],对暗光图像进行增强,提高图像清晰度;针对数据集中特征过多而无重点偏好的问题,在加强特征提取部分添加GAM[27],聚集3个维度上更关键的特征信息,这对小尺寸目标十分重要;为减少模型参数及处理过拟合问题,在模型预测部分嵌入双曲全连接层,以提升网络整体检测效果。

    露天矿区存在非结构化道路坡度大、环境多变等特点,极易导致无人矿卡在暗光环境下难以准确检测矿区道路目标。为解决矿区光照不均、远距离暗光及低分辨率3类不同场景对矿区车辆和行人检测效果的影响,本文在YOLOv5模型预处理阶段采用Retinex−Net网络增强暗光图像,提高图像整体质量,以满足矿区暗光环境的检测需求。该模型结构如图2所示,效果如图3所示。该模型主要由分解模块(Decom−Net)、调整模块和重建模块3个部分组成。

    图  2  Retinex−Net网络结构
    Figure  2.  Retinex-Net network structure
    图  3  Retinex−Net图像增强前后效果对比
    Figure  3.  Image comparison before and after Retinex-Net enhancement

    分解模块主要由5层带有ReLu的卷积神经网络组成,将暗光图像和正常光照图像作为输入数据对,共享网络参数,得到暗光图像的反射分量$ {R_{{\mathrm{low}}}} $、光照分量$ {I_{{\mathrm{low}}}} $及正常光照图像的反射分量$ {R_{{\mathrm{normal}}}} $、光照分量$ {I_{{\mathrm{normal}}}} $。利用$ {R_{{\mathrm{low}}}} $,$ {I_{{\mathrm{low}}}} $,$ {R_{{\mathrm{normal}}}} $,$ {I_{{\mathrm{normal}}}} $之间的约束关系优化模型。该模型的损失函数由重建损失$ {\varsigma _{{\mathrm{recon}}}} $、反射分量一致性损失$ {\varsigma _{{\mathrm{ir}}}} $和光照分量平滑损失$ {\varsigma _{{\mathrm{is}}}} $ 3个部分组成。

    $$ {\varsigma _{{\mathrm{recon}}}} = \sum\limits_{i = {\mathrm{low,normal}}} {\sum\limits_{j = {\mathrm{low,normal}}} {{\lambda _{ij}}} } {\left\| {{R_i}{I_j} - {S_j}} \right\|_1} $$ (1)
    $$ {\varsigma _{\rm{ir}}} = {\left\| {{R_{{\mathrm{low}}}} - {R_{{\mathrm{normal}}}}} \right\|_1} $$ (2)
    $$ {\varsigma _{\rm{is}}} = \sum\limits_{i = {\mathrm{low,normal}}} {\left\| {\nabla {I_i}\exp \left( { - {\lambda _{\rm{g}}}\nabla {R_i}} \right)} \right\|} $$ (3)

    式中:$ {\lambda _{ij}} $为重构系数;Ri为图像反射分量;Ij为光照分量;$ {S_{ j}} $为未分解的完整图像,使模型分解出的反射分量和光照分量能够重建对应的原图;$ \nabla $为梯度算子,包含水平和垂直梯度;$ {\lambda _{\rm{g}}} $为平衡结构意识强度系数。

    式(3)通过反射分量为光照分量的梯度图分配相应的权重,使得反射分量与对应的光照分量在确保图像细节上尽可能平滑的同时,仍能够保持图像整体的边界结构完整。

    调整模型主要是对$ {R_{\rm{normal}}} $和$ {I_{\rm{normal}}} $进行调整,采用BM3D算法对$ {R_{\rm{normal}}} $进行噪声抑制,采用多尺度encode−decoder架构对$ {I_{\rm{normal}}} $进行调整,使网络能捕获更大范围的关于光照分布的上下文细节信息,以提高自适应调整能力。

    重建模块利用调整后的反射分量$R_{\mathrm{low}}' $和光照分量$I_{\mathrm{low}}' $得到正常光照图像$S_{\mathrm{low}}' $。

    针对矿区小尺度目标易被忽略、无特征偏好及在CSP层结构中因避免梯度消失而导致显存过大并产生特征弱化现象的问题,在YOLOv5网络加强特征提取阶段引入GAM,以减少信息弥散,增强小尺度目标特征的表达能力,进而放大全局维度交互特征的能力。

    基于GAM加强特征提取的检测模型如图4所示。首先将图像数据分辨率调整至640×640,引入GAM模块;然后将调整好分辨率的图像数据输入网络进行训练,获取相应训练权重;最后利用权重进行预测验证。

    图  4  基于GAM加强特征提取的检测模型
    Figure  4.  Detection model based on enhanced feature extraction by global attention mechanism (GAM)

    GAM模块如图5所示,其中CWH分别为输入特征图的通道数及其宽和高,其运算原理为

    $$ f_{\_{\mathrm{in}}}' = {M_{\rm{c}}}\left( {{f_1}} \right) \otimes {f_1} $$ (4)
    $$ {f_{\_{\mathrm{out}}}} = {M_{\rm{s}}}\left( {f_{\_{\mathrm{in}}}'} \right) \otimes f_{\_{\mathrm{in}}}' $$ (5)

    式中:${f_1} $为网络输入的有效特征图;$ f_{\_{\rm{in}}}' $为$ {f_1} $经过通道注意力模块处理后的有效特征图;$ {M_{\rm{c}}} $为空间注意力图;$ \otimes $为按照特征元素进行乘法操作。$ {f_{\_{\rm{out}}}} $为经过空间注意力模块处理后最终的输出特征图;$ {M_{\rm{s}}} $为通道注意力图。

    该模型将$ {f_1} $输入通道注意力模块,使用三维排列来保留3个维度上的信息和两层的多层感知机(Multilayer Perceptron,MLP),来放大跨维度通道−空间依赖性;将$ f_{_{\rm{_-in}}}' $在空间注意力模块中使用2个卷积层进行空间信息的融合,并从通道注意力模块中使用与瓶颈注意力模块(Bottleneck attention Module,BAM)相同的缩减比a,通过2次7×7的卷积保持通道数一致。本文在模型加强特征提取部分的4个CSP模块后分别引入GAM,以解决卷积注意力模块(Convolutional Block Attention Module,CBAM)中最大池化操作会减少特征信息的问题,使整个网络更关注感兴趣区域及全局特征。

    图  5  GAM模块
    Figure  5.  GAM module

    通常复杂数据常表现出较高非欧氏的潜在联系,无法给出较可靠的几何表示,导致模型不能准确提取有效特征而影响检测效果。具有负曲率的双曲空间[28-30]有较强的数据建模能力,对于有层次结构的数据,该空间能够使检测模型更加紧凑,具有更强的物理可解释性,且对网络复杂性和训练数据要求低,可解决参数冗余问题。双曲空间常见推广模型即Poincare球,其是一个m维双曲几何模型,也称为共形圆盘模型。该模型几何中的点均在Poincare球的内部,几何中心的测地线对应任意垂直于圆盘边界的圆弧或圆盘的直径。根据Poincare球的几何性质,可对实体进行层次性建模,这是探索嵌入结构层次性信息的关键性质。本文选择Poincare球模型进行双曲嵌入,二维Poincare球模型如图6所示,嵌入模型如图7所示。

    图  6  Poincare球模型
    Figure  6.  Poincare ball model
    图  7  Hyperbolic−YOLOv5 head模型
    Figure  7.  Hyperbolic-YOLOv5 head model

    针对模型因提取特征不全面而影响检测效果的问题,本文将模型Neck层输出的3个有效特征层嵌入双曲空间进行全连接层分类。全连接变换即线性变换,将欧氏空间$ Y=Ax+b $映射至双曲空间,并进行双曲空间中全连接运算,利用矩阵向量乘法构造。

    $$ Y = A \otimes x \oplus b = \exp \left( {A{\text{lo}}{{\text{g}}_{\text{0}}}x} \right) \oplus b $$ (6)

    式中:$ Y $为模型对输入数据处理后最终的输出结果;A为所选参数;$ x $为输入网络模型中的变量;$ b $为线性变化的偏置参数;$ {\text{lo}}{{\text{g}}_{\text{0}}}x $为莫比乌斯标量乘法通过在切空间中以0为点投影至$ x $。

    将欧氏空间全连接映射至双曲空间进行处理后,再反映射回欧氏空间,此过程称为双向映射。指数映射$ \exp _x^cY $定义了从欧氏空间到Poincare球模型的映射,即

    $$ \exp _x^cY = x{ \oplus _c}\left( {\tanh \left( {\sqrt c \frac{{\varepsilon _x^{{c^2}}\left\| Y \right\|}}{2}} \right)\frac{Y}{{\sqrt c \left\| Y \right\|}}} \right)c $$ (7)

    式中:$ { \oplus _c} $为双曲空间中的加法运算;$ c $为曲率值;$ \varepsilon _x^{{c^2}} $为保形因子。

    对数映射$ \log _x^cY $定义了从双曲空间反映射回欧氏空间,即

    $$ \log _x^cY = \frac{2}{{\sqrt c \varepsilon _x^{{c^2}}}}{\tanh ^{ - 1}}\left( {\sqrt c \left\| { - x{ \oplus _c}Y} \right\|} \right)\frac{{ - x{ \oplus _c}Y}}{{\left\| { - x{ \oplus _c}Y} \right\|}} $$ (8)
    $$ \varepsilon _x^{{c^2}} = \frac{2}{{1 - {{\left\| x \right\|}^2}}} $$ (9)

    偏置可通过莫比乌斯平移表示,首先将偏置映射至Poincare球模型原点切线空间,然后将其平移至含偏置的新切线空间,最后将结果反映射回原模型。映射关系为

    $$ x \oplus b = {\text{ex}}{{\text{p}}_0}\left( {{\rm P}{{\rm T}_{0 \to x}}\left( {{\text{lo}}{{\text{g}}_0} b } \right)} \right) = {\text{ex}}{{\text{p}}_x}\left( {\frac{{{\lambda _0}}}{{{\lambda _x}}}{\text{lo}}{{\text{g}}_0} b} \right) $$ (10)

    式中:$ {\rm P}{\rm T} $为Paallel Transport并行传输;$ {\lambda _0} $,$ {\lambda _x} $为并行传输对应的结果。

    Poincare球模型中的2个变量x、Y求和定义为

    $$ x\oplus_cY=\frac{\left(1+2c\left\langle x,Y\right\rangle+c \left\| Y \right\| ^2\right)x+\left(1-c \left\| x \right\| ^2\right)Y}{1+2c\left\langle x,Y\right\rangle+c^2 \left\| x \right\| ^2 \left\| Y \right\| ^2} $$ (11)

    莫比乌斯标量乘法等同欧氏空间乘法,当c=0时退化为欧氏空间,即

    $$ r\otimes_cx=\left(\frac{1}{\sqrt{c}}\right)\tanh\left(e*\tanh^{-1}\left(\sqrt{c} \left\| x \right\| \right)\right)\frac{x}{ \left\| x \right\| } $$ (12)

    式中:$ e $为标量因子;$ { \otimes _c} $为双曲空间下的乘法运算。

    双曲模型内部是指数型运算,该运算有利于模型获取数据的底层信息,对目标精确分类。因此,将欧氏空间内的运算推广至双曲空间可提升模型整体的检测效果。

    实验平台软硬件配置见表1。在模型训练参数的设置中,将输入检测模型的图像尺寸调整至640×640×3,动量因子为0.937,模型训练优化器为SGD,学习率下降方式选用cos,初始学习率为0.001,批次大小为8,置信度阈值为0.5,根据损失收敛确定模型迭代2 500次。对比模型训练参数与之保持一致。

    表  1  实验平台软硬件配置
    Table  1.  Hardware and software configuration of experimental platform
    配置名称 型号/版本
    GPU NVIDIA GeForce 3090(24 G)
    CPU Intel® Core™ i7−7800X CPU
    操作系统 Windows 10 专业版
    学习框架 Pytorch1.7.1, Python3.9, Cuda11.0
    下载: 导出CSV 
    | 显示表格

    实验数据集源于某露天矿,通过海康威视红外双目摄像头实地采集,共获取788张图像。利用labelimg对数据集进行标注,并按照(训练集+验证集)∶测试集=(8+1)∶1的比例对矿区数据集进行划分。由于矿区环境特殊,导致收集数据量过少,所以采用Mixup数据增强方法将数据扩增至原数量的6倍,再将图像调至640×640后输入检测模型。对于矿区场景的特殊性,将矿区非结构化道路上的检测目标——小型厢车、矿卡、矿卡2、矿卡3、洒水车、挖机、电钻挖机、行人、铲土机、电车分为3大类,即挖机、非同类型矿卡及行人。

    检测模型可用混淆矩阵作为评价指标,通常用nn列矩阵表示,见表2

    表  2  混淆矩阵评价
    Table  2.  Confusion matrix evolution
    混淆矩阵 真实值
    正样本 负样本
    预测值正样本真正样本数(NTP假负样本数(NFP
    负样本假正样本数(NFN真负样本数(NTN
    下载: 导出CSV 
    | 显示表格

    基于混淆矩阵的评价指标有精确率、召回率、平均精度、准确率、F1度量,其计算方法见表3。其中B为检测的目标数量,检测模型综合评价指标越高,表示模型性能越好。

    表  3  混淆矩阵性能指标计算公式
    Table  3.  Calculation formula of performance indexs of confusion matrix
    指标 公式
    精确率(P $ \dfrac{{{N_{\rm{{TP}}}}}}{{{N_{\rm{{TP}}}} + {N_{\rm{{FP}}}}}} $
    召回率(Q $ \dfrac{{{N_{\rm{{TP}}}}}}{{{N_{\rm{{TP}}}} + {N_{\rm{{FN}}}}}} $
    平均精度 $ \dfrac{{\displaystyle\sum\limits_1^B {PQ} }}{B} $
    准确率 $ \dfrac{{{N_{\rm{{TP}}}} + {N_{\rm{{TN}}}}}}{{{N_{\rm{{TP}}}} + {N_{\rm{{TN}}}} + {N_{\rm{{FP}}}} + {N_{\rm{{FN}}}}}} $
    F1度量 $ \dfrac{{2PQ}}{{P + Q}} $
    下载: 导出CSV 
    | 显示表格

    基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型的检测结果由远端和车载显示器展示,结果如图8所示。

    图  8  基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型检测效果
    Figure  8.  Detection effect of road multi-object detection model based on hyperbolic embedding in dark environment in open pit mine

    实验结果表明:该模型不仅对露天矿区暗光环境下的大尺度目标分类与定位精度较高,对矿卡及较远距离的小尺度目标,即行人也可准确检测和定位,能够满足无人矿卡在矿区特殊环境下驾驶的安全需求。由图8(a)、图8(d)可看出,模型利用Retinex−Net将暗光处的像素动态扩展,可提高整体可视化,降低光照对目标的干扰,提升检测效果;由图8(b)、图8(e)可看出,对于矿卡、挖机及行人这类尺度差距较大的目标,模型利用GAM后,对不同尺度特征用不同加权方式,弱化非检测对象的特征表达,提高检测准确性;由图8(c)、图8(f)可看出,对于常见低分辨率图像,先处理光照,再在模型输出阶段通过双曲模型获得更底层的特征信息,可进一步提高图像整体检测效果。

    为验证矿区暗光环境道路多尺度目标提出的图像增强、GAM及双曲全连接层的有效性,开展消融实验进行性能验证。以YOLOv5网络模型为基础模型,分别验证加入Retinex−Net、GAM、双曲全连接层后的效果,并将3种改进策略同时加入基础模型,进行验证,结果见表4。可看出在YOLOv5网络模型中分别使用Retinex−Net、GAM、双曲全连接层后,模型的检测准确率分别提升了4%,8.23%和14.51%,检测速度分别提高了−0.87,0.25,1.42 帧/s;使用Retinex−Net、GAM及双曲全连接层后,模型检测准确率达98.6%,检测速度为51.52 帧/s,检测性能明显提升。

    表  4  消融实验结果
    Table  4.  Ablation test results
    Retinex−Net GAM 双曲全连接层 检测速度/(帧·s−1 准确率/%
    × × × 53.44 79.30
    × × 54.31 83.30
    × × 53.19 87.53
    × × 52.02 93.81
    51.52 98.60
    下载: 导出CSV 
    | 显示表格

    为了验证本文模型的有效性,将其与YOLO系列和SSD目标检测网络进行对比,结果见表5。可看出,本文所提模型的准确率较SSD、YOLOv4、YOLOv5、YOLOx、YOLOv7分别提高了20.31%,18.51%,10.53%,8.39%,13.24%,达到98.67%,对于矿区道路上的行人、矿卡及挖机的检测准确性达97%以上。

    表  5  不同网络性能对比
    Table  5.  Performance comparison of different networks
    模型 输入尺寸 准确
    率/%
    检测速度/
    (帧·s−1
    平均检测精度/%
    行人 矿卡 挖机
    SSD 640×640 78.36 104.96 69.11 83.37 89.35
    YOLO v4 640×640 80.16 63.97 83.94 78.03 91.93
    YOLOv5 640×640 88.14 51.44 93.13 92.80 93.69
    YOLOx 640×640 90.28 54.21 94.88 90.89 94.53
    YOLOv7 640×640 85.43 49.38 95.81 96.33 95.93
    本文模型 640×640 98.67 55.25 97.61 97.03 98.23
    下载: 导出CSV 
    | 显示表格

    1) 基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型不仅对露天矿区暗光环境下的大尺度目标具有较高的分类与定位精度,对矿卡及较远距离的小尺度目标也可准确检测及定位,满足无人矿卡在矿区特殊环境下驾驶的安全需求。

    2) 为了减少露天矿区多种暗光图像对检测效果的影响,采用Retinex−Net算法进行图像预处理,检测准确率提高了4%。

    3) 使用Retinex−Net进行图像处理、添加GAM模块及双曲全连接层的完整改进模型检测准确率达98.6%,检测速度保持在51.52 帧/s,可为矿区安全提供保障。

    4) 基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型准确率达98.67%,对于矿区道路上的行人、矿卡及挖机的检测精度达97%以上。

    5) 由于实验所需数据收集难度大、危险系数高,使数据集数量有限,该模型检测目标的置信度还未达到0.9。下一步应考虑如何增加数据量,并提高检测物体的置信度。

  • 图  1   YOLOv5网络结构

    Figure  1.   YOLOv5 network structure

    图  2   Retinex−Net网络结构

    Figure  2.   Retinex-Net network structure

    图  3   Retinex−Net图像增强前后效果对比

    Figure  3.   Image comparison before and after Retinex-Net enhancement

    图  4   基于GAM加强特征提取的检测模型

    Figure  4.   Detection model based on enhanced feature extraction by global attention mechanism (GAM)

    图  5   GAM模块

    Figure  5.   GAM module

    图  6   Poincare球模型

    Figure  6.   Poincare ball model

    图  7   Hyperbolic−YOLOv5 head模型

    Figure  7.   Hyperbolic-YOLOv5 head model

    图  8   基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型检测效果

    Figure  8.   Detection effect of road multi-object detection model based on hyperbolic embedding in dark environment in open pit mine

    表  1   实验平台软硬件配置

    Table  1   Hardware and software configuration of experimental platform

    配置名称 型号/版本
    GPU NVIDIA GeForce 3090(24 G)
    CPU Intel® Core™ i7−7800X CPU
    操作系统 Windows 10 专业版
    学习框架 Pytorch1.7.1, Python3.9, Cuda11.0
    下载: 导出CSV

    表  2   混淆矩阵评价

    Table  2   Confusion matrix evolution

    混淆矩阵 真实值
    正样本 负样本
    预测值正样本真正样本数(NTP假负样本数(NFP
    负样本假正样本数(NFN真负样本数(NTN
    下载: 导出CSV

    表  3   混淆矩阵性能指标计算公式

    Table  3   Calculation formula of performance indexs of confusion matrix

    指标 公式
    精确率(P $ \dfrac{{{N_{\rm{{TP}}}}}}{{{N_{\rm{{TP}}}} + {N_{\rm{{FP}}}}}} $
    召回率(Q $ \dfrac{{{N_{\rm{{TP}}}}}}{{{N_{\rm{{TP}}}} + {N_{\rm{{FN}}}}}} $
    平均精度 $ \dfrac{{\displaystyle\sum\limits_1^B {PQ} }}{B} $
    准确率 $ \dfrac{{{N_{\rm{{TP}}}} + {N_{\rm{{TN}}}}}}{{{N_{\rm{{TP}}}} + {N_{\rm{{TN}}}} + {N_{\rm{{FP}}}} + {N_{\rm{{FN}}}}}} $
    F1度量 $ \dfrac{{2PQ}}{{P + Q}} $
    下载: 导出CSV

    表  4   消融实验结果

    Table  4   Ablation test results

    Retinex−Net GAM 双曲全连接层 检测速度/(帧·s−1 准确率/%
    × × × 53.44 79.30
    × × 54.31 83.30
    × × 53.19 87.53
    × × 52.02 93.81
    51.52 98.60
    下载: 导出CSV

    表  5   不同网络性能对比

    Table  5   Performance comparison of different networks

    模型 输入尺寸 准确
    率/%
    检测速度/
    (帧·s−1
    平均检测精度/%
    行人 矿卡 挖机
    SSD 640×640 78.36 104.96 69.11 83.37 89.35
    YOLO v4 640×640 80.16 63.97 83.94 78.03 91.93
    YOLOv5 640×640 88.14 51.44 93.13 92.80 93.69
    YOLOx 640×640 90.28 54.21 94.88 90.89 94.53
    YOLOv7 640×640 85.43 49.38 95.81 96.33 95.93
    本文模型 640×640 98.67 55.25 97.61 97.03 98.23
    下载: 导出CSV
  • [1]

    ZHANG Shifeng,WEN Longyin,BIAN Xiao,et al. Occlusion-aware R-CNN:detecting pedestrians in a crowd[C]. European Conference on Computer Vision,Munich,2018. DOI: 10.1007/978-3-030-01219-9_39.

    [2]

    LI Jianan,LIANG Shengmei,XU Tingfa,et al. Scale-aware fast R-CNN for pedestrian dettion[J]. IEEE Transactions on Multimedia,2018,20(4):985-996.

    [3]

    CHENG Bowen,WEI Yunchao,SHI Honghui,et al. Revisiting R-CNN:on awakening the classification power of faster R-CNN[C]. European Conference on Computer Vision,Munich,2018:8-14.

    [4] 秦振,李学伟,刘宏哲. 基于改进SSD的鲁棒小目标检测算法[J]. 东北师大学报(自然科学版),2023,55(4):59-66.

    QIN Zhen,LI Xuewei,LIU Hongzhe. Robust small target detection algorithm based on improved SSD[J]. Journal of Northeast Normal University(Natural Science Edition),2023,55(4):59-66.

    [5]

    FU Chengyang,LIU Wei,RANGA A,et al. DSSD:deconvolutional single shot detector[Z/OL]. arXiv,2017. https://arxiv.org/abs/1701.06659.

    [6]

    LI Z X,ZHOU Fuqiang. FSSD:feature fusion single shot multibox detector[Z/OL]. arXiv E-Prints,2017. https://doi.org/10.48550/arXiv.1712.00960.

    [7]

    REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once:unified,real-time object detection[C]. IEEE International Conference on Computer Vision,Los Alamitos,2016:779-788.

    [8]

    REDMON J,FARHADI A. Yolo9000:better,faster,stronger[C]. IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,2017:6517-6525.

    [9]

    REDMON J,FARHADI A. Yolov3:an incremental improvment[Z/OL]. arXiv E-Prints,2018. https://arxiv.org/abs/1804.02767.

    [10]

    BOCHKOVSKIY A,WANG C Y,LIAO H Y M. Yolov4:optimal speed and accuracy of object detection[Z/OL]. arXiv E-Prints,2020. https://arxiv.org/abs/2004.10934.

    [11]

    YAN Mingyang,SUN Jianbo. A dim-small target real-time detection method based on enhanced YOLO[C]. IEEE International Conference on Electrical Engineering,Big Data and Algorithms,Changchun,2022:567-571.

    [12]

    LIU Wei,ANGUELOV D,ERHAN D,et al. SSD:single shot multibox detector[C]. European Conference on Computer Vision,Cham,2016:21-37.

    [13]

    ZHANG Sheng,WANG Xu,LI Ping,et al. An improved YOLO algorithm for rotated object detection in remote sensing images [C]. IEEE 4 th Advance Information Management,Communicates,Electronic and Automation Control Conference,Chongqing,2021:840-845.

    [14]

    MATTHIES L,RANKIN A. Negative obstacle detection by thermal signature[C]. IEEE/RSJ International Conference on Intelligent Robots and Systems,Las Vegas,2003. DOI: 10.1109/IROS.2003.1250744.

    [15]

    SVENNINGSSON P,FIORANELLI F,YAROVOY A. Radar-pointGNN:graph based object recognition for unstructured radar point-cloud data[C]. IEEE Radar Conference,Atlanta,2021. DOI: 10.1109/RadarConf2147009.2021.9455172.

    [16]

    KUMAR R,JAYASHANKAR S. Radar and camera sensor fusion with ROS for autonomous driving[C]. 2019 Fifth International Conference on Image Information Processing,Shimla,2019:568-573.

    [17]

    JIN Yi,KUANG Yongshao,HOFFMANN M,et al. Radar and lidar deep fusion:providing doppler contexts to time-of-flight lidar[J]. IEEE Sensors Journal,2023,23(20):25587-25600. DOI: 10.1109/JSEN.2023.3313093

    [18]

    BORJI A,ITTI L. State-of-the-art in visual attention modeling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):185-207. DOI: 10.1109/TPAMI.2012.89

    [19]

    KUANG Hulin,ZHANG Xianshi,LI Yongjie,et al. Nighttime vehicle detection based on bio-inspired image enhancement and weighted score-level feature fusion[J]. IEEE Transactions on Intelligent Transportation Systems,2017,18:927-936. DOI: 10.1109/TITS.2016.2598192

    [20]

    KAEWTRAKULPONG P,BOWDEN R. An improved adaptive background mixture model for real-time tracking with shadow detection[C]. Processing of European Workshop Advanced Video Based Surveillance Systems,2002. DOI: 10.1007/978-1-4615-0913-4_11.

    [21]

    WANG C Y,LIAO H Y,YEH I H,et al. CSPNet:a new backbone that can enhance learning capability of CNN[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,Seattle,2020:1571-1580.

    [22]

    HE Kaiming,ZHANG Xiangyu,REN Shaoping,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(9):1904-1916.

    [23]

    LIN T Y,DOLLAR P,GIRSHICK R,et al. Feature pyramid networks for object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,2017:936-944.

    [24]

    HU Jianfang,SUN Jiangxin,LIN Zihang,et al. APANet:auto-path aggregation for future instance segmentation prediction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(7):3386-3403.

    [25]

    WEI Chen,WANG Wenjing,YANG Wenhan,et al. Deep retinex decomposition for low-light enhancement[J]. arXiv E-Prints,2018. DOI: 10.48550/arXiv.1808.04560.

    [26] 李正龙,王宏伟,曹文艳,等. 基于含噪Retinex模型的煤矿低光照图像增强方法[J]. 工矿自动化,2023,49(4):70-77.

    LI Zhenglong,WANG Hongwei,CAO Wenyan,et al. A method for enhancing low light images in coal mines based on Retinex model containing noise[J]. Journal of Mine Automation,2023,49(4):70-77.

    [27]

    LIU Yichao,SHAO Zongru,HOFFMANN N. Global attention mechanism:retain information to enhance channel-spatial interactions[J]. arXiv E-Prints,2021. DOI: 10.48550/arXiv.2112.05561.

    [28]

    LIN H,TEGMARK M,TEGMARK M E. Critical behavior in physics and probabilistic formal languages[J]. Entropy,2019,19(7):299.

    [29]

    KATAYAMA K,MAINA E W. Indexing method for hierarchical graphs based on relation among interlacing sequences of eigenvalues[J]. Ipsj Journal,2015,56(2):210-220.

    [30]

    BRONSTEIN M M,BRUNA J,LECUN Y,et al. Geometric deep learning:going beyond euclidean data[J]. IEEE Signal Processing Magazine,2017. DOI: 10.1109/msp.2017.2693418.

  • 期刊类型引用(0)

    其他类型引用(2)

图(8)  /  表(5)
计量
  • 文章访问数:  181
  • HTML全文浏览量:  82
  • PDF下载量:  62
  • 被引次数: 2
出版历程
  • 收稿日期:  2023-06-06
  • 修回日期:  2024-01-02
  • 网络出版日期:  2024-01-30
  • 刊出日期:  2024-01-30

目录

/

返回文章
返回