基于直线段检测和LT描述符的矿井图像线特征匹配算法

朱代先, 秋强, 孔浩然, 胡其胜, 刘树林

朱代先,秋强,孔浩然,等. 基于直线段检测和LT描述符的矿井图像线特征匹配算法[J]. 工矿自动化,2024,50(2):72-82. DOI: 10.13272/j.issn.1671-251x.2023090045
引用本文: 朱代先,秋强,孔浩然,等. 基于直线段检测和LT描述符的矿井图像线特征匹配算法[J]. 工矿自动化,2024,50(2):72-82. DOI: 10.13272/j.issn.1671-251x.2023090045
ZHU Daixian, QIU Qiang, KONG Haoran, et al. A line feature matching algorithm for mine images based on line segment detection and LT descriptors[J]. Journal of Mine Automation,2024,50(2):72-82. DOI: 10.13272/j.issn.1671-251x.2023090045
Citation: ZHU Daixian, QIU Qiang, KONG Haoran, et al. A line feature matching algorithm for mine images based on line segment detection and LT descriptors[J]. Journal of Mine Automation,2024,50(2):72-82. DOI: 10.13272/j.issn.1671-251x.2023090045

基于直线段检测和LT描述符的矿井图像线特征匹配算法

基金项目: 陕西省重点研发计划项目(2021GY-338);西安市碑林区科技计划项目(GX2333)。
详细信息
    作者简介:

    朱代先(1970—),男,安徽安庆人,副教授,博士研究生,主要从事智能机器人、嵌入式系统方面的研究工作,E-mail:zhudaixian@xust.edu.cn

    通讯作者:

    秋强(1996—),男,陕西咸阳人,硕士研究生,研究方向为计算机视觉,E-mail:qiuqiang1168@163.com

  • 中图分类号: TD67

A line feature matching algorithm for mine images based on line segment detection and LT descriptors

  • 摘要: 图像匹配是同步定位与地图构建(SLAM)技术中极为重要的一环,用于根据图像之间的变换关系确定相机位姿。基于线特征的图像匹配方法具有较强的鲁棒性和抗噪能力,更加适用于井下图像匹配,基于深度学习的线描述符对线段遮挡等场景具有较高的鲁棒性,性能优于传统描述符,但卷积神经网络架构的描述符将可变长度线段抽象为固定维进行描述,不利于线段长度及视差变化较大图像的匹配。针对上述问题,提出一种基于直线段检测和线描述符的矿井图像线特征匹配算法。在频域利用单参数同态滤波降低图像的照射分量,并增强反射分量,提升亮度及对比度;在YUV空间利用对比度受限的自适应直方图均衡化(CLAHE)算法对亮度分量进行均衡,使亮度分布更加均匀;变换至RGB空间提取直线段检测(LSD)线,引入一种基于Transformer架构的LT描述符构建LSD线的特征向量,最后完成线特征匹配。实验结果表明:该算法结合了同态滤波和CLAHE算法的优点,增强后图像的亮度适中,对比度良好,灰度分布均匀,增强效果优于单参数同态滤波算法、EnlightenGAN算法;该算法提取的线特征数较原图平均提升了32.92%,在不同相似纹理占比、不同程度旋转与平移变化的井下图像匹配中鲁棒性好,平均正确匹配数为61.75对,平均精度为86.83%,优于线二进制描述符(LBD)算法、LBD_NNDR算法、LT算法,能够满足矿井图像稳健匹配的需求。
    Abstract: Image matching is an extremely important part of simultaneous localization and mapping (SLAM) technology. It is used to determine camera position and posture based on the transformation relationship between images. The image matching method based on line features has strong robustness and noise resistance, making it more suitable for underground image matching. The line descriptors based on deep learning have high robustness to scenes such as line segment occlusion, and their performance is better than traditional descriptors. However, the descriptors of convolutional neural network architecture abstract variable length line segments into fixed dimensions for description, which is not conducive to matching images with large changes in line segment length and parallax. In order to solve the above problems, a line feature matching algorithm for mine images based on line segment detection and line transformers (LT) is proposed. The algorithm uses single parameter homomorphic filtering in the frequency domain to reduce the lighting component of the image, enhance the reflection component, and improve brightness and contrast. The algorithm uses contrast limited adaptive histogram equalization (CLAHE) algorithm in YUV space to balance brightness components and make brightness distribution more even. The algorithm transforms to RGB space to extract line segment detection (LSD) lines. A LT descriptor based on Transformer architecture is introduced to construct the feature vector of LSD lines, and finally complete line feature matching. The experimental results show that the algorithm combines the advantages of homomorphic filtering and CLAHE algorithm. After image enhancement, the brightness of the image is moderate, the contrast is good, the grayscale distribution is even. The enhancement effect is better than the single parameter homomorphic filtering algorithm and EnlightenGAN algorithm. The number of line features extracted by this algorithm has increased by an average of 32.92% compared to the original image. It has good robustness in matching underground images with different proportions of similar textures, varying degrees of rotation and translation changes. The average correct matching number is 61.75 pairs, with an average precision of 86.83%. It is superior to the line binary descriptor (LBD) algorithm, LBD_NNDR algorithm, and LT algorithm. It can meet the requirements of robust matching of mine images.
  • 煤炭产业是我国能源体系的基石[1]。近年来,随着人工智能、图像处理等技术的蓬勃发展,计算机视觉技术成为一种感知煤矿井下环境的有效手段[2]。尤其是井下发生安全事故时,在救援人员无法进入的情况下,机器人可利用同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术,在不依赖先验信息的条件下,估计出自身位姿,并构建出坍塌矿井的地图模型[3]。图像匹配是视觉SLAM技术中极为重要的一环,用于根据图像之间的变换关系确定相机位姿。由于矿井环境特殊,拍摄的图像往往亮度及对比度低[4]。同时,避难硐室、巷道密集管线等图像局部存在较多相似纹理,导致特征的区分度较低。在图像采集时,不可避免存在快速平移与旋转,使得待匹配图像存在较大视差。特殊的光照环境、局部相似纹理的干扰及视差图像本身的缺点共同导致井下图像匹配困难,影响视觉SLAM定位精度与建图结果,因此对井下图像的高质量匹配研究具有重要意义。

    目前主流的图像匹配方法包括基于点特征的匹配算法和基于线特征的匹配算法[5]。基于点特征的匹配算法虽然可在井下应用,但是井下光照条件差,巷道图像纹理弱,可能造成特征点的提取数量少、分布不均匀、匹配精度低等[6]。而基于线特征的匹配算法具有较强的鲁棒性和抗噪能力[7],更加适用于井下图像匹配。

    基于线特征的匹配方法主要利用线特征的几何信息[8]及邻域内灰度、梯度的相似性[9],结合几何约束[10]进行匹配,侧重于搜索范围约束[11]、描述符构建[12]及匹配核验[13]等方面。Li Gang等[14]提出一种基于语义不变量的点线特征匹配方法,为待匹配线特征添加语义约束,降低了线特征的失配率,但该方法依赖语义信息提取网络,难以在井下直接应用。Zheng Xianwei等[15]提出一种基于全局投影变换的线匹配方法,匹配精度较高,但是局限在城市街道等室外场景,在视差变换大时会失效。Wang Qiang等[16]利用位置和方向系统构建出图像间的变换关系来获取匹配线对,消除了跨视角图像间的几何形变,匹配精度较高,但对于宽基线图像匹配仍有提升空间。Shen Liang等[17]提出一种线段误匹配去除方法,解决对线段长度的敏感性和断裂问题,提高了匹配召回率,但是该方法不适用于存在仿射等非刚性变换的图像中。刘肃艳等[18]提出了一种结合线对几何条件约束及单线描述符的方法,该方法性能良好,但涉及的参数较多,依赖手动调参。张珊等[19]提出了一种结合网状描述符和单应约束的近景影像直线匹配算法,该算法能够获得较高的匹配精度,且鲁棒性良好,但是依赖同名特征点约束,在同名特征点稀少的情况下影响匹配结果。随着深度学习的发展,学者们将卷积神经网络(Convolutional Neural Network,CNN)强大的特征提取能力应用在线特征匹配上。A. Vakhitov等[20]提出一种全卷积神经网络构建的可学习型线描述符,用于线特征匹配。M. Lange等[21]提出一种基于机器学习和小波增强的线特征描述符,预处理阶段利用小波变换从图像中提取特征作为描述符。R. Pautrat等[22]首次提出联合线描述与检测的深度学习网络,即自我监督遮挡感知线描述和检测(Self-supervised Occlusion-aware Line Description and Detection,SOLD2),用于在线特征检测与匹配。

    基于深度学习的线描述符对线段遮挡等场景具有较高鲁棒性,性能优于传统描述符,但CNN架构的描述符将可变长度线段抽象为固定维进行描述,仍然不利于线段长度及视差变化较大图像的匹配。针对该问题,本文提出一种基于直线段检测法(Line Segment Detector,LSD)和LT(Line Transformers)描述符的矿井图像线特征匹配算法。采用改进单参数同态滤波算法和对比度受限的自适应直方图均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE)算法进行图像增强,在此基础上进行LSD线特征提取,用LT描述符构建LSD线特征向量[23],最后利用欧氏距离及最近邻准则进行匹配线对筛选,完成匹配。

    基于LSD和LT描述符的矿井图像线特征匹配算法流程如图1所示。

    图  1  基于LSD和LT描述符的矿井图像线特征匹配算法流程
    Figure  1.  Process of mine image line feature matching algorithm based on line segment detector(LSD) and line transformers(LT) descriptor

    在图像的RGB空间,利用改进单参数同态滤波算法进行滤波,在频域降低图像的照射分量,并提高反射分量,增强后图像的亮度与对比度均有提高。在图像的YUV空间,利用CLAHE算法对图像的亮度分量进行均衡[24],使亮度更加均匀,更好地保留图像的细节信息。再逆变换至RGB空间提取LSD线特征,增强图像后,提取的LSD线特征数量更多。为了克服LSD线特征匹配常用的线二进制描述符(Line Binary Descriptor,LBD)等鲁棒性差、匹配精度低的缺点,采用基于Transformer架构的LT描述符构建LSD线特征向量,并进行L2范数归一化,计算出目标直线与候选直线的特征向量的欧氏距离,结合最小欧氏距离和最近邻准则完成匹配,得到可靠的同名直线。

    同态滤波是一种在频域应用的图像处理算法[25]。根据照射−反射模型,图像密度函数$ f(x,y) $(xy为像素空间坐标)可表示为自身的照射分量$ i(x,y) $和反射分量$ r(x,y) $的乘积。

    $$ f(x,y) = i(x,y)r(x,y) $$ (1)

    对式(1)进行对数变换,得

    $$ \ln f(x,y) = \ln i(x,y) + \ln r(x,y) $$ (2)

    对式(2)进行傅里叶变换,然后应用$ H(u,v) $(uvxy对应的离散频率变量)同态滤波器,得

    $$ H(u,v)F(u,v) = H(u,v)I(u,v) + H(u,v)R(u,v) $$ (3)

    式中$ F(u,v) $,$ I(u,v) $,$ R(u,v) $分别为$ f(x,y) , i(x,y) ,r(x,y) $的傅里叶变换。

    $ H(u,v) $通常选用高斯型同态滤波传递函数:

    $$ H(u,v) = ({P_{\mathrm{H}}} - {P_{\mathrm{L}}})\left[ {1 - {\exp{ \left(- c{{\left(\dfrac{{D(u,v)}}{{2{D_0}}}\right)}^{2n}}\right)}}} \right] + {P_{\mathrm{L}}} $$ (4)
    $$ D(u,v) = \sqrt {{{(u - {u_0})}^2} + {{(v - {v_0})}^2}} $$ (5)

    式中:PHPL分别为高频增益和低频增益;$ c $为锐化系数;$ D(u,v) $为某频率$ (u,v) $到频率中心$ ({u_0},{v_0}) $的欧氏距离;$ {D_0} $为截止频率;$ n $为滤波器的阶数。

    高斯型同态滤波传递函数需要手动调节参数$ {P_{\mathrm{H}}} $,$ {P_{\mathrm{L}}} $,$ c $,$ n $,不利于算法的泛化。因此引入一种单参数同态滤波传递函数[26]

    $$ H(u,v)=\frac{1}{1+D(u\mathit{\mathrm{,}{v}})^{-k}} $$ (6)

    式中k为滤波器的调节参数。

    式(6)中只存在一个参数k,可降低调参的复杂性。高斯型同态滤波传递函数与单参数同态滤波传递函数的三维结构如图2图3所示。可看出单参数同态滤波器由中心频率到高频的过渡相较传统高斯型同态滤波器更平缓,斜率更小,因此滤波更加均匀。

    图  2  高斯型同态滤波传递函数
    Figure  2.  Transfer function of gaussian homomorphic filtering
    图  3  单参数同态滤波传递函数
    Figure  3.  Transfer function of single parameter homomorphic filter

    使用改进后的单参数同态滤波器对$ F(u,v) $进行滤波后,再用傅里叶逆变换将图像变换至空间域,得

    $$ {h_{\mathrm{f}}}(x,y) = {h_{\mathrm{i}}}(x,y) + {h_{\mathrm{r}}}(x,y) $$ (7)

    式中$ {h_{\mathrm{f}}}(x,y) $,$ {h_{\mathrm{i}}}(x,y) $,$ {h_{\mathrm{r}}}(x,y) $分别为逆变换后的图像密度函数、照射分量和反射分量。

    对式(7)进行指数变换,得到输出图像密度函数:

    $$ g(x,y) = {\exp\left({{h_{\mathrm{i}}}(x,y)}\right)}{\exp\left({{h_{\mathrm{r}}}(x,y)}\right)} $$ (8)

    采用单参数同态滤波算法在频域对井下图像进行增强,可初步提高井下图像的对比度与亮度。

    单参数同态滤波虽然能够提升亮度及对比度,但是仍然存在亮度分布不均匀、局部细节损失的现象,可能会导致线特征断裂、漏检。因此在图像经过同态滤波增强后,采用CLAHE算法对YUV空间的亮度分量进行均衡。均衡后的图像亮度分布更加均匀,细节更明显,可进一步提升线段提取的质量。

    CLAHE算法在直方图均衡的基础上,通过抑制部分灰度级被过多合并所引起的噪声放大和局部对比度增强现象,使图像更加清晰[27]。CLAHE算法将输入图像分为若干个大小相等且不重叠的子域,并计算每个子域的直方图。由于算法引入了对比度限制,在计算累积分布函数前,使用预先设定的限制阈值对每个子域直方图进行剪切,从而限制放大幅值,将超出阈值的部分重新均匀分布到其他部分,如图4所示。

    图  4  CLAHE原理
    Figure  4.  Principle of contrast limited adaptive histogram equalization(CLAHE)

    LT描述符是基于Transformer架构的新型描述符,摒弃了传统的CNN和循环神经网络(Recurrent Neural Network,RNN),整个网络融合了自注意力机制。LT描述符仿照自然语言处理(Natural Language Processing,NLP)中的思想,将点视为“单词”,将线段视为“句子”。将NLP的结果作为整条线段的描述符,通过自注意力机制关注线段上关键点来理解线段的上下文,自适应地将各种长度的线抽象为固定大小的描述符。同时,采用了组描述符的思想,将线的几何属性共享到邻域,形成线签名网络,通过在邻域内共享线的相对几何结构,使描述符学习到邻域的几何属性。LT描述符适合应用在具有较大视差变化及较多相似纹理干扰的图像匹配中。

    基于LSD和LT描述符的矿井图像线特征匹配算法模型如图5所示。进行LSD线检测,同时使用CNN得到整张图像的密集描述符地图(Descriptor map),包含图像中每个像素的特征点置信度得分与该点描述符。对LSD线均匀取关键点,作为点标记,表示为$ \boldsymbol{p}=[x\; \ y\; \ C] $,其中$ C $为关键点置信度,在密集描述符地图中查找每个关键点对应的描述符向量,实现点标记对应的点嵌入(Point embedding)提取,点嵌入$ {\boldsymbol{E}} \in {{\bf{R}}^{1 \times w}} $,其中$ w $为点描述符的维度。特殊嵌入[LINE]是线描述符的初始状态,表示为$ {{\boldsymbol{E}}_{{\mathrm{line}}}} \in {{\bf{R}}^{(n + 1) \times w}} $,其权值在训练过程中学习。在多层感知器(Multilayer Perceptron,MLP)中利用每个关键点的位置得到位置嵌入(Positional embedding),表示为$ {{\boldsymbol{E}}_{{\mathrm{pos}}}} \in {{\bf{R}}^{(n + 1) \times w}} $。结合构建好的点嵌入与位置嵌入,使用Transformers编码器对线描述符进行建模。

    图  5  基于LSD和LT描述符的矿井图像线特征匹配算法模型
    Figure  5.  Model of mine image line feature matching algorithm based on LSD and LT descriptor

    Transformer编码器由多头自注意(Multi-head Self-Attention,MSA)层和MLP层组成,具有残差连接与层归一化(Layer Normalization,LN)功能,将Transformer编码器堆叠$ L $次,得

    $$ \left\{\begin{split} & {{\boldsymbol{Z}}_0} =\left[ {{{\boldsymbol{E}}_{{\mathrm{line}}}}\;{{\boldsymbol{E}}_1}\;{{\boldsymbol{E}}_2} \;\cdots \;{{\boldsymbol{E}}_{N}}} \right] + {{\boldsymbol{E}}_{{\mathrm{pos}}}} \\ & {\boldsymbol{Z}}_{I - 1}^\prime = {O_{\mathrm{LN}}}(O_{\mathrm{MSA}}({{\boldsymbol{Z}}_{I - 1}},{\boldsymbol{m}}) + {{\boldsymbol{Z}}_{I - 1}}) \\ & {{\boldsymbol{Z}}_I} = {O_{\mathrm{LN}}}({O_{\mathrm{ALP}}}({\boldsymbol{Z}}_{I - 1}^\prime ) + {\boldsymbol{Z}}_{I - 1}^\prime ) \\ & {\boldsymbol{d}} = {\boldsymbol{Z}}_L^0 \end{split}\right. $$ (9)

    式中:$ {{\boldsymbol{Z}}_0} $为Transformer编码器的初始输入;$ {\boldsymbol{Z}}_{I - 1}^\prime $为计算第I$(I = 1,2, \cdots, L) $次堆叠时Transformer编码器的输入$ {{\boldsymbol{Z}}_I} $的中间变量;OLNOMSAOMLP分别为归一化及通过MSA层、MLP层的操作;$ {{\boldsymbol{m}}} $为掩码向量;d为描述符;$ {\boldsymbol{Z}}_L^0 $为第L次堆叠后Transformer编码器的输出。

    当第I−1次堆叠时的Transformer编码器输入$ {{\boldsymbol{Z}}_{I - 1}} $进入MSA层时,为了解决直线特征长度不同的问题,在网络中加入掩码向量m,去除相关性比较低的特征点。

    将直线a的中点位置$ ({x_a},{y_a}) $、直线与主方向的角度信息($ \cos \;{\theta _a},\sin \;{\theta _a} $)、线长$ {l_a} $输入MLP层,得到线属性嵌入,并添加至描述符$ {{\boldsymbol{d}}_a} $,得到含有线属性的描述符$ {\boldsymbol{d}}_a^\prime $。对图像中所有M个线描述符进行构建,得到初始含有线属性的描述符向量集合$ {{\boldsymbol{s}}_0} $。设sI为签名网络结果,将sI−1输入MSA层后得到的计算结果与sI−1进行级联,作为MLP层的输入,堆叠M次后得到sI

    $$ \left\{\begin{split} {{\boldsymbol{d}}}_{a}^{\prime }=&{{\boldsymbol{d}}}_{a}+O_{\mathrm{MLP}}({x}_{a},{y}_{a},{l}_{a},\mathrm{cos}\;{\theta }_{a},\mathrm{sin}\;{\theta }_{a})\\ {{\boldsymbol{s}}}_{0}=&\left[{{\boldsymbol{d}}}_{1}^{\prime }\;{{\boldsymbol{d}}}_{2}^{\prime }\;\cdots\; {{\boldsymbol{d}}}_{M}^{\prime }\right]\\ {{\boldsymbol{s}}}_{I}=&{{\boldsymbol{s}}}_{I-1}+O_{\mathrm{MLP}}({{\boldsymbol{s}}}_{I-1}||O_{\mathrm{MSA}}({{\boldsymbol{s}}}_{I-1}))\quad \end{split}\right. $$ (10)

    实验采用的编程语言为Python3.7,使用计算机视觉库OpenCV 3.4.18.65,集成开发环境为PyCharm 2021.3.1,GPU为NVIDIA 2080Ti 16 GiB,深度学习框架Pytorch1.10。数据集源于在模拟矿井实验室进行SLAM过程中采集的RGB帧,分辨率为640×480,共1 802张图像。依次进行图像增强实验、线特征提取实验、线特征匹配实验。LT描述符的训练参数见表1

    表  1  LT描述符的训练参数
    Table  1.  Training parameters of the LT descriptor
    参数
    学习率 0.001
    训练轮次 1 000
    图像大小 640×480
    线长度最小阈值 16
    最大Token数 21
    Token间距 8
    描述符维度 256
    注意力头数量 4
    编码器特征维数 [32 64 128 256]
    线段描述层数量 12
    前馈层内部维度 1 024
    签名网络层数 7
    Transformer编码器层数 12
    下载: 导出CSV 
    | 显示表格

    分别采用改进同态滤波算法、EnlightenGAN算法[28]和本文算法进行实验。图像增强结果和对应的灰度分布如图6图7所示。

    图  6  图像增强结果
    Figure  6.  Image enhancement results
    图  7  灰度直方图对比结果
    Figure  7.  Comparison results of gray histogram

    可看出,3种算法对井下图像均有增强作用。使用EnlightenGAN算法后,图像对比度显著增强,但是亮度明显存在过度增强,且灰度级分布不均匀,大多分布在180~250。使用改进同态滤波算法增强后,图像的亮度与对比度有一定提高,像素灰度级分布较均匀。本文算法结合了同态滤波和CLAHE算法的优点,增强图像的亮度适中,对比度良好,灰度分布更加均匀。

    图像增强的结果统计见表2。标准差是图像对比度的评价指标,标准差越大,代表图像对比度越大;均值是图像的亮度评价指标,均值越大,代表图像亮度越高;信息熵是反映图像信息量的评价指标,信息熵越大,代表图像信息量越大;峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)表征图像的保真性,图像失真越小,该值越大。可看出EnlightenGAN算法增强图像的均值提高最大,从视觉主观来看是因为亮度被过度增强,且EnlightenGAN算法增强图像的PSNR仅为7.598,说明该算法增强图像失真较为严重,且信息熵也不及本文算法与改进同态滤波算法,说明图像部分信息丢失。经本文算法处理后图像的对比度、信息量、保真性均为最优,且亮度提升适中。从主观比较与客观数据综合来看,本文算法对井下低照度图像的增强效果最好。

    表  2  图像增强结果统计
    Table  2.  Statistics of image enhancement results
    算法 标准差 均值 信息熵 PSNR
    改进同态滤波算法 63.583 123.820 7.712 10.014
    EnlightenGAN算法 63.312 153.775 7.683 7.598
    本文算法 64.108 129.174 7.798 10.178
    下载: 导出CSV 
    | 显示表格

    采用增强前后的图像进行LSD线特征提取实验,分别在巷道、水房、避难硐室、工作面处选取视频帧共1 802帧。实验结果如图8所示,其中绿色表示增强前后共有的线特征,蓝色表示图像增强后新增的线特征。可看出图像增强后提取出的线特征更多。将部分断裂的线特征修复合并,可在一定程度上减少误匹配现象[29]

    图  8  LSD提取对比
    Figure  8.  LSD extraction comparison

    LSD线段提取数量见表3,由于短线提取效率低,实验时滤掉了长度小于20像素的线段。本文算法提取的线段数量平均增长32.92%,说明在线段提取前进行图像增强处理这一关键步骤有效,可使LSD线特征质量更高,提取的线段更多。

    表  3  LSD线段提取数量
    Table  3.  LSD line segment extraction quantity
    采集点帧数LSD线平均数/条增长率/%
    原图本文算法增强图像
    巷道48094.8125.632.49
    水房218120.5166.438.09
    工作面324138.8181.530.85
    避难硐室780184.4244.832.75
    平均值144.6192.232.92
    下载: 导出CSV 
    | 显示表格

    采用视觉SLAM技术进行定位与建图时,最主要的运动包括平移与旋转,因此,挑选同时具有视角变化与旋转变化的井下低照度图像,分别选取变化程度小和变化程度大的2组代表性图像进行实验,以验证本文算法在不同程度视差干扰时的匹配性能。视觉SLAM技术经常应用于井下发生坍塌事故时的救援任务,场景局部密集的线缆、堆积的矿石及受困人员所处避难硐室的墙壁等均包含较多相似纹理,相似纹理越多,线特征的特征向量区分度越低,给匹配带来干扰。因此,选取相似纹理较少和相似纹理较多的2组代表性图像进行实验,以验证本文算法在相似纹理占比不同时的性能。如果在具有较大视差及较多相似纹理干扰的情况下,匹配性能仍然较高,说明算法的鲁棒性良好。

    实验图像如图9所示,图像属性见表4。分别采用LBD、LBD_NNDR、LT、本文算法进行实验。LBD_NNDR对OpenCV视觉库中LSD线匹配的最近邻策略进行了优化:在目标与候选直线的配对中,首先计算出目标直线与每条候选直线特征向量的汉明距离,汉明距离越小,说明2个特征向量越相似;筛选出目标直线到候选直线的最小汉明距离${X_{\mathrm{m}}}$与次小汉明距离${X_{{\mathrm{sm}}}}$,如果${X_{\mathrm{m}}}$小于阈值$ {T_{\mathrm{d}}} $,则在此基础上根据最近邻距离比准则(Nearest Neighbor Distance Ratio,NNDR)进行二次筛选;若${X_{\mathrm{m}}}$与${X_{{\mathrm{sm}}}}$的比值小于阈值$ {T_{\mathrm{n}}} $,则认为该线段为最佳匹配,$ {T_{\mathrm{d}}} $与$ {T_{\mathrm{n}}} $选取工程上常用的30与0.8。LT描述符使用文献[24]推荐的权重。本文算法的匹配策略是计算出目标直线与每条候选直线L2范数归一化描述符向量之间的欧氏距离,利用欧氏距离表征2个线对的相似度,选择相似度最大的2个线对作为候选同名直线。根据工程经验,相似度阈值选取0.8能够同时兼顾精度与同名直线数量。

    图  9  实验图像
    Figure  9.  Experimental images
    表  4  图像属性
    Table  4.  Image attributes
    图像序号 采集位置 旋转与平移程度 相似纹理占比
    1 巷道 较小 较小
    2 避难硐室 较小 较大
    3 巷道 较大 较小
    4 避难硐室 较大 较大
    下载: 导出CSV 
    | 显示表格

    图像1匹配结果如图10所示。未匹配直线标为蓝色,匹配错误线对标为红色,正确匹配线对标为绿色,匹配正误由人工目视判别。由于短线匹配效率低,实验时滤掉了长度小于20像素的线特征。图像1旋转平移程度小、相似纹理较少,4种算法的性能均良好,精度分别为85.48%,89.65%,90.19%,92.06%,正确匹配数量分别为53对、52对、46对、58对。图像2、图像3匹配结果如图11图12所示。

    图  10  图像1匹配结果
    Figure  10.  Image 1 matching results

    图像2相对于图像1存在相似纹理较多的干扰。图像3相对于图像1存在较大的视差干扰。从匹配结果可看出,本文算法性能最优,图像2的正确匹配数量高达100对,远超过LBD、LBD_NNDR、LT对应的28对、25对、52对。图像2的匹配精度为85.47%。图像3的正确匹配数量为39对,精度为92.86%。精度与正确匹配数量均维持在较高水平,说明本文算法在较大视差干扰下或者较大平移旋转视差下的鲁棒性良好。

    图  11  图像2匹配结果
    Figure  11.  Image 2 matching results
    图  12  图像3匹配结果
    Figure  12.  Image 3 matching results

    图像4相对于图像1,同时具备了较大的视差及相似纹理较多的双重干扰,匹配结果如图13所示。LBD对图像4的匹配效果极差,几乎无法正确匹配,精度仅为15.00%,正确匹配数量仅为9对。LBD−NNDR能够剔除部分误匹配对,但是精度与正确匹配数量依然很低。LT的正确直线匹配数量与精度有一定提升。本文算法性能最优,线特征正确匹配数量达65对,精度达76.92%,精度与正确匹配数量维持在较高水平。这是因为本文算法在图像增强后,得到了更多可靠的LSD线特征,而且采用的LT描述符自适应地将变化较大的直线抽象成了固定维度,更加适合线段变化较大时的匹配,并且线的签名网络获取到邻域的几何属性,LT描述符构建出的特征向量包含更多位置及几何信息,能够在一定程度上克服相似纹理干扰。

    图  13  图像4匹配结果
    Figure  13.  Image 4 matching results

    线特征匹配实验数据统计见表5。可看出对于任一类图像,本文算法得到的线特征数量、同名直线数量、正确匹配数量、精度均优于LBD,LBD_NNDR,LT。

    表  5  线特征匹配实验数据统计
    Table  5.  Statistics of experimental data of line feature matching
    图像
    序号
    变化
    程度
    相似纹
    理占比
    算法 线特征数量/条 同名直
    线数/对
    正确匹
    配数/对
    匹配
    精度/%
    1 较小 较小 LBD 125 105 62 53 85.48
    LBD_NNDR 125 105 58 52 89.65
    LT 125 105 51 46 90.19
    本文算法 149 130 63 58 92.06
    2 较小 较大 LBD 180 182 50 28 56.00
    LBD_NNDR 180 182 33 25 75.76
    LT 180 182 62 52 83.87
    本文算法 327 335 123 100 85.47
    3 较大 较小 LBD 100 181 20 12 60.00
    LBD_NNDR 100 181 15 11 73.33
    LT 100 181 37 34 91.89
    本文算法 137 258 42 39 92.86
    4 较大 较大 LBD 287 252 60 9 15.00
    LBD_NNDR 287 252 18 8 44.44
    LT 287 252 55 38 69.09
    本文算法 350 385 65 50 76.92
    下载: 导出CSV 
    | 显示表格

    4种算法的平均精度与平均正确匹配数分别如图14图15所示。可看出本文算法平均精度为86.83%,较LBD,LBD_NNDR,LT分别提升32.71%,16.03%,3.07%。本文算法平均正确匹配数为61.75对,是LBD的2.422倍、LBD_NNDR的2.572倍、LT的1.453倍。统计分析结果说明本文算法性能优良,能够满足井下图像的稳健匹配需求。

    图  14  平均精度统计
    Figure  14.  Average accuracy statistics
    图  15  平均正确匹配数统计
    Figure  15.  Statistics of the average number of correct matches

    1) 针对井下图像线特征匹配精度低、正确匹配量少、鲁棒性差的问题,提出了一种基于LSD和LT描述符的矿井图像线特征匹配算法,采用改进单参数同态滤波算法和CLAHE算法进行图像增强,在图像增强的基础上使用LT描述符对提取的LSD线进行描述和匹配。

    2) 实验结果表明:本文算法的平均精度为86.83%,较LBD,LBD_NNDR,LT分别提升32.71%,16.03%,3.07%;平均正确匹配数为61.75对,是LBD的2.422倍、LBD_NNDR的2.572倍、LT的1.453倍;本文算法提取的LSD线数量更多,质量更好,在不同干扰下鲁棒性良好。

    3) 下一步将继续优化本文算法的匹配策略,研究如何剔除更多的误匹配线对。

  • 图  1   基于LSD和LT描述符的矿井图像线特征匹配算法流程

    Figure  1.   Process of mine image line feature matching algorithm based on line segment detector(LSD) and line transformers(LT) descriptor

    图  2   高斯型同态滤波传递函数

    Figure  2.   Transfer function of gaussian homomorphic filtering

    图  3   单参数同态滤波传递函数

    Figure  3.   Transfer function of single parameter homomorphic filter

    图  4   CLAHE原理

    Figure  4.   Principle of contrast limited adaptive histogram equalization(CLAHE)

    图  5   基于LSD和LT描述符的矿井图像线特征匹配算法模型

    Figure  5.   Model of mine image line feature matching algorithm based on LSD and LT descriptor

    图  6   图像增强结果

    Figure  6.   Image enhancement results

    图  7   灰度直方图对比结果

    Figure  7.   Comparison results of gray histogram

    图  8   LSD提取对比

    Figure  8.   LSD extraction comparison

    图  9   实验图像

    Figure  9.   Experimental images

    图  10   图像1匹配结果

    Figure  10.   Image 1 matching results

    图  11   图像2匹配结果

    Figure  11.   Image 2 matching results

    图  12   图像3匹配结果

    Figure  12.   Image 3 matching results

    图  13   图像4匹配结果

    Figure  13.   Image 4 matching results

    图  14   平均精度统计

    Figure  14.   Average accuracy statistics

    图  15   平均正确匹配数统计

    Figure  15.   Statistics of the average number of correct matches

    表  1   LT描述符的训练参数

    Table  1   Training parameters of the LT descriptor

    参数
    学习率 0.001
    训练轮次 1 000
    图像大小 640×480
    线长度最小阈值 16
    最大Token数 21
    Token间距 8
    描述符维度 256
    注意力头数量 4
    编码器特征维数 [32 64 128 256]
    线段描述层数量 12
    前馈层内部维度 1 024
    签名网络层数 7
    Transformer编码器层数 12
    下载: 导出CSV

    表  2   图像增强结果统计

    Table  2   Statistics of image enhancement results

    算法 标准差 均值 信息熵 PSNR
    改进同态滤波算法 63.583 123.820 7.712 10.014
    EnlightenGAN算法 63.312 153.775 7.683 7.598
    本文算法 64.108 129.174 7.798 10.178
    下载: 导出CSV

    表  3   LSD线段提取数量

    Table  3   LSD line segment extraction quantity

    采集点帧数LSD线平均数/条增长率/%
    原图本文算法增强图像
    巷道48094.8125.632.49
    水房218120.5166.438.09
    工作面324138.8181.530.85
    避难硐室780184.4244.832.75
    平均值144.6192.232.92
    下载: 导出CSV

    表  4   图像属性

    Table  4   Image attributes

    图像序号 采集位置 旋转与平移程度 相似纹理占比
    1 巷道 较小 较小
    2 避难硐室 较小 较大
    3 巷道 较大 较小
    4 避难硐室 较大 较大
    下载: 导出CSV

    表  5   线特征匹配实验数据统计

    Table  5   Statistics of experimental data of line feature matching

    图像
    序号
    变化
    程度
    相似纹
    理占比
    算法 线特征数量/条 同名直
    线数/对
    正确匹
    配数/对
    匹配
    精度/%
    1 较小 较小 LBD 125 105 62 53 85.48
    LBD_NNDR 125 105 58 52 89.65
    LT 125 105 51 46 90.19
    本文算法 149 130 63 58 92.06
    2 较小 较大 LBD 180 182 50 28 56.00
    LBD_NNDR 180 182 33 25 75.76
    LT 180 182 62 52 83.87
    本文算法 327 335 123 100 85.47
    3 较大 较小 LBD 100 181 20 12 60.00
    LBD_NNDR 100 181 15 11 73.33
    LT 100 181 37 34 91.89
    本文算法 137 258 42 39 92.86
    4 较大 较大 LBD 287 252 60 9 15.00
    LBD_NNDR 287 252 18 8 44.44
    LT 287 252 55 38 69.09
    本文算法 350 385 65 50 76.92
    下载: 导出CSV
  • [1] 王国法,任世华,庞义辉,等. 煤炭工业“十三五”发展成效与“双碳”目标实施路径[J]. 煤炭科学技术,2021,49(9):1-8.

    WANG Guofa,REN Shihua,PANG Yihui,et al. Development achievements of China' s coal industry during the 13th Five-Year Plan period and implementation path of "dual carbon" target[J]. Coal Science and Technology,2021,49(9):1-8.

    [2] 程德强,钱建生,郭星歌,等. 煤矿安全生产视频AI识别关键技术研究综述[J]. 煤炭科学技术,2023,51(2):349-365.

    CHENG Deqiang,QIAN Jiansheng,GUO Xingge,et al. Review on key technologies of AI recognition for videos in coal mine[J]. Coal Science and Technology,2023,51(2):349-365.

    [3] 苗升,刘小雄,黄剑雄,等. 无人机视觉SLAM环境感知发展研究[J]. 计算机测量与控制,2021,29(8):1-6,41.

    MIAO Sheng,LIU Xiaoxiong,HUANG Jianxiong,et al. Research on development of UAV visual SLAM environment perception[J]. Computer Measurement & Control,2021,29(8):1-6,41.

    [4] 孔二伟,张亚邦,李佳悦,等. 面向煤矿井下低光照图像的增强方法[J]. 工矿自动化,2023,49(4):62-69,85.

    KONG Erwei,ZHANG Yabang,LI Jiayue,et al. An enhancement method for low light images in coal mines[J]. Journal of Mine Automation,2023,49(4):62-69,85.

    [5] 赵良玉,金瑞,朱叶青,等. 基于点线特征融合的双目惯性SLAM算法[J]. 航空学报,2022,43(3):363-377.

    ZHAO Liangyu,JIN Rui,ZHU Yeqing,et al. Stereo visual-inertial SLAM algorithm based on merge of point and line features[J]. Acta Aeronautica et Astronautica Sinica,2022,43(3):363-377.

    [6]

    ZHU Daixian,JI Kangkang,WU Dong,et al. A coupled visual and inertial measurement units method for locating and mapping in coal mine tunnel[J]. Sensors,2022,22(19). DOI: 10.3390/s22197437.

    [7] 谢晓佳. 基于点线综合特征的双目视觉SLAM方法[D]. 杭州:浙江大学,2017.

    XIE Xiaojia. Stereo visual SLAM using point and line features[D]. Hangzhou:Zhejiang University,2017.

    [8]

    WANG Wei,GAO Wei,CUI Hainan,et al. Reconstruction of lines and planes of urban buildings with angle regularization[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2020,165:54-66. DOI: 10.1016/j.isprsjprs.2020.04.013

    [9] 宋佳璇,范大昭,董杨,等. 神经网络学习与灰度信息结合的跨视角影像线特征匹配算法[J]. 测绘学报,2023,52(6):990-999. DOI: 10.11947/j.AGCS.2023.20220468

    SONG Jiaxuan,FAN Dazhao,DONG Yang,et al. Line matching algorithm for cross-view images combining neural network learning with grayscale information[J]. Acta Geodaetica et Cartographica Sinica,2023,52(6):990-999. DOI: 10.11947/j.AGCS.2023.20220468

    [10]

    CHEN Min,YAN Shaohua,QIN Rongjun,et al. Hierarchical line segment matching for wide-baseline images via exploiting viewpoint robust local structure and geometric constraints[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2021,181:48-66. DOI: 10.1016/j.isprsjprs.2021.09.002

    [11]

    CHEN Min,LI Wen,FANG Tong,et al. An adaptive feature region-based line segment matching method for viewpoint-changed images with discontinuous parallax and poor textures[J]. International Journal of Applied Earth Observation and Geoinformation,2023,117. DOI: 10.1016/j.jag.2023.103209.

    [12]

    LANGE M,SCHWEINFURTH F,SCHILLING A. DLD:a deep learning based line descriptor for line feature matching[C]. IEEE/RSJ International Conference on Intelligent Robots and Systems,Macau,2019:5910-5915.

    [13] 王竞雪,刘肃艳,王伟玺. 联合共线约束与匹配冗余的组直线匹配结果检核算法[J]. 测绘学报,2020,49(6):746-756.

    WANG Jingxue,LIU Suyan,WANG Weixi. A checking algorithm for pair-wise line matching based on collinearity constraint and matching redundancy[J]. Acta Geodaetica et Cartographica Sinica,2020,49(6):746-756.

    [14]

    LI Gang,ZENG Yawen,HUANG Huilan,et al. A multi-feature fusion slam system attaching semantic invariant to points and lines[J]. Sensors,2021,21(4). DOI: 10.3390/s21041196.

    [15]

    ZHENG Xianwei,YUAN Zhuang,DONG Zhen,et al. Smoothly varying projective transformation for line segment matching[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2022,183:129-146. DOI: 10.1016/j.isprsjprs.2021.10.017

    [16]

    WANG Qiang,ZHANG Wei,LIU Xiaolong,et al. Line matching of wide baseline images in an affine projection space[J]. International Journal of Remote Sensing,2020,41(2):632-654. DOI: 10.1080/01431161.2019.1646937

    [17]

    SHEN Liang,ZHU Jiahua,XIN Qin,et al. Robust line segment mismatch removal using point-pair representation and Gaussian-uniform mixture formulation[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2023,203:314-327. DOI: 10.1016/j.isprsjprs.2023.08.003

    [18] 刘肃艳,王竞雪,沈昭宇,等. 结合线对几何特征及单线描述符约束的直线匹配算法[J]. 武汉大学学报(信息科学版),2023,48(6):936-949.

    LIU Suyan,WANG Jingxue,SHEN Zhaoyu,et al. Line matching algorithm based on pair-wise geometric features and individual line descriptor constraints[J]. Geomatics and Information Science of Wuhan University,2023,48(6):936-949.

    [19] 张珊,张卡,赵立科,等. 结合网状描述符和单应约束的近景影像直线匹配[J]. 地球信息科学学报,2022,24(11):2186-2197.

    ZHANG Shan,ZHANG Ka,ZHAO Like,et al. Close-range image line matching based on mesh descriptor and homography constraint[J]. Journal of Geo-information Science,2022,24(11):2186-2197.

    [20]

    VAKHITOV A,LEMPITSKY A. Learnable line segment descriptor for visual SLAM[J]. IEEE Access,2019,7:39923-39934. DOI: 10.1109/ACCESS.2019.2901584

    [21]

    LANGE M,RAISCH C,SCHILLING A. WLD:a wavelet and learning based line descriptor for line feature matching[M]//KRÜGER J,NIESSNER M,STÜCKLER J. Vision,modeling,and visualization. Eindhoven:The Eurographics Association,2020:39-46.

    [22]

    PAUTRAT R,LIN J T,LARSSON V,et al. SOLD2:self-supervised occlusion-aware line description and detection[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Nashville,2021:11368-11378.

    [23]

    YOON S,KIM A. Line as a visual sentence:context-aware line descriptor for visual localization[J]. IEEE Robotics and Automation Letters,2021,6(4):8726-8733. DOI: 10.1109/LRA.2021.3111760

    [24]

    GUO Chunle,LI Chongyi,GUO Jichang,et al. Zero-reference deep curve estimation for low-light image enhancement[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:1777-1786.

    [25] 郭永坤,朱彦陈,刘莉萍,等. 空频域图像增强方法研究综述[J]. 计算机工程与应用,2022,58(11):23-32.

    GUO Yongkun,ZHU Yanchen,LIU Liping,et al. Research review of space-frequency domain image enhancement methods[J]. Computer Engineering and Applications,2022,58(11):23-32.

    [26] 王智奇,李荣冰,刘建业,等. 基于同态滤波和直方图均衡化的图像增强算法[J]. 电子测量技术,2020,43(24):75-80.

    WANG Zhiqi,LI Rongbing,LIU Jianye,et al. Image enhancement algorithm based on homomorphic filtering and histogram equalization[J]. Electronic Measurement Technology,2020,43(24):75-80.

    [27]

    HANA F M,MAULIDA I D. Analysis of contrast limited adaptive histogram equalization (CLAHE) parameters on finger knuckle print identification[J]. Journal of Physics:Conference Series,2021,1764. DOI: 10.1088/1742-6596/1764/1/012049.

    [28]

    JIANG Yifan,GONG Xinyu,LIU Ding,et al. EnlightenGAN:deep light enhancement without paired supervision[J]. IEEE Transactions on Image Processing,2021,30:2340-2349. DOI: 10.1109/TIP.2021.3051462

    [29] 高宇彤. 基于透视变换与LBD描述子约束的特征线匹配算法[D]. 阜新:辽宁工程技术大学,2022.

    GAO Yutong. Feature line matching algorithm based on perspective transformation and LBD descriptor constraint[D]. Fuxin:Liaoning Technical University,2022.

  • 期刊类型引用(1)

    1. 舒军,王江舸,杨莉,舒心怡. 改进R-LoFTR++的智能巡检特征匹配算法. 重庆理工大学学报(自然科学). 2025(02): 86-96 . 百度学术

    其他类型引用(0)

图(15)  /  表(5)
计量
  • 文章访问数:  127
  • HTML全文浏览量:  36
  • PDF下载量:  18
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-09-13
  • 修回日期:  2024-02-20
  • 网络出版日期:  2024-03-03
  • 刊出日期:  2024-02-24

目录

/

返回文章
返回