矿用智能巡检机器人关键技术研究

潘祥生; 陈晓晶

doi:10.13272/j.issn.1671-251x.2020080042

矿用智能巡检机器人关键技术研究

潘祥生^{1, 2},
陈晓晶^{1, 2}

1.
中煤科工集团常州研究院有限公司，江苏常州213015
2.
天地（常州）自动化股份有限公司，江苏常州213015

基金项目:

天地（常州）自动化股份有限公司研发项目（2018MS031）

详细信息

中图分类号: TD67
计量
- 文章访问数: 277
- HTML全文浏览量: 10
- PDF下载量: 54
出版历程
- 刊出日期: 2020-09-19

Research on key technologies of mine-used intelligent inspection robot

PAN Xiangsheng^{1, 2},
CHEN Xiaojing^{1, 2}

1.
CCTEG Changzhou Research Institute, Changzhou 213015, China
2.
Tiandi (Changzhou) Automation Co., Ltd., Changzhou 213015, China

摘要

摘要: 介绍了矿用智能巡检机器人研究现状，针对目前矿用智能巡检机器人的特点，从移动平台、定位与导航、图像识别、自主充电、后台管理及诊断等方面详细分析了矿用智能巡检机器人的关键技术：移动平台是矿用智能巡检机器人的重要组成部分，不同的移动平台工作方式不同，应根据巡检场所的环境特点选择轮式、履带式或者轨道式移动平台，平台设计时还需考虑防爆、防潮、防振、防尘等问题；定位与导航技术是矿用智能巡检机器人实现智能化和完全自主移动最关键的技术，从目前井下使用情况来看，轮式和履带式矿用智能巡检机器人定位与导航可采用激光雷达+SLAM技术，轨道式矿用智能巡检机器人由于巡检线路固定，定位与导航适合采用RFID技术；图像识别技术是矿用智能巡检机器人使用比较普遍的一项重要技术，通过拍摄设备图像，判别设备运行状况，根据矿用智能巡检机器人结构及组网方式不同，图像识别的数据处理分为后台处理和就地处理；自主充电技术是矿用智能巡检机器人长期自主工作后补充电能的重要手段，在电池设计时不仅要考虑增大电池容量，还要考虑电池的自主充电能力，才能实现机器人无人值守智能化巡检，体积小、质量轻、储量大的电池本安化是目前研究的难点；矿用智能巡检机器人在巡检过程中会采集到大量数据，其必须具备后台管理和数据分析诊断功能，但目前矿用智能巡检机器人受供电、网络传输技术等因素的影响，无法对采集的数据进行实时处理或上传，需要进一步研制出更加高效的后台管理及在线故障诊断系统。指出了数据分析智能化、移动平台轻量化、功能模块化、巡检定位精确化是矿用智能巡检机器人的发展趋势，为矿用智能巡检机器人关键技术的进一步研究提供参考。
- 矿用智能巡检机器人 /
- 移动平台 /
- 定位导航 /
- 自主充电 /
- 图像识别
Abstract: The research status of mine-used intelligent inspection robot was introduced. In view of characteristics of mine-used intelligent inspection robot, the key technologies of mine-used intelligent inspection robot were analyzed in detail from mobile platforms, positioning and navigation, image recognition, autonomous charging, background management and diagnosis. Mobile platform is an important component of mine-used intelligent inspection robot, different mobile platforms work in different ways, wheel, crawler or track type mobile platform should be selected according to environmental characteristics of inspection site, and explosion-proof, moisture-proof, anti-vibration, dust and other issues should be considered in platform design. Positioning and navigation technology is key technology of mine-used intelligent inspection robot to realize intelligent and completely autonomous movement, from current underground application, laser radar+SLAM technology can be used for positioning and navigation of wheel type and crawler type mine-used intelligent inspection robot, due to fixed inspection line, RFID technology is suitable for positioning and navigation of track type mine-used intelligent inspection robot. Image recognition technology is an important technology widely used in mine-used intelligent inspection robot, which can determine running state of equipment by taking device images, moreover, according to difference of structure and networking mode of mine-used intelligent inspection robot, the image processing methods can be divided into background processing and local processing. Autonomous charging technology is an important means for mine-used intelligent inspection robot to supply electric energy for long-term autonomous work, the design of the battery should consider not only increasing battery capacity, but also having autonomous charging ability, so as to achieve unattended intelligent inspection; Intrinsically safe battery with small size, light weight and large reserves is the research difficulty. Mine-used intelligent inspection robot will collect a large amount of data in the process of inspection, so it must have background management and data analysis diagnosis function, but the current mine-used inspection robot ca't process or upload collected real-time data due to the influence of power supply and network transmission technology, therefore, a more efficient background management and on-line fault diagnosis system needs to be developed. At last, it is pointed out that intelligent data analysis, light weight mobile platform, modularized function and accurate inspection positioning are the development trends of mine-used intelligent inspection robot, which provides reference for further research on the key technologies of mine-used intelligent inspection robot.
- mine-used intelligent inspection robot /
- mobile platform /
- positioning and navigation /
- autonomous charging /
- image recognitio

HTML全文

0. 引言

煤矿生产环境较为复杂，存在各种安全隐患，这些隐患可能导致煤矿事故发生。我国重大矿井事故中，超过90%是由井下人员的不安全行为引起的^[1]。因此，快速准确地识别矿工的不安全行为对于确保煤矿安全开采至关重要。随着煤矿产业的智能化发展，人工智能技术在矿工不安全行为识别领域取得了较大进展^[2]。采用深度学习人工智能高效、快速地识别矿工行为，能减少因矿工不安全行为导致的矿井事故，确保煤矿安全开采。

目前，针对矿工不安全行为的识别方法主要分为基于视频的方法^[3-6]、基于深度图的方法^[7]和基于骨架序列的方法^[8-9]3类。视频具有行为识别所需要的空间和时间信息，且视频方便收集，直接采用视频数据进行行为识别是一种非常有效的方法。但基于视频的行为识别方法会受到视频中无关背景信息的干扰，此外遮挡和视点变化也会影响识别效果^[10]。深度图所包含的深度信息可在一定程度上增强对视点变化和遮挡等干扰的鲁棒性^[11]，但深度图需要占据更大的存储空间来保存深度信息，对设备性能要求较高。骨架数据是视频中人体姿态和动作的抽象表示，即使没有外观信息也能够仅通过骨架的运动来识别动作的类别，且对环境、遮挡和视点变化具有较强的鲁棒性。基于骨架序列的行为识别模型具有速度快、算力要求低、模型简单等优势^[12]。考虑煤矿场景下的复杂环境及算力限制，基于骨架序列的方法适用于煤矿应用场景。

近几年，图卷积神经网络在处理骨架序列数据时占据优势，在多个数据集上取得了较好的结果^[13-15]。许多学者将基于图卷积的行为识别方法应用于井下环境。文献[16]提出了一种多层感知图卷积神经网络，在自适应邻接矩阵基础上为每个邻接矩阵分配一个权重参数，使用注意力机制动态约束多个邻接矩阵，增强图的特征表达能力，提升模型在煤矿场景下的鲁棒性。文献[17] 提出了一种基于深度学习的井下人员不安全行为识别与预警系统，利用YOLOv4模型识别矿工及安全帽佩戴情况，并结合OpenPose和时空图卷积神经网络（Spatial-Temporal Graph Convolutional Network, ST−GCN）模型对矿工行为进行分析，实现了井下环境中不安全行为的自动识别与预警。文献[18]设计了一种面向煤矿井下员工的不安全行为智能识别系统，将不安全行为划分为静态、动态和互动3类，采用YOLOv3识别设备与环境，结合MobileNetV3和ST−GCN识别静态和动态行为，通过规则推理识别互动行为，实现了在实际生产环境中的部署与应用。文献[19]提出了一种基于时空图卷积网络的组合注意力机制和密集残差网络，组合注意力机制可以增强模型的特征提取能力，同时利用密集残差网络对动作特征进行补偿，提高模型识别矿工行为特征的能力。

上述基于图卷积的矿工行为识别模型都取得了较好的效果，但存在识别精度不高、模型参数量大、计算复杂度较高等问题。本文提出一种基于轻量高分辨率网络（Lightweight High-Resolution Network, Lite−HRNet）和多维特征增强时空图卷积网络（Multi-dimensional Feature Enhanced Spatial Temporal Graph Convolution Network, MEST−GCN）的行为识别模型。首先利用Lite−HRNet提取矿工关键点坐标，生成具有17个矿工关键点的骨架序列，然后将骨架序列输入MEST−GCN进行动作识别，最后引入多维特征融合注意力模块（Multi-Dimensional Feature Fusion Attention Module, M2FA），增强行为特征在时间、空间和通道维度的表达能力，提高模型在煤矿情境下的行为识别能力。

1. 矿工行为识别模型整体架构

基于Lite−HRNet和MEST−GCN的行为识别模型结构如图1所示，主要分为人体关键点提取模块和人体动作识别模块2个部分。对于输入的矿工行为视频，通过Lite−HRNet获得人体关键点坐标，得到初始的矿工骨架序列。矿工骨架序列由一个四维矩阵$\left( {N,C,T,V} \right)$组成，其中N为批量大小，C为通道数，T为骨架序列的总帧数，V为每帧骨架中的关键点总数量。骨架序列经由批量标准化（Batch Normalization, BN）层对输入数据进行批量标准化处理，经过6个多维特征增强图卷积（Multi-Dimensional Feature Enhanced Graph Convolution, ME−GC）模块B1—B6提取矿工行为特征。ME−GC中包含多维特征融合注意力模块，可以提高时间、空间和通道维度的特征表现能力。最后经由全局平均池化层（Global Average Pooling, GAP）和Softmax层得到行为的置信度，获得预测结果。

图 1 基于Lite−HRNet和MEST−GCN的行为识别模型结构

Figure 1. Architecture of behavior recognition model based on Lite-HRNet and MEST-GCN

下载: 全尺寸图片幻灯片

2. 基于姿态估计网络和图卷积的矿工行为识别

2.1 人体关键点提取模块

2.1.1 Lite−HRNet

人体关键点位置检测方法主要分为“自顶向下”和“自底向上”2类。“自顶向下”方法先检测人体目标并标记矩形区域，再进行关键点检测，精度高，但速度受限。“自底向上”方法则先检测所有关键点，再区分归属，速度快，但精度较低。人体关键点的检测质量在一定程度上会影响基于骨架序列的行为识别模型的结果，因此，姿态估计模型既需要较高的检测精度，也需要较快的检测速度，以适应井下矿工不安全行为识别的需要。Lite−HRNet^[20]属于“自顶向下”的方法，是HRNet^[21]的一个改进版本。Lite−HRNet 能够高效且准确地完成姿态估计，适合在资源受限的环境中应用，可应用于矿井场景下的轻量级人体关键点检测。Lite−HRNet从输入的矿工行为视频中提取17个人体关键点，如图2所示。Lite−HRNet通过目标检测器进行人体检测，利用卷积神经网络提取图像特征，并通过区域提议网络生成锚框，对每个锚框进行分类以判断是否包含目标。区域提议网络对被判定为目标的锚框进行边界框回归，输出人体边界框，并通过非极大值抑制筛选出最优检测结果。最后Lite−HRNet 将每个检测到的人体区域裁剪出来并输入到姿态估计网络，生成每个人体关键点的热图，精确预测各个关键点的位置。

图 2 Lite−HRNet提取的人体关键点

Figure 2. Human keypoints extracted by Lite-HRNet

下载: 全尺寸图片幻灯片

2.1.2 矿工行为数据集构建

基于骨架序列的图卷积行为识别模型大多采用具有人体3D空间坐标的公共数据集，3D坐标由Kinect相机捕获，不适用于井下环境。本文构建了矿工行为数据集（Miner Behavior Dataset, MBD），MBD是以煤矿人员的站立、行走、坐、跨越、违规扒车、摔倒6类行为动作为基础制作的矿工行为数据集。视频样本在矿山模拟实验室中拍摄，并使用翻转、旋转等数据增强方法进行了扩展。

由于该数据集只包括没有骨架序列的原始视频，所以采用Lite−HRNet提取人体关键点。针对单个人体，使用（x, y, c）来表示每个关键点，其中x，y分别为关键点在图像中的横、纵坐标，c为关键点的置信度分数。对于多人情况，则选择平均置信度最高的2个个体作为具体目标。共得到600个骨架序列，其中80%作为训练集，20%作为测试集。该数据集提供的评价标准为Top−1，并以准确率作为主要评价指标。

2.2 人体动作识别模块

2.2.1 构造人体时空图

Lite−HRNe提取到的原始骨架序列中的数据是人体关键点坐标集合。图卷积神经网络通过定义时空图并结合卷积操作从这些数据中提取行为特征。时空图的构造包括空间图和时间图2个部分。首先，基于人体关键点的自然连接为骨架序列的每一帧构造空间图，记为$ {G_{\rm{S}}} = \left( {{K_{\rm{S}}},{E_{\rm{S}}}} \right) $。其中节点集合$K_{\mathrm{S}} $包含人体骨架的J个关键点，$ {K_{\mathrm{S}}} = \left\{ {{k_i}\left| {i = 1,2, \cdots ,J} \right.} \right\} $，$ {k_i} $为其中一帧中的第i个关键点，J为人体关键点的总数；空间边集合$E_{\mathrm{S}} $包含基于自然连接关系的空间边，$ {E_{\rm{S}}} = \left\{ {{k_i}{k_j}\left| {\left( {i,j} \right) \in H} \right.} \right\} $，$ {k_i} $$ {k_j} $为2个连接的关键点，$ H $为预定义的关键点连接关系集合。在骨架序列中，将所有节点的集合记为$ K=\left\{k_{ti}\left|t=1,2,\cdots,\tau；i=1,2,\cdots,J\right.\right\} $，$ {k_{ti}} $为骨架序列中第t帧第i个关键点，$ \tau $为骨架序列的总帧数，将相邻帧中相同关键点连接形成的时间边记为$ E_{\rm{T}}=\left\{k_{ti}k_{\left(t+1\right)i}\left|t=1,2,\cdots,\tau；i=1,2,\cdots,J\right.\right\} $。由空间边$ {E_{\rm{S}}} $、时间边$ {E_{\rm{T}}} $和节点$ K $构造时空图^[22]，记为$ G = \left( {K,E} \right) $，其中$ E = {E_{\rm{S}}} \cup {E_{\rm{T}}} $，如图3所示。

图 3 人体时空图

Figure 3. Human spatial-temporal map

下载: 全尺寸图片幻灯片

MEST−GCN模型采用空间配置划分策略将空间图划分为3个子集：① 选择1个节点作为根节点。② 比根节点更靠近骨架重心的相邻节点为向心集。③ 比根节点更远离骨架重心的相邻节点为离心集。这3个子集的卷积结果表达了不同尺度的运动特征。

2.2.2 MEST−GCN模型

MEST−GCN是在ST−GCN基础上进行改进。ST−GCN模型的骨干网络由9个时空图卷积（Spatial Temporal Graph Convolution, ST−GC）单元组成。每个ST−GC单元包含1个图卷积层（Graph Convolutional Network, GCN）、1个时间卷积层（Temporal Convolutional Network, TCN）和1个残差结构（Residual Structure）^[13]，如图4（a）所示，可看出模型第2层和第3层、第5层和第6层、第8层和第9层的输入输出通道数完全相同，第3、6和9层与前一层重复，属于冗余设计。因此对ST−GCN模型进行改进（图4（b）），删除3个重复的ST−GC单元，以减少模型参数，提高模型计算速度。

图 4 MEST−GCN和ST−GCN结构

Figure 4. MEST-GCN and ST-GCN structures

下载: 全尺寸图片幻灯片

ST−GCN模型在GCN层利用预定义的图拓扑结构提取空间特征，在TCN层采用固定大小的卷积核进行卷积操作，学习时间维度的信息。但矿工的行为习惯存在较大差异，这种固定特征提取方法难以适应复杂的动作变化，导致模型在真实煤矿场景下的鲁棒性下降。为了解决该问题，引入M2FA，通过增强模型在时间、空间和通道维度的特征提取能力，使模型能够更充分地学习骨架序列的行为特征，从而提升图卷积模型在煤矿场景中的性能。

M2FA主要分为多维特征融合、多尺度特征融合、注意力权重图生成3个阶段。在多维特征融合阶段，通过融合不同维度的压缩特征得到全局信息特征，加强骨架序列中关键帧与关键节点间的依赖关系；在多尺度特征融合阶段，通过对原始特征逐点卷积得到局部信息特征，并与全局信息特征相结合得到多尺度特征，增强行为特征的表达能力；在注意力权重图生成阶段，将原始特征与注意力权重逐点相乘，得到由M2FA模块增强后的特征。

在多维特征融合阶段首先会生成多个维度的特征描述符，即空域特征描述符$ {F_{\mathrm{s}}} $、时域特征描述符$ {F_{\mathrm{t}}} $和通道特征描述符$ {F_{\mathrm{c}}} $。输入特征$ {f_{{\mathrm{in}}}} $的大小为$N \times C \times T \times V$。生成特征描述的具体过程如下：

$$ \left\{ \begin{gathered} {F_{\mathrm{s}}} = f_{{\mathrm{avg}}}^{\mathrm{t}}\left( {{f_{{\mathrm{in}}}}} \right) = \frac{1}{T}\sum\limits_{i = 1}^T {{F_{{\mathrm{ncv}}}}\left( i \right)} \\ {F_{\mathrm{t}}} = f_{{\mathrm{avg}}}^{\mathrm{s}}\left( {{f_{{\mathrm{diff}}}}} \right) = \frac{1}{V}\sum\limits_{j = 1}^V {{F_{{\mathrm{nct}}}}\left( j \right)} \\ {F_{\mathrm{c}}} = f_{{\mathrm{avg}}}^{\mathrm{c}}\left( {{f_{{\mathrm{in}}}}} \right) = \frac{1}{T}\frac{1}{V}\sum\limits_{i = 1}^T {\sum\limits_{j=1}^V {{F_{{\mathrm{nc}}}}\left( {i,j} \right)} } \\ \end{gathered} \right. $$

(1)

式中：$ {f}_{{\mathrm{avg}}}^{{\mathrm{t}}}(\cdot) $为输入特征$ {f_{{\mathrm{in}}}} $在时间维度进行一维平均池化函数；${F_{{\mathrm{ncv}}}}\left( i \right)$为骨架序列单帧中的时域信息；$ {f}_{{\mathrm{avg}}}^{{\mathrm{s}}}(\cdot) $为差异特征${f_{{\mathrm{diff}}}}$在空间维度进行一维平均池化函数；${F_{{\mathrm{nct}}}}\left( j \right)$为每个节点的空域信息；$ {f}_{{\mathrm{avg}}}^{{\mathrm{c}}}(\cdot) $为输入特征$ {f_{{\mathrm{in}}}} $在空间和时间维度进行二维平均池化函数；$ {F_{{\mathrm{nc}}}}\left( {i,j} \right) $为骨架序列单帧内的节点信息。

差异特征${f_{{\mathrm{diff}}}}$由输入特征$ {f_{{\mathrm{in}}}} $与$ {f_{{\mathrm{in}}}} $沿时间维度位移得到的特征${f_{{\mathrm{in}}}^{ - 1}}$逐位相减获得，时间位移操作如图5所示。

图 5 在时间维度上的平移操作

Figure 5. Shift operation in the temporal dimension

下载: 全尺寸图片幻灯片

${F_{\mathrm{s}}}$代表了每个关键点在时间维度的全局信息，反映了每个关键点在当前动作序列中的重要程度，${F_{\mathrm{s}}}$的大小为$N \times C \times 1 \times V$。${F_{\mathrm{t}}}$反映了每一帧在当前动作序列中的重要程度，${F_{\mathrm{t}}}$的大小为$N \times C \times T \times 1$。${F_{\mathrm{c}}}$反映了节点在当前序列中的重要程度，${F_{\mathrm{c}}}$的大小为$N \times C \times 1 \times 1$。

在得到上述3个特征描述符后，分别将其特征维度沿着时间和空间维度复制，拓展为输入特征的维度$N \times C \times T \times V$，并将拓展后的描述符在通道维度拼接，此时的行为特征的通道数为3C，然后用逐点卷积操作将特征映射的通道数由3C恢复至C，多维特征融合阶段完成。

在多尺度特征融合阶段，采用逐点卷积直接学习原始输入特征$ {f_{{\mathrm{in}}}} $的局部信息，并与多维特征融合阶段得到的全局压缩信息逐位相加，融合多尺度的特征，进一步增强行为特征的表达能力。

在经过上述多维特征融合阶段和多尺度特征融合阶段后，得到新的融合特征${f_{{\mathrm{scale}}}}$，大小为$N \times C \times T \times V$，该特征同时具备多个维度的全局信息和局部上下文信息，进行批量标准化和激活处理后，得到原始输入特征的注意力权重$M$，大小为$N \times C \times T \times V$。将权重$M$与原始特征$F$逐点相乘即可得到通过M2FA增强后的特征映射。

3. 实验结果及分析

3.1 数据集

NTU−RGB+D 60数据集^[23]是人体行为识别任务中最大的数据集，具有56 880个骨骼序列，包含了60个动作类别。因为该数据集具有不同的主体和视角，所以其评价准则包括交叉主体（Cross Subject， X−sub）和交叉视角（Cross View，X−view）2个部分。交叉主体指40个主体中有一半用于训练，另一半用于测试。交叉视角指3个摄像机拍摄角度中有2个视角所捕获的骨架序列用于训练，另一个视角捕获的序列用于测试。本文除了使用NTU60官方提供的3D骨骼序列进行训练外，还采用Lite−HRNet对数据集的视频进行提取，获得2D骨架序列来进行训练。

3.2 参数配置

本文提出的模型基于 PyTorch 框架实现。对于不同的数据集，模型训练均采用随机梯度下降优化算法，其中 Nesterov 动量设置为 0.9，权重衰减系数设为 0.0005。初始学习率为 0.1，采用线性缩放策略调整学习率，总训练轮数为 16。

3.3 对比实验

为了验证不同关键点数据对图卷积模型性能的影响，本文在NTU60数据集上进行了对比实验，采用去除冗余层后的时空图卷积模型（ST−GCN−6）进行训练和测试，结果见表1，其中模型1表示ST−GCN−6模型直接使用NTU60官方提供的3D关键点数据进行训练和测试；模型2和模型3分别表示ST−GCN−6模型使用HRNet和Lite−HRNet提取的2D关键点数据进行训练和测试；模型4表示本文提出的MEST−GCN模型使用Lite−HRNet提取的2D关键点数据进行训练和测试。由表1可看出，模型2在X−sub和X−view评价指标下的准确率分别为86.9%和92.5%，模型3的准确率分别为86.5%和91.8%，模型2和模型3在2个评价指标下的准确率均优于模型1。表明与3D关键点数据相比，Lite−HRNet提取的2D关键点数据结合ST−GCN−6模型能提升模型行为识别准确率。模型3在X−sub和X−view指标上的准确率比模型2分别低0.4%和0.7%，但Lite−HRNet作为轻量化模型，计算复杂度显著低于HRNet，在煤矿场景实际应用中具有更高的实用性。模型4在X−sub和X−view评价指标下的准确率分别达到88.0%和92.6%，相比模型3分别提高1.5%和0.8%。与ST−GCN−6模型相比，MEST−GCN模型能够提升模型行为识别准确率。

表 1 不同关键点数据对比实验

Table 1. Comparison results of different keypoint data %

关键点数据结合图卷积模型	准确率
关键点数据结合图卷积模型	X−sub	X−view
模型1	80.3	89.6
模型2	86.9	92.5
模型3	86.5	91.8
模型4	88.0	92.6

下载: 导出CSV

| 显示表格

为了验证不同注意力模块对ST−GCN−6性能的影响，本文对比了ST−GCN−6结合不同注意力模块（SE模块、CBAM模块和M2FA模块）的表现，并在NTU60数据集上进行了实验，数据集使用Lite−HRNet提取关键点数据。其中，SE模块^[24]通过全连接操作增强了通道维度的特征表达能力，CBAM模块^[25]通过并行机制同时增强了通道和空间维度的特征表达能力。实验结果见表2。ST−GCN在X−sub和X−view评价指标下的准确率分别为87.3%和92.4%，参数量为3.12 Mib。删除冗余层后的ST−GCN−6在2个评价指标下的准确率分别下降了0.8%和0.6%，达86.5%和91.8%，虽然模型准确率有所下降，但参数量减少一半，仅为1.30 Mib，显著降低模型计算复杂度。MEST−GCN在X−sub和X−view指标下的准确率分别提升至88.0%和92.6%，相比ST−GCN−6分别提高了1.5%和0.8%。虽然参数量增加至1.87 Mib，但仍低于ST−GCN模型的3.12 Mib。与其他注意力模块相比，在ST−GCN−6中引入SE模块的模型在X−sub和X−view指标下的准确率分别为86.9%和91.8%，引入CBAM模块的模型分别达到了87.2%和92.0%，SE模块和CBAM模块对模型性能提升相对有限。这是由于SE模块仅增强了通道维度的特征表达，CBAM模块结合了通道和空间维度的特征表达，而M2FA模块同时增强了通道、空间和时间维度的特征表达能力，因此在各项指标中表现最佳，验证了其在提高图卷积模型学习能力上的有效性。

表 2 不同注意力模块对比实验结果

Table 2. Comparative results of different attention modules

模型	准确率/%		参数量/Mib
模型	X−sub	X−view	参数量/Mib
ST−GCN	87.3	92.4	3.12
ST−GCN−6	86.5	91.8	1.30
ST−GCN−6+SE	86.9	91.8	1.43
ST−GCN−6+CBAM	87.2	92.0	2.14
MEST−GCN	88.0	92.6	1.87

下载: 导出CSV

| 显示表格

为了验证MEST−GC在ST−GCN基础上对精度、收敛速度和损失等方面的性能改进，记录了训练过程中验证精度和平均损失随迭代次数变化的曲线，如图6所示。从图6（a）和图6（b）可看出，MEST−GCN验证精度和平均损失变化曲线与ST−GCN具有较高的重合度，这表明改进后的模型能够保持与ST−GCN相似的训练趋势和特性，确保了模型的训练稳定性和整体性能。对比图6（c）和图6（d）可看出MEST−GCN的验证精度更高，收敛速度更快，表明M2FA模块能更有效地捕捉到关键特征，加速模型学习过程并提高模型性能。

图 6 精度和平均损失随迭代次数变化的曲线

Figure 6. Relationship curves of accuracy and average loss with iteration number

下载: 全尺寸图片幻灯片

为了验证Lite−HRNet提取矿工关键点的效果，对矿工的站立、行走、坐、跨越、违规扒车和摔倒6种动作进行了测试，如图7所示，结果表明Lite−HRNet能有效地提取出人体关键点，在昏暗场景和小尺度跨越动作中依然表现出较强的鲁棒性，证明了其对复杂工作环境的适应能力。此外，对比Lite−HRNet与HRNet在矿工摔倒动作上的关键点提取效果（图8），可看出2种网络均能准确识别出矿工的关键点，但Lite−HRNet在保证精确度的同时具备更低的参数量和计算复杂度，显示出更高的实用性和实时性，满足矿工动作检测任务的实时应用需求。

图 7 Lite−HRNet对矿工动作关键点的提取效果

Figure 7. Keypoint extraction results of miner actions using Lite-HRNet

下载: 全尺寸图片幻灯片

图 8 不同网络提取矿工摔倒动作的关键点

Figure 8. Keypoint extraction of falling miner using different networks

下载: 全尺寸图片幻灯片

为进一步验证MEST−GCN在真实场景下的有效性，在MBD数据集上与其他图卷积模型进行了对比实验，并以准确率作为评价指标。实验采用Lite−HRNet提取MBD数据集中矿工的关键点，生成骨架序列，然后输入不同图卷积模型提取行为特征，得到最终的识别结果，见表3。

表 3 不同模型在MBD数据集上的对比实验

Table 3. Comparison of different models on the MBD datasets

模型	准确率/%	参数/Mib	帧率/（帧∙s⁻¹）
ST−GCN	88.0	3.12	12.77
2s−AGCN	89.0	6.95	7.65
CTR−GCN	89.3	2.60	7.59
MS−G3D	87.3	6.42	3.36
MEST−GCN	88.5	1.87	18.26

下载: 导出CSV

| 显示表格

由表3可看出，在MBD数据集上，与ST−GCN相比，MEST−GCN在保持88.5%准确率的同时，参数量减少至1.87 Mib。这是由于MEST−GCN删除了ST−GCN中的冗余层，同时引入M2FA注意力模块，减少参数量的同时加强了对矿工骨架序列中节点、帧和通道的特征提取能力。与其他模型相比，MEST−GCN的识别效果不如2s−AGCN模型，这是由于2s−AGCN模型在人为定义的图拓扑结构基础上增加了可学习的图拓扑结构，提高了对复杂动作的识别准确率，但这同时会增加额外的计算量和模型参数，降低模型处理速度。MEST−GCN的实时性能显著优于其他模型，帧率达到了18.26帧/s。综上，本文提出的模型在MBD数据集上实现了88.5%的准确率，同时具备最小的参数量和最快的视频处理速度，表明本文模型在煤矿场景下具有优秀的性能和实际应用价值。

不同模型在MBD数据集上的可视化识别效果如图9所示。所展示的动作分别为“站立”“行走”“坐”“跨越”“违规扒车”和“摔倒”。可看出MEST−GCN可以准确识别矿工的动作类别，表明其可以应用于煤矿场景。

图 9 不同模型在MBD数据集上的可视化识别效果

Figure 9. Visualization of recognition results from different models on the MBD dataset

下载: 全尺寸图片幻灯片

4. 结论

1）提出了一种结合Lite−HRNet与的MEST−GCN模型的矿工行为识别方法。利用Lite−HRNet提取视频中矿工的关键点坐标，得到骨架序列；采用MEST−GCN模型提取骨架序列中的行为特征，得到矿工行为识别结果。

2）改进后的MEST−GCN模型参数量下降至1.87 Mib。采用Lite−HRNet提取NTU60数据集的2D关键点坐标并进行实验，在X−sub和X−view评价标准下，模型识别准确率分别达88.0%和92.6%。

3）在自建MBD数据集上的实验结果表明，MEST−GCN实现了88.5%的识别准确率，视频处理速度达到了18.26 帧/s，可以应用于煤矿场景。

参考文献(0)

施引文献(15)

期刊类型引用(10)

1.	梁嘉楠，田慕琴，霍鹏飞. 基于RBF-PID的掘进机截齿动载荷平稳性控制方法研究. 煤炭技术. 2024(04): 264-269 . 百度学术
2.	王军亮. 纵轴式掘进机的横向和纵向随机振动响应分析. 矿业装备. 2024(05): 177-179 . 百度学术
3.	王鹏江，沈阳，宗凯，王东杰，吉晓冬，吴淼. 结合LSTM深度学习和模糊推理控制的巷道掘进机智能联合截割策略与方法. 煤炭学报. 2024(S2): 1195-1207 . 百度学术
4.	彭天好，储安圆，何兴川，张海舰，李长鹏. 悬臂式掘进机截割轨迹控制联合仿真研究. 机床与液压. 2023(08): 130-136 . 百度学术
5.	高亚男. 悬臂式掘进机关键结构的运动特性分析. 机械管理开发. 2023(06): 30-32 . 百度学术
6.	高鹏翔. EBZ160型掘进机智能化改造技术实践研究. 当代化工研究. 2023(18): 134-136 . 百度学术
7.	任燕，崔庚彦. 基于智能制造和大数据挖掘的农机数字化设计研究. 农机化研究. 2022(01): 233-236+241 . 百度学术
8.	吴鹏，万丽荣，逯振国. 截齿破碎煤岩力学特性及损伤研究. 矿业研究与开发. 2021(06): 143-148 . 百度学术
9.	柴仰军. EBZ160型掘进机截割减速机打齿研究. 机械管理开发. 2020(10): 101-102 . 百度学术
10.	赵红美，杨珍明. 基于多源数据融合的悬臂式掘进机截割载荷预测. 煤矿机械. 2020(10): 199-201 . 百度学术

其他类型引用(5)

资源附件(0)

计量

文章访问数: 277
HTML全文浏览量: 10
PDF下载量: 54
被引次数: 15

0. 引言
1. 矿工行为识别模型整体架构
2. 基于姿态估计网络和图卷积的矿工行为识别
2.1 人体关键点提取模块
2.1.1 Lite−HRNet
2.1.2 矿工行为数据集构建
2.2 人体动作识别模块
2.2.1 构造人体时空图
2.2.2 MEST−GCN模型
3. 实验结果及分析
3.1 数据集
3.2 参数配置
3.3 对比实验
4. 结论

0. 引言
1. 矿工行为识别模型整体架构
2. 基于姿态估计网络和图卷积的矿工行为识别
2.1 人体关键点提取模块
2.1.1 Lite−HRNet
2.1.2 矿工行为数据集构建
2.2 人体动作识别模块
2.2.1 构造人体时空图
2.2.2 MEST−GCN模型
3. 实验结果及分析
3.1 数据集
3.2 参数配置
3.3 对比实验
4. 结论

参考文献(0)

施引文献(15)

资源附件(0)

矿用智能巡检机器人关键技术研究

计量

出版历程