Lightweight pose estimation spatial-temporal enhanced graph convolutional model for miner behavior recognition
-
摘要:
基于骨架序列的行为识别模型具有速度快、算力要求低、模型简单等特点,图卷积神经网络在处理骨架序列数据时具有优势,而现有基于图卷积的矿工行为识别模型在高精度和低计算复杂度之间难以兼顾。针对该问题,提出了一种基于轻量化姿态估计网络(Lite−HRNet)和多维特征增强时空图卷积网络(MEST−GCN)的矿工行为识别模型。Lite−HRNet通过目标检测器进行人体检测,利用卷积神经网络提取图像特征,并通过区域提议网络生成锚框,对每个锚框进行分类以判断是否包含目标;区域提议网络对被判定为目标的锚框进行边界框回归,输出人体边界框,并通过非极大值抑制筛选出最优检测结果;将每个检测到的人体区域裁剪出来并输入到Lite−HRNet,生成人体关键点骨架序列。MEST−GCN在时空图卷积神经网络(ST−GCN)的基础上进行改进:去除ST−GCN中的冗余层以简化模型结构,减少模型参数量;引入多维特征融合注意力模块M2FA。生成的骨架序列经MEST−GCN的BN层批量标准化处理后,由多维特征增强图卷积模块提取矿工行为特征,经全局平均池化层和Softmax层得到行为的置信度,获得矿工行为预测结果。实验结果表明:① MEST−GCN的参数量降低至1.87 Mib;② 在以交叉主体和交叉视角为评价标准的公开数据集NTU60上,采用Lite−HRNet提取2D人体关键点坐标,基于Lite−HRNet和MEST−GCN的矿工行为识别模型的准确率分别达88.0%和92.6%;③ 在构建的矿工行为数据集上,基于Lite−HRNet和MEST−GCN的矿工行为识别模型的准确率达88.5%,视频处理速度达18.26 帧/s,可以准确且快速地识别矿工的动作类别。
Abstract:Skeleton-sequence-based behavior recognition models are characterized by fast processing speeds, low computational requirements, and simple structures. Graph convolutional networks (GCNs) have advantages in processing skeleton sequence data. However, existing miner behavior recognition models based on graph convolution struggle to balance high accuracy and low computational complexity. To address this issue, this study proposed a miner behavior recognition model based on a lightweight pose estimation network (Lite-HRNet) and a multi-dimensional feature-enhanced spatial-temporal graph convolutional network (MEST-GCN). Lite-HRNet performed human detection using a target detector, extracted image features through a convolutional neural network (CNN), and generated anchor boxes via a region proposal network (RPN). These anchor boxes were classified to determine whether they contain a target. The RPN applied bounding box regression to the anchor boxes identified as containing targets and outputted the human bounding box, with the optimal detection result selected via non-maximum suppression. The detected human regions were cropped and inputted into Lite-HRNet to generate skeleton sequences based on human pose keypoints. MEST-GCN improved upon the spatial-temporal graph convolutional network (ST-GCN) by removing redundant layers to simplify the model structure and reduce the number of parameters. It also introduced a multi-dimensional feature fusion attention module (M2FA). The generated skeleton sequences were processed by the BN layer for batch normalization, and the miner behavior features were extracted through the multi-dimensional feature-enhanced graph convolution module. These features were passed through global average pooling and a Softmax layer to obtain the behavior confidence, providing the miner behavior prediction results. Experimental results showed that: ① The parameter count of MEST-GCN was reduced to 1.87 Mib. ② On the public NTU60 dataset, evaluated using cross subject and cross view standards, the accuracy of the miner behavior recognition model based on Lite-HRNet and MEST-GCN reached 88.0% and 92.6%, respectively, with Lite-HRNet extracting 2D human keypoint coordinates. ③ On a custom-built miner behavior dataset, the model based on Lite-HRNet and MEST-GCN achieved an accuracy of 88.5% and a video processing speed of 18.26 frames per second, accurately and quickly identifying miner action categories.
-
0. 引言
煤矿生产环境较为复杂,存在各种安全隐患,这些隐患可能导致煤矿事故发生。我国重大矿井事故中,超过90%是由井下人员的不安全行为引起的[1]。因此,快速准确地识别矿工的不安全行为对于确保煤矿安全开采至关重要。随着煤矿产业的智能化发展,人工智能技术在矿工不安全行为识别领域取得了较大进展[2]。采用深度学习人工智能高效、快速地识别矿工行为,能减少因矿工不安全行为导致的矿井事故,确保煤矿安全开采。
目前,针对矿工不安全行为的识别方法主要分为基于视频的方法[3-6]、基于深度图的方法[7]和基于骨架序列的方法[8-9]3类。视频具有行为识别所需要的空间和时间信息,且视频方便收集,直接采用视频数据进行行为识别是一种非常有效的方法。但基于视频的行为识别方法会受到视频中无关背景信息的干扰,此外遮挡和视点变化也会影响识别效果[10]。深度图所包含的深度信息可在一定程度上增强对视点变化和遮挡等干扰的鲁棒性[11],但深度图需要占据更大的存储空间来保存深度信息,对设备性能要求较高。骨架数据是视频中人体姿态和动作的抽象表示,即使没有外观信息也能够仅通过骨架的运动来识别动作的类别,且对环境、遮挡和视点变化具有较强的鲁棒性。基于骨架序列的行为识别模型具有速度快、算力要求低、模型简单等优势[12]。考虑煤矿场景下的复杂环境及算力限制,基于骨架序列的方法适用于煤矿应用场景。
近几年,图卷积神经网络在处理骨架序列数据时占据优势,在多个数据集上取得了较好的结果[13-15]。许多学者将基于图卷积的行为识别方法应用于井下环境。文献[16]提出了一种多层感知图卷积神经网络,在自适应邻接矩阵基础上为每个邻接矩阵分配一个权重参数,使用注意力机制动态约束多个邻接矩阵,增强图的特征表达能力,提升模型在煤矿场景下的鲁棒性。文献[17] 提出了一种基于深度学习的井下人员不安全行为识别与预警系统,利用YOLOv4模型识别矿工及安全帽佩戴情况,并结合OpenPose和时空图卷积神经网络(Spatial-Temporal Graph Convolutional Network, ST−GCN)模型对矿工行为进行分析,实现了井下环境中不安全行为的自动识别与预警。文献[18]设计了一种面向煤矿井下员工的不安全行为智能识别系统,将不安全行为划分为静态、动态和互动3类,采用YOLOv3识别设备与环境,结合MobileNetV3和ST−GCN识别静态和动态行为,通过规则推理识别互动行为,实现了在实际生产环境中的部署与应用。文献[19]提出了一种基于时空图卷积网络的组合注意力机制和密集残差网络,组合注意力机制可以增强模型的特征提取能力,同时利用密集残差网络对动作特征进行补偿,提高模型识别矿工行为特征的能力。
上述基于图卷积的矿工行为识别模型都取得了较好的效果,但存在识别精度不高、模型参数量大、计算复杂度较高等问题。本文提出一种基于轻量高分辨率网络(Lightweight High-Resolution Network, Lite−HRNet)和多维特征增强时空图卷积网络(Multi-dimensional Feature Enhanced Spatial Temporal Graph Convolution Network, MEST−GCN)的行为识别模型。首先利用Lite−HRNet提取矿工关键点坐标,生成具有17个矿工关键点的骨架序列,然后将骨架序列输入MEST−GCN进行动作识别,最后引入多维特征融合注意力模块(Multi-Dimensional Feature Fusion Attention Module, M2FA),增强行为特征在时间、空间和通道维度的表达能力,提高模型在煤矿情境下的行为识别能力。
1. 矿工行为识别模型整体架构
基于Lite−HRNet和MEST−GCN的行为识别模型结构如图1所示,主要分为人体关键点提取模块和人体动作识别模块2个部分。对于输入的矿工行为视频,通过Lite−HRNet获得人体关键点坐标,得到初始的矿工骨架序列。矿工骨架序列由一个四维矩阵$\left( {N,C,T,V} \right)$组成,其中N为批量大小,C为通道数,T为骨架序列的总帧数,V为每帧骨架中的关键点总数量。骨架序列经由批量标准化(Batch Normalization, BN)层对输入数据进行批量标准化处理,经过6个多维特征增强图卷积(Multi-Dimensional Feature Enhanced Graph Convolution, ME−GC)模块B1—B6提取矿工行为特征。ME−GC中包含多维特征融合注意力模块,可以提高时间、空间和通道维度的特征表现能力。最后经由全局平均池化层(Global Average Pooling, GAP)和Softmax层得到行为的置信度,获得预测结果。
2. 基于姿态估计网络和图卷积的矿工行为识别
2.1 人体关键点提取模块
2.1.1 Lite−HRNet
人体关键点位置检测方法主要分为“自顶向下”和“自底向上”2类。“自顶向下”方法先检测人体目标并标记矩形区域,再进行关键点检测,精度高,但速度受限。“自底向上”方法则先检测所有关键点,再区分归属,速度快,但精度较低。人体关键点的检测质量在一定程度上会影响基于骨架序列的行为识别模型的结果,因此,姿态估计模型既需要较高的检测精度,也需要较快的检测速度,以适应井下矿工不安全行为识别的需要。Lite−HRNet[20]属于“自顶向下”的方法,是HRNet[21]的一个改进版本。Lite−HRNet 能够高效且准确地完成姿态估计,适合在资源受限的环境中应用,可应用于矿井场景下的轻量级人体关键点检测。Lite−HRNet从输入的矿工行为视频中提取17个人体关键点,如图2所示。Lite−HRNet通过目标检测器进行人体检测,利用卷积神经网络提取图像特征,并通过区域提议网络生成锚框,对每个锚框进行分类以判断是否包含目标。区域提议网络对被判定为目标的锚框进行边界框回归,输出人体边界框,并通过非极大值抑制筛选出最优检测结果。最后Lite−HRNet 将每个检测到的人体区域裁剪出来并输入到姿态估计网络,生成每个人体关键点的热图,精确预测各个关键点的位置。
2.1.2 矿工行为数据集构建
基于骨架序列的图卷积行为识别模型大多采用具有人体3D空间坐标的公共数据集,3D坐标由Kinect相机捕获,不适用于井下环境。本文构建了矿工行为数据集(Miner Behavior Dataset, MBD),MBD是以煤矿人员的站立、行走、坐、跨越、违规扒车、摔倒6类行为动作为基础制作的矿工行为数据集。视频样本在矿山模拟实验室中拍摄,并使用翻转、旋转等数据增强方法进行了扩展。
由于该数据集只包括没有骨架序列的原始视频,所以采用Lite−HRNet提取人体关键点。针对单个人体,使用(x, y, c)来表示每个关键点,其中x,y分别为关键点在图像中的横、纵坐标,c为关键点的置信度分数。对于多人情况,则选择平均置信度最高的2个个体作为具体目标。共得到600个骨架序列,其中80%作为训练集,20%作为测试集。该数据集提供的评价标准为Top−1,并以准确率作为主要评价指标。
2.2 人体动作识别模块
2.2.1 构造人体时空图
Lite−HRNe提取到的原始骨架序列中的数据是人体关键点坐标集合。图卷积神经网络通过定义时空图并结合卷积操作从这些数据中提取行为特征。时空图的构造包括空间图和时间图2个部分。首先,基于人体关键点的自然连接为骨架序列的每一帧构造空间图,记为$ {G_{\rm{S}}} = \left( {{K_{\rm{S}}},{E_{\rm{S}}}} \right) $。其中节点集合$K_{\mathrm{S}} $包含人体骨架的J个关键点,$ {K_{\mathrm{S}}} = \left\{ {{k_i}\left| {i = 1,2, \cdots ,J} \right.} \right\} $,$ {k_i} $为其中一帧中的第i个关键点,J为人体关键点的总数;空间边集合$E_{\mathrm{S}} $包含基于自然连接关系的空间边,$ {E_{\rm{S}}} = \left\{ {{k_i}{k_j}\left| {\left( {i,j} \right) \in H} \right.} \right\} $,$ {k_i} $$ {k_j} $为2个连接的关键点,$ H $为预定义的关键点连接关系集合。在骨架序列中,将所有节点的集合记为$ K=\left\{k_{ti}\left|t=1,2,\cdots,\tau;i=1,2,\cdots,J\right.\right\} $,$ {k_{ti}} $为骨架序列中第t帧第i个关键点,$ \tau $为骨架序列的总帧数,将相邻帧中相同关键点连接形成的时间边记为$ E_{\rm{T}}=\left\{k_{ti}k_{\left(t+1\right)i}\left|t=1,2,\cdots,\tau;i=1,2,\cdots,J\right.\right\} $。由空间边$ {E_{\rm{S}}} $、时间边$ {E_{\rm{T}}} $和节点$ K $构造时空图[22],记为$ G = \left( {K,E} \right) $,其中$ E = {E_{\rm{S}}} \cup {E_{\rm{T}}} $,如图3所示。
MEST−GCN模型采用空间配置划分策略将空间图划分为3个子集:① 选择1个节点作为根节点。② 比根节点更靠近骨架重心的相邻节点为向心集。③ 比根节点更远离骨架重心的相邻节点为离心集。这3个子集的卷积结果表达了不同尺度的运动特征。
2.2.2 MEST−GCN模型
MEST−GCN是在ST−GCN基础上进行改进。ST−GCN模型的骨干网络由9个时空图卷积(Spatial Temporal Graph Convolution, ST−GC)单元组成。每个ST−GC单元包含1个图卷积层(Graph Convolutional Network, GCN)、1个时间卷积层(Temporal Convolutional Network, TCN)和1个残差结构(Residual Structure)[13],如图4(a)所示,可看出模型第2层和第3层、第5层和第6层、第8层和第9层的输入输出通道数完全相同,第3、6和9层与前一层重复,属于冗余设计。因此对ST−GCN模型进行改进(图4(b)),删除3个重复的ST−GC单元,以减少模型参数,提高模型计算速度。
ST−GCN模型在GCN层利用预定义的图拓扑结构提取空间特征,在TCN层采用固定大小的卷积核进行卷积操作,学习时间维度的信息。但矿工的行为习惯存在较大差异,这种固定特征提取方法难以适应复杂的动作变化,导致模型在真实煤矿场景下的鲁棒性下降。为了解决该问题,引入M2FA,通过增强模型在时间、空间和通道维度的特征提取能力,使模型能够更充分地学习骨架序列的行为特征,从而提升图卷积模型在煤矿场景中的性能。
M2FA主要分为多维特征融合、多尺度特征融合、注意力权重图生成3个阶段。在多维特征融合阶段,通过融合不同维度的压缩特征得到全局信息特征,加强骨架序列中关键帧与关键节点间的依赖关系;在多尺度特征融合阶段,通过对原始特征逐点卷积得到局部信息特征,并与全局信息特征相结合得到多尺度特征,增强行为特征的表达能力;在注意力权重图生成阶段,将原始特征与注意力权重逐点相乘,得到由M2FA模块增强后的特征。
在多维特征融合阶段首先会生成多个维度的特征描述符,即空域特征描述符$ {F_{\mathrm{s}}} $、时域特征描述符$ {F_{\mathrm{t}}} $和通道特征描述符$ {F_{\mathrm{c}}} $。输入特征$ {f_{{\mathrm{in}}}} $的大小为$N \times C \times T \times V$。生成特征描述的具体过程如下:
$$ \left\{ \begin{gathered} {F_{\mathrm{s}}} = f_{{\mathrm{avg}}}^{\mathrm{t}}\left( {{f_{{\mathrm{in}}}}} \right) = \frac{1}{T}\sum\limits_{i = 1}^T {{F_{{\mathrm{ncv}}}}\left( i \right)} \\ {F_{\mathrm{t}}} = f_{{\mathrm{avg}}}^{\mathrm{s}}\left( {{f_{{\mathrm{diff}}}}} \right) = \frac{1}{V}\sum\limits_{j = 1}^V {{F_{{\mathrm{nct}}}}\left( j \right)} \\ {F_{\mathrm{c}}} = f_{{\mathrm{avg}}}^{\mathrm{c}}\left( {{f_{{\mathrm{in}}}}} \right) = \frac{1}{T}\frac{1}{V}\sum\limits_{i = 1}^T {\sum\limits_{j=1}^V {{F_{{\mathrm{nc}}}}\left( {i,j} \right)} } \\ \end{gathered} \right. $$ (1) 式中:$ {f}_{{\mathrm{avg}}}^{{\mathrm{t}}}(\cdot) $为输入特征$ {f_{{\mathrm{in}}}} $在时间维度进行一维平均池化函数;${F_{{\mathrm{ncv}}}}\left( i \right)$为骨架序列单帧中的时域信息;$ {f}_{{\mathrm{avg}}}^{{\mathrm{s}}}(\cdot) $为差异特征${f_{{\mathrm{diff}}}}$在空间维度进行一维平均池化函数;${F_{{\mathrm{nct}}}}\left( j \right)$为每个节点的空域信息;$ {f}_{{\mathrm{avg}}}^{{\mathrm{c}}}(\cdot) $为输入特征$ {f_{{\mathrm{in}}}} $在空间和时间维度进行二维平均池化函数;$ {F_{{\mathrm{nc}}}}\left( {i,j} \right) $为骨架序列单帧内的节点信息。
差异特征${f_{{\mathrm{diff}}}}$由输入特征$ {f_{{\mathrm{in}}}} $与$ {f_{{\mathrm{in}}}} $沿时间维度位移得到的特征${f_{{\mathrm{in}}}^{ - 1}}$逐位相减获得,时间位移操作如图5所示。
${F_{\mathrm{s}}}$代表了每个关键点在时间维度的全局信息,反映了每个关键点在当前动作序列中的重要程度,${F_{\mathrm{s}}}$的大小为$N \times C \times 1 \times V$。${F_{\mathrm{t}}}$反映了每一帧在当前动作序列中的重要程度,${F_{\mathrm{t}}}$的大小为$N \times C \times T \times 1$。${F_{\mathrm{c}}}$反映了节点在当前序列中的重要程度,${F_{\mathrm{c}}}$的大小为$N \times C \times 1 \times 1$。
在得到上述3个特征描述符后,分别将其特征维度沿着时间和空间维度复制,拓展为输入特征的维度$N \times C \times T \times V$,并将拓展后的描述符在通道维度拼接,此时的行为特征的通道数为3C,然后用逐点卷积操作将特征映射的通道数由3C恢复至C,多维特征融合阶段完成。
在多尺度特征融合阶段,采用逐点卷积直接学习原始输入特征$ {f_{{\mathrm{in}}}} $的局部信息,并与多维特征融合阶段得到的全局压缩信息逐位相加,融合多尺度的特征,进一步增强行为特征的表达能力。
在经过上述多维特征融合阶段和多尺度特征融合阶段后,得到新的融合特征${f_{{\mathrm{scale}}}}$,大小为$N \times C \times T \times V$,该特征同时具备多个维度的全局信息和局部上下文信息,进行批量标准化和激活处理后,得到原始输入特征的注意力权重$M$,大小为$N \times C \times T \times V$。将权重$M$与原始特征$F$逐点相乘即可得到通过M2FA增强后的特征映射。
3. 实验结果及分析
3.1 数据集
NTU−RGB+D 60数据集[23]是人体行为识别任务中最大的数据集,具有56 880个骨骼序列,包含了60个动作类别。因为该数据集具有不同的主体和视角,所以其评价准则包括交叉主体(Cross Subject, X−sub)和交叉视角(Cross View,X−view)2个部分。交叉主体指40个主体中有一半用于训练,另一半用于测试。交叉视角指3个摄像机拍摄角度中有2个视角所捕获的骨架序列用于训练,另一个视角捕获的序列用于测试。本文除了使用NTU60官方提供的3D骨骼序列进行训练外,还采用Lite−HRNet对数据集的视频进行提取,获得2D骨架序列来进行训练。
3.2 参数配置
本文提出的模型基于 PyTorch 框架实现。对于不同的数据集,模型训练均采用随机梯度下降优化算法,其中 Nesterov 动量设置为 0.9,权重衰减系数设为 0.0005。初始学习率为 0.1,采用线性缩放策略调整学习率,总训练轮数为 16。
3.3 对比实验
为了验证不同关键点数据对图卷积模型性能的影响,本文在NTU60数据集上进行了对比实验,采用去除冗余层后的时空图卷积模型(ST−GCN−6)进行训练和测试,结果见表1,其中模型1表示ST−GCN−6模型直接使用NTU60官方提供的3D关键点数据进行训练和测试;模型2和模型3分别表示ST−GCN−6模型使用HRNet和Lite−HRNet提取的2D关键点数据进行训练和测试;模型4表示本文提出的MEST−GCN模型使用Lite−HRNet提取的2D关键点数据进行训练和测试。由表1可看出,模型2在X−sub和X−view评价指标下的准确率分别为86.9%和92.5%,模型3的准确率分别为86.5%和91.8%,模型2和模型3在2个评价指标下的准确率均优于模型1。表明与3D关键点数据相比,Lite−HRNet提取的2D关键点数据结合ST−GCN−6模型能提升模型行为识别准确率。模型3在X−sub和X−view指标上的准确率比模型2分别低0.4%和0.7%,但Lite−HRNet作为轻量化模型,计算复杂度显著低于HRNet,在煤矿场景实际应用中具有更高的实用性。模型4在X−sub和X−view评价指标下的准确率分别达到88.0%和92.6%,相比模型3分别提高1.5%和0.8%。与ST−GCN−6模型相比,MEST−GCN模型能够提升模型行为识别准确率。
表 1 不同关键点数据对比实验Table 1. Comparison results of different keypoint data% 关键点数据结合图卷积模型 准确率 X−sub X−view 模型1 80.3 89.6 模型2 86.9 92.5 模型3 86.5 91.8 模型4 88.0 92.6 为了验证不同注意力模块对ST−GCN−6性能的影响,本文对比了ST−GCN−6结合不同注意力模块(SE模块、CBAM模块和M2FA模块)的表现,并在NTU60数据集上进行了实验,数据集使用Lite−HRNet提取关键点数据。其中,SE模块[24]通过全连接操作增强了通道维度的特征表达能力,CBAM模块[25]通过并行机制同时增强了通道和空间维度的特征表达能力。实验结果见表2。ST−GCN在X−sub和X−view评价指标下的准确率分别为87.3%和92.4%,参数量为3.12 Mib。删除冗余层后的ST−GCN−6在2个评价指标下的准确率分别下降了0.8%和0.6%,达86.5%和91.8%,虽然模型准确率有所下降,但参数量减少一半,仅为1.30 Mib,显著降低模型计算复杂度。MEST−GCN在X−sub和X−view指标下的准确率分别提升至88.0%和92.6%,相比ST−GCN−6分别提高了1.5%和0.8%。虽然参数量增加至1.87 Mib,但仍低于ST−GCN模型的3.12 Mib。与其他注意力模块相比,在ST−GCN−6中引入SE模块的模型在X−sub和X−view指标下的准确率分别为86.9%和91.8%,引入CBAM模块的模型分别达到了87.2%和92.0%,SE模块和CBAM模块对模型性能提升相对有限。这是由于SE模块仅增强了通道维度的特征表达,CBAM模块结合了通道和空间维度的特征表达,而M2FA模块同时增强了通道、空间和时间维度的特征表达能力,因此在各项指标中表现最佳,验证了其在提高图卷积模型学习能力上的有效性。
表 2 不同注意力模块对比实验结果Table 2. Comparative results of different attention modules模型 准确率/% 参数量/Mib X−sub X−view ST−GCN 87.3 92.4 3.12 ST−GCN−6 86.5 91.8 1.30 ST−GCN−6+SE 86.9 91.8 1.43 ST−GCN−6+CBAM 87.2 92.0 2.14 MEST−GCN 88.0 92.6 1.87 为了验证MEST−GC在ST−GCN基础上对精度、收敛速度和损失等方面的性能改进,记录了训练过程中验证精度和平均损失随迭代次数变化的曲线,如图6所示。从图6(a)和图6(b)可看出,MEST−GCN验证精度和平均损失变化曲线与ST−GCN具有较高的重合度,这表明改进后的模型能够保持与ST−GCN相似的训练趋势和特性,确保了模型的训练稳定性和整体性能。对比图6(c)和图6(d)可看出MEST−GCN的验证精度更高,收敛速度更快,表明M2FA模块能更有效地捕捉到关键特征,加速模型学习过程并提高模型性能。
为了验证Lite−HRNet提取矿工关键点的效果,对矿工的站立、行走、坐、跨越、违规扒车和摔倒6种动作进行了测试,如图7所示,结果表明Lite−HRNet能有效地提取出人体关键点,在昏暗场景和小尺度跨越动作中依然表现出较强的鲁棒性,证明了其对复杂工作环境的适应能力。此外,对比Lite−HRNet与HRNet在矿工摔倒动作上的关键点提取效果(图8),可看出2种网络均能准确识别出矿工的关键点,但Lite−HRNet在保证精确度的同时具备更低的参数量和计算复杂度,显示出更高的实用性和实时性,满足矿工动作检测任务的实时应用需求。
为进一步验证MEST−GCN在真实场景下的有效性,在MBD数据集上与其他图卷积模型进行了对比实验,并以准确率作为评价指标。实验采用Lite−HRNet提取MBD数据集中矿工的关键点,生成骨架序列,然后输入不同图卷积模型提取行为特征,得到最终的识别结果,见表3。
表 3 不同模型在MBD数据集上的对比实验Table 3. Comparison of different models on the MBD datasets模型 准确率/% 参数/Mib 帧率/(帧∙s−1) ST−GCN 88.0 3.12 12.77 2s−AGCN 89.0 6.95 7.65 CTR−GCN 89.3 2.60 7.59 MS−G3D 87.3 6.42 3.36 MEST−GCN 88.5 1.87 18.26 由表3可看出,在MBD数据集上,与ST−GCN相比,MEST−GCN在保持88.5%准确率的同时,参数量减少至1.87 Mib。这是由于MEST−GCN删除了ST−GCN中的冗余层,同时引入M2FA注意力模块,减少参数量的同时加强了对矿工骨架序列中节点、帧和通道的特征提取能力。与其他模型相比,MEST−GCN的识别效果不如2s−AGCN模型,这是由于2s−AGCN模型在人为定义的图拓扑结构基础上增加了可学习的图拓扑结构,提高了对复杂动作的识别准确率,但这同时会增加额外的计算量和模型参数,降低模型处理速度。MEST−GCN的实时性能显著优于其他模型,帧率达到了18.26帧/s。综上,本文提出的模型在MBD数据集上实现了88.5%的准确率,同时具备最小的参数量和最快的视频处理速度,表明本文模型在煤矿场景下具有优秀的性能和实际应用价值。
不同模型在MBD数据集上的可视化识别效果如图9所示。所展示的动作分别为“站立”“行走”“坐”“跨越”“违规扒车”和“摔倒”。可看出MEST−GCN可以准确识别矿工的动作类别,表明其可以应用于煤矿场景。
4. 结论
1) 提出了一种结合Lite−HRNet与的MEST−GCN模型的矿工行为识别方法。利用Lite−HRNet提取视频中矿工的关键点坐标,得到骨架序列;采用MEST−GCN模型提取骨架序列中的行为特征,得到矿工行为识别结果。
2) 改进后的MEST−GCN模型参数量下降至1.87 Mib。采用Lite−HRNet提取NTU60数据集的2D关键点坐标并进行实验,在X−sub和X−view评价标准下,模型识别准确率分别达88.0%和92.6%。
3) 在自建MBD数据集上的实验结果表明,MEST−GCN实现了88.5%的识别准确率,视频处理速度达到了18.26 帧/s,可以应用于煤矿场景。
-
表 1 不同关键点数据对比实验
Table 1 Comparison results of different keypoint data
% 关键点数据结合图卷积模型 准确率 X−sub X−view 模型1 80.3 89.6 模型2 86.9 92.5 模型3 86.5 91.8 模型4 88.0 92.6 表 2 不同注意力模块对比实验结果
Table 2 Comparative results of different attention modules
模型 准确率/% 参数量/Mib X−sub X−view ST−GCN 87.3 92.4 3.12 ST−GCN−6 86.5 91.8 1.30 ST−GCN−6+SE 86.9 91.8 1.43 ST−GCN−6+CBAM 87.2 92.0 2.14 MEST−GCN 88.0 92.6 1.87 表 3 不同模型在MBD数据集上的对比实验
Table 3 Comparison of different models on the MBD datasets
模型 准确率/% 参数/Mib 帧率/(帧∙s−1) ST−GCN 88.0 3.12 12.77 2s−AGCN 89.0 6.95 7.65 CTR−GCN 89.3 2.60 7.59 MS−G3D 87.3 6.42 3.36 MEST−GCN 88.5 1.87 18.26 -
[1] 张涵,王峰. 基于矿工不安全行为的煤矿生产事故分析及对策[J]. 煤炭工程,2019,51(8):177-180. ZHANG Han,WANG Feng. Countermeasure and analysis on accidents of mines based on staff's unsafe behaviors[J]. Coal Engineering,2019,51(8):177-180.
[2] 苏晨阳,武文红,牛恒茂,等. 深度学习的工人多种不安全行为识别方法综述[J]. 计算机工程与应用,2024,60(5):30-46. SU Chenyang,WU Wenhong,NIU Hengmao,et al. Review of deep learning approaches for recognizing multiple unsafe behaviors in workers[J]. Computer Engineering and Applications,2024,60(5):30-46.
[3] WANG Zheng,LIU Yan,DUAN Siyuan,et al. An efficient detection of non-standard miner behavior using improved YOLOv8[J]. Computers and Electrical Engineering,2023,112. DOI: 10.1016/j.compeleceng.2023.109021.
[4] 陈天,闫雨寒,徐达伟,等. 基于改进双流算法的矿工行为识别方法研究[J]. 河南科技大学学报(自然科学版),2021,42(4):47-53,7. CHEN Tian,YAN Yuhan,XU Dawei,et al. Research on miner behavior recognition method based on improved two-stream algorithm[J]. Journal of Henan University of Science and Technology(Natural Science),2021,42(4):47-53,7.
[5] XIN Fangfang,HE Xinyu,YAO Chaoxiu,et al. A real-time detection for miner behavior via DYS-YOLOv8n model[J]. Journal of Real-Time Image Processing,2024,21(3). DOI: 10.1007/s11554-024-01466-0.
[6] WANG Yu,CHEN Xiaoqing,LI Jiaoqun,et al. Convolutional block attention module-multimodal feature-fusion action recognition:enabling miner unsafe action recognition[J]. Sensors,2024,24(14). DOI: 10.3390/s24144557.
[7] 程健,李昊,马昆,等. 矿井视觉计算体系架构与关键技术[J]. 煤炭科学技术,2023,51(9):202-218. DOI: 10.12438/cst.2023-0152 CHENG Jian,LI Hao,MA Kun,et al. Architecture and key technologies of coal mine underground vision computing[J]. Coal Science and Technology,2023,51(9):202-218. DOI: 10.12438/cst.2023-0152
[8] 王宇,于春华,陈晓青,等. 基于多模态特征融合的井下人员不安全行为识别[J]. 工矿自动化,2023,49(11):138-144. WANG Yu,YU Chunhua,CHEN Xiaoqing,et al. Recognition of unsafe behaviors of underground personnel based on multi modal feature fusion[J]. Journal of Mine Automation,2023,49(11):138-144.
[9] CAO Xiangang,ZHANG Chiyu,WANG Peng,et al. Unsafe mining behavior identification method based on an improved st-gcn[J]. Sustainability,2023,15(2). DOI: 10.3390/su15021041.
[10] SUN Zehua,LIU Jun,KE Qiuhong,et al. Human action recognition from various data modalities:a review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(3):3200-3225.
[11] WANG Huogen,SONG Zhanjie,LI Wanqing,et al. A hybrid network for large-scale action recognition from RGB and depth modalities[J]. Sensors,2020,20(11). DOI: 10.3390/s20113305.
[12] REN Bin,LIU Mengyuan,DING Runwei,et al. A survey on 3d skeleton-based action recognition using learning method[J]. Cyborg and Bionic Systems,2024,5. DOI: 10.34133/cbsystems.0100.
[13] YAN Sijie,XIONG Yuanjun,LIN Dahua. Spatialtemporal graph convolutional networks for skeleton-based action recognition[C]. AAAI Conference on Artificial Intelligence,New Orleans,2018. DOI: 10.48550/arXiv.1801.07455.
[14] YANG Huaigang,REN Ziliang,YUAN Huaqiang,et al. Multi-scale and attention enhanced graph convolution network for skeleton-based violence action recognition[J]. Frontiers in Neurorobotics,2022,16. DOI: 10.3389/fnbot.2022.1091361.
[15] XING Yuling,ZHU Jia,LI Yu,et al. An improved spatial temporal graph convolutional network for robust skeleton-based action recognition[J]. Applied Intelligence,2023,53(4):4592-4608. DOI: 10.1007/s10489-022-03589-y
[16] 黄瀚,程小舟,云霄,等. 基于DA−GCN的煤矿人员行为识别方法[J]. 工矿自动化,2021,47(4):62-66. HUANG Han,CHENG Xiaozhou,YUN Xiao,et al. DA-GCN-based coal mine personnel action recognition method[J]. Industry and Mine Automation,2021,47(4):62-66.
[17] 刘浩,刘海滨,孙宇,等. 煤矿井下员工不安全行为智能识别系统[J]. 煤炭学报,2021,46(增刊2):1159-1169. LIU Hao,LIU Haibin,SUN Yu,et al. Intelligent recognition system of unsafe behavior of underground coal miners[J]. Journal of China Coal Society,2021,46(S2):1159-1169.
[18] 李雯静,刘鑫. 基于深度学习的井下人员不安全行为识别与预警系统研究[J]. 金属矿山,2023(3):177-184. LI Wenjing,LIU Xin. Research on underground personnel unsafe behavior identification and early warning wystem based on deep learning[J]. Metal Mine,2023(3):177-184.
[19] 李善华,肖涛,李肖利,等. 基于DRCA−GCN的矿工动作识别模型[J]. 工矿自动化,2023,49(4):99-105,112. LI Shanhua,XIAO Tao,LI Xiaoli,et al. Miner actionrecognition model based on DRCA-GCN[J]. Journal of Mine Automation,2023,49(4):99-105,112.
[20] YU Changqian,XIAO Bin,GAO Changxin,et al. Lite-HRNet:a lightweight high-resolution network[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Nashville,2021:10440-10450.
[21] SUN Ke,XIAO Bin,LIU Dong,et al. Deep high-resolution representation learning for human pose estimation[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Long Beach,2019:5693-5703.
[22] ZHANG Yu,GAN Junsi,ZHAO Zewei,et al. A real-time fall detection model based on BlazePose and improved ST-GCN[J]. Journal of Real-Time Image Processing,2023,20(6). DOI: 10.1007/s11554-023-01377-6.
[23] KONG Yu,FU Yun. Human action recognition and prediction:a survey[J]. International Journal of Computer Vision,2022,130(5):1366-1401. DOI: 10.1007/s11263-022-01594-9
[24] HU Jie,SHEN Li,SAMUEL A,et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Inetlligence,2020,42(8):2011-2023. DOI: 10.1109/TPAMI.2019.2913372
[25] WOO S,PARK J,LEE J,et al. Cbam:convolutional block attention module[C]. European Conference on Computer Vision,Munich,2018:3-19.
-
期刊类型引用(10)
1. 梁嘉楠,田慕琴,霍鹏飞. 基于RBF-PID的掘进机截齿动载荷平稳性控制方法研究. 煤炭技术. 2024(04): 264-269 . 百度学术
2. 王军亮. 纵轴式掘进机的横向和纵向随机振动响应分析. 矿业装备. 2024(05): 177-179 . 百度学术
3. 王鹏江,沈阳,宗凯,王东杰,吉晓冬,吴淼. 结合LSTM深度学习和模糊推理控制的巷道掘进机智能联合截割策略与方法. 煤炭学报. 2024(S2): 1195-1207 . 百度学术
4. 彭天好,储安圆,何兴川,张海舰,李长鹏. 悬臂式掘进机截割轨迹控制联合仿真研究. 机床与液压. 2023(08): 130-136 . 百度学术
5. 高亚男. 悬臂式掘进机关键结构的运动特性分析. 机械管理开发. 2023(06): 30-32 . 百度学术
6. 高鹏翔. EBZ160型掘进机智能化改造技术实践研究. 当代化工研究. 2023(18): 134-136 . 百度学术
7. 任燕,崔庚彦. 基于智能制造和大数据挖掘的农机数字化设计研究. 农机化研究. 2022(01): 233-236+241 . 百度学术
8. 吴鹏,万丽荣,逯振国. 截齿破碎煤岩力学特性及损伤研究. 矿业研究与开发. 2021(06): 143-148 . 百度学术
9. 柴仰军. EBZ160型掘进机截割减速机打齿研究. 机械管理开发. 2020(10): 101-102 . 百度学术
10. 赵红美,杨珍明. 基于多源数据融合的悬臂式掘进机截割载荷预测. 煤矿机械. 2020(10): 199-201 . 百度学术
其他类型引用(5)