基于多模态的井下登高作业专人扶梯检测方法

孙晴, 杨超宇

孙晴,杨超宇. 基于多模态的井下登高作业专人扶梯检测方法[J]. 工矿自动化,2024,50(5):142-150. DOI: 10.13272/j.issn.1671-251x.2024010068
引用本文: 孙晴,杨超宇. 基于多模态的井下登高作业专人扶梯检测方法[J]. 工矿自动化,2024,50(5):142-150. DOI: 10.13272/j.issn.1671-251x.2024010068
SUN Qing, YANG Chaoyu. A multi-modal detection method for holding ladders in underground climbing operations[J]. Journal of Mine Automation,2024,50(5):142-150. DOI: 10.13272/j.issn.1671-251x.2024010068
Citation: SUN Qing, YANG Chaoyu. A multi-modal detection method for holding ladders in underground climbing operations[J]. Journal of Mine Automation,2024,50(5):142-150. DOI: 10.13272/j.issn.1671-251x.2024010068

基于多模态的井下登高作业专人扶梯检测方法

基金项目: 国家自然科学基金项目(61873004)。
详细信息
    作者简介:

    孙晴(2000—),女,河南新乡人,硕士研究生,研究方向为煤矿井下不安全行为智能识别,E-mail:beryl2022@163.com

  • 中图分类号: TD67

A multi-modal detection method for holding ladders in underground climbing operations

  • 摘要: 目前大多数的井下人员不安全行为识别研究侧重于在计算机视觉上提高精度,但井下易出现遮挡、光照不稳定、反光等情况,仅采用计算机视觉技术难以实现对不安全行为的准确识别,尤其登高作业中的爬梯、扶梯等相似动作在识别过程中易被混淆,存在安全隐患。针对上述问题,提出一种基于多模态的井下登高作业专人扶梯检测方法。该方法从视觉和音频2个模态对监控视频数据进行分析。视觉模态方面,采用YOLOv8模型检测登高梯是否存在,如果存在,获得登高梯的位置坐标,并将视频段放入OpenPose算法中进行姿态估计,得到人体的各个骨骼关节点的特征,将这些骨骼关节点序列放入改进的时空注意图卷积网络(SAT−GCN)中,得到人体动作标签及其对应概率。音频模态方面,采用飞桨自动语言识别系统将语音转换为文本,使用双向编码器表示(BERT)模型对文本信息进行特征分析与提取,得到文本标签及其对应的概率。最后将视觉模态与音频模态得到的信息进行决策级融合,判断井下登高作业是否有专人扶梯。实验结果表明:基于骨架数据的动作识别中,优化后的SAT−GCN模型对于扶梯、爬梯、站立3种动作的识别精度分别提升了3.36%,2.83%,10.71%;基于多模态的检测方法比单模态方法具有更高的识别准确率,达到98.29%。
    Abstract: Currently, most research on recognizing unsafe behaviors of underground personnel focuses on improving precision through computer vision. However, underground areas are prone to occlusion, unstable lighting, and reflection, making it difficult to accurately recognize unsafe behaviors using computer vision technology alone. Especially, similar actions such as climbing ladders and holding ladders during climbing operations are easily confused during the recognition process, posing safety hazards. In order to solve the above problems, a multi-modal detection method for holding ladders in underground climbing operations is proposed. This method analyzes surveillance video data from two modalities: visual and audio. In terms of visual modality, the YOLOv8 model is used to detect the presence of ladder. If there is a ladder, the position coordinates of the ladder are obtained, and the video segment is put into the OpenPose algorithm for pose estimation to obtain the features of various skeletal joint points of the human body. These skeletal joint point sequences are then placed into improved spatial attention temporal graph convolutional networks(SAT-GCN) to obtain human action labels and their corresponding probabilities. In terms of audio modality, the PaddlePaddle automatic language recognition system is used to convert speech into text, and the bidirectional encoder representations from transformers (BERT) model is used to analyze and extract the features of text information, so as to obtain the text label and its corresponding probability. Finally, the information obtained from the visual and audio modalities is fused at the decision-making level to determine whether there is a dpersonnel holding ladders for underground climbing operations. The experimental results show that in action recognition based on skeleton data, the optimized SAT-GCN model improves the recognition precision of three types of actions: holding, climbing, and standing by 3.36%, 2.83%, and 10.71%, respectively. The multi-modal detection method has a higher recognition accuracy than the single modal method, reaching 98.29%.
  • 登高作业是煤矿井下一项常见任务,由于井下环境的独特性,矿工的不安全行为极有可能引发安全事故[1]。设置专人扶梯是煤矿井下登高作业中关键的安全措施[2],旨在防止登高作业人员在攀爬梯子或沿梯而下时发生意外情况。因此,有必要研究登高作业中有无专人扶梯的检测方法。

    传统的井下不安全行为的监督和检查方法通常依赖人工操作员来观察,存在人为错误、监控不到位和不及时等问题。为此,研究人员开始探索采用计算机视觉技术,通过摄像头和图像分析算法来实时监控井下人员工作状态,识别出不符合安全规程的行为。刘浩等[3]将煤矿井下不安全行为分为静态不安全行为、动态不安全行为和互动不安全行为,分别采用MobileNetV3神经网络、时空图卷积网络(Spatial Temporal Graph Convolutional Networks, ST−GCN)对静态和动态不安全行为进行识别,采用规则识别推理方法,通过设定规则,对互动不安全行为进行识别。饶天荣等[4]采用交叉注意力机制对提取的图像特征和人体关键点进行特征融合和拼接,得到行为识别特征。王宇等[5]对提取的RGB数据特征及骨骼数据特征进行早期融合与晚期融合,提高了井下人员不安全行为识别的准确率。赵登阁等[6]构造多尺度ST−GCN,并融合残差模块和轻量注意力模块,进行人体动作识别。Li Peilin等[7]提出了一种决策算法,对基于骨架数据和目标检测的识别结果进行决策,从而识别交互式不安全行为。Shi Xiaonan等[8]对图像数据进行去雾增强处理并优化姿态估计算法,采用ST−GCN进行不安全行为识别。

    目前大多数的井下人员不安全行为识别研究侧重于在计算机视觉上提高精度[9],但井下易出现遮挡、光照不稳定、反光等情况,仅采用计算机视觉技术难以实现对不安全行为的准确识别。尤其登高作业中的爬梯、扶梯等相似动作在识别过程中易被混淆。针对上述问题,笔者对ST−GCN[10-11]进行改进,并在识别过程中融合音频信息,采用多模态技术检测井下登高作业中存在的不安全行为。将视觉模态的信息与非视觉模态的信息相融合,以弥补视觉模态上的限制,提供更加全面的信息,提升井下登高作业专人扶梯的检测精度和可靠性。

    基于多模态的井下登高作业专人扶梯检测方法技术路线如图1所示。

    图  1  基于多模态的井下登高作业专人扶梯检测方法技术路线
    Figure  1.  Technical route of multi-modal detection method for holding ladders in underground climbing operations

    输入监控视频后,从视觉和音频2个模态对视频数据进行分析。由于井下登高作业有无专人扶梯属于人与登高梯之间的交互式行为,所以登高梯的识别与井下人员的动作识别都是必要的。视觉模态方面,采用目标检测算法YOLOv8检测登高梯是否存在,如果存在,获得登高梯的位置坐标,并将视频段放入OpenPose算法[12]中进行姿态估计,得到人体的各个骨骼关节点的特征,将这些骨骼关节点序列放入基于ST−GCN改进的时空注意图卷积网络(Spatial Attention Temporal Graph Convolutional Networks, SAT−GCN)中,通过骨骼关节点的运动特征建立时空特征图,对每次得到的特征进行分类操作,同时对多层时空图进行卷积操作,形成能更高效表示样本分类的特征图,得到人体动作标签及其对应概率[13]。音频模态方面,采用飞桨自动语言识别系统(PaddlePaddle Automatic Speech Recognition,PP−ASR)将语音转换为文本,使用双向编码器表示(Bidirectional Encoder Representations from Transformers, BERT)模型[14]对文本信息进行特征分析与提取,得到文本标签及其对应的概率。将视觉模态与音频模态得到的信息进行决策级融合,判断井下登高作业是否有专人扶梯。

    采用YOLOv8对自制的登高梯数据集进行训练。输入尺寸为640×640的图像,首先通过YOLOv8的主干(Backbone)部分对图像中的登高梯特征进行提取,该部分采用了梯度流丰富的C2f模块,有效提高了网络计算速度并降低了内存消耗;然后颈部(Neck)部分采用特征金字塔路径聚合网络(Path Aggregation Network,PANet)[15],通过自顶向下路径结合和自底向上特征传播对骨干网络提取的登高梯特征进行充分融合;最后通过检测头(Head)部分对登高梯进行识别并获取其位置信息。YOLOv8网络结构如图2所示。

    图  2  YOLOv8网络结构
    Figure  2.  Network architecture of YOLOv8

    由于井下环境较为复杂,且井下人员的同类行为在图像中会呈现不同效果,使用传统的图像识别技术难以对不同场景下多种姿态的人体动作进行分类。同一类动作中,人体的骨骼关节相对位置及其变化情况是相似的[16],且骨架数据对光照变化和背景噪声具有鲁棒性,因此本文采用基于骨骼数据的井下人员行为识别方式,采用OpenPose提取井下人员的骨骼关节点信息,其网络结构如图3所示,其中hw分别为特征图的高和宽。首先通过视觉几何组(Visual Geometry Group, VGG)网络提取井下图像的特征图F,将F传入2个并行的子分支中,分别对骨骼关节点的部分置信度图(Part Confidence Map, PCM)和部分亲和向量场(Part Affinity Fields, PAFs)进行t次迭代预测,从而获取井下人员关节部位的置信度映射S和亲和向量场L。PCM用于预测骨骼关节点的位置,PAFs用于描述不同关节点的亲和力,同一个体中的关节点具有较大亲和力,而不同个体中的关节点亲和力相对较小。

    图  3  OpenPose网络结构
    Figure  3.  Network architecture of OpenPose

    在迭代预测过程中,将t−1次迭代输出的特征结果与输入图像特征图F共同作为第t次迭代过程中网络的输入,通过不断迭代以获取更加准确的人体姿态表示。第1次迭代得到置信度映射$S^1=\rho^1(F) $和亲和向量场$L^1=\phi^1(F) $,第t次迭代得到的置信度映射${S}^{t} $和亲和向量场${L}^{t} $为

    $$ {S}^{t}={\rho }^{t}(F,{S}^{t-1},{L}^{t-1})\quad \forall t\geq 2 $$ (1)
    $$ {L}^{t}={\phi }^{t}(F,{S}^{t-1},{L}^{t-1})\quad \forall t\geq 2 $$ (2)

    式中:ρt(·),ϕt(·)为第t次迭代的卷积神经网络结构;${S}^{t-1} $为第t−1次迭代的置信度映射;Lt−1为第t−1次迭代的亲和向量场。

    通过对井下人员的置信度及亲和向量场进行协同分析,得到人体骨骼关节点,并构建骨架图,生成井下人员的姿态表示,如图4所示。

    图  4  井下人员骨骼关节点
    Figure  4.  Skeletal joint points for underground personnel

    将OpenPose与ST−GCN结合,通过运用人体骨骼关节点的运动特征,对视频中的人员动作进行分类[17]。ST−GCN以骨骼序列建立时空图,通过1个归一化层(Batch Normalization,BN)进行处理,然后由9个时空图卷积单元(B1−B9)提取人体骨架的时间特征和空间特征,接着通过全局平均池化层(Global Average Pooling,GAP)压缩时间和空间维度的信息,并通过全连接层和Softmax操作得出最终的动作分类结果。ST−GCN总体架构如图5所示。

    图  5  ST−GCN结构
    Figure  5.  Architecture of ST-GCN

    由于本文所需识别的爬梯和扶梯等动作较为相似,使用ST−GCN识别易出现混淆,为提升识别精度,本文在ST−GCN的每个时空图卷积单元中,引入空间注意力机制模块(Spatial Attention Module, SAM)[18],构建SAT−GCN。SAT−GCN的单个时空图卷积单元由空域图卷积、时域图卷积、残差结构和SAM组成,如图6所示。空域图卷积可从空域序列中提取单帧视频内的节点特征及节点间的关联信息,并将节点本身及其相邻节点特征的均值作为新的节点特征。时域图卷积可提取节点轨迹特征及时间上的序列关联信息。残差结构可防止网络在训练过程中出现过拟合。SAM能使模型自适应地学习不同动作中骨骼关节点的差异,更新人体各骨骼关节点的权重。

    图  6  SAT−GCN的单个时空图卷积单元组成
    Figure  6.  Composition of single space-time graph convolutional units in SAT-GCN

    SAM结构如图7所示。首先对输入的特征图进行平均池化及全局池化,生成2个代表不同信息的特征图。然后将2个特征图进行合并,并通过一个感受野较大的7×7卷积进行融合,最后再通过Sigmoid操作生成权重图,将其叠加回原始的输入特征图,以增强目标区域的表征。

    $$ {M_{\mathrm{S}}}\left( F \right) = \sigma ( {{f^{7 \times 7}}\left( {\left[ {A\left( F \right);Z\left( F \right)} \right]} \right)} ) $$ (3)

    式中:MSF)为空间注意力映射;σ(·)为Sigmoid函数;$f^{7 \times 7} $(·)为卷积核大小为7×7的卷积运算;A(·)为平均池化;Z(·)为最大池化。

    图  7  SAM结构
    Figure  7.  Structure of spatial attention module (SAM)

    利用改进后的SAT−GCN对由OpenPose生成的井下人员骨架图的关节坐标数据进行训练,通过训练后的模型识别井下人员动作。

    音频信息中包含井下人员的对话,通过语音识别技术获取对应文本数据,并使用自然语言处理技术分析文本中是否包含对于不安全行为的描述。

    当检测到登高梯时,基于PaddlePaddle模型的语音识别框架PP−ASR对当前所识别视频帧2 min内的音频进行语音识别,采用BERT模型对识别出的文本进行语义分析。以句子为单位作为BERT模型的输入,将句子序列中的第i个字转换为对应的文本向量Ei

    $$ \boldsymbol{E}_i=\boldsymbol{k}^i+\boldsymbol{g}^i+\boldsymbol{o}^i $$ (4)

    式中:ki为符号嵌入;gi为片段嵌入;oi为位置嵌入。

    通过双向的Transformer(TRM)对文本向量表示进行堆叠编码,生成融合整个文本信息的语言表征[19]。BERT模型结构如图8所示,其中E1E2,···,Ei为第i个字的文本向量表示,T1T2,···,Ti为第i个字输出的向量表示。

    图  8  BERT模型结构
    Figure  8.  Model architecture of BERT

    在BERT的预训练阶段,进行掩码语言建模(Mask Language Model, MLM)和下句预测(Next Sentence Prediction, NSP)2项预训练任务。预训练结束后,对预训练模型进行微调,使用处理过的自建文本数据集,调整构建的BERT分类模型参数,以适应文本分类任务的过程。使用训练好的BERT模型分析输入文本的语义,如果检测到该段文本语义为安全,输出安全的概率,否则输出不安全的概率。

    为了提高识别准确率,将视觉模态和音频模态的信息进行融合,以获取更全面的特征。决策级融合无需将不同模态数据进行对齐,往往更加高效。

    通过Dempster−Shafer方法[20]对不同传感器数据构建基于多模态融合的井下登高作业专人扶梯检测模型,首先获得不同模态数据对于“该登高作业存在安全隐患”命题支持的概率,再对这些概率使用正交和的方式进行运算,从而得到不同模态数据对该命题的综合支持情况。本文所获取的信息来源于视频传感器和声音传感器,采取Dempster−Shafer方法对视觉模态和音频模态信息进行融合,进而预测是否为登高作业安全行为。

    基于视觉模态的登高作业有无专人扶梯现象检测模型的输出为$ [P_1^1,P_1^2] $, 基于音频模态的登高作业有无专人扶梯现象检测模型的输出为$ [P_2^1,P_2^2] $,其中$ P_1^1 $,$ P_2^1 $为模型识别类别为危险的概率,$ P_1^2 $,$ P_2^2 $为模型识别类别为安全的概率。采用D−S证据理论对2种模态识别模型的检测结果进行融合处理。

    $$ {\textit{z}} = \mathop {\max }\limits_{c \in \left\{ {1,2} \right\}} (lP_1^cP_2^c) $$ (5)
    $$ l = {\left( {1 - \sum _{c = 1}^2P_1^cP_2^c} \right)^{ - 1}} $$ (6)
    $$ \sum _{c = 1,b \in \left\{ {1,2} \right\}}^2P_b^c = 1 $$ (7)

    式中:z为登高作业有无专人扶梯现象识别概率;c为危险等级,c=1为危险类别,c=2为安全类别;l为归一化常数;b为模态类型,b=1为视觉模态,b=2为音频模态。

    登高作业不安全行为判别流程如图9所示。视觉模态方面,当目标检测算法识别到登高梯时,记录登高梯锚框的坐标信息,并使用OpenPose检测是否存在人体骨骼关节点,如存在,则使用SAT−GCN模型分析OpenPose检测到的人体姿态关节点序列,识别人体动作。在基于SAT−GCN的输出结果中,当识别出1名井下人员做爬梯动作,则认定此时在进行登高作业,将继续判断是否有井下人员做扶梯动作。当同时识别出1名井下人员做扶梯动作,1名井下人员做爬梯动作,且2人的手部关节点都在所检测到的登高梯锚框范围内,则在视觉模态上判定为安全行为,并输出其得分。音频模态方面,当视觉模态检测到登高梯时,则提取当前时刻2 min的音频信息,并识别文本数据,使用训练好的BERT模型分析输入文本的语义,得到该段文本安全或不安全的标签及其对应的概率。一旦视频和音频任一模态的检测结果为不安全,则判定出现不安全行为。

    图  9  登高作业不安全行为判别流程
    Figure  9.  Recognition flow of unsafe behavior in climbing operations

    实验在Windows系统下进行,采用Python3.8框架,调用Python环境中的多个学习库对实验进行训练和测试。实验过程中使用的集成开发环境为PyCharm,计算平台CUDA版本为11.6,处理器采用Intel(R) Core(TM) i7−13700KF,显卡为NVIDIA GeForce RTX 3080。

    以淮南矿业(集团)有限责任公司潘二煤矿2023年部分监控视频作为数据源,收集井下不同场景、不同光照条件下登高作业的视频数据。后续所有实验数据都是基于该登高作业视频数据进行处理的。

    为判定井下登高作业有无专人扶梯,首先需识别是否存在登高梯。制作登高梯数据集,并使用该数据集对YOLOv8模型进行训练,使该模型对输入图像中是否存在登高梯进行智能识别。

    通过在登高作业视频数据中进行截取及在网上进行搜集,并经过数据增强后,获得登高梯数据集。包含不同角度、不同光线环境及有人员部分遮挡的登高梯图像共489张,70%作为训练集,30%作为测试集。

    使用登高梯数据集对YOLOv8模型进行训练,实验设置训练模型的迭代次数为100,训练集和测试集的批次大小都为4,算法优化器采用随机梯度下降法(Stochastic Gradient Descent,SGD),起始学习率设为0.01,将权重衰减正则项设为0.000 5,以防止在训练过程中出现过拟合现象。训练和验证过程中的边界框损失、分类损失及距离场损失结果如图10所示,可看出在进行100次迭代后,各损失都达到预期的最小值。

    图  10  可视化训练结果
    Figure  10.  Visualize training results

    采用平均精度均值(mean Average Precision, mAP)对模型进行评价,用于反映模型边界框中的目标类别和位置的准确性。YOLOv8模型在登高梯数据集上的mAP为0.995。

    训练完成后,对不同环境下登高梯进行识别,效果如图11所示。可看出在不同光线、不同角度的图像中,YOLOv8模型都能对登高梯进行准确识别。

    图  11  不同环境下对登高梯的识别效果
    Figure  11.  Recognition effects of ladder in different environments

    为检测文本中是否包含对于不安全行为的描述,需制作文本数据集,并使用该数据集训练BERT模型,使其对输入文本进行智能语义分析。

    以2 min为时间段,对登高作业视频数据进行语音截取,并进行语音识别和预处理操作,获得文本数据。删除每条文本中的无关信息后,给予每条文本对应的标签。其中,0表示不安全,1表示安全。文本分析的部分训练数据见表1。最终的文本数据集中共有400条数据,包含不安全样本216条,安全样本184条,其中80%作为训练集,20%作为测试集。

    表  1  部分文本训练数据
    Table  1.  Partial text training data
    数据标签
    你自己小心点上去就行,不用找人扶梯子,没必要的。
    我上次就是一个人上去的,没问题的。
    0
    我来帮你扶一下梯子吧。不用,我熟练得很,没事。0
    我现在要搬个梯子上去维修一下顶板的支架,你来帮我扶着吧。1
    那地面不太平整,梯子放不稳,我来帮你扶着。1
    下载: 导出CSV 
    | 显示表格

    使用文本数据集对BERT模型进行训练。模型训练参数设置如下:迭代次数为80;训练集和测试集的批次大小都为4;学习率为0.000 01。

    使用准确率作为该模型的评价指标,训练好的模型在测试集上的准确率为92.5%。

    制作登高作业不安全行为视频数据集,使用该数据集训练基于多模态融合的井下登高作业专人扶梯检测模型,使模型在检测到登高梯存在后,进行人体行为识别,并融合文本信息,从而判定井下登高作业有无专人扶梯。

    对登高作业视频数据以2 s为时间段进行截取,帧速率统一为30帧/s。整理好的数据共1 019条,包含专人扶梯动作327条、爬梯动作367条、站立动作325条,其中70%作为训练集,30%作为测试集。

    使用该数据集对井下登高作业有无专人扶梯行为识别模型进行训练。模型训练参数设置如下:迭代次数为80;训练集和测试集的批次大小都为16;优化器采用SGD;初始学习率为0.05,并使用权重衰减避免过拟合。

    训练完成后,对输入视频段进行智能识别,识别结果如图12所示。第1个窗口为原始的视频界面(Original Video),第2个窗口为人体骨架图(Pose Estimation),第3个窗口为动作识别的结果(Attention+Prediction),第4个窗口为人体骨架关节点的注意力机制(Attention+RGB)。

    图  12  井下登高作业有无专人扶梯行为识别结果
    Figure  12.  Recognition results of whether there is a personnel holding ladders in underground climbing operations

    添加了SAM的SAT−GCN模型与原ST−GCN模型对于不同动作的识别精度见表2。可看出SAT−GCN模型在不同动作上的识别精度均高于ST−GCN模型。2个模型的损失曲线如图13所示,可看出SAT−GCN模型的整体损失低于ST−GCN模型。

    表  2  模型对不同动作的识别精度对比
    Table  2.  Comparison of recognition precision of models on different actions %
    动作类别 ST−GCN SAT−GCN
    扶梯 94.31 97.67
    爬梯 72.89 75.72
    站立 75.00 85.71
    下载: 导出CSV 
    | 显示表格
    图  13  SAT−GCN模型与ST−GCN模型损失曲线
    Figure  13.  Loss curves of SAT-GCN model and ST-GCN model

    为进一步证明基于多模态融合的井下登高作业专人扶梯检测模型及SAT−GCN模型的有效性,将其与ST−GCN模型、VA−RNN模型[21]、2s−AGCN模型[22]在自建数据集上进行对比实验,准确率结果见表3。可看出SAT−GCN模型的准确率较ST−GCN模型高1.96%;基于多模态融合的井下登高作业专人扶梯检测模型的准确率较SAT−GCN,VA−RNN,2s−AGCN等单模态模型分别提高了15.94%,21.04%,13.32%,更适用于煤矿井下的不安全行为识别。

    表  3  模型在自建数据集上的实验对比
    Table  3.  Experimental comparison of models on self-builting datasets %
    模型 准确率
    ST−GCN 80.39
    SAT−GCN 82.35
    VA−RNN 77.25
    2s−AGCN 84.97
    基于多模态融合的井下登高作业专人扶梯检测模型 98.29
    下载: 导出CSV 
    | 显示表格

    1) 针对井下易出现遮挡、光照不稳定、反光等情况,采用多模态技术构建基于多模态融合的井下登高作业专人扶梯检测模型,将视频模态和音频模态信息进行融合,得到识别结果。

    2) 基于骨架数据的动作识别中,针对相似动作易被混淆的问题,对ST−GCN模型进行优化,优化后的SAT−GCN模型对于扶梯、爬梯、站立3种动作的识别精度分别提升了3.36%,2.83%,10.71%。

    3) 在自主建立的井下登高作业数据集上的实验结果表明,基于多模态融合的方法比单模态方法具有更高的识别准确率,达98.29%。

  • 图  1   基于多模态的井下登高作业专人扶梯检测方法技术路线

    Figure  1.   Technical route of multi-modal detection method for holding ladders in underground climbing operations

    图  2   YOLOv8网络结构

    Figure  2.   Network architecture of YOLOv8

    图  3   OpenPose网络结构

    Figure  3.   Network architecture of OpenPose

    图  4   井下人员骨骼关节点

    Figure  4.   Skeletal joint points for underground personnel

    图  5   ST−GCN结构

    Figure  5.   Architecture of ST-GCN

    图  6   SAT−GCN的单个时空图卷积单元组成

    Figure  6.   Composition of single space-time graph convolutional units in SAT-GCN

    图  7   SAM结构

    Figure  7.   Structure of spatial attention module (SAM)

    图  8   BERT模型结构

    Figure  8.   Model architecture of BERT

    图  9   登高作业不安全行为判别流程

    Figure  9.   Recognition flow of unsafe behavior in climbing operations

    图  10   可视化训练结果

    Figure  10.   Visualize training results

    图  11   不同环境下对登高梯的识别效果

    Figure  11.   Recognition effects of ladder in different environments

    图  12   井下登高作业有无专人扶梯行为识别结果

    Figure  12.   Recognition results of whether there is a personnel holding ladders in underground climbing operations

    图  13   SAT−GCN模型与ST−GCN模型损失曲线

    Figure  13.   Loss curves of SAT-GCN model and ST-GCN model

    表  1   部分文本训练数据

    Table  1   Partial text training data

    数据标签
    你自己小心点上去就行,不用找人扶梯子,没必要的。
    我上次就是一个人上去的,没问题的。
    0
    我来帮你扶一下梯子吧。不用,我熟练得很,没事。0
    我现在要搬个梯子上去维修一下顶板的支架,你来帮我扶着吧。1
    那地面不太平整,梯子放不稳,我来帮你扶着。1
    下载: 导出CSV

    表  2   模型对不同动作的识别精度对比

    Table  2   Comparison of recognition precision of models on different actions %

    动作类别 ST−GCN SAT−GCN
    扶梯 94.31 97.67
    爬梯 72.89 75.72
    站立 75.00 85.71
    下载: 导出CSV

    表  3   模型在自建数据集上的实验对比

    Table  3   Experimental comparison of models on self-builting datasets %

    模型 准确率
    ST−GCN 80.39
    SAT−GCN 82.35
    VA−RNN 77.25
    2s−AGCN 84.97
    基于多模态融合的井下登高作业专人扶梯检测模型 98.29
    下载: 导出CSV
  • [1] 张瑜,冯仕民,杨赛烽,等. 矿工不安全行为影响因素本体构建与推理研究[J]. 煤矿安全,2019,50(5):300-304.

    ZHANG Yu,FENG Shimin,YANG Saifeng,et al. Ontology construction and reasoning research on influencing factors of miners' unsafe behavior[J]. Safety in Coal Mines,2019,50(5):300-304.

    [2] 登高作业操作规程[EB/OL]. (2021-11-08)[2023-10-08]. https://www.mkaq.org/html/2021/11/08/593666.shtml.

    Operation procedures for climbingoperations[EB/OL]. (2021-11-08)[2023-10-08]. https://www.mkaq.org/html/2021/11/08/593666.shtml.

    [3] 刘浩,刘海滨,孙宇,等. 煤矿井下员工不安全行为智能识别系统[J]. 煤炭学报,2021,46(增刊2):1159-1169.

    LIU Hao,LIU Haibin,SUN Yu,et al. Intelligent recognition system of unsafe behavior of underground coal miners[J]. Journal of China Coal Society,2021,46(S2):1159-1169.

    [4] 饶天荣,潘涛,徐会军. 基于交叉注意力机制的煤矿井下不安全行为识别[J]. 工矿自动化,2022,48(10):48-54.

    RAO Tianrong,PAN Tao,XU Huijun. Unsafe action recognition in underground coal mine based on cross-attention mechanism[J]. Journal of Mine Automation,2022,48(10):48-54.

    [5] 王宇,于春华,陈晓青,等. 基于多模态特征融合的井下人员不安全行为识别[J]. 工矿自动化,2023,49(11):138-144.

    WANG Yu,YU Chunhua,CHEN Xiaoqing,et al. Recognition of unsafe behaviors of underground personnel based on multi modal feature fusion[J]. Journal of Mine Automation,2023,49(11):138-144.

    [6] 赵登阁,智敏. 用于人体动作识别的多尺度时空图卷积算法[J]. 计算机科学与探索,2023,17(3):719-732. DOI: 10.3778/j.issn.1673-9418.2106102

    ZHAO Dengge,ZHI Min. Spatial multiple-temporal graph convolutional neural network for human action recognition[J]. Journal of Frontiers of Computer Science and Technology,2023,17(3):719-732. DOI: 10.3778/j.issn.1673-9418.2106102

    [7]

    LI Peilin,WU Fan,XUE Shuhua,et al. Study on the interaction behaviors identification of construction workers based on ST-GCN and YOLO[J]. Sensors,2023,23(14). DOI: 10.3390/S23146318.

    [8]

    SHI Xiaonan,HUANG Jian,HUANG Bo. An underground abnormal behavior recognition method based on an optimized Alphapose-ST-GCN[J]. Journal of Circuits,Systems and Computers,2022,31(12). DOI: 10.1142/S0218126622502140.

    [9] 苏晨阳,武文红,牛恒茂,等. 深度学习的工人多种不安全行为识别方法综述[J]. 计算机工程与应用,2024,60(5):30-46.

    SU Chenyang,WU Wenhong,NIU Hengmao,et al. Review of deep learning approaches for recognizing multiple unsafe behaviors in workers[J]. Computer Engineering and Applications,2024,60(5):30-46.

    [10]

    YAN Sijie,XIONG Yuanjun,LIN Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]. AAAI Conference on Artificial Intelligence,New Orleans,2018:7444-7452.

    [11]

    SONG Sijie,LAN Cuiling,XING Junliang,et al. Spatio-temporal attention-based LSTM networks for 3D action recognition and detection[J]. IEEE Transactions on Image Processing,2018,27(7):3459-3471. DOI: 10.1109/TIP.2018.2818328

    [12]

    CAO Zhe,SIMON T,WEI S E,et al. Realtime multi-person 2D pose estimation using part affinity fields[C]. IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,2017:1302-1310.

    [13] 许奇珮. 基于ST−GCN的人体骨架动作识别方法研究[D]. 长春:长春工业大学,2023.

    XU Qipei. Research on human skeleton action recognition method based on ST-GCN[D]. Changchun:Changchun University of Technology,2023.

    [14]

    DEVLIN J,CHANG Mingwei,LEE K,et al. BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL]. (2018-10-11)[2023-10-08]. https://doi.org/10.48550/arXiv.1810.04805.

    [15]

    LIU Shu,QI Lu,QIN Haifeng,et al. Path aggregation network for instance segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:8759-8768.

    [16] 李雯静,刘鑫. 基于深度学习的井下人员不安全行为识别与预警系统研究[J]. 金属矿山,2023(3):177-184.

    LI Wenjing,LIU Xin. Research on underground personnel unsafe behavior identification and early warning system based on deep learning[J]. Metal Mine,2023(3):177-184.

    [17] 刘耀,焦双健. ST−GCN在建筑工人不安全动作识别中的应用[J]. 中国安全科学学报,2022,32(4):30-35.

    LIU Yao,JIAO Shuangjian. Application of ST-GCN in unsafe action identification of construction workers[J]. China Safety Science Journal,2022,32(4):30-35.

    [18]

    WOO S,PARK J,LEE J Y,et al. CBAM:convolutional block attention module[C]. European Conference on Computer Vision,Cham,2018:3-19.

    [19] 景永霞,苟和平,刘强. 基于BERT语义分析的短文本分类研究[J]. 兰州文理学院学报(自然科学版),2023,37(6):46-49.

    JING Yongxia,GOU Heping,LIU Qiang. Classification study on online short text based on BERT semantic analysis[J]. Journal of Lanzhou University of Arts and Science(Natural Sciences),2023,37(6):46-49.

    [20] 姜长三,曾桢,万静. 多源信息融合研究进展综述[J]. 现代计算机,2023,29(18):1-9,29.

    JIANG Changsan,ZENG Zhen,WAN Jing. A review of research advances in multi-source information fusion[J]. Modern Computer,2023,29(18):1-9,29.

    [21]

    ZHANG Pengfei,LAN Cuiling,XING Junliang,et al. View adaptive neural networks for high performance skeleton-based human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(8):1963-1978. DOI: 10.1109/TPAMI.2019.2896631

    [22]

    SHI Lei,ZHANG Yifan,CHENG Jian,et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Long Beach,2019:12018-12027.

图(13)  /  表(3)
计量
  • 文章访问数:  115
  • HTML全文浏览量:  22
  • PDF下载量:  21
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-01-21
  • 修回日期:  2024-05-19
  • 网络出版日期:  2024-06-12
  • 刊出日期:  2024-05-29

目录

/

返回文章
返回