基于多模态特征融合的井下人员不安全行为识别

王宇, 于春华, 陈晓青, 宋家威

王宇,于春华,陈晓青,等. 基于多模态特征融合的井下人员不安全行为识别[J]. 工矿自动化,2023,49(11):138-144. DOI: 10.13272/j.issn.1671-251x.2023070055
引用本文: 王宇,于春华,陈晓青,等. 基于多模态特征融合的井下人员不安全行为识别[J]. 工矿自动化,2023,49(11):138-144. DOI: 10.13272/j.issn.1671-251x.2023070055
WANG Yu, YU Chunhua, CHEN Xiaoqing, et al. Recognition of unsafe behaviors of underground personnel based on multi modal feature fusion[J]. Journal of Mine Automation,2023,49(11):138-144. DOI: 10.13272/j.issn.1671-251x.2023070055
Citation: WANG Yu, YU Chunhua, CHEN Xiaoqing, et al. Recognition of unsafe behaviors of underground personnel based on multi modal feature fusion[J]. Journal of Mine Automation,2023,49(11):138-144. DOI: 10.13272/j.issn.1671-251x.2023070055

基于多模态特征融合的井下人员不安全行为识别

基金项目: 国家自然科学基金项目(51174110)。
详细信息
    作者简介:

    王宇(1997—),男,江苏扬州人,硕士研究生,主要研究方向为智能矿山,E-mail:wangy_sd@126.com

    通讯作者:

    陈晓青(1967—),男,辽宁鞍山人,教授,博士,主要从事数字矿山、采矿工程与工艺方面的教学和科研工作,E-mail: 39586490@qq.com

  • 中图分类号: TD67

Recognition of unsafe behaviors of underground personnel based on multi modal feature fusion

  • 摘要: 采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了一种基于多模态特征融合的井下人员不安全行为识别方法。通过SlowOnly网络对RGB模态特征进行提取;使用YOLOX与Lite−HRNet网络获取骨骼模态数据,采用PoseC3D网络对骨骼模态特征进行提取;对RGB模态特征与骨骼模态特征进行早期融合与晚期融合,最后得到井下人员不安全行为识别结果。在X−Sub标准下的NTU60 RGB+D公开数据集上的实验结果表明:在基于单一骨骼模态的行为识别模型中,PoseC3D拥有比GCN(图卷积网络)类方法更高的识别准确率,达到93.1%;基于多模态特征融合的行为识别模型对比基于单一骨骼模态的识别模型拥有更高的识别准确率,达到95.4%。在自制井下不安全行为数据集上的实验结果表明:基于多模态特征融合的行为识别模型在井下复杂环境下识别准确率仍最高,达到93.3%,对相似不安全行为与多人不安全行为均能准确识别。
    Abstract: The use of artificial intelligence technology for real-time recognition of underground personnel's behavior is of great significance for ensuring safe production in mines. The RGB modal based behavior recognition methods is susceptible to video image background noise. The bone modal based behavior recognition methods lacks visual feature information of humans and objects. In order to solve the above problems, a multi modal feature fusion based underground personnel unsafe behavior recognition method is proposed by combining the two methods. The SlowOnly network is used to extract RGB modal features. The YOLOX and Lite HRNet networks are used to obtain bone modal data. The PoseC3D network is used to extract bone modal features. The early and late fusion of RGB modal features and bone modal features are performed. The recognition results for unsafe behavior of underground personnel are finally obtained. The experimental results on the NTU60 RGB+D public dataset under the X-Sub standard show the following points. In the behavior recognition model based on a single bone modal, PoseC3D has a higher recognition accuracy than GCN (graph convolutional network) methods, reaching 93.1%. The behavior recognition model based on multimodal feature fusion has a higher recognition accuracy than the recognition model based on a single bone modal, reaching 95.4%. The experimental results on a self-made underground unsafe behavior dataset show that the behavior recognition model based on multimodal feature fusion still has the highest recognition accuracy in complex underground environments, reaching 93.3%. It can accurately recognize similar unsafe behaviors and multiple unsafe behaviors.
  • 由于井下作业环境复杂多变,很容易存在安全隐患,从而导致矿井安全事故[1]。调查结果显示,矿工的不安全行为是导致矿井事故发生的主要原因,我国重大矿井事故中,超过90%是由人为失误引起的[2]。因此,对井下人员的不安全行为进行识别分析,对保证矿井安全生产具有重要意义。随着人工智能技术的发展与智能矿山的建设,人工智能技术被运用于矿山的生产和监管中[3]。采用人工智能技术对井下人员的行为进行实时识别,能减轻人工负担,提高识别效率,从而减少矿井事故的发生。

    作为计算机视觉中的热门研究方向,人体行为识别可分为基于行为识别的方法[4]、基于时序动作检测的方法[5]、基于时空动作检测的方法[6]、基于骨骼点动作识别的方法[7]。随着矿山智能化、智慧化的推进,人体行为识别技术被应用到井下人员行为识别中。党伟超等[8]通过改进传统的双流卷积神经网络,对井下配电室巡检行为进行识别检测,具有较高的准确率,但在多人巡检的场景下会出现误识别等问题。刘浩等[9]采用OpenPose神经网络对人体骨骼关键点进行提取,并将提取到的信息输入ST−GCN(Spatial Temporal Graph Convolutional Network,时空图卷积网络)得到识别结果,实现了对井下多种不安全行为的识别。黄瀚等[10]提出了DA−GCN(Dynamic Attention and Multi-layer Perception Graph Convolutional Network,动态注意力与多层感知图卷积网络)并用于煤矿人员行为识别,在提高模型泛化力的同时,也提高了识别精度。

    基于RGB模态数据,能获得丰富的人与物体外观特征信息,但井下开采过程中会产生大量粉尘,加上井下环境复杂、光照不足,使得采集到的RGB视频图像背景噪声增多[11]。这些噪声会影响RGB模态特征提取与行为识别。基于骨骼模态的行为识别方法能降低无关背景噪声的影响,但缺乏人与物体的外观特征信息。因此,本文采用多模态特征融合方法,将从RGB模态与骨骼模态中提取的特征进行融合,对视频中人员的行为进行识别,提高井下人员不安全行为识别准确率。

    基于多模态特征融合的行为识别模型框架如图1所示。该模型由2层网络组成,分别处理RGB模态与骨骼模态的数据。对于RGB模态的输入视频数据,通过SlowOnly网络[12]进行特征提取。对于骨骼模态的数据,先通过YOLOX算法[13]对输入的RGB视频数据进行人体目标检测,再使用Lite−HRNet(Lightweight High-Resolution Network,轻量级高分辨率网络)[14]对目标检测结果进行人体姿态估计,获取人体2D骨骼关键点数据,从而得到骨骼模态数据;以2D人体骨骼关键点生成对应的2D关键点热图,并将这些热图按帧堆叠生成紧凑的3D热图堆叠,输入PoseC3D(Pose Convolutional 3D Network)网络[15]进行特征提取。在特征提取期间,SlowOnly与PoseC3D进行特征的早期融合,进行特征提取后,对提取到的2种模态特征进行晚期融合,从而完成RGB模态与骨骼模态的特征融合,最后得到行为识别结果。

    图  1  基于多模态特征融合的行为识别模型框架
    Figure  1.  Behavior recognition model framework based on multimodal feature fusion

    YOLOX目标检测算法在YOLOv3算法[16]的基础上进行了改进,在主干网络中加入Focus结构,解耦预测分支,取消先验框,动态匹配正样本。Focus结构如图2所示,对图像每隔一个像素点取一个值,得到4个特征层,相当于输入图像的通道数扩充了4倍,有效集中了图像的宽高信息。解耦预测分支是指将分类与回归分开实现,在预测时合并,可提高模型的收敛速度与预测精度。取消先验框是指将原来网络中的3组先验框减少为1组,即直接预测目标检测框的左上角坐标及高宽,可减少网络参数量,提高网络性能。动态匹配正样本是指根据不同目标设定不同的正样本数量,从全局角度进行最优分配,从而大大缩短训练时间,提高运算速度。

    图  2  Focus结构
    Figure  2.  Structure of Focus

    以上改进使YOLOX目标检测网络的参数量大大减少,同时提高了检测的精度与速度。本文使用训练好的YOLOX网络对人体目标进行检测,对输入图像中的人员进行定位和标志。

    人体骨骼关键点检测是指通过人体姿态估计算法,从输入图像中提取人体骨骼关键点对应的坐标位置。基于COCO(Common Objects in Context)数据集[17]的人体17个骨骼关键点及其对应位置名称如图3所示。目前人体姿态估计算法可分为自顶向下式和自底向上式2类。自顶向下式姿态估计算法先对图像中的人体进行目标检测,找到每个人对应的位置,再对每个人体目标进行姿态估计,找到对应的骨骼关键点位置。该算法检测准确度较高,但检测速度会受到一定影响。自底向上式姿态估计算法则是直接检测出图像中所有的骨骼关键点位置,然后通过聚类对属于同一个人体目标的骨骼关键点进行关联,生成每个人体目标的骨架。由于不需要先对人体目标进行检测,该算法检测速度较快,但准确度不及自顶向下式算法。

    图  3  人体骨骼关键点及其对应名称
    Figure  3.  Key points of the human skeleton and the corresponding names

    基于骨骼模态数据的人体行为识别效果受提取到的人体关键点质量影响较大,因此,要求姿态估计网络有较高的识别精度。同时,井下不安全行为识别要求有一定的实时性,因此,对姿态估计网络的识别速度也有一定要求。Lite−HRNet是HRNet(High-Resolution Network,高分辨率网络)[18]的轻量化模型,属于自顶向下式姿态估计算法。Lite−HRNet先将轻量化网络Shufflenet[19]中的Shuffle Block与原有HRNet相结合,使整个网络轻量化;再用条件通道加权操作替换Shuffle Block中的1×1卷积操作,以降低计算量。以上操作使得Lite−HRNet的计算量大大减少,加快了网络检测速度,同时由于保持了HRNet的高分辨率特征层,使网络能够获得足够多的特征信息和位置信息,提高了人体骨骼关键点检测精度,满足了行为识别网络对人体骨骼关键点质量与识别速度的要求。

    基于SlowFast网络的慢速支流SlowOnly网络进行RGB模态特征提取,SlowOnly网络结构如图4所示。SlowOnly网络的帧采样速率较低,即输入帧数较少,但分辨率较高。这样能够使网络更好地从RGB模态中提取出相应的空间特征。SlowOnly网络在最后2个ResNet Layer(残差网络层)使用了3D卷积,而前面几个ResNet Layer都是2D卷积。特征图经过前面多次卷积后,拥有更大的感受野,网络能够从中提取到足够的时间特征信息。最后经过Global Average Pooling(全局平均池化)与Fully Connected Layer(全连接层),得到基于RGB模态的行为识别结果。

    图  4  SlowOnly网络结构
    Figure  4.  SlowOnly network structure

    大部分基于骨骼模态的行为识别都采用GCN(Graph Convolutional Network,图卷积网络)及其各种改进方法。人体的骨架图由骨骼关键点连接形成,因此十分适合使用GCN处理。ST−GCN将GCN与TCN(Temporal Convolutional Network,时间卷积网络)相结合,对于输入的骨架图序列数据,通过GCN提取空间维度上的特征信息,通过TCN提取时间维度上的特征信息,将2种特征融合并进行分类,识别出具体的行为。基于GCN的行为识别方法存在如下缺点:对骨架图序列数据中的噪声较敏感,噪声对识别结果的影响较大;在多模态数据融合学习中,GCN与使用其他模态的模型之间难以进行特征融合;对多人场景的行为识别支持较差。

    本文采用的PoseC3D是一种基于3D−CNN(3D-Convolutional Neural Network,三维卷积神经网络)的行为识别模型。不同于GCN的是,PoseC3D采用由骨骼关键点数据生成的热图堆叠数据作为输入。在进行姿态估计得到人体的骨骼关键点坐标后,以(xk, yk, ck)的形式储存,其中(xk, yk)为所预测的关键点坐标,ck为该关键点预测的置信度。以(xk, yk)为中心,ck为最大值,以高斯分布的形式生成对应的关键点热图$ h\left(x,y\right) $,其公式为

    $$ h\left(x,y\right)={{\mathrm{exp}}}\left({-\frac{{\left(x-{x}_{{\mathrm{k}}}\right)}^{2}+{\left(y-{y}_{{\mathrm{k}}}\right)}^{2}}{2{\sigma }^{2}}}\right){c}_{{\mathrm{k}}} $$ (1)

    式中σ为高斯分布的标准差。

    同理,也能以高斯分布的形式生成2个关键点间骨骼的对应热图,其公式为

    $$ h\left(x,y\right)={{\mathrm{exp}}}\left({-\frac{D^{2}{\left(\left(x,y\right),s\left[{a}_{{\mathrm{k}}},{b}_{{\mathrm{k}}}\right]\right)}}{2{\sigma }^{2}}}\right)\mathrm{min}\left({c}_{{a}_{{\mathrm{k}}}},{c}_{{b}_{{\mathrm{k}}}}\right) $$ (2)

    式中:D(·)为距离计算函数,用于计算点(x, y)与骨骼线段s[ak, bk]之间的距离;akbk为骨骼两端的关键点;${c}_{{a}_{{\mathrm{k}}}} $,${c}_{{b}_{{\mathrm{k}}}} $为akbk两点的置信度。

    使用井下人员骨骼关键点生成的关键点热图与骨骼热图如图5所示。

    图  5  关键点热图与骨骼热图生成结果
    Figure  5.  Key point heat map and skeleton heat map generation results

    PoseC3D行为识别模型结构如图6所示。模型需输入尺寸为K×T×H×W的三维热图堆叠,其中K为骨骼关键点数量,T为参与热图堆叠的二维关键点热图数量,即视频帧数,HW分别为热图的高与宽。先经过多个卷积操作与多个ResNet Layer,再通过全局平均池化,最后经全连接层输出骨骼模态下的行为分类。

    图  6  PoseC3D行为识别模型结构
    Figure  6.  Structure of PoseC3D behavior recognition model

    RGB模态与骨骼模态的特征融合模型结构如图7所示,2条支流网络分别是提取RGB模态特征的SlowOnly网络与提取骨骼模态特征的PoseC3D网络。RGB模态特征提取支流能提供更多的空间信息,骨骼模态特征提取支流的输入拥有更多的通道数,即输入帧率更高,这能提供更多的运动信息。在训练特征融合模型之前,对2条支流网络分别进行预训练,并用训练得到的权重来初始化特征融合模型,使特征融合模型收敛速度提高。多模态特征融合采用早期融合与晚期融合2种方式。早期融合是在模型的前期特征提取阶段,在ResNet Layer2与ResNet Layer3之后,通过双向的横向连接进行2种模态间的特征融合。对比单向的横向连接,双向的连接能使整个融合模型更好地学习到不同模态的时空特征,使2个网络进行信息互补。晚期融合则是在最后对2个网络的预测结果进行融合,输出行为分类结果。

    图  7  多模态特征融合模型结构
    Figure  7.  Structure of multimodal feature fusion model

    分别在公开行为识别数据集NTU60 RGB+D[20]与自制井下不安全行为数据集上进行测试验证。NTU60 RGB+D数据集是由新加坡南洋理工大学发表的公开行为识别数据集,由40名演员参与拍摄,包含60类行为,共56 880个行为样本视频。该数据集包含2种标准,X−Sub与X−View。X−Sub表示训练集与测试集按不同演员分配,其中20名演员的行为视频作为训练集,剩余20名演员的视频作为测试集。X−View则是按不同的拍摄角度来划分训练集与测试集。

    自制井下不安全行为数据集采集自矿井下实际拍摄视频,从固定机位对井下人员的10类不安全行为进行采集,不安全行为类别及含义见表1。共采集了600段视频,每类不安全行为有60段视频,每段视频持续8 s左右,帧速率统一为30帧/s,其中75%作为训练集,25%作为测试集。

    表  1  不安全行为类别及含义
    Table  1.  Categories and meanings of unsafe behaviors
    行为类别行为含义
    抽烟工作区域违规吸烟
    脱安全帽工作区域违规摘下安全帽
    脱工作服工作区域违规脱下工作服
    跌倒跌倒受伤
    躺倒工作区域睡岗
    奔跑奔跑追逐作业
    踢踹设备踢作业设备
    翻越围栏违规翻越围栏
    扒车违规扒矿车
    打架打架斗殴
    下载: 导出CSV 
    | 显示表格

    实验平台基于Ubuntu 18.04操作系统,编程语言为Python3.8,深度学习框架Pytorch版本为1.10.0,计算平台CUDA版本为11.3,处理器为Intel Xeon Gold 6271,显卡为Nvidia Tesla P100−16G,内存为48 GiB。

    分别在公开行为识别数据集NTU60 RGB+D与自制井下不安全行为数据集上对基于多模态特征融合的行为识别模型进行验证,并与基于单一骨骼模态的ST−GCN、2S−AGCN(Two-Stream Adaptive Graph Convolutional Network,双流自适应图卷积网络)[21]、PoseC3D行为识别模型进行对比。训练开始前,通过预训练好的YOLOX与Lite−HRNet模型从数据集视频中提取人体骨骼点数据,作为识别模型的输入。行为识别模型训练参数设置如下:算法优化器采用SGD(Stochastic Gradient Descent,随机梯度下降法),初始学习率为0.1,采用余弦退火算法调整学习率,权值衰减系数为0.000 1,动量值为0.9,批处理大小为8,训练轮数为160。按照设置好的参数训练模型,并以行为识别模型在测试集上的最高准确率作为评价指标。

    在X−Sub标准下的NTU60 RGB+D数据集上实验验证,结果见表2。可看出,在基于单一骨骼模态的行为识别模型中,PoseC3D的识别准确率高于GCN类方法,达到93.1%。这是因为GCN类方法更易受骨骼模态数据中的噪声影响。基于多模态特征融合的行为识别模型的识别准确率比基于单一骨骼模态的行为识别模型高,达到95.4%。这是因为基于单一骨骼模态的行为识别模型注重提取人的运动特征,忽视了人与场景的外观特征,而基于多模态特征融合的行为识别模型能同时提取人的运动特征与外观特征。

    表  2  不同行为识别模型对比实验结果
    Table  2.  Comparison experimental results of different behavior recognition models
    识别模型识别准确率/%
    ST−GCN81.5
    2S−AGCN88.5
    PoseC3D93.1
    融合的
    行为识别模型
    95.4
    下载: 导出CSV 
    | 显示表格

    在公共数据集上的实验基本验证了本文融合模型支流网络PoseC3D的优秀识别能力,对比基于单一骨骼模态行为识别模型,基于多模态特征融合的行为识别模型拥有更好的特征提取能力与更高的识别准确率。

    在自制井下不安全行为数据集上进行实验验证,不同行为识别模型在测试集上的识别准确率随训练轮数的变化如图8所示。可看出,随着训练轮数的增加,各模型准确率均增加。基于多模态特征融合的行为识别模型在第140轮时收敛至93.3%,基于单一骨骼模态的ST−GCN模型在第150轮时收敛至77.3%,2S−AGCN模型在第140轮收敛至82.6%,PoseC3D模型在第160轮收敛至90.6%。上述结果表明,在井下不安全行为识别背景下,基于多模态特征融合的行为识别模型仍有较高的识别准确率,高于单一骨骼模态的行为识别模型,更适用于井下复杂环境下的人体行为识别。

    图  8  不同行为识别模型准确率
    Figure  8.  Accuracy of different behavior recognition models

    基于多模态特征融合的行为识别模型对井下不安全行为的部分识别结果如图9所示。可看出模型对较为相似的扒车与翻越围栏行为做出了准确的区分与识别,在多人识别场景下,对多人脱安全帽行为也能够准确识别。

    图  9  基于多模态特征融合的行为识别结果
    Figure  9.  Behavior recognition results based on multimodal feature fusion

    1) 针对井下复杂环境下人员不安全行为识别的问题,采用多模态特征融合的方法构建行为识别模型。通过SlowOnly网络提取RGB模态数据特征;采用YOLOX与Lite−HRNet来获取骨骼模态数据,并用PoseC3D网络提取骨骼模态数据特征;对提取到的RGB模态特征与骨骼模态特征进行早期融合与晚期融合,得到井下人员不安全行为识别结果。

    2) 在X−Sub标准下的NTU60 RGB+D公开数据集上的实验结果表明:在基于单一骨骼模态的行为识别模型中,PoseC3D的识别准确率比GCN类方法高,达到93.1%;对比基于单一骨骼模态的行为识别模型,基于多模态特征融合的行为识别模型拥有更高的识别准确率,达到95.4%。

    3) 在自制井下不安全行为数据集上的实验结果表明,在井下复杂环境下,基于多模态特征融合的行为识别模型识别准确率仍然最高,达到93.3%,对相似不安全行为与多人不安全行为均能准确识别。

  • 图  1   基于多模态特征融合的行为识别模型框架

    Figure  1.   Behavior recognition model framework based on multimodal feature fusion

    图  2   Focus结构

    Figure  2.   Structure of Focus

    图  3   人体骨骼关键点及其对应名称

    Figure  3.   Key points of the human skeleton and the corresponding names

    图  4   SlowOnly网络结构

    Figure  4.   SlowOnly network structure

    图  5   关键点热图与骨骼热图生成结果

    Figure  5.   Key point heat map and skeleton heat map generation results

    图  6   PoseC3D行为识别模型结构

    Figure  6.   Structure of PoseC3D behavior recognition model

    图  7   多模态特征融合模型结构

    Figure  7.   Structure of multimodal feature fusion model

    图  8   不同行为识别模型准确率

    Figure  8.   Accuracy of different behavior recognition models

    图  9   基于多模态特征融合的行为识别结果

    Figure  9.   Behavior recognition results based on multimodal feature fusion

    表  1   不安全行为类别及含义

    Table  1   Categories and meanings of unsafe behaviors

    行为类别行为含义
    抽烟工作区域违规吸烟
    脱安全帽工作区域违规摘下安全帽
    脱工作服工作区域违规脱下工作服
    跌倒跌倒受伤
    躺倒工作区域睡岗
    奔跑奔跑追逐作业
    踢踹设备踢作业设备
    翻越围栏违规翻越围栏
    扒车违规扒矿车
    打架打架斗殴
    下载: 导出CSV

    表  2   不同行为识别模型对比实验结果

    Table  2   Comparison experimental results of different behavior recognition models

    识别模型识别准确率/%
    ST−GCN81.5
    2S−AGCN88.5
    PoseC3D93.1
    融合的
    行为识别模型
    95.4
    下载: 导出CSV
  • [1] 吴爱祥,王勇,张敏哲,等. 金属矿山地下开采关键技术新进展与展望[J]. 金属矿山,2021(1):1-13. DOI: 10.19614/j.cnki.jsks.202101001

    WU Aixiang,WANG Yong,ZHANG Minzhe,et al. New development and prospect of key technology in underground mining of metal mines[J]. Metal Mine,2021(1):1-13. DOI: 10.19614/j.cnki.jsks.202101001

    [2] 张涵,王峰. 基于矿工不安全行为的煤矿生产事故分析及对策[J]. 煤炭工程,2019,51(8):177-180.

    ZHANG Han,WANG Feng. Countermeasure and analysis on accidents of mines based on staff's unsafe behaviors[J]. Coal Engineering,2019,51(8):177-180.

    [3] 李国清,王浩,侯杰,等. 地下金属矿山智能化技术进展[J]. 金属矿山,2021(11):1-12. DOI: 10.19614/j.cnki.jsks.202111001

    LI Guoqing,WANG Hao,HOU Jie,et al. Progress of intelligent technology in underground metal mines[J]. Metal Mine,2021(11):1-12. DOI: 10.19614/j.cnki.jsks.202111001

    [4]

    WANG Xiaolong,GIRSHICK R,GUPTA A,et al. Non-local neural networks[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:7794-7803.

    [5]

    LIN Tianwei,ZHAO Xu,SU Haisheng,et al. BSN:boundary sensitive network for temporal action proposal generation[C]. European Conference on Computer Vision,Munich,2018:3-21.

    [6]

    GU Chunhui,SUN Chen,ROSS D A,et al. AVA:a video dataset of spatio-temporally localized atomic visual actions[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:6047-6056.

    [7]

    YAN Sijie,XIONG Yuanjun,LIN Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]. AAAI Conference on Artificial Intelligence,New Orleans,2018:7444-7452.

    [8] 党伟超,张泽杰,白尚旺,等. 基于改进双流法的井下配电室巡检行为识别[J]. 工矿自动化,2020,46(4):75-80. DOI: 10.13272/j.issn.1671-251x.2019080074

    DANG Weichao,ZHANG Zejie,BAI Shangwang,et al. Inspection behavior recognition of underground power distribution room based on improved two-stream CNN method[J]. Industry and Mine Automation,2020,46(4):75-80. DOI: 10.13272/j.issn.1671-251x.2019080074

    [9] 刘浩,刘海滨,孙宇,等. 煤矿井下员工不安全行为智能识别系统[J]. 煤炭学报,2021,46(增刊2):1159-1169. DOI: 10.13225/j.cnki.jccs.2021.0670

    LIU Hao,LIU Haibin,SUN Yu,et al. Intelligent recognition system of unsafe behavior of underground coal miners[J]. Journal of China Coal Society,2021,46(S2):1159-1169. DOI: 10.13225/j.cnki.jccs.2021.0670

    [10] 黄瀚,程小舟,云霄,等. 基于DA-GCN的煤矿人员行为识别方法[J]. 工矿自动化,2021,47(4):62-66. DOI: 10.13272/j.issn.1671-251x.17721

    HUANG Han,CHENG Xiaozhou,YUN Xiao,et al. DA-GCN-based coal mine personnel action recognition method[J]. Industry and Mine Automation,2021,47(4):62-66. DOI: 10.13272/j.issn.1671-251x.17721

    [11] 曹虎晨,姚善化,王仲根. 基于边界约束的煤矿井下尘雾图像去雾算法[J]. 工矿自动化,2022,48(6):139-146.

    CAO Huchen,YAO Shanhua,WANG Zhonggen. Defogging algorithm of underground coal mine dust and fog image based on boundary constraint[J]. Journal of Mine Automation,2022,48(6):139-146.

    [12]

    FEICHTENHOFER C,FAN Haoqi,MALIK J,et al. SlowFast networks for video recognition[C]. IEEE/CVF International Conference on Computer Vision,Seoul,2019:6201-6210.

    [13]

    GE Zheng,LIU Songtao,WANG Feng,et al. YOLOX:exceeding YOLO series in 2021[EB/OL]. [2023-06-20]. https://arxiv.org/abs/2107.08430.

    [14]

    YU Changqian,XIAO Bin,GAO Changxin,et al. Lite-HRNet:a lightweight high-resolution network[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:10440-10450.

    [15]

    DUAN Haodong,ZHAO Yue,CHEN Kai,et al. Revisiting skeleton-based action recognition[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,New Orleans,2022:2959-2968.

    [16]

    REDMON J,FARHADI A. YOLOv3:an incremental improvement[EB/OL]. [2023-06-20]. https://arxiv.org/abs/1804.02767.

    [17]

    LIN T-Y,MAIRE M,BELONGIE S,et al. Microsoft COCO:common objects in context[C]. European Conference on Computer Vision,Zurich,2014:740-755.

    [18]

    SUN Ke,XIAO Bin,LIU Dong,et al. Deep high-resolution representation learning for human pose estimation[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Long Beach,2019:5686-5696.

    [19]

    MA Ningning,ZHANG Xiangyu,ZHENG Haitao,et al. Shufflenet V2:practical guidelines for efficient CNN architecture design[C]. 15th European Conference on Computer Vision,Munich,2018:122-138.

    [20]

    SHAHROUDY A,LIU Jun,NG T-T,et al. NTU RGB + D:a large scale dataset for 3D human activity analysis[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Las Vegas,2016:1010-1019.

    [21]

    SHI Lei,ZHANG Yifan,CHENG Jian,et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Long Beach,2019:12018-12027.

  • 期刊类型引用(5)

    1. 韩康,李敬兆,陶荣颖. 基于改进YOLOv7和ByteTrack的煤矿关键岗位人员不安全行为识别. 工矿自动化. 2024(03): 82-91 . 本站查看
    2. 孙晴,杨超宇. 基于多模态的井下登高作业专人扶梯检测方法. 工矿自动化. 2024(05): 142-150 . 本站查看
    3. 陈志文,陈嫒靓霏,唐晓丹,柯浩彬,蒋朝辉,肖菲. 面向煤矿安全监测边缘计算的YOLOv5s剪枝方法. 工矿自动化. 2024(07): 89-97 . 本站查看
    4. 王建芳,段思源,潘红光,景宁波. 轻量化姿态估计时空增强图卷积模型下的矿工行为识别. 工矿自动化. 2024(11): 34-42 . 本站查看
    5. 王宏,宋禹飞,窦如婷,王昕,王庆红. 绿色电力理念下基于改进YOLOX算法的变压器节能与可靠性研究分析. 自动化与仪器仪表. 2024(11): 208-212 . 百度学术

    其他类型引用(1)

图(9)  /  表(2)
计量
  • 文章访问数:  1651
  • HTML全文浏览量:  153
  • PDF下载量:  99
  • 被引次数: 6
出版历程
  • 收稿日期:  2023-07-15
  • 修回日期:  2023-10-26
  • 网络出版日期:  2023-11-26
  • 刊出日期:  2023-11-24

目录

/

返回文章
返回