基于多特征融合时差网络的带式输送机区域违规行为识别

马天, 姜梅, 杨嘉怡, 张杰慧, 丁旭涵

马天,姜梅,杨嘉怡,等. 基于多特征融合时差网络的带式输送机区域违规行为识别[J]. 工矿自动化,2024,50(7):115-122. DOI: 10.13272/j.issn.1671-251x.2023080108
引用本文: 马天,姜梅,杨嘉怡,等. 基于多特征融合时差网络的带式输送机区域违规行为识别[J]. 工矿自动化,2024,50(7):115-122. DOI: 10.13272/j.issn.1671-251x.2023080108
MA Tian, JIANG Mei, YANG Jiayi, et al. Recognition of violations in belt conveyor area based on multi-feature fusion for time-difference network[J]. Journal of Mine Automation,2024,50(7):115-122. DOI: 10.13272/j.issn.1671-251x.2023080108
Citation: MA Tian, JIANG Mei, YANG Jiayi, et al. Recognition of violations in belt conveyor area based on multi-feature fusion for time-difference network[J]. Journal of Mine Automation,2024,50(7):115-122. DOI: 10.13272/j.issn.1671-251x.2023080108

基于多特征融合时差网络的带式输送机区域违规行为识别

基金项目: 国家重点研发计划项目(2021YFB4000905);国家自然科学基金项目(62101432,62102309);陕西省自然科学基础研究计划项目(2022JM-508)。
详细信息
    作者简介:

    马天(1982—),男,河南商丘人,副教授,博士,研究方向为图形图像处理、数据可视化,E-mail:matian@xust.edu.cn

    通讯作者:

    姜梅(1997—),女,陕西安康人,硕士研究生,研究方向为图像处理,E-mail: 2451989925@qq.com

  • 中图分类号: TD634

Recognition of violations in belt conveyor area based on multi-feature fusion for time-difference network

  • 摘要: 现有的煤矿井下带式输送机区域违规行为(如攀爬、跨越、倚靠带式输送机等)识别方法对特征提取不充分、难以考虑到行为时间差异,导致违规行为识别准确率不高。针对该问题,基于ResNet50模型,提出了一种基于多特征融合时差网络(MFFTDN)的带式输送机区域违规行为识别方法,将多特征融合和时间差分进行结合,对不同时间段的行为进行多特征融合。首先在原始模型ResNet50的第2和第3阶段引入短期多特征融合(STMFF)模块,将来自多个连续帧的时间和特征拼接在一起,再对融合后的特征进行时间差分计算,即相邻帧的特征差值,以在短期内捕捉局部动作变化。然后在原始模型ResNet50的第4阶段引入长期多特征融合(LTMFF)模块,将来自连续帧的短期多特征拼接在一起,再对相邻时间点的特征进行时间差分计算,以获取行为的长期多特征。最后将融合后的特征进行分类,输出识别结果。实验结果表明:① 该方法的平均精度和准确率较原始模型ResNet50分别提高了8.18%和8.47%,说明同时引入STMFF和LTMFF模块能够有效提取到不同时间段的多特征信息。② 该方法在自建煤矿井下带式输送机区域违规行为数据集上的准确率为89.62%,平均精度为89.30%,模型的参数量为197.2 ×106。③ Grad−CAM热力图显示,该方法能够更有效地关注到违规行为的关键区域,精确捕捉到井下带式输送机区域的违规行为。
    Abstract: The existing methods for recognizing violations in the underground belt conveyor area of coal mines suffer from insufficient feature extraction and difficulty in considering time differences in behavior. It results in low accuracy in recognizing violations (such as climbing, crossing, leaning, etc.) in the area. In order to solve the above problems, a belt conveyor area violation recognition method based on multi-feature fusion for time-difference network (MFFTDN) is proposed using the ResNet50 model. The method combines multi-feature fusion with time difference to perform multi-feature fusion on behaviors in different time periods. Firstly, the short-term multi-feature fusion (STMFF) module is introduced in the second and third stages of the original ResNet50 model, which concatenates the time and features from multiple consecutive frames together. Then the method performs time-difference calculation on the fused features, that is, the feature difference between adjacent frames, to capture local action changes in a short period of time. Secondly, in the fourth stage of the original ResNet50 model, a long- term multi-feature fusion (LTMFF) module is introduced to concatenate short-term multi-features from consecutive frames, and perform time-difference calculations on features from adjacent time points to obtain long-term multi- feature of behavior. Finally, the method classifies the fused features and outputs the recognition results. The experimental results show the following points. ① The average accuracy and precision of the MFFTDN based belt conveyor area violation recognition method have increased by 8.18% and 8.47% respectively compared to the original model ResNet50. It indicates that the simultaneous use of STMFF and LTMFF modules can effectively extract multi-feature information from different time periods. ② The accuracy of this recognition method on the self built dataset of violations in the underground belt conveyor area of coal mines is 89.62%, with an average precision of 89.3% and a model parameter size of 197.2×106. ③ The Grad CAM heatmap shows that this recognition method can more effectively focus on key areas of violations and more accurately capture violations in the underground belt area of the mine.
  • 大量的数据统计表明,由于煤矿井下作业人员的违规行为所引发的死亡事故占煤矿安全事故的80%以上,其中带式输送机区域的安全事故占27%[1]。识别带式输送机区域的违规行为可减少人员伤亡,具有重要的实际意义。通过参考煤矿安全管理条例,概括出几种带式输送机区域频繁发生的典型矿工不安全行为:攀爬、跨越、倚靠带式输送机等。当前对矿工违规行为的识别主要通过人工观看视频的方式,极易造成工作人员视觉疲劳而引发漏判或误判现象。随着计算机技术的发展,使用计算机技术代替人工识别违规行为成为研究热点之一。

    目前井下违规行为的主要识别方式包括物联网监测[2-3]和计算机视觉识别。物联网监测是通过在矿工身上佩戴传感器,采集由不同行为引发的运动数据,然后分析数据的差异来进行识别。但传感器随着使用次数的增加会逐渐老化,矿井下复杂的环境会导致传感器信号带有许多噪声,从而影响识别结果,不能满足实际需求。基于计算机视觉的井下行为识别以端到端的方式从数据中学习特征,再进行分类。按照网络结构的不同可分为基于卷积神经网络(Convolution Neural Networks,CNN)的行为识别[4-5], 基于循环神经网络(Recurrent Neural Networks,RNN)的行为识别[6]、基于双流卷积神经网络的行为识别[7-8]和基于混合深度学习网络的行为识别[9-10]。这些方法能更准确地识别复杂行为模式,具有更高的识别准确性和可靠性。按照卷积的不同,将CNN分为2D卷积网络和3D卷积网络,其中,2D卷积网络提取空间特征,但对时间信息不够敏感,而3D卷积网络则在保留通道信息的同时处理时间信息,能更有效地捕捉视频动态行为。基于RNN的行为识别方法能够有效地捕捉各帧之间的相关性,但数据量较大时,调参的过程相对复杂。双流卷积神经网络可以有效地融合2个独立网络的输出,但融合过程可能增加模型设计的复杂性。混合深度学习网络结合了不同网络模型的优点,提高了模型的适应性和泛化性,但也面临着计算成本的挑战。在井下行为识别中,不同场景的行为识别需求和挑战有所不同,而带式输送机通常处于狭窄、通风条件有限的环境中,容易受到煤尘、光照等因素的影响,现有方法在识别该区域的行为时可能会对部分行为的特征提取不完全,从而影响识别效果。

    针对带式输送机区域,文献[11]提出了一种基于改进运动历史图描述矿工行为过程的方法,该方法的识别准确率较高,但只适合较为简单的场景,当存在遮挡时会影响准确率。在解决带式输送机区域复杂多变的环境和动作问题时,使用单一特征建模可能会面临一些限制,没有考虑到动作的多样性、动作变化的实时性,导致难以捕捉到动作的更细粒度的特征。使用多特征融合建模时,能够很大程度地提高模型的准确率。文献[12]提出了一种组合注意力机制和密集残差的方法来改进模型,以识别矿工安全、违规乘坐带式输送机,在行为较相似时也能够较好地识别出来。然而,这种方法在制作基于关键点的行为识别数据集时存在一定的难度。文献[13]提出了基于双流模式的高层场景特征融合方法,对Gist特征进行更高层次的学习并实现对原始图像的语义抽象,对井下带式输送机区域的抛扔杂物、跨越、攀爬等不安全行为进行识别,该方法具有较高的识别率,但需要将多种网络进行融合,复杂度较高,处理速度不足以满足要求,且未能考虑到动作在不同时间内的变化差异,使用单一的时间尺度不能进行更加精细的区分。

    针对目前煤矿井下带式输送机区域违规行为识别方法在特征提取方面存在的不足,且难以有效考虑行为的时间变化,本文提出一种基于多特征融合时差网络(Multi-feature Fusion for Time-difference Networks,MFFTDN)的带式输送机区域违规行为识别方法,将多特征融合[14]和时间差分[15]结合,对不同时间段的行为进行多特征融合。首先在原始模型ResNet50的第2和第3阶段引入短期多特征融合(Short-term Multi-featur Fusion,STMFF)模块,将来自多个连续帧的时间和特征拼接在一起,再对融合后的特征进行时间差分计算,即相邻帧的特征差值,以在短期内捕捉局部动作变化。然后在ResNet50的第4阶段引入长期多特征融合(Long-term Multi-feature Fusion,LTMFF)模块,将来自连续帧的短期多特征拼接在一起,再对相邻时间点的特征进行差分计算,以获取行为的长期多特征。最后将融合后的特征进行分类,输出识别结果。

    单特征建模忽略了全局信息,无法彻底捕捉到动作特征。MFFTDN则能充分利用完整的视频信息来学习动作的多个特征,并使用视频帧均匀采样来提高效率,结构如图1所示。MFFTDN基于ResNet50模型,在stage0到stage4这5个阶段中插入STMFF和LTMFF模块。其中,stage0阶段和stage3阶段为ResNet50网络的原始模块,stage0阶段由7×7的卷积层和最大池化层组成,stage3阶段由1×1的卷积层和3×3的卷积层堆叠而成(这种堆叠重复6次)。在stage1阶段和stage2阶段中,将第1个1×1的卷积层替换为STMFF模块,其余保持不变,并分别重复堆叠3次和4次。将stage4阶段替换为LTMFF,并重复堆叠3次。

    首先,对于一组给定的行为帧序列,经stage0阶段对视频帧进行下采样并降低维度。其次,经stage1和stage2阶段提取行为的短期多特征,再将这种特征输入到stage3阶段提取更深层次的信息。然后,将更深层次的信息输入到stage4阶段以提取行为的长期多特征信息。最后,将所提取的特征信息经全局平均池化层和全连接层输出行为预测结果。

    图  1  MFFTDN结构
    Figure  1.  Structure of multi-feature fusion for time-difference network(MFFTDN)

    由于相邻帧在局部窗口中差别不大,模型对视频中的帧进行了采样,平均每8帧采样1帧。STMFF在网络的早期提取局部的短期多特征信息,如图2所示。

    图  2  STMFF模块结构
    Figure  2.  Short-term multi-feature fusion(STMFF)module

    首先将大小为$ H \times W \times C \times T $的特征图$ F_{\mathrm{in}} $沿着通道$ C $进行分裂,其中H为高度,W为宽度,T为时间。设沿着$ {c_1} $方向的分裂系数为$ {r_1} $,分裂后的特征为$ F^1={r}_{1} \cdot F_{\mathrm{in}} $。沿着$ {c_2} $方向的分裂系数为$ {r_2} $,使用$ 3 \times 1 \times 1 $的卷积核对特征图的高度−宽度特征进行建模,得到$ {F_{H \times W}} $。使用$ 1 \times 3 \times 1 $的卷积核对特征图的高度−时间进行建模,得到$ {F_{H \times T}} $。使用$ 1 \times 1 \times 3 $的卷积核对特征图的宽度−时间进行建模,得到$ {F_{W \times T}} $。将$ {F_{H \times W}} $,$ {F_{H \times T}} $,$ {F_{W \times T}} $融合,得到初步融合后的特征$ F^2 \in {\bf{R}}^{H \times W \times C \times T} $,接着将$ F^2 $与$ F^1 $融合得到帧的细节融合特征$ F^{\mathrm{con}} \in {\bf{R}}^{H \times W \times C \times T }$。

    $$ F_{H\times W}=r_{\text{2}}(\displaystyle\sum_i^{ }K^{H\times W}F_{\text{in}C,T,H,W}) $$ (1)
    $$ F_{H\times T}=r_{\text{2}}(\displaystyle\sum_i^{ }K^{H\times T}F_{\text{in}C,T,H,W}) $$ (2)
    $$ F_{W\times T}=r_{\text{2}}(\displaystyle\sum_i^{ }K^{W\times T}F_{\text{in}C,T,H,W}) $$ (3)
    $$ F^2 = \left( {{F_{_{H \times T}}} + {F_{_{H \times W}}} + {F_{_{W \times T}}}} \right) $$ (4)
    $$ F^{\mathrm{con}} = {\mathrm{concat}}\left( {{F^{\text{1}}},F^2} \right) $$ (5)

    式中:$ K^{H\times W} $,$ K^{H\times T} $,$ K^{W\times T} $分别为特征图在高度−宽度、高度−时间、宽度−时间方向上的卷积核;i为特征图帧数;concat为拼接操作。

    其次,为了解决相邻帧之间位置不对齐的问题,使用跨段信息来增强帧之间的关联。使用$ 1 \times 1 $的卷积将$ F^{\mathrm{con}} $及其前后帧的特征维度压缩为$ {{\bf{R}}^{{{H \times W \times C} \mathord{\left/ {\vphantom {{H \times W \times C} \lambda }} \right. } r }}} $。计算第$i - 1$帧特征图Fi-1和第$i$ 帧特征图Fi之间的对齐时间差$ D({F_{i - 1}},{F_i}) $、第$i$ 帧特征图Fi和第$i + 1$ 帧特征图Fi+1之间的对齐时间差$ D({F_i},{F_{i + 1}}) $,并使用1×1的卷积核计算第$ i $ 帧特征图Fi与第$ i - 1 $ 帧特征图Fi-1和第$ i + 1 $帧特征图Fi+1之间的对齐卷积$ G({F_{i - 1}}) $和$ G({F_{i + 1}}) $。

    $$ D({F_{i - {\text{1}}}},{F_i}) = {F_i} - G({F_{i - {\text{1}}}}) $$ (6)
    $$ D({F_i},{F_{i + {\text{1}}}}) = {F_i} - G({F_{i + {\text{1}}}}) $$ (7)

    然后,使用时间对齐的多尺度模块来提取短距离运动信息。这一过程主要包括多尺度模块融合操作、卷积和激活卷积结果。多尺度融合模块由$ {\mathrm{conv}}3 \times 3 $和“$ {\mathrm{Pooling}} + {\mathrm{Conv}}1 + {\mathrm{upSample}} $”构成,其中$ \mathrm{Conv}1\times1 $代表1×1的卷积,$ {\mathrm{Pooling}} $代表平均池化,upSample代表双线性上采样,在多尺度融合之后特征维度变为$ {{\bf{R}}^{C \times H \times W}} $。再将$ {{\bf{R}}^{C \times H \times W}} $的特征使用“$ {\mathrm{Conv}}2 + {\mathrm{sigmoid}} $”进行压缩和激活卷积结果,即可得到第i−1帧特征图Fi-1和第$i$ 帧特征图Fi的短期运动的多尺度运动信息$ M({F_{i - 1}},{F_i}) \in {{\bf{R}}^{C \times 1 \times 1}} $、第i帧特征图Fi与第i+1帧特征图Fi+1的短期多尺度运动信息$ M({F_i},{F_{i + 1}}) \in {{\bf{R}}^{C \times 1 \times 1}} $。

    $$ M({F_{i - {\text{1}}}},{F_i}) = s(N(\sum\limits_j {{H_j}(D({F_{i - {\text{1}}}},{F_i})} ))) $$ (8)
    $$ M({F_i},{F_{i{\text{ + 1}}}}) = s(N(\sum\limits_j {{H_j}(D({F_i},{F_{i{\text{ + 1}}}})} ))) $$ (9)

    式中:s(·)为sigmoid函数;N(·)为1×1的卷积;Hj为从不同的感受野j提取的运动信息。

    最后,将短距离运动信息和细节融合特征$ {F^{{\mathrm{con}}}} $融合,得到短期多特征融合信息$ F \in {{\bf{R}}^{H \times W \times C \times T}} $。

    $$ F = F^{\mathrm{con}} \odot {\text{1}}/{\text{2}}\left[ {M({F_{i - {\text{1}}}},{F_i}) + M({F_i},{F_{i + {\text{1}}}})} \right] $$ (10)

    式中$ \odot $为同或运算。

    STMFF模块能够有效捕捉动作序列的短期特征,但在捕捉动作序列的长期特征时会受到限制。在网络后期,不同行为的时间尺度和空间特征差异更为明显,而LTMFF模块能够将不同时空段的特征相关联,以更好地利用上下文信息,将该模块同时作用于空间和时间上,对局部多特征进行增强,通过全局角度学习每个特征点的时空信息。为了适应变化粒度更大的时空尺度,将卷积重新设置为自适应时空卷积,如图3所示。

    图  3  LTMFF模块结构
    Figure  3.  Long-term multi-feature fusion (LTMFF)module structure

    首先,将大小为$ H \times W \times C \times T $的帧通过时间平均池化和空间平均池化计算得到2种不同的帧描述向量$ {\boldsymbol{V}}_{\mathrm{t}} = P({X_{\mathrm{t}}}) $和$ {{\boldsymbol{V}}_{\mathrm{s}}} = P({X_{\mathrm{s}}}) $。其中,$ {X_{\mathrm{t}}} $和$ {X_{\mathrm{s}}} $分别为第$ i $ 帧原始的时间和空间特征,P(·)为全局平均池化,$ {{\boldsymbol{V}}_{\mathrm{t}}} \in {{\bf{R}}^{C \times T}} $,$ {{\boldsymbol{V}}_{\mathrm{s}}} \in {{\bf{R}}^{H \times W}} $。

    其次,通过采用2层一维卷积将局部上下文向量$ {\boldsymbol{V}}_{\mathrm{t}} $和$ {\boldsymbol{V}}_{\mathrm{s}} $进行堆叠,并以比率$ r $进行维度压缩。同时为了能够获取更大的感受野,进一步纳入全局时空信息,将线性映射函数$ A\left(g\right) $添加到局部向量中,得到全局时间信息$ B({X_{\mathrm{t}}},g) $和全局空间信息$ B({X_{\mathrm{s}}},g) $,其中$ g $为空间和时间维度上的全局平均集合值。

    $$ B({X_{\mathrm{t}}},g) = N(\delta (m(N({V_{\mathrm{t}}} + {{A}}(g))))) $$ (11)
    $$ B({X_{\mathrm{s}}},g) = N(\delta (m(N({V_{\mathrm{s}}} + A(g))))) $$ (12)

    式中$ \delta $(·)和m(·)分别为ReLU函数和batchnorm函数。

    将全局时间信息$ B({X_{\mathrm{t}}},g) $和全局空间信息$ B({X_{\mathrm{s}}},g) $中最后一个卷积的权重初始化为0,再添加常数1,即可得到校准权重${\alpha _{\mathrm{t}}}$和${\alpha _{\mathrm{s}}}$。

    $$ {\alpha _{\mathrm{t}}} = {\text{1}} + B({X_{\mathrm{t}}},g) $$ (13)
    $$ {\alpha _{\mathrm{s}}} = {\text{1}} + B({X_{\mathrm{s}}},g) $$ (14)

    然后,将校准权重${\alpha _{\mathrm{t}}}$和${\alpha _{\mathrm{s}}}$分别与基本权重$ {\theta _{\mathrm{b}}} $相乘,即可得到第$ i $ 帧的时间权重$ {\theta _{\mathrm{t}}} \in {{\bf{R}}^{T \times C \times k^2}} $和空间权重$ \theta _{\mathrm{s}} \in {{\bf{R}}^{H \times W \times k^2}} $。

    $$ {\tilde X_{\mathrm{t}}} = {\theta _{\mathrm{t}}}{X_{\mathrm{t}}} = ({\alpha _{\mathrm{t}}}{\theta _b}){X_{\mathrm{t}}} $$ (15)
    $$ {\tilde X_{\mathrm{s}}} = {\theta _{\mathrm{s}}}{X_{\mathrm{s}}} = ({\alpha _{\mathrm{s}}}{\theta _{\mathrm{b}}}){X_{\mathrm{s}}} $$ (16)

    式中$ {\tilde X_{\mathrm{t}}} $和$ {\tilde X_{\mathrm{s}}} $分别为校准之后时间和空间特征。

    最后,将校准后的时间特征、空间特征和原始特征融合,得到长期多特征融合信息$ B \in {{\bf{R}}^{H \times W \times C \times T}} $。

    数据集来源于煤矿现场的摄像视频,涵盖了3类动作,其中一类是正常行为,另外两类是频繁出现的违规行为,包括攀爬、跨越和倚靠带式输送机。共采集到460个视频,如图4所示。为了解决类别间不平衡的问题,采用随机擦除、色彩抖动和镜像翻转对数据集进行增强处理,获得1230个视频样本。每个视频的时长为4~7 s,以确保每个行为类别的样本相对平衡。对每个视频进行了分类标注,并按照6∶2∶2的比例将数据集划分为训练集、验证集和测试集。

    图  4  部分矿工行为原始数据集
    Figure  4.  Original dataset of some miners' behavior

    选择具有简单和模块化结构的ResNet作为主干网络,将STMFF集成到ResNet的第2和第3阶段,以提取行为的短期多特征信息。将LTMFF集成到ResNet的第4阶段,以提取行为的长期多特征信息。为了加快模型的训练速度,在多特征融合模块中使用可分离卷积。选择PyTorch框架作为实验的训练模型,并在RTX 3090硬件平台上进行训练。

    训练过程中,设置学习率为0.01,进行25轮训练,每隔10轮学习率衰减为原来的50%,共进行150轮训练。为了优化训练过程,采用动量为0.9、动量衰减为10−4的SGD优化器,并且每个GPU处理一小批包含8个视频剪辑的数据。为了提高训练速度,在视频的时间轴上均匀采样多个片段,并使用softmax概率的平均值作为最终预测结果,采用准确率和参数量来衡量模型的性能。其中,top1_acc表示与实际结果相符的类别准确率,mean_acc表示平均精度,params表示模型的参数量。

    为了证明本文引入STMFF和LTMFF模块的有效性,进行消融实验,结果见表1。可看出单独添加STMFF模块时,mean_acc和top1_acc较原始模型ResNet50分别提升了4.07%和4.23%,这是由于在早期使用STMFF模块能有效提取到短期多特征。单独添加LTMFF模块时,mean_acc和top1_acc较原始模型ResNet50分别提升了6.98%和7.15%,这是由于在网络后期关联了上下文特征信息,扩大了感受野。当同时添加STMFF和LTMFF模块时,mean_acc和top1_acc较原始模型ResNet50分别提高了8.18%和8.47%,达到89.30%和89.62%,这是由于同时引入STMFF和LTMFF模块能够有效提取不同时间段的多特征信息。

    表  1  模块消融实验结果
    Table  1.  Module ablation experiment table
    STMFF LTMFF mean_acc/% top1_acc/% params/106
    × × 81.12 81.15 186.0
    × 85.19 85.38 197.5
    × 88.10 88.30 197.8
    89.30 89.62 197.2
    下载: 导出CSV 
    | 显示表格

    为了验证本文方法的性能,选择现阶段具有代表性的行为识别方法进行比较,包括三维卷积网络(Convolutional 3D,C3D)[16]、仅慢速网络(Slow-Only Network,SlowOnly)[17]、快慢速网络 (SlowFast Network,SlowFast)[18]、时间偏移网络(Temporal Shift Module,TSM)[19]、时间敏感变压器 (Time-Sensitive Transformer, TimesFormer)[20]、时间金字塔网络(Temporal Pyramid Network,TPN)[21]。各行为识别方法对比结果见表2

    表  2  各行为识别方法对比结果
    Table  2.  Comparison results of various behavior recognition methods
    方法 mean_acc/% top1_acc/% params/106
    C3D 89.23 88.74 598.3
    SlowFast 79.58 79.23 266.2
    SlowOnly 88.46 89.33 253.6
    TimesFormer 54.58 55.02 657.3
    TPN 68.08 68.51 703.8
    TSM 73.36 73.95 186.2
    本文方法 89.30 89.62 197.2
    下载: 导出CSV 
    | 显示表格

    表2可看出,本文的参数量为C3D的1/3,这是因为C3D同时对动作的三维特征进行建模,提高了识别精度,但需要大量参数,增加了计算量。本文方法的mean_acc和top1_acc较SlowFast方法分别提高了9.72%和10.39%,参数量较SlowFast方法减少了25.93%,这是因为SlowFast方法虽然结合了慢速路径和快速路径的特征,但其时间尺度选择可能不适合井下行为的识别。本文方法的参数量较SlowOnly减少了28.6%,这是因为SlowOnly方法使用了较多的卷积层和更大的卷积核,以更高的分辨率来捕捉空间和时间信息。本文方法的mean_acc和top1_acc较TimesFormer方法分别提高了34.72%和34.6%,参数量较TimesFormer方法减少了71.99%,这是因为TimesFormer方法需要大量的数据集进行训练,本文的数据集无法适应该模型。本文方法的mean_acc和top1_acc较TPN和TSM方法分别提高了21.22%,15.94%和21.11%,15.67%,这是因为TPN和TSM方法主要对空间特征进行建模,而对时间特征的提取很弱。本文方法能够有效将多特征融合和时间差分结合,在提高行为识别准确率的同时,还能保持较低的参数量,更适用于带式输送机区域的违规行为识别。

    选用可视化工具Grad−CAM对本文方法和C3D,SlowOnly,TPN方法进行可视化展示,如图5所示。

    图  5  不同模型对不同行为的识别结果
    Figure  5.  Recognition results of different models for different behaviors

    图5可看出,对于行走和跨越行为,本文方法、C3D和SlowOnly的热力图显示模型主要关注在人物动作上,其中本文方法覆盖范围较为集中,C3D和SlowOnly覆盖范围较为分散。对于倚靠行为,本文方法的热力图显示其关注点集中在倚靠的姿势上,而TPN的关注区域相对分散,无法准确捕捉到倚靠动作的细节。这说明本文方法能够更有效地关注到违规行为的关键区域,更精确地捕捉到井下带式输送机区域的违规行为。

    1) 针对目前煤矿井下带式输送机区域违规行为识别方法准确率不高的问题,提出了一种基于MFFTDN的带式输送机区域违规行为识别方法。在早期使用STMFF模块提取行为的短期多特征,在后期使用LTMFF模块提取行为的长期多特征,这2种模块采用可分离卷积的设计方式,从而提高了识别准确率并降低了计算量。

    2) 所提方法在自建井下带式输送机区域违规行为数据集上的准确率为89.62%,平均精度为89.30%;与代表性方法C3D,SlowOnly,TPN和TSM等相比,该方法能够更有效地识别出带式输送机区域的违规行为;Grad−CAM热力图显示,该方法能更有效地关注违规行为的关键区域,精确捕捉井下带式输送机区域的违规行为。

    3) MFFTDN在捕捉帧与帧之间动作关联性时的计算时间较长,下一步将研究使用更少的时间来捕捉帧之间的关联特征,在更短的时间内分析出时间差。

  • 图  1   MFFTDN结构

    Figure  1.   Structure of multi-feature fusion for time-difference network(MFFTDN)

    图  2   STMFF模块结构

    Figure  2.   Short-term multi-feature fusion(STMFF)module

    图  3   LTMFF模块结构

    Figure  3.   Long-term multi-feature fusion (LTMFF)module structure

    图  4   部分矿工行为原始数据集

    Figure  4.   Original dataset of some miners' behavior

    图  5   不同模型对不同行为的识别结果

    Figure  5.   Recognition results of different models for different behaviors

    表  1   模块消融实验结果

    Table  1   Module ablation experiment table

    STMFF LTMFF mean_acc/% top1_acc/% params/106
    × × 81.12 81.15 186.0
    × 85.19 85.38 197.5
    × 88.10 88.30 197.8
    89.30 89.62 197.2
    下载: 导出CSV

    表  2   各行为识别方法对比结果

    Table  2   Comparison results of various behavior recognition methods

    方法 mean_acc/% top1_acc/% params/106
    C3D 89.23 88.74 598.3
    SlowFast 79.58 79.23 266.2
    SlowOnly 88.46 89.33 253.6
    TimesFormer 54.58 55.02 657.3
    TPN 68.08 68.51 703.8
    TSM 73.36 73.95 186.2
    本文方法 89.30 89.62 197.2
    下载: 导出CSV
  • [1] 张培森,李复兴,朱慧聪,等. 2008—2020年煤矿事故统计分析及防范对策[J]. 矿业安全与环保,2022,49(1):128-134.

    ZHANG Peisen,LI Fuxing,ZHU Huicong,et al. Statistical analysis and prevention countermeasures of coal mine accidents from 2008 to 2020[J]. Mining Safety & Environmental Protection,2022,49(1):128-134.

    [2] 赵小虎,黄程龙. 基于Kinect的矿井人员违规行为识别算法研究[J]. 湖南大学学报(自然科学版),2020,47(4):92-98.

    ZHAO Xiaohu,HUANG Chenglong. Research on identification algorithm of mine person's violation behavior based on Kinect[J]. Journal of Hunan University(Natural Sciences),2020,47(4):92-98.

    [3]

    PIENAAR S W,MALEKIAN R. Human activity recognition using visual object detection[C]. IEEE 2nd Wireless Africa Conference, Pretoria,2019:1-5.

    [4] 梁晨阳,华钢. 基于信道状态信息的井下人员行为识别方法研究[J]. 煤炭技术,2022,41(11):182-186.

    LIANG Chenyang,HUA Gang. Research on identification method of underground personnel behavior based on channel state information[J]. Coal Technology,2022,41(11):182-186.

    [5]

    ZHANG Xin,ZHU Yan,DENG Li,et al. A slowfast behavior recognition algorithm incorporating motion saliency[C]. 2nd International Conference on Computer Graphics,Artificial Intelligence,and Data Processing,Guangzhou,2022. DOI: 10.1117/12.2674969.

    [6] 王璇,吴佳奇,阳康,等. 煤矿井下人体姿态检测方法[J]. 工矿自动化,2022,48(5):79-84.

    WANG Xuan,WU Jiaqi,YANG Kang,et al. Human posture detection method in coal mine[J]. Journal of Mine Automation,2022,48(5):79-84.

    [7] 党伟超,张泽杰,白尚旺,等. 基于改进双流法的井下配电室巡检行为识别[J]. 工矿自动化,2020,46(4):75-800.

    DANG Weichao,ZHANG Zejie,BAI Shangwang,et al. Inspection behavior recognition of underground power distribution room based on improved two-stream CNN method[J]. Industry and Mine Automation,2020,46(4):75-80.

    [8]

    LIU Xiaoyang,LIU Jinqiang,ZHENG Haolin. Gait recognition method of coal mine personnel based on two-stream neural network[J]. Journal of Mining Science and Technology,2021,6(2):218-227.

    [9] 刘斌,侯宇辉,王延辉. 基于井下轨迹数据的煤矿人员违规行为识别[J]. 煤炭与化工,2021,44(10):82-85.

    LIU Bin,HOU Yuhui,WANG Yanhui. Recognition of illegal behavior of coal mine personnel based on underground trajectory data[J]. Coal and Chemical Industry,2021,44(10):82-85.

    [10]

    WANG Zheng, LIU Yan,DUAN Siyuan,et al. An efficient detection of non-standard miner behavior using improved YOLOv8[J]. Computers and Electrical Engineering,2023,112. DOI: 10.1016/J.COMPELECENG.2023.109021.

    [11] 仝泽友,丁恩杰. 矿井皮带区矿工违规行为识别方法[J]. 河南科技大学学报(自然科学版),2020,41(2):40-46,6-7.

    TONG Zeyou,DING Enjie. Identification method of miner violation behavior in mine belt area[J]. Journal of Henan University of Science and Technology(Natural Science),2020,41(2):40-46,6-7.

    [12] 李善华,肖涛,李肖利,等. 基于DRCA−GCN的矿工动作识别模型[J]. 工矿自动化,2023,49(4):99-105,112.

    LI Shanhua,XIAO Tao,LI Xiaoli,et al. Miner action recognition model based on DRCA-GCN[J]. Journal of Mine Automation,2023,49(4):99-105,112.

    [13] 陈天,闫雨寒,徐达伟,等. 基于改进双流算法的矿工行为识别方法研究[J]. 河南科技大学学报(自然科学版),2021,42(4):47-53,7.

    CHEN Tian,YAN Yuhan,XU Dawei,et al. Research on miner behavior recognition method based on improved two-stream algorithm[J]. Journal of Henan University of Science and Technology(Natural Science),2021,42(4):47-53,7.

    [14]

    WU Wenhao,HE Dongliang,LIN Tianwei,et al. MVFNet:multi-view fusion network for efficient video recognition[C]. AAAI Conference on Artificial Intelligence,Vancouver,2021. DOI: 10.48550/arXiv.2012.06977.

    [15]

    XIE Zhao,CHEN Jiansong,WU Kewei,et al. Global temporal difference network for action recognition[J]. IEEE Transactions on Multimedia,2023,25:7594-7606. DOI: 10.1109/TMM.2022.3224327

    [16]

    TRAN D,BOURDEV L,FERGUS R,et al. Learning spatiotemporal features with 3D convolutional networks[C]. IEEE International Conference on Computer Vision,Santiago,2015:4489-4497.

    [17]

    FEICHTENHOFER C,FAN Haoqi,MALIK J,et al. SlowFast networks for video recognition[C]. IEEE/CVF International Conference on Computer Vision,Seoul,2019:6201-6210.

    [18]

    LIN Ji,GAN Chuang,HAN Song. TSM:temporal shift module for efficient video understanding[C]. IEEE/CVF International Conference on Computer Vision,Seoul,2019:7082-7092.

    [19]

    WANG Limin,XIONG Yuanjun,WANG Zhe,et al. Temporal segment networks:towards good practices for deep action recognition[C]. Computer Vision and Pattern Recognition,Amsterdam,2016:20-36.

    [20]

    BERTASIUS G,WANG Heng,TORRESANI L. Is space-time attention all you need for video understanding?[C]. International Conference on Machine Learning,Vienna,2021. DOI: 10.48550/arXiv.2102.05095.

    [21]

    YANG Ceyuan,XU Yinghao,SHI Jianping,et al. Temporal pyramid network for action recognition[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:588-597.

  • 期刊类型引用(0)

    其他类型引用(1)

图(5)  /  表(2)
计量
  • 文章访问数:  116
  • HTML全文浏览量:  27
  • PDF下载量:  25
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-08-27
  • 修回日期:  2024-07-21
  • 网络出版日期:  2024-07-31
  • 刊出日期:  2024-07-29

目录

/

返回文章
返回