Multi object personnel detection and dynamic tracking method based on improved KCF
-
摘要: 针对煤矿巷道光照不足、目标尺度变化剧烈、目标容易被遮挡和矿灯干扰等因素,导致对于井下的目标检测和跟踪存在成功率和准确度低的问题,提出一种基于改进核相关滤波(KCF)算法的多目标人员检测与动态跟踪方法,为避免井下复杂环境中由于光照不均引起检测失败,在改进的KCF算法中引入SSD检测算法,以提升对多目标人员检测能力。① 读取待跟踪视频序列,使用经过井下数据集训练后的SSD算法检测图像中的目标,若没有发现目标则继续读取下一帧。② 将检测到的目标放入跟踪器中,对图像进行预处理,通过比较将所有的检测框按照设定的阈值进行打分,并根据分值从高到低依次排列,高分的检测结果直接输出,低分的检测结果用于滤除不良信息,以提升检测速度。③ 通过KCF跟踪预测目标M帧后清空跟踪器,再重新进行目标检测。通过检测算法和跟踪算法的叠加,保证对目标的持续跟踪能力。实验结果表明:① 该方法最后的损失值稳定在1.675附近,检测结果较为稳定。② 经过训练后的SSD算法识别精度较训练前的SSD算法识别精度提高了52.7%。③ 该方法对矿井人员检测成功率、跟踪准确率分别为87.9%,88.9%,均高于其他4种算法(KCF、CSRT、TLD及MIL)的检测成功率、跟踪准确率。④ 该方法在重叠阈值较低时具有较高成功率,直至重叠阈值大于0.8时,成功率大幅下降,这是因为矿井中环境多样,想要完全符合标注的框有一定难度。实际应用结果表明:在井下煤矿巷道光照不足、目标尺度变化剧烈、容易被遮挡和受矿灯干扰等复杂环境中,该方法具有较高的适用性。Abstract: Factors such as insufficient illumination in coal mine roadways, drastic changes in object scale, easy obstruction of objects, and interference from mining lights lead to low success rate and accuracy in underground object detection and tracking. In order to solve the above problems, a multi object personnel detection and dynamic tracking method based on improved kernel correlation filter (KCF) algorithm is proposed. The method can avoid detection failure due to uneven lighting in complex underground environments. The SSD detection algorithm is introduced into the improved KCF algorithm to enhance the capability to detect multiple object personnel. ① The method reads the video sequence to be tracked, uses the SSD algorithm trained on the underground dataset to detect the object in the image. The method continues reading the next frame if no object is found. ② The method places the detected object into the tracker, preprocesses the image, scores all detection boxes according to the set threshold through comparison, and arranges them in descending order based on the score. The high score detection results are directly output, while the low score detection results are used to filter out bad information to improve detection speed. ③ The method clears the tracker after tracking and predicting object M frames through KCF, and then performs object detection again. By combining detection and tracking algorithms, the continuous tracking capability of the object is ensured. The experimental results show the following points. ① The final loss value of this method is stable around 1.675, and the detection results are relatively stable. ② The SSD recognition precision after training has improved by 52.7% compared to the SSD recognition precision before training. ③ The detection success rate and tracking accuracy of this method for mine personnel are 87.9% and 88.9%, respectively, which are higher than the detection success rate and tracking accuracy of the other four algorithms (KCF, CSRT, TLD, MIL). ④ This method has a high success rate when the overlap threshold is low, and until the overlap threshold is greater than 0.8, the success rate significantly decreases. This is because the environment in the mine is diverse, and it is difficult to fully match the labeled boxes. The practical application results show that this method has high applicability in complex environments such as insufficient lighting in underground coal mine roadways, drastic changes in object scale, easy obstruction, and interference from mining lights.
-
Keywords:
- mine /
- multi object detection /
- object tracking /
- kernel correlation filter /
- SSD
-
0. 引言
由于井下作业环境复杂多变,很容易存在安全隐患,从而导致矿井安全事故[1]。调查结果显示,矿工的不安全行为是导致矿井事故发生的主要原因,我国重大矿井事故中,超过90%是由人为失误引起的[2]。因此,对井下人员的不安全行为进行识别分析,对保证矿井安全生产具有重要意义。随着人工智能技术的发展与智能矿山的建设,人工智能技术被运用于矿山的生产和监管中[3]。采用人工智能技术对井下人员的行为进行实时识别,能减轻人工负担,提高识别效率,从而减少矿井事故的发生。
作为计算机视觉中的热门研究方向,人体行为识别可分为基于行为识别的方法[4]、基于时序动作检测的方法[5]、基于时空动作检测的方法[6]、基于骨骼点动作识别的方法[7]。随着矿山智能化、智慧化的推进,人体行为识别技术被应用到井下人员行为识别中。党伟超等[8]通过改进传统的双流卷积神经网络,对井下配电室巡检行为进行识别检测,具有较高的准确率,但在多人巡检的场景下会出现误识别等问题。刘浩等[9]采用OpenPose神经网络对人体骨骼关键点进行提取,并将提取到的信息输入ST−GCN(Spatial Temporal Graph Convolutional Network,时空图卷积网络)得到识别结果,实现了对井下多种不安全行为的识别。黄瀚等[10]提出了DA−GCN(Dynamic Attention and Multi-layer Perception Graph Convolutional Network,动态注意力与多层感知图卷积网络)并用于煤矿人员行为识别,在提高模型泛化力的同时,也提高了识别精度。
基于RGB模态数据,能获得丰富的人与物体外观特征信息,但井下开采过程中会产生大量粉尘,加上井下环境复杂、光照不足,使得采集到的RGB视频图像背景噪声增多[11]。这些噪声会影响RGB模态特征提取与行为识别。基于骨骼模态的行为识别方法能降低无关背景噪声的影响,但缺乏人与物体的外观特征信息。因此,本文采用多模态特征融合方法,将从RGB模态与骨骼模态中提取的特征进行融合,对视频中人员的行为进行识别,提高井下人员不安全行为识别准确率。
1. 行为识别模型总体架构
基于多模态特征融合的行为识别模型框架如图1所示。该模型由2层网络组成,分别处理RGB模态与骨骼模态的数据。对于RGB模态的输入视频数据,通过SlowOnly网络[12]进行特征提取。对于骨骼模态的数据,先通过YOLOX算法[13]对输入的RGB视频数据进行人体目标检测,再使用Lite−HRNet(Lightweight High-Resolution Network,轻量级高分辨率网络)[14]对目标检测结果进行人体姿态估计,获取人体2D骨骼关键点数据,从而得到骨骼模态数据;以2D人体骨骼关键点生成对应的2D关键点热图,并将这些热图按帧堆叠生成紧凑的3D热图堆叠,输入PoseC3D(Pose Convolutional 3D Network)网络[15]进行特征提取。在特征提取期间,SlowOnly与PoseC3D进行特征的早期融合,进行特征提取后,对提取到的2种模态特征进行晚期融合,从而完成RGB模态与骨骼模态的特征融合,最后得到行为识别结果。
2. 骨骼模态数据获取
2.1 基于YOLOX的人体目标检测
YOLOX目标检测算法在YOLOv3算法[16]的基础上进行了改进,在主干网络中加入Focus结构,解耦预测分支,取消先验框,动态匹配正样本。Focus结构如图2所示,对图像每隔一个像素点取一个值,得到4个特征层,相当于输入图像的通道数扩充了4倍,有效集中了图像的宽高信息。解耦预测分支是指将分类与回归分开实现,在预测时合并,可提高模型的收敛速度与预测精度。取消先验框是指将原来网络中的3组先验框减少为1组,即直接预测目标检测框的左上角坐标及高宽,可减少网络参数量,提高网络性能。动态匹配正样本是指根据不同目标设定不同的正样本数量,从全局角度进行最优分配,从而大大缩短训练时间,提高运算速度。
以上改进使YOLOX目标检测网络的参数量大大减少,同时提高了检测的精度与速度。本文使用训练好的YOLOX网络对人体目标进行检测,对输入图像中的人员进行定位和标志。
2.2 基于Lite−HRNet的人体骨骼关键点检测
人体骨骼关键点检测是指通过人体姿态估计算法,从输入图像中提取人体骨骼关键点对应的坐标位置。基于COCO(Common Objects in Context)数据集[17]的人体17个骨骼关键点及其对应位置名称如图3所示。目前人体姿态估计算法可分为自顶向下式和自底向上式2类。自顶向下式姿态估计算法先对图像中的人体进行目标检测,找到每个人对应的位置,再对每个人体目标进行姿态估计,找到对应的骨骼关键点位置。该算法检测准确度较高,但检测速度会受到一定影响。自底向上式姿态估计算法则是直接检测出图像中所有的骨骼关键点位置,然后通过聚类对属于同一个人体目标的骨骼关键点进行关联,生成每个人体目标的骨架。由于不需要先对人体目标进行检测,该算法检测速度较快,但准确度不及自顶向下式算法。
基于骨骼模态数据的人体行为识别效果受提取到的人体关键点质量影响较大,因此,要求姿态估计网络有较高的识别精度。同时,井下不安全行为识别要求有一定的实时性,因此,对姿态估计网络的识别速度也有一定要求。Lite−HRNet是HRNet(High-Resolution Network,高分辨率网络)[18]的轻量化模型,属于自顶向下式姿态估计算法。Lite−HRNet先将轻量化网络Shufflenet[19]中的Shuffle Block与原有HRNet相结合,使整个网络轻量化;再用条件通道加权操作替换Shuffle Block中的1×1卷积操作,以降低计算量。以上操作使得Lite−HRNet的计算量大大减少,加快了网络检测速度,同时由于保持了HRNet的高分辨率特征层,使网络能够获得足够多的特征信息和位置信息,提高了人体骨骼关键点检测精度,满足了行为识别网络对人体骨骼关键点质量与识别速度的要求。
3. 多模态特征融合
3.1 RGB模态特征提取
基于SlowFast网络的慢速支流SlowOnly网络进行RGB模态特征提取,SlowOnly网络结构如图4所示。SlowOnly网络的帧采样速率较低,即输入帧数较少,但分辨率较高。这样能够使网络更好地从RGB模态中提取出相应的空间特征。SlowOnly网络在最后2个ResNet Layer(残差网络层)使用了3D卷积,而前面几个ResNet Layer都是2D卷积。特征图经过前面多次卷积后,拥有更大的感受野,网络能够从中提取到足够的时间特征信息。最后经过Global Average Pooling(全局平均池化)与Fully Connected Layer(全连接层),得到基于RGB模态的行为识别结果。
3.2 骨骼模态特征提取
大部分基于骨骼模态的行为识别都采用GCN(Graph Convolutional Network,图卷积网络)及其各种改进方法。人体的骨架图由骨骼关键点连接形成,因此十分适合使用GCN处理。ST−GCN将GCN与TCN(Temporal Convolutional Network,时间卷积网络)相结合,对于输入的骨架图序列数据,通过GCN提取空间维度上的特征信息,通过TCN提取时间维度上的特征信息,将2种特征融合并进行分类,识别出具体的行为。基于GCN的行为识别方法存在如下缺点:对骨架图序列数据中的噪声较敏感,噪声对识别结果的影响较大;在多模态数据融合学习中,GCN与使用其他模态的模型之间难以进行特征融合;对多人场景的行为识别支持较差。
本文采用的PoseC3D是一种基于3D−CNN(3D-Convolutional Neural Network,三维卷积神经网络)的行为识别模型。不同于GCN的是,PoseC3D采用由骨骼关键点数据生成的热图堆叠数据作为输入。在进行姿态估计得到人体的骨骼关键点坐标后,以(xk, yk, ck)的形式储存,其中(xk, yk)为所预测的关键点坐标,ck为该关键点预测的置信度。以(xk, yk)为中心,ck为最大值,以高斯分布的形式生成对应的关键点热图$ h\left(x,y\right) $,其公式为
$$ h\left(x,y\right)={{\mathrm{exp}}}\left({-\frac{{\left(x-{x}_{{\mathrm{k}}}\right)}^{2}+{\left(y-{y}_{{\mathrm{k}}}\right)}^{2}}{2{\sigma }^{2}}}\right){c}_{{\mathrm{k}}} $$ (1) 式中σ为高斯分布的标准差。
同理,也能以高斯分布的形式生成2个关键点间骨骼的对应热图,其公式为
$$ h\left(x,y\right)={{\mathrm{exp}}}\left({-\frac{D^{2}{\left(\left(x,y\right),s\left[{a}_{{\mathrm{k}}},{b}_{{\mathrm{k}}}\right]\right)}}{2{\sigma }^{2}}}\right)\mathrm{min}\left({c}_{{a}_{{\mathrm{k}}}},{c}_{{b}_{{\mathrm{k}}}}\right) $$ (2) 式中:D(·)为距离计算函数,用于计算点(x, y)与骨骼线段s[ak, bk]之间的距离;ak,bk为骨骼两端的关键点;${c}_{{a}_{{\mathrm{k}}}} $,${c}_{{b}_{{\mathrm{k}}}} $为ak,bk两点的置信度。
使用井下人员骨骼关键点生成的关键点热图与骨骼热图如图5所示。
PoseC3D行为识别模型结构如图6所示。模型需输入尺寸为K×T×H×W的三维热图堆叠,其中K为骨骼关键点数量,T为参与热图堆叠的二维关键点热图数量,即视频帧数,H与W分别为热图的高与宽。先经过多个卷积操作与多个ResNet Layer,再通过全局平均池化,最后经全连接层输出骨骼模态下的行为分类。
3.3 特征融合
RGB模态与骨骼模态的特征融合模型结构如图7所示,2条支流网络分别是提取RGB模态特征的SlowOnly网络与提取骨骼模态特征的PoseC3D网络。RGB模态特征提取支流能提供更多的空间信息,骨骼模态特征提取支流的输入拥有更多的通道数,即输入帧率更高,这能提供更多的运动信息。在训练特征融合模型之前,对2条支流网络分别进行预训练,并用训练得到的权重来初始化特征融合模型,使特征融合模型收敛速度提高。多模态特征融合采用早期融合与晚期融合2种方式。早期融合是在模型的前期特征提取阶段,在ResNet Layer2与ResNet Layer3之后,通过双向的横向连接进行2种模态间的特征融合。对比单向的横向连接,双向的连接能使整个融合模型更好地学习到不同模态的时空特征,使2个网络进行信息互补。晚期融合则是在最后对2个网络的预测结果进行融合,输出行为分类结果。
4. 实验验证与结果分析
4.1 实验数据集
分别在公开行为识别数据集NTU60 RGB+D[20]与自制井下不安全行为数据集上进行测试验证。NTU60 RGB+D数据集是由新加坡南洋理工大学发表的公开行为识别数据集,由40名演员参与拍摄,包含60类行为,共56 880个行为样本视频。该数据集包含2种标准,X−Sub与X−View。X−Sub表示训练集与测试集按不同演员分配,其中20名演员的行为视频作为训练集,剩余20名演员的视频作为测试集。X−View则是按不同的拍摄角度来划分训练集与测试集。
自制井下不安全行为数据集采集自矿井下实际拍摄视频,从固定机位对井下人员的10类不安全行为进行采集,不安全行为类别及含义见表1。共采集了600段视频,每类不安全行为有60段视频,每段视频持续8 s左右,帧速率统一为30帧/s,其中75%作为训练集,25%作为测试集。
行为类别 行为含义 抽烟 工作区域违规吸烟 脱安全帽 工作区域违规摘下安全帽 脱工作服 工作区域违规脱下工作服 跌倒 跌倒受伤 躺倒 工作区域睡岗 奔跑 奔跑追逐作业 踢踹设备 踢作业设备 翻越围栏 违规翻越围栏 扒车 违规扒矿车 打架 打架斗殴 4.2 实验方案
实验平台基于Ubuntu 18.04操作系统,编程语言为Python3.8,深度学习框架Pytorch版本为1.10.0,计算平台CUDA版本为11.3,处理器为Intel Xeon Gold 6271,显卡为Nvidia Tesla P100−16G,内存为48 GiB。
分别在公开行为识别数据集NTU60 RGB+D与自制井下不安全行为数据集上对基于多模态特征融合的行为识别模型进行验证,并与基于单一骨骼模态的ST−GCN、2S−AGCN(Two-Stream Adaptive Graph Convolutional Network,双流自适应图卷积网络)[21]、PoseC3D行为识别模型进行对比。训练开始前,通过预训练好的YOLOX与Lite−HRNet模型从数据集视频中提取人体骨骼点数据,作为识别模型的输入。行为识别模型训练参数设置如下:算法优化器采用SGD(Stochastic Gradient Descent,随机梯度下降法),初始学习率为0.1,采用余弦退火算法调整学习率,权值衰减系数为0.000 1,动量值为0.9,批处理大小为8,训练轮数为160。按照设置好的参数训练模型,并以行为识别模型在测试集上的最高准确率作为评价指标。
4.3 NTU60 RGB+D公开数据集实验结果分析
在X−Sub标准下的NTU60 RGB+D数据集上实验验证,结果见表2。可看出,在基于单一骨骼模态的行为识别模型中,PoseC3D的识别准确率高于GCN类方法,达到93.1%。这是因为GCN类方法更易受骨骼模态数据中的噪声影响。基于多模态特征融合的行为识别模型的识别准确率比基于单一骨骼模态的行为识别模型高,达到95.4%。这是因为基于单一骨骼模态的行为识别模型注重提取人的运动特征,忽视了人与场景的外观特征,而基于多模态特征融合的行为识别模型能同时提取人的运动特征与外观特征。
识别模型 识别准确率/% ST−GCN 81.5 2S−AGCN 88.5 PoseC3D 93.1 融合的
行为识别模型95.4 在公共数据集上的实验基本验证了本文融合模型支流网络PoseC3D的优秀识别能力,对比基于单一骨骼模态行为识别模型,基于多模态特征融合的行为识别模型拥有更好的特征提取能力与更高的识别准确率。
4.4 自制井下不安全行为数据集实验结果分析
在自制井下不安全行为数据集上进行实验验证,不同行为识别模型在测试集上的识别准确率随训练轮数的变化如图8所示。可看出,随着训练轮数的增加,各模型准确率均增加。基于多模态特征融合的行为识别模型在第140轮时收敛至93.3%,基于单一骨骼模态的ST−GCN模型在第150轮时收敛至77.3%,2S−AGCN模型在第140轮收敛至82.6%,PoseC3D模型在第160轮收敛至90.6%。上述结果表明,在井下不安全行为识别背景下,基于多模态特征融合的行为识别模型仍有较高的识别准确率,高于单一骨骼模态的行为识别模型,更适用于井下复杂环境下的人体行为识别。
基于多模态特征融合的行为识别模型对井下不安全行为的部分识别结果如图9所示。可看出模型对较为相似的扒车与翻越围栏行为做出了准确的区分与识别,在多人识别场景下,对多人脱安全帽行为也能够准确识别。
5. 结论
1) 针对井下复杂环境下人员不安全行为识别的问题,采用多模态特征融合的方法构建行为识别模型。通过SlowOnly网络提取RGB模态数据特征;采用YOLOX与Lite−HRNet来获取骨骼模态数据,并用PoseC3D网络提取骨骼模态数据特征;对提取到的RGB模态特征与骨骼模态特征进行早期融合与晚期融合,得到井下人员不安全行为识别结果。
2) 在X−Sub标准下的NTU60 RGB+D公开数据集上的实验结果表明:在基于单一骨骼模态的行为识别模型中,PoseC3D的识别准确率比GCN类方法高,达到93.1%;对比基于单一骨骼模态的行为识别模型,基于多模态特征融合的行为识别模型拥有更高的识别准确率,达到95.4%。
3) 在自制井下不安全行为数据集上的实验结果表明,在井下复杂环境下,基于多模态特征融合的行为识别模型识别准确率仍然最高,达到93.3%,对相似不安全行为与多人不安全行为均能准确识别。
-
表 1 训练前后算法性能对比
Table 1 Algorithm performance comparison before and after training
算法 识别精度/% 检测速度/(帧·s−1) 训练前SSD 32.6 10.91 训练后SSD 85.3 11.31 表 2 5种算法性能对比
Table 2 Performance comparison of the 5 algorithms
算法 成功率/% 准确率/% 检测速度/(帧·s−1) KCF 42.6 41.1 38.49 CSRT 29.8 27.5 24.28 TLD 12.6 21.6 10.19 MIL 48.7 52.3 13.21 改进KCF算法 87.9 88.9 19.01 -
[1] 孙继平. 煤矿信息化与自动化发展趋势[J]. 工矿自动化,2015,41(4):1-5. SUN Jiping. Development trend of coal mine informatization and automation[J]. Industry and Mine Automation,2015,41(4):1-5.
[2] 程德强,钱建生,郭星歌,等. 煤矿安全生产视频AI识别关键技术研究综述[J]. 煤炭科学技术,2023,51(2):349-365. CHENG Deqiang,QIAN Jiansheng,GUO Xingge,et al. Review on key technologies of AI recognition for videos in coal mine[J]. Coal Science and Technology,2023,51(2):349-365.
[3] 孙继平. 煤矿监控新技术与新装备[J]. 工矿自动化,2015,41(1):1-5. SUN Jiping. New technologies and new equipments of coal mine monitoring[J]. Industry and Mine Automation,2015,41(1):1-5.
[4] 孙继平. 煤矿智能化与矿用5G[J]. 工矿自动化,2020,46(8):1-7. SUN Jiping. Coal mine intelligence and mine-used 5G[J]. Industry and Mine Automation,2020,46(8):1-7.
[5] 程德强,冯晨晨,唐世轩,等. 多特征融合的行人检测算法[J]. 煤炭技术,2018,37(10):254-257. CHENG Deqiang,FENG Chenchen,TANG Shixuan,et al. Multi-features fusion pedestrian detection algorithm[J]. Coal Technology,2018,37(10):254-257.
[6] 孟庆勇. 5G技术在煤矿井下应用架构探讨[J]. 工矿自动化,2020,46(7):28-33. Meng Qingyong. Probe on 5G architecture applied in coal mine underground[J]. Industry and Mine Automation,2020,46(7):28-33.
[7] ZHANG Tianzhu,XU Changsheng,YANG M. Multi-task correlation particle filter for robust object tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Honolulu,2017:4819-4827.
[8] 刘海仓. 基于稀疏表示的图像超分辨率与目标跟踪方法研究[D]. 长沙:湖南大学,2015. LIU Haicang. Reseach on image super resolution and object tracking based on sparse representation[D]. Changsha:Hunan University,2015.
[9] 白中浩,朱磊,李智强. 基于多模型融合和重新检测的高精度鲁棒目标跟踪[J]. 仪器仪表学报,2019,40(9):132-141. BAI Zhonghao,ZHU Lei,LI Zhiqiang. High-accuracy and robust object tracking based on multi-model fusion and re-detection[J]. Chinese Journal of Scientific Instrument,2019,40(9):132-141.
[10] 郝建华. 基于CamShift和粒子滤波的煤矿变电所人员目标跟踪算法研究[J]. 工矿自动化,2015,41(11):35-388. HAO Jianhua. Research of personnel tracking algorithm for coal mine substation based on CamShift and particle filter[J]. Industry and Mine Automation,2015,41(11):35-38.
[11] 邵小强,李康乐,陈熙,等. 基于改进卡尔曼滤波和参数拟合的矿井TOA定位方法[J]. 煤炭学报,2019,44(5):1616-1624. SHAO Xiaoqiang,LI Kangle,CHEN Xi,et al. TOA positioning method of coalmine based on Kalman filter and parameter fitting[J]. Journal of China Coal Society,2019,44(5):1616-1624.
[12] 孙继平,邵子佩,刘毅. 采煤机视频压缩感知跟踪方法[J]. 工矿自动化,2018,44(3):8-11. SUN Jiping,SHAO Zipei,LIU Yi. Visual tracking method of shearer based on compressive sensing[J]. Industry and Mine Automation,2018,44(3):8-11.
[13] 贾澎涛,贾伟. 煤矿井下视频多目标轨迹跟踪算法研究[J]. 计算机工程与应用,2018,54(2):222-227. DOI: 10.3778/j.issn.1002-8331.1607-0308 JIA Pengtao,JIA Wei. Recherche algorithm on coal mine multi-target trajectory tracking[J]. Computer Engineering and Applications,2018,54(2):222-227. DOI: 10.3778/j.issn.1002-8331.1607-0308
[14] 陈伟,丁世飞,许新征. 基于YCbCr模型的巷道监控中矿工脸部图像识别[J]. 煤炭科学技术,2009,37(9):79-82,85. CHEN Wei,DING Shifei,XU Xinzheng. Miners' face images identification in monitor images of mine gateway based on YCbCr model[J]. Coal Science and Technology,2009,37(9):79-82,85.
[15] HENRIQUES J F,CASEIRO R,MARTINS P,et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015. DOI: 10.1109/TPAMI.2014.2345390.
[16] LIU Wei,ANGUELOV D,ERHAN D,et al. SSD:single shot multibox detector[J]. Springer,Cham,2016. DOI: 10.1007/978-3-319-46448-0_2.
[17] KALAKE L,WAN Wanggen,HOU Li. Analysis based on recent deep learning approaches applied in real-time multi-object tracking:a review[J]. IEEE Access,2021(9):32650-32671. DOI: 10.1109/ACCESS.2021.3060821
[18] LUKEZIC A,VOJIR T,CEHOVIN Z L,et al. Discriminative correlation filter with channel and spatial reliability[J]. International Journal of Computer Vision,2018. DOI: 10.1007/s11263-017-1061-3.
[19] ZHAO Shuaitong,YANG Xianzhao,CHEN Yang,et al. Research on pedestrian detection algorithms combined with lightweight networks[C]. International Conference on Algorithms,High Performance Computing and Artificial Intelligence,Guangzhou,2022:62-67.
[20] CHEPLYGINA V,SRENSEN L,TAX D M,et al. Label stability in multiple instance learning[C]. Medical Image Computing and Computer-Assisted Intervention,Springer,Cham,2015. DOI: 10.1007/978-3-319-24553-9_66.
-
期刊类型引用(5)
1. 韩康,李敬兆,陶荣颖. 基于改进YOLOv7和ByteTrack的煤矿关键岗位人员不安全行为识别. 工矿自动化. 2024(03): 82-91 . 本站查看 2. 孙晴,杨超宇. 基于多模态的井下登高作业专人扶梯检测方法. 工矿自动化. 2024(05): 142-150 . 本站查看 3. 陈志文,陈嫒靓霏,唐晓丹,柯浩彬,蒋朝辉,肖菲. 面向煤矿安全监测边缘计算的YOLOv5s剪枝方法. 工矿自动化. 2024(07): 89-97 . 本站查看 4. 王建芳,段思源,潘红光,景宁波. 轻量化姿态估计时空增强图卷积模型下的矿工行为识别. 工矿自动化. 2024(11): 34-42 . 本站查看 5. 王宏,宋禹飞,窦如婷,王昕,王庆红. 绿色电力理念下基于改进YOLOX算法的变压器节能与可靠性研究分析. 自动化与仪器仪表. 2024(11): 208-212 . 百度学术 其他类型引用(1)