基于卷积神经网络的矿工面部表情识别方法

杜云1,张璐璐1,潘涛2

(1.河北科技大学 电气工程学院,河北 石家庄 050018;2.神华信息技术有限公司,北京 100011)

摘要:针对传统的矿工面部表情识别方法识别率较低、算法复杂等问题,以卷积神经网络为基础,结合支持向量机算法中的非线性映射函数,提出了基于卷积神经网络的矿工面部表情识别方法。卷积神经网络采用权值共享的策略,运用固定权值直接构造卷积层,并依照匹配生长规则确定网络层次结构。将经过预处理的矿工面部表情图像作为卷积神经网络的测试集和训练集,使用支持向量机对表征矿工面部表情特征的神经元进行分类,从而实现对矿工面部表情的分类识别。实验结果表明,该方法对矿工面部表情的识别率达到90.71%,能够满足实际应用需要。

关键词:矿工面部表情识别;卷积神经网络;支持向量机;权值共享策略;匹配生长规则

0 引言

在煤矿生产过程中,井下矿工情绪低落或走神,都会影响其工作效率,甚至导致事故发生。如果能够通过计算机实现人脸表情识别,就能更好地掌握井下工作人员的情绪状态,从而及时发现问题,消除隐患[1]。近年来,众多研究者对人脸表情识别进行了研究,如Song M等[2]利用基于统计形状模型的ASM来提取人脸表情图像特征点,该算法不仅可以降低光照变化造成的影响,还对表情不对称的图像具有较好的识别能力。Zavaschi T H H等[3]将Gabor小波变换与局部二值模式相结合,提取复合特征,利用支持向量机(Support Vector Machine,SVM)进行分类,获得了比传统算法更高的识别率,但同时加大了算法复杂度,增加了识别时间。以上方法都是采用传统的“目标分割提取-人工缺陷特征选取-人工特征描述计算-统计方法或浅层网络识别”的方式,由于煤矿井下环境特殊,对比度低,且有些特征不明显,故对矿工面部特征的有效描述和准确提取比较困难[4-5]

深度学习算法的出现为众多领域的研究提供了新的思路,其实质是模拟视觉感知系统的层次结构,建立含有丰富隐层结构的机器学习模型,通过大量的数据训练,学习获得有用的本质特征,提高分类识别及预测的准确性[6-8]。本文提出了基于卷积神经网络的矿工面部表情识别方法,在卷积神经网的基础上,结合SVM算法中的非线性映射函数,构建了一种类似于人类视觉系统的深度学习网络,实现了对矿工面部表情的智能识别。

1 卷积神经网络结构

1.1 标准卷积神经网络结构

卷积神经网络是受到视觉神经系统的启发,针对二维形状的识别而设计的一种多层感知器,在平移的情况下具有高度不变性,在缩放和倾斜的情况下也具有一定的不变性。作为一种特殊的前馈神经网络模型,标准卷积神经网络通常具有比较深的结构,一般由输入层、卷积层、下采样层、全连接层及输出层组成[9],如图1所示。其中输入层通常是一个矩阵,卷积层和采样层可以看作是特殊的隐含层,而其他层是普通的隐含层,这些层一般具有不同的计算方式,权值大多需要通过学习来优化;H5—HR为全连接层,R为全连接层层数。

卷积神经网络采用权值共享的策略,在此基础上,卷积层直接选用固定权值Gabort滤波器构造,极大地减少了网络训练参数数量,降低了视觉模型的复杂程度。

图1 标准卷积神经网络结构
Fig.1 Structure of standard convolutional neural network

二维Gabor滤波器是进行图像多分辨率分析的有力工具,被广泛应用于图像处理,二维Gabor核函数[10]定义如下:

(1)

式中:ku,v为滤波器中心频率,u为方向因子,v为尺度因子;σ为与小波频率带宽有关的常数;z为给定位置的图形坐标,z=(x,y)。

Gabor函数是复值函数,包含实部和虚部。实部和虚部包含不同的图像信息,一般为了更好地表征图像,会对2个部分分别进行处理。由于Gabor函数的相位信息不太稳定,故运用其幅值信息作为卷积层固定权值的构造依据。

1.2 卷积神经网络层次结构确定方法

与生物的视觉神经系统网络相类似,卷积神经网络具有层次化和用局部感知区域去提取特征的特点,适当地增加各层感知器的数量,可以提高网络的识别能力。但层数太多会增大运算量,降低运算效率,故需定义网络的生长规则,本文依照匹配生长规则对层次结构进行生长匹配[11-12]

采用网络结构的H1—H4层同步匹配生长,设各层特征图数量为N1N4。匹配生长规则:H1层卷积面每次生长数量为2;H2层下采样面数量与H1层相同;H3层卷积面数量为M1+M2+M3+1,其中M1表示以H2层中N2/2个相邻下采样面组合作为输入的卷积面的数量,M2表示以H2层中N2/2+1个相邻下采样面组合作为输入的卷积面数量,M3表示以H2层中N2/2+1个不相邻下采样面组合作为输入的卷积面数量;H3层最后一个卷积面以H2层全部下采样面组合作为输入;H4层的下采样面数量与H3层相同,依次类推,直到达到所需的收敛域为止。

2 SVM算法

卷积神经网络的全连接层H5—HR主要用来分类,这些层实际上构成了一个多层前馈网络,激活函数的确定是其中一个关键问题,本文采用SVM来确定全连接层的激活函数。SVM是一种具有很强学习能力和泛化能力的二分类器,其基本思想是利用核函数K(x,y),通过非线性变换将样本映射到高维空间,在高维空间中建立一个最优分类超平面。寻找最优分类面其实是一个凸二次规划问题,从理论上讲,最终求得的解将是全局最优点[13-14]

2.1 激活函数确定

一般情况下,通过调整核函数K(x,y)的参数及惩罚因子C来优化SVM分类器的性能。核函数可以将高维映射转化为简单的点乘,决定着高维特征空间的选择。较为常见的核函数有线性核函数、d阶多项核函数、Sigmoid核函数和径向基核函数(Radial Basis Function,RBF)[15]。一般的激活函数采用Sigmoid核函数,但由于RBF函数具有只需调整一个参数、在特定参数情况下与Sigmoid核函数相似、线性核函数是其特例等优点,所以本文选用RBF函数。

利用网格搜索结合K-fold交叉验证的方法对RBF核参数γ和惩罚因子C进行寻优。网格划分多采用等距划分,若选取的步长过大,可能会漏掉最优解;若选取的步长过小,会使搜索时间过长。因此,需选取合适的步长。考虑到γ的取值范围容易落在[0,1]内,本文采用指数函数对网格进行划分,即建立二维网格坐标,设定(C,γ)的搜索范围及步距(通常情况下,2-5C≤25,2-5γ≤25,步长取Cstep=1,γstep=1);然后对训练集进行训练,并对测试集进行预测,得到此时的表情分类准确率。重复以上过程,遍历网格中的每一点,最后选取识别率最高的参数作为最终的最优参数。

2.2 反向传播算法

卷积神经网络作为一种特殊的多层前馈网络,其权值和偏置在理论上可以用反向传播算法进行学习和训练。在标准反向传播算法的基础上,对卷积层和下采样层的计算过程进行修改,可以为更普遍的卷积神经网络推导出一个反向传播算法。卷积层和下采样层的计算过程如式(2)—式(5)所示。

(2)

(3)

(4)

(5)

式中:为第k个卷积层或下采样层第j个面,l为所训练的图片序号;f()表示卷积层与其上一层的连接关系,f′()表示其导数是一个中间变量;“*”为外卷积符号为第k层第i个输入面到第j个输入面的权值矩阵分别为第k层的加性偏置和乘性偏置;g()表示下采样层与其上一层的连接关系,g′()表示其导数;down()表示平均池化为反传误差信号,即灵敏度;“∘”表示2个向量的阿达马积;up()表示对图像矩阵进行不重叠的下采样;rot180()表示将一个矩阵水平翻转一次,再垂直翻转一次。

通过式(2)和式(3)可以求得相应的权值和偏置,然后更新所有网络参数,训练完成。

3 矿工面部表情识别方法

3.1 图像均衡化处理

矿工面部表情可分为兴奋、中性、沮丧和疲劳4种,选取143张矿工表情图像(背景统一的灰度图像)作为训练集对卷积神经网络进行训练,图像分辨率均为32×32。

选取70张矿工表情图像作为测试集,对训练好的卷积神经网络进行测试。考虑到矿井复杂的光照条件,采集到的图像会因为光源位置的变化出现光照不同的情况,对所选取的矿工面部表情图像进行预处理,运用全局平衡直方图对光照过量或光照过暗的图像进行均衡化处理,均衡化处理后的图像如图2和图3所示。将处理后的图像作为测试集对卷积神经网络进行测试。

(a)原图像(b)处理后的图像

(c) 原图像直方图

(d) 处理后的图像直方图

图2 图像过亮时均衡化处理结果
Fig.2 Balanced results of the image which is too bright

(a)原图像(b)处理后的图像

(c) 原图像直方图

(d) 处理后的图像直方图

图3 图像过暗时均衡化处理结果
Fig.3 Balanced results of the image which is too dark

3.2 卷积神经网络分布

卷积层和下采样层的层数按照网络生长规则来确定。经过实验得出,第1个卷积层和下采样层面数定为6面,第2个卷积层和下采样层面数确定为16个,最后一个卷积层有120个卷积面,几乎与上一个下采样层构成全连接;全连接层产生18个神经元,输出层最后输出4个神经元,分别表示矿工的4种面部表情。卷积神经网络结构层次分布情况如图4所示。

图4 根据实验结果确定的卷积神经网络结构层次
Fig.4 Structure of the convolution neural network confirmed according to experimental results

图4中输入层输入的是经过几何归一化和灰度归一化处理的矿工表情图像。H1表示第1个隐含层(即卷积层),一个卷积层包含多个卷积面,每个卷积面与一个卷积过滤器相关联,将输入与对应的卷积核进行内卷积,再加上偏置可得到卷积面。此处有6个卷积面,每个卷积面和输入5×5的邻域相连接,故有156个可训练参数,在此过程中一共产生122 304个连接。H2层是下采样层,由6个14×14的下采样面构成,下采样面中每个单元与上一个卷积面的2×2邻域相连,该层共有12个可训练参数和5 880个连接。H3层同样是一个卷积层,通过5×5的卷积核去卷积H2,每个卷积面有10×10个神经元,一共有16个卷积面。H4层为下采样层,也是由16个5×5的下采样面组成,下采样面中每个单元与上一个H3卷积面的2×2邻域相连,共有32个可训练参数和2 000个可训练连接。H5层是卷积层,由32个卷积面组成,由于每个单元与H4层全部单元的5×5下采样面相连,故H5的卷积面大小为1×1,也就是说H5的每个卷积面仅含1个神经元,构成了H4层与H5层的全连接,由于不能保证两者一定相同,故将H5层仍定义为卷积层。H6层有18个神经元,与H5层全连接,构成了全连接层,此处使用RBF激活函数来对表征矿工面部表情特征的神经元进行分类。输出层选用softmax函数来设定输出,得到4个神经元,分别表示矿工的4种面部表情。

3.3 结果分析

卷积神经网络训练集和测试集的分类错误曲线率如图5所示。

(a) 训练集分类错误曲线

(b) 测试集分类错误曲线

图5 分类错误率曲线
Fig.5 Curve of classification error rate

由图5可知,在迭代80次时训练集的错误率约为5%,测试集的错误率约为9%,均达到收敛。第1次实验的矿工面部表情识别结果见表1。

表1 第1次实验的矿工面部表情识别结果
Table 1 Miner's face expression recognition result of the first experiment

数据类型正确识别数/测试样本数兴奋中性沮丧疲劳识别率X1/%训练数据42204041测试数据13/1320/2015/1716/2091.42

由表1可知,兴奋和中性的面部表情特征比较明显,容易区分,而沮丧和疲劳的特征区分不太明显,导致识别率下降。

为了提高实验的准确性,重复以上步骤,重新选取143张测试样本进行实验,在此之前,要先初始化整个网络的权值和偏置。第2次实验结果见表2。

对2次实验的识别率取平均作为最后结果,平均识别率为

(6)

表2 第2次实验的矿工面部表情识别结果
Table 2 Miner's face expression recognition result of the second experiment

数据类型正确识别数/测试样本数兴奋中性沮丧疲劳识别率X2/%训练数据42204041测试数据13/1320/2013/1717/2090.00

传统的基于局部梯度编码(Local Gradient Coding,LGC)算子的表情特征提取算法、基于非对称邻域LGC算子(Asymmetric -Region Local Gradient Coding,AR-LGC)的表情特征提取算法的识别率分别为84.29%和87.04%。对比可知,基于卷积神经网络的面部表情识别方法识别率更高。

4 结论

(1) 将卷积神经网络与SVM结合,提出一种具有自学习能力的矿工面部表情识别方法。运用固定权值直接构造卷积神经网络的卷积层,减少了一部分计算量,提高了学习效率。采用矿工面部表情图像作为训练集进行实验,结果表明,所提算法识别率为90.71%,高于传统的表情特征提取算法。

(2) 在下一步的研究工作中,将根据煤矿井下不同的光照强度、矿工脸上覆盖的煤灰及安全帽遮挡程度等,为卷积神经网络各隐含层找到更加适合的计算方式,提高不同光照条件和摄像角度下获取的矿工面部表情图像识别准确率。

参考文献(References):

[1] 杨卓.井下人员人脸识别方法研究[J].工矿自动化,2015,41(9):53-57.

YANG Zhuo.Research of face recognition method of underground personnel[J].Industry and Mine Automation,2015,41(9):53-57.

[2] SONG M,TAO D,LIU Z,et al.Image ratio features for facial expression recognition application[J].IEEE Transactions on Systems Man & Cybernetics-Part B,2010,40(3):779-88.

[3] ZAVASCHI T H H,JR A S B,OLIVEIRA L E S,et al.Fusion of feature sets and classifiers for facial expression recognition[J].Expert Systems with Applications,2013,40(2):646-655.

[4] LEE I,JUNG H,AHN C H,et al.Real-time personalized facial expression recognition system based on deep learning[C]//IEEE International Conference on Consumer Electronics,Department of Electrical Engineering,Kaist,2016:267-268.

[5] 赵燕飞,杨彦利,王丽娟.基于显著性和深度卷积神经网络的输送带表面故障定位[J].工矿自动化,2016,42(12):72-77.

ZHAO Yanfei,YANG Yanli,WANG Lijuan.Surface fault location of conveyor belt based on saliency and deep convolution network[J].Industry and Mine Automation,2016,42(12):72-77.

[6] 周书仁,梁昔明,朱灿,等.基于ICA与HMM的表情识别[J].中国图象图形学报,2008,13(12):2321-2328.

ZHOU Shuren,LIANG Ximing,ZHU Can,et al.Facial expression recognition based on independent component analysis and hidden Markov model[J].Journal of Image and Graphics,2008,13(12):2321-2328.

[7] 徐茜亮,霍振龙.人脸识别技术在矿井人员管理系统中的应用[J].工矿自动化,2013,39(8):6-8.

XU Xiliang,HUO Zhenlong.Application of face recognition technology in mine personnel management system[J].Industry and Mine Automation,2013,39(8):6-8.

[8] 刘万军,梁雪剑,曲海成.不同池化模型的卷积神经网络性能研究[J].中国图象图形学报,2016,21(9):1178-1190.

LIU Wanjun,LIANG Xuejian,QU Haicheng.Learning performance of convolutional neural networks with different pooling models[J].Journal of Image and Graphics,2016,21(9):1178-1190.

[9] 李玉鑑,张婷.深度学习导论及案件分析[M].北京:机械工业出版社,2016.

[10] 柴瑞敏,曹振基.基于Gabor小波与深度信念网络的人脸识别方法[J].计算机应用,2014,34(9):2590-2594.

CHAI Ruimin,CAO Zhenji.Face recognition algorithm based on Gabor wavelet and deep belief networks[J].Journal of Computer Applications,2014,34(9):2590-2594.

[11] SAABIN R.Facial Expression Recognition Using multi radial bases function networks and 2D-Gabor filters[C]//International Conference on Digital Information Processing & Communications,2015:225-230.

[12] 余永维,殷国富,殷鹰,等.基于深度学习网络的射线图像缺陷识别方法[J].仪器仪表学报,2014,35(9):2012-2019.

YU Yongwei,YIN Guofu,YIN Ying,et al.Defect recognition for radiographic image based on deep learning network[J].Chinese Journal of Scientific Instrument,2014,35(9):2012-2019.

[13] TONG Y,CHEN R,CHENG Y.Facial expression recognition algorithm using LGC based on horizontal and diagonal prior principle[J].Optik-International Journal for Light and Electron Optics,2014,125(16):4186-4189.

[14] SEBE N,COHEN I,GARG A,et al.Emotion recognition using a cauchy naive Bayes classifier[C]//Proceedings of International Conference on Pattern Recognition,Québec City,2002.

[15] PANTIC M,ROTHKRANTZ L.Facial action recognition for facial expression analysis from static face images[J].IEEE Transactions on Systems,Man and Cybemetics-Part B,2004,34(3):1449-1461.

Miners' facial expression recognition method based on convolutional neural network

DU Yun1, ZHANG Lulu1,PAN Tao2

(1.School of Electrical Engineering,Hebei University of Science and Technology,Shijiazhuang 050018,China; 2.Shenhua Information Technology Co.,Ltd.,Beijing 100011,China)

Abstract:In view of problems of low recognition rate and complex algorithm of traditional miner's facial expression recognition methods,based on convolutional neural network and combining with nonlinear mapping function in support vector machine algorithm,a miners' facial expression recognition method based on convolutional neural network was proposed. The convolutional neural network adopts sharing weights strategy,constructs convolutional layer directly with fixed weights,and determine network hierarchy according to matching growth rules. Preprocessed miner's facial expression images are used as test set and training sets of the convolutional neural network. Supportive vector machine is used to classify neurons that represent miner's facial expression features,so as to realize classification and recognition of miner's facial expressions. The experimental results show that the recognition rate of miner's facial expression of the proposed method reaches 90.71%,which can meet the practical application needs.

Key words:miner's facial expression recognition; convolutional neural network; support vector machine; weight sharing strategy; matching growth rule

文章编号:1671-251X(2018)05-0095-05

DOI:10.13272/j.issn.1671-251x.17312

中图分类号:TD679

文献标志码:A

网络出版地址:http://kns.cnki.net/kcms/detail/32.1627.TP.20180503.1346.001.html

收稿日期:2018-01-30;

修回日期:2018-03-13;

责任编辑:胡娴。

基金项目:国家重点研发计划项目(2016YFC0801800)。

作者简介:杜云(1975-),女,河北邯郸人,副教授,硕士研究生导师,主要研究方向为智能控制理论及应用,E-mail:yunny7503@163.com。通信作者:潘涛(1975-),男,江苏连云港人,教授级高级工程师,博士,博士后,主要研究方向为矿山智能化、监控通信,E-mail:pancumt@163.com。

引用格式:杜云,张璐璐,潘涛.基于卷积神经网络的矿工面部表情识别方法[J].工矿自动化,2018,44(5):95-99.

DU Yun,ZHANG Lulu,PAN Tao. Miners' facial expression recognition method based on convolutional neural network[J].Industry and Mine Automation,2018,44(5):95-99.