郝建华
(山西汾西矿业(集团)有限责任公司 供用电分公司, 山西 介休 032000)
摘要:针对煤矿变电所数显式仪表存在巡检自动化程度低和识别可靠性差等问题,提出了一种基于改进遗传算法和支持向量机算法的字符识别算法。该算法采用Harr-Like特征作为字符识别特征,通过改进的遗传算法对分类器支持向量机的参数进行寻优,利用主元分析法进行降维处理,并使用支持向量机识别数显式仪表字符。实验验证了该算法的有效性和可行性。
关键词:煤矿变电所; 数显式仪表; 字符识别;Harr-Like特征; 改进遗传算法
网络出版地址:http://www.cnki.net/kcms/detail/32.1627.TP.20160902.1018.015.html
煤矿变电所中大量使用数显式仪表用于显示电力系统的电压、电流、功率等参数,其优点是读数简单且不需要估计。但在一般情况下,数显式仪表并不和测量系统进行数据传输,仅仅显示当前的测量结果,而测量结果需要通过人工抄写记录,并将其录入计算机内,以对这些数据作进一步处理。这种检测方式不仅费时费力,而且可靠性易受检测员的影响变得不稳定。本文将机器视觉技术引入煤矿变电所,用于采集数显式仪表的图像,并进行处理和识别。常用的字符识别法有穿线识别法、模板匹配法、支持向量机法等。穿线识别法易于实现,但对定位区域要求较高。模板匹配法简单,但运算量较大。另外,上述2种方法对字符扭曲、变形抵抗能力不强。故本文提出一种基于Harr-Like特征及改进遗传算法支持向量机的字符识别算法,并进行了实验研究。
1.1 Harr-Like特征
Harr-Like特征库有3种类型、4种形式。利用这些特征可以从字符中提取斜向边缘特征、斜向灰度特征等有用信息[1-2]。
假设图像高为H,宽为W,如果特征量满足式(1),则五元组(x,y,p,h,θ)能够表示扩展Harr-Like特征中的旋转矩阵特征及竖直矩阵特征。
(1)
式中:x,y表示矩形的位置;p,h分别为矩形的宽和高;θ为矩形的倾斜角度。
每个特征在实际训练中的个数是不相同的,一个大小为p×h的正面特征,在一幅大小为W×H的图像中的个数为
(2)
式中:N为θ=0°对应的特征数;X=W/h;Y=H/h。
对于θ=45°的特征量,在W×H的图像中个数为
(3)
式中z=p+h。
1.2 支持向量机
寻求支持向量机最优分类超平面可转化为求解如下的约束优化问题:
(4)
式中:(xi,yi)代表第i个样本;w,b分别为超平面的法向量和截距;l为样本个数。
这是一个凸二次规划问题,原约束优化问题可以转化为对偶问题:
(5)
式中αi为拉格朗日乘子。
在线性分类问题中,有时可能会出现一些噪声样本点,导致原线性可分的样本数据变得线性不可分,此时需使其能够忽略一定的误差,引入一个评估误差损失的惩罚权重对训练误差进行考量,从而使分类器的分类效果更好,具体目标函数可以定义为
(6)
式中:C为惩罚因子,表示对训练误差的重视程度;ξi为松弛因子。
对于某空间中线性不可分的数据,往往可先使用映射函数Φ(x)将训练样本从低维空间转换到高维空间,这个函数被称为核函数。使用核函数后,原优化问题可写为
(7)
式中。
决策函数可以写为
(8)
式中β*为分类阈值。
常用的核函数包括多项式核函数、高斯径向基核函数及Sigmoid核函数[3]。本文采用高斯基核函数。
(9)
式中γ为高斯径向基核函数的半径。
使用遗传算法对支持向量机进行参数寻优时,先在设定区间内随机选点进行搜索,其方向由适应度函数决定,流程如图1所示。
图1 基于遗传算法参数寻优流程
使用二进制符号串d1,d2,…,da,da+1,…,dg对支持向量机中的C和γ编码,其中,C对应d1,d2,…,da,γ对应da+1,da+2,…,dg;a为C的编码长度(位数),g为γ的编码长度(位数)。自变量编码与支持向量机参数相互对应。
支持向量机参数寻优过程中的适应度函数一般为交叉验证函数,但在遗传算法中很难保证种群多样性,容易导致局部最优现象,因此,需要对适应度函数进行调整。适应度函数为
F*(x)=
(10)
式中:F*(x)为调整后的适应度函数;F(x)为原适应度函数,即交叉验证函数;B为最佳适应度;A为平均适应度[4];s≥1且为整数,一般为2;k由交叉验证函数确定,若F(x)≥1,则k>1且为整数,若F(x)<1,则k∈(0,1);n为现遗传代数;M为最大遗传代数[5]。
通常遗传算法的交叉概率Pc=0.6~1,变异概率Pm=0.001~0.1。在初期阶段个体适应度差异较大,较大的交叉概率及较小的变异概率可以更好地保存有用遗传信息;而在后期,个体适应度差异较小,相反的交叉概率和变异概率能够增加种群多样性。查阅相关资料后,本文使用的交叉概率和变异概率如下:
(11)
(12)
式中n1为第一代遗传代数。
支持向量机中核函数选用高斯径向基函数,其中参数分别使用经验法、遗传算法和改进遗传算法获得。在经验法中,C=1 000,γ=0.01,遗传算法和改进遗传算法中核函数C的搜索范围设为[2-2,24],γ的搜索范围设为[2-4,24],种群数量设置为20,最大遗传进化数为100次。
实验采用自建字符图像库进行测试,字符库包含10种字符,每种字符选取110张图像,其中有些字符表面受到光照、薄膜影响。部分字符图像如图2所示,每种字符选取35幅图像用作测试,剩余图像作为训练图像。
图2 部分字符图像
对字符图像进行二值化处理后,部分字符受噪声干扰明显,如图3所示。
分别检验采用穿线法、模板匹配法和不同参数支持向量机方法的识别结果。使用支持向量机识别字符时提取特征并使用主元分析法进行数据降维,选取主成分贡献率大于90%。对其中一幅字符图像使用遗传算法优化参数,得到的适应度曲线如图4所示。得到的支持向量机最优参数为C=13.792 6,γ=0.007 9。
图3 部分受噪声干扰的字符二值化图像
图4 遗传算法适应度曲线
采用改进遗传算法优化参数得到的适应度曲线如图5所示。得到的支持向量机最优参数为C=39.960 3,γ=0.007 5。
图5 改进遗传算法适应度曲线
使用遗传算法进行参数寻优在开始阶段选择的种群具有随机性,因此,对于相同训练数据,每次参数寻优的结果并不一致,对数据进行5组实验,遗传算法参数寻优结果见表1。改进遗传算法参数寻优结果见表2。
表1 遗传算法参数寻优结果
表2 改进遗传算法参数寻优结果
对每个字符分别进行8组实验,对结果求平均值,得到不同方法的识别率见表3。
表3 不同方法的识别率 %
通过实验结果可以看出,采用Harr-Like提取字符特征,然后基于改进遗传算法支持向量机分类,对字符图像有较好的识别率,在样本不是很大的情况下,分类速度较快,满足时效性要求。
介绍了基于改进遗传算法支持向量机的字符识别算法,并将其应用于煤矿变电所数显式仪表的图像处理和识别。该算法采用Harr-Like特征作为字符识别特征,相比穿线法、模板匹配法、支持向量机法等传统的字符识别算法,其参数优化效率高、分类速度快、准确率高,具有更好的识别效果。
参考文献:
[1] ZHANG C, LIU J, LIANG C, et al. Image classification using Harr-like transformation of local features with coding residuals[J]. Signal Processing, 2013,93(8):2111-2118.
[2] 邵平,杨路明,曾耀荣.计算旋转Harr型特征的积分图像算法改进[J].计算机技术与发展,2006(11):146-147.
[3] 黄琼英.支持向量机多类分类算法的研究及应用[D].天津:河北工业大学,2005.
[4] 刘虎,罗斌,吴晟,等.改进的遗传算法在SVM参数优化中的应用[J].云南师范大学学报(自然科学版),2012(4):47-51.
[5] 杨旭,纪玉波,田雪.基于遗传算法的SVM参数选取[J].辽宁石油化工大学学报,2004(1):54-58.
HAO Jianhua
(Branch of Power Supply and Consuption, Shanxi Fenxi Mining(Group) Co., Ltd., Jiexiu 032000, China)
Abstract:In view of problems of low automation degree and recognition reliability of digital display instrument in coal mine substation, a kind of character recognition algorithm based on improved genetic algorithm and support vector machine algorithm was proposed. The algorithm adopts Harr-Like features as character recognition features, improved genetic algorithm was chosen to search the optimal parameters of the support vector machine classifier, and uses principal component analysis method to conduct the dimension reducing process, then applies support vector machine to identify character of the digital display instrument. The effectiveness and feasibility of the algorithm was validated by experiments.
Key words:coal mine substation; digital display instrument; character recognition; Harr-Like features; improved genetic algorithm
文章编号:1671-251X(2016)09-0064-04 DOI:10.13272/j.issn.1671-251x.2016.09.015
收稿日期:2016-06-29;
修回日期:2016-07-28;责任编辑:张强。
基金项目:江苏省自然科学基金项目(BK20130207)。
作者简介:郝建华(1963-),男,山西太古人,工程师,现主要从事煤矿供电安全研究及管理等工作,E-mail:200510322@163.com。
中图分类号:TD611
文献标志码:A 网络出版时间:2016-09-02 10:18
郝建华.煤矿变电所数显仪表字符识别研究[J].工矿自动化,2016,42(9):64-67.