2012年9月 计算机工程与设计 COMPUTER ENGINEERING AND DESIGN Sept.2012 第33卷第9期 V01.33 No.9 基于多尺度Harris角点的图像文字检测 杜振龙,杨凡,李晓丽,沈钢纲 (南京工业大学电子与信息工程学院,江苏南京210009) 摘要:为解决传统的基于Harris角点的图像文字检测算法易受非文字角点干扰,检测准确率低的问题,提出一种基于多 尺度Harris图像文字检测算法。该算法在多个尺度下提取角点,并利用分块方法分析文字局部特征,有效剔除了非文字角 点。使用多次迭代逐步剔除非文字区域角点,精确提取备选块中的文字角点;通过区域融合形成文字区域,用轮廓跟踪法 标识文字区域。实验结果表明,该算法明显提高了图像/视频文字检测的稳定性和准确率。 关键词:多尺度;角点检测;文字特征;文字检测;轮廓跟踪 中图法分类号:TP391.4 文献标识号:A 文章编号:1000—7024(2012)09—3522—04 Image characters detection based on multiscale Harris corner DU Zhen-long,YANG Fan,LI Xiao—li,SHEN Gang-gang (College of Electronics and Information Engineering,Nanjing University of Technology,Nanjing 210009,China) Abstract:To deal with the conventional character detection method upon Harris corner detection is easily effected by non-charac ter corners.A novel approach of image/video character detection is presented,which extracts character corner by multiscale Harris and eliminates the non-character corner by blocking.The experiments show that the discussed method could significantly achieves the stability of the image character detection,and improves the higher accuracy and more robust to noise. Key words:multiscale harris corner detection character feature ̄character detection;contour trace 0引 言 计算机技术、多媒体技术飞速发展,图像、声音和视频 等多媒体逐渐成为信息交流的主体。附有文字说明及字幕的 图像和视频,方便了人们的理解、交流。传统的基于关键词 检索已不能满足多元化媒体检索的需求,基于内容的多媒体 检索成为人们关注的焦点。文字是图像和视频检索的重要线 索,因此,在图像、视频检索时有必要对文字进行准确检 测。已有的文字检测方法可分为基于边缘__1 ](edge-based) 的方法、基于纹理_3 ](texture-basd)的方法、基于区域[e5] 在颜色和亮度方面与背景有着较明显的差异,角点数量多、 分布集中。Harris算法通过微分运算和自相关矩阵来检测 角点,计算简单,提取的角点特征分布均匀合理。Harris 算法需要给定阈值,导致定位精度差,易遗漏真实角点。 本文将多尺度分析引入角点检测,能够提高角点定位精度, 提高检测准确率,增强检测的稳定性。 图像的角点既有文字角点也有非文字角点,多尺度Hat— ris角点在检测文字角点的同时,也提高了非文字角点的检测 率。为此,本文将多尺度Harris检测结果分块,利用文字角 点与非文字角点特征的差异特征,筛选出文字备选块,采用 迭代方式,确定文字角点,剔除非文字角点。实验证明,本 文所提方法可以有效提高文字检测率,降低误检率。 (region-based)的方法和基于学习_6 的方法等。 边缘、轮廓和角点是图像的重要特征,是理解和分析 图像的基础。角点包含于边缘和轮廓之中,是图像亮度变 化剧烈或图像边缘曲线上曲率极大值的位置,是于字 体颜色、字体尺寸的文字特征。彩色图像和视频中的文字, 1 Harris角点检测 Harris算子 是在基于Moravec算子的点特征提取算 收稿日期:2011-09—29;修订日期:2011—12—10 基金项目:江苏省高校自然科学基金项目(09I<JB520006、11KJD620007);南京大学软件新技术国家重点实验室开放基金项目 (KFK]r2O08B15);东南大学计算机网络和信息集成教育部重点实验室基金项目(K93_9—2010-04);南京工业大学学科预研基金项目(44209105) 作者简介:杜振龙(1971一),男,陕西韩城人,博士,副教授,CCF会员,研究方向为多媒体信息处理、人工智能、计算机图形学;杨凡 (1986一),女,安徽宣城人,硕士研究生,研究方向为数字图像处理;李晓丽(1971一),女,甘肃会宁人,博士研究生,副教授,研究方 向为人工智能、软件工程;沈钢纲(1958一),男,美籍华人,博士,教授,博士生导师,研究方向为可信计算、固件研发。 E-mail:huaimugua@gmail.com 第33卷第9期 杜振龙,杨凡,李晓丽,等:基于多尺度Harris角点的图像文字检测 ・3523・ 子,引入了高斯平滑因子,增强了抗干扰能力。Harris角 点检测的原理为:如果某一点向任意方向偏移都会引起灰 度的很大变化,这就说明该点是角点。 Harris角点检测原理:设灰度图像-厂,图像块B∈, 平移(At,zSy),块B与其平移后的图像之差的平方和s为 多其它特征,可以辅助角点特征提取文字,以得到更高的 检测率。 文字基本特征:图像和视频中的文字可分为两种_9]: 一种是图像和视频内容自身含有的文字,如车牌号码、房 屋号码和标语等,称为场景字幕;另一种是人工合成到图 SB(At,zSy)一∑∑(f(xi—yi)一f(x 一△z,Y 一zSy)) EBYi∈B 像和视频中的文字,如新闻标题、台词、图像解释等,称 为人工字幕。场景字幕蕴涵了丰富的语意信息,但其出现 与内容有关,且不同场景文字差异大,很难找出共同特征, (1) 用一阶泰勒展开,舍去二次以上高阶项,可表示为 f(x ̄-z2 ̄c—zSy  ̄,yi)-4- , [ ] (2) 此时,SB(At,zSy)的最小值有解析解。将式(2)带人 式(1),化简后得到 Ss(At,zSy)一[△z,z ̄y]AB( ) ] (3) 其中Harris矩阵AB( , )是S在点(O,0)处的二阶导 数,如下 ∈鼬 EB A(x, 一 t∈ EB x∑∑ iEBYi ̄B JI Harris矩阵A是半正定对称矩阵,主要变化模式对应 于正交方向的偏微分,并由矩阵A的特征值 、 反映出 来。有以下3种情况: ・两个特征值都很小。图像_厂在检测点处平坦,不存 在边缘或角点。 ・一个特征值很小,另一个值很大。局部邻域成脊[7]。 若有垂直于脊部的微小移动,图像,将发生显著变化。 ・两个特征值都很大。在任意方向的微小移动,都会 造成图像厂的显著变化。 通常在计算中用式(5)计算角点量 R(A)一det(A)一k・trace (A) (5) 式中:det(A)——矩阵A的行列式,trace(A)——矩阵A 的迹,k——可调参数。 多尺度Harris角点检测:Harris角点检测是目前应用 较多的角点检测方法,但不足之处是定位精度较差,容易 遗漏真实角点,且易受噪声影响。传统Harris角点检测算 子在同一尺度处理。一般而言,大尺度[8 图像可以有效地 剔除伪角点,但也易遗漏有用角点;小尺度图像能够提高 角点的准确定位,但也会检测出伪角点。因此,本文采用 多尺度Harris角点检测的方法,通过有效组合多个尺度检 测得到的角点信息,剔除伪角点,提高角点定位精度。 2提取文字角点 图像和视频中的角点可以分为文字角点和非文字角点。 角点是本文提取文字所用的主要特征,然而,文字还有很 因此较难识别。本文主要检测人工字幕。 通常,人工字幕符合人的书写、阅读习惯,只受图像 和视频复杂背景的影响。人工字幕含有较多可利用特征, 对文字的定位和提取起着关键作用,这些特征是本文图像 文字检测的基础。文字特征可以归纳为以下几类。 ・文字多为水平或垂直排列,分布集中。一个文本区 域包含多个字符。 ・文字颜色单一,与背景颜色和亮度有较大差异,具 有明显的边缘。 ・同一副图像或同一个视频中的文字尺寸基本相同。 ・字符之间都有一定的距离,没有粘连现象。相邻字 符间的间距和宽度成一定的比例。 ・文字由笔画组成,文字区域含丰富角点信息。 文字角点特征:文字具有丰富的角点特征。图像和视 频中的文字多为水平或垂直排列,文字区域的角点数量大、 分布集中,排列趋势与文字相同。而非文字区域角点数量 少,分布杂散,随机性大。本文利用文字区域与非文字区 域的角点特点差异,采用分块方法提取局部角点特征,剔 除多余的非文字角点,提高文字区域的检测率。 准确定位文字角点:角点检测后文字备选区域角点分 布集中。在非文字区域,由于图像纹理特征较丰富,也存 在角点。非文字区域的角点表现为文字区域检测噪声,为 了去除这些噪声,需进行角点滤波。根据文字区域与非文 字区域角点特征的不同,采用下面步骤进行角点滤波。 ・构造角点掩膜图像。把图像转化为掩膜图像,即将 角点处的像素值设置为1,非角点处像素值设置为0。 ・去掉孤立角点 设定阈值T ̄,以角点为中心,统 计其邻域内角点数目N,将N< 的角点去除。 角点滤波操作在每个文字备选区域进行,滤除非文字 区域角点,降低文字角点被滤除概率。 3实验及结果分析 本文所提算法的检测过程包括多尺度Harris角点检测、 图像分块剔除非文字角点和文字区域确定。 (1)多尺度Harris角点检测。选取 一0.5、 一1和 一1.5这3个尺度,按以下公式计算,得到3个尺度下的 M矩阵 A(&)一G(&) (L) B( )一G( ) (L) C(&)一G( ) (L・L) 计算机工程与设计 …2012拄 M( )一l‘ lC(&)。 B(&)1。I .、 rA(&)C( )] 非文字角点。剔除原则是:从当前尺度开始到最大尺度, 查找当前尺度下的文字候选点在前一尺度的小邻域中是否 式中:L、L——图像在-z、Y方向的一阶偏导,G( )是滤 有出现,如果有,则保留;如果没有,则删除。这样提高 了角点的定位精度和准确度。对迭代完的角点掩膜图进行 角点滤波,准确定位文字角点。实验结果如图3所示。 波半径为 的高斯卷积核函数,M( )是尺寸为 时的M 矩阵,尺度&的Harris角点响应函数R(a)为 R( )一detEM(&)]一k・trace [M( )] 本文通过抑制局部非极大值[1叩方法确定最终角点,即 当候选角点的角点量为其领域内的极大值时,将该角点确 定为候选角点。实验结果如图1所示。 ・. . . : ・’ ‘M・ (a)原图 (b) =O 5 _1..' 。.}" :。 . 。 .I- (b)Si=l 0 (b)51=1.5 图1多尺度Harris角点检测 图1(a)为原图像,图l(b—d)分别为 一0.5、 一1和 :1.5这3个尺度下的Harris角点检测结果, 黑色部分为检测出的角点。由图可知,尺度越大,检测到 的角点数量越少。 (2)图像分块剔除非文字角点。在每一尺度,将图像 分为等大小的16块。按块内角点数多少从大到小排列,把 角点总数小于阈值的块内角点删除,从而剔除多数非文字 角点,得到文字备选块。阈值选取原则是,以角点总数和 块角点均值比值的0.8倍为阈值。图2比较了各尺度下文 字备选块的自动选取。 II ・ 枷 “ (a)5=0.5,无分块 (b) 0.5 图2局部特征提取 图2(a)为 一0.5时,没有进行局部特征提取的 Harris角点检测结果。图2(b)是对 一0.5的角点检测 图进行分块处理,提取文字备选块,将非文字区域块的角 点剔除的结果。 在文字备选块中,按从小尺度到大尺度顺序迭代剔除 。‘●●●■・tNb&J ̄t,lL …-● .- (a)Harris角点检测滤波 (b)本文滤波 图3文字区域定位的准确率比较 图3(a)、图3(b)分别为用相同的滤波方法对Har— ris角点检测结果和本文算法的角点检测结果进行滤波的比 较。显然,本文算法在精确去除非文字角点的同时对文字 角点并无较大影响,而前者在滤除非文字角点的同时对文 字区域的角点影响相对较大。 (3)基于文字角点确定文字区域。先对角点滤波后的 掩膜图像执行膨胀、腐蚀操作,把同一区域邻近的角点聚 集和细化,再利用轮廓跟踪法对文字区域跟踪定位,形成 最终的文字检测区域。实验结果如图4所示,图中方框为 检测到的文字区域。由图4(b)可以看出,本文算法能够 有效去除非文字区域角点,准确定位文字位置。 口 _C==亡== C:====] (a)Harris角点检测 (b)本文算法 图4文字标识 最后,为了验证本算的有效性,将本文的多尺度Har— ris算法与传统的基于Harris角点的文字检测结果进行对 比,选择216幅彩色图像(300*215)和视频帧(800* 452)进行试验。计算时间取例图的时间,例图大小为 960*720。 从表1可以看出,本文算法在文字区域检测率、文字 查全率和计算速率都有提高,文字误检率明显降低。 表1两种算法的对比结果 文字区域 文字查 文字误 计算 检测率(%)全率( )检率( )时间/s 图5给出了部分结果比较图。第一列为原图,第二列 [33 ZHANG G J.Vision measurenlent[M].Beijing:Science Press,2008. E8]xIE K.LIU w Y.Pu Z B.A calibration method for strut tured light 3 D vision systems[J].Journal of()ptoelectronics Laser,2007,l8(3):369-371. E4]Sai Siva Gorthi,Pramod Rastogi.Fringe projection tech— n;,ques:Whither we are?Lj].Opt&Lasers in Engng,Z0[0, r9]YANG R Q.Robust and accurate surface measurement using 48(2):133 140. S K,GKrishnan,Grossberg M,et a1.Fast separation Es3 Nayarof direct and global components of a scene using high frequency structured light lJ].IEEE Transactions on Instrumentation and Measurement。2008,57(6):1275—1280. r1O]XIA()J,SUN J,I』1 M M,et a1.Data processing and display illumination[J].Transaction Graphics,2006,25(3): 935-943. technology for the 3-D profile measurement system EJ].Jour— nal Tianjin University of Technology,2009,25(3):40—43. YUX Y,D()NG Q L.A sub pixel stripe edge detection method [6] [11]HUANG z P.Development of 3 D measurement system based on 3 D multiview connection lJ].Computer Engineering and Design,2007,28(6):1463—1465. based on forward and inverse gray code patterns EJ].Journal of Test And Measurement Technology,2009,22(3):231 235. YU X Y,WU H B.3D measurement technology by structured [73 [12]zH( L,SuH G_Researchongeneralfileformatsand algorithrrLs of 3-Dmodels andtheirimpM'nentationwithO ̄nGL lJ].Computer Engineering and Design,2009,30(2):433—436. light based on fringe edge decoding[J].Chinese Journal of Electron Device,2008.31(2):231-235. (上接第3525页) Yanchao transl,Tsinghua University Press,201l(in Chi— 参考文献: YE Qixiang,HUANG Qingming,GAO Wen,et a1.Fast and [1] nese).[Milan Sonka,Vaclav Hlavac,Roger Boyle.图像处 理?分析与机器视觉[M].3版.艾海舟,苏延超,译.清华 大学出版社,2011.] [8]xu Pengfei,YAO Hongxun,JI Rongrong.A text detection algorithm based on local Haar binary pattern with multi— scale di—_ roubust text detection in images and video frames[J].Image and Visison Computing,2005,23(6):565 576. LIU Xiaoqing,Samarabandu J.Muhiscale edge based text ex— [2] traction from complex image[c].1EEE International Con— ference on Muhimedia and Exop. IEEE Press,2006:1721 1724. rectional filtering[J].Journal of Image and Graphics,2010 (8):1027 1213(in Chinese).[许鹏飞,姚红勋,纪荣嵘.基 [S.I.]Toronto,Ont: 于LHBP多尺度向性滤波的文字检测算法[J].中国图象图形 学报,2010(8):1027 1213.] detection in images using E3] ZHU C,WANG W,NING Oo Texttexture fature from streokes[G].Lecture Notes in Computer Science 4261:Proceedings of the 7th Padfic Rim conference on Ad— vances in Multimedia Information Processig,2006:295—301.n [9]LI Xin jie,wANG Chun heng.Video text detection method based on sparse representation[J].Computer Engineering, 2011(6):145 147(in Chinese).[李心洁,王春恒.基于稀 疏表达的视频文字检测方法_J].计算机工程,2011,37 (6):145—147.] r1O]HOU Jian-hui,LIN Yi.Adaptive Harris X-corner detection Silapachote P,Weinman J,Hanson A,et a1.Automatic sign [4] detection and recognition in natural scenes[c].Washington DC,USA:Proceedings of the IEEE Computer Society Con- ference on Computer Vision and Pattern Recognition,2005. Hank S.M,Prevost I ,Negri P A.A cascade detector for [5] algorithm_J].Computer Engineering and Design,2009,30 (2O):4741—4743(in Chinese). [侯建辉,林意.自适应的 text detection in natural scene images[C].Tampa,FI :19th International Conference on Pattern Recognition,2008:1 4. Harris棋盘格角点检测算法口].计算机工程与设计,2009, 30(2O):4741—4743.] [11]GUO Yongfang,YU Ming,SUN Yicai.Study on advanced rapid corner detection method_J].Computer Engineering and Jung Cheolkon,I iu Qifeng.Kim Joongkyu.Accurate text lo— [6] calization in images based on SVM output scores[J].Image and Vision Computing,2009,27(9):1295 1301. Applications,2011,47(12):159 161(in Chinese).[郭永 芳,于明,孙以材.一种改进的快速角点检测方法研究[J]. 计算机工程与应用,2011,47(12):159 161.] [7]Milan Sonka,Vaclav Hlavac,Roger Boyle.Image processing, analysis,and machine vision[M].3th ed.AI Haizhou,SU