您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页噪声消除与SMO算法收敛性

噪声消除与SMO算法收敛性

来源:化拓教育网
维普资讯 http://www.cqvip.com

噪声消 除与SMO算法收敛性 何建兵 何清z史忠植z (中国科学院研究生院软件学院,北京100049) (中科院计算技术研究所智能信息处理重点实验室,北京100080) E-mail:hjb—rlh@sohu.com 摘要近年来,随着序列最小优化分类算法SMO等一系列快速算法的推出,支持向量机在自动文本分类研究领域取 得了很大的成功。大多数文本分类问题是线性可分的.使用线性核函数的SMO算法能够取得非常好的分类效果。但是文 本向量是一种非常稀疏的向量。采用线性核函数的SMO算法对噪声样本非常敏感.容易产生发散的问题。文章分析证明 了噪声如何影响SMO算法收敛性。为了解决训练样本中噪声样本影响SMO算法收敛的问题,设计了一个消除噪声样本 的算法.取得了非常好的效果。 关键词 文本分类 支持向量机SM0算法 噪声样本 文章编号1002—8331一(2006)24—0160—04 文献标识码A 中图分类号1]P301.6 Eliminating Noisy and SMO Algorithm Convergence He Jianbing He Qing2 Shi Zhongzhi (College of Software Engineering,Graduate School of the Chinese Academy of Sciences, Beiling l00O49 1 (The Key Laboratory of Intelligent Information Processing,Institute of Computing Technology, Chinese Academy of Sciences,Beijing 100080) Abstract:In recent years,accompany with the appearance of a series of rapid training algorithm as Sequential Minimal Optimization(SMO),support vector machines achieved great success in text categorization.Most text categorization problems are linearly separable,and SMO algorithm using linear kernel-induced can perform well for text categorization. However,text vectors are a kind of extremely sparse vector,and SMO algorithm with linear kernel or polynomil keranel is very sensitive to the extremely sparse noisy example,which is easy to bring on the problem that algorithm can not converge.It is been proved that the noisy example how to influence the convergence of SMO algorithm in the paper.To solve the problem that noisy sample in training samples affect the convergence of SMO algorithm,this paper designs the algorithm that can eliminate noisy samples,and good results is achieved. Keywords:text categorization,SVM,SMO algorithm,noisy sample l 引言 文本分类通常采用向量空间模型将文本表示成空间中的 向量,向量空间的维数为词的总数.每维对应一个词。一般文本 向量的维数很高(大于10 000),相对而言,学习样本就显得不 足。传统的分类算法在文本特征项的数目比训练数目大时.可 能会出现在高维空间泛化能力差的情况…。由于支持向量机 (SVM)算法解决的是一个凸优化问题,局部最优解一定是全局 最优解,这种高维小样本的情况很适合采用SVM技术【1】。近年 来.随着SMO等一系列快速算法的推出,SVM在自动文本分 类研究领域取得了很大的成功。 因,在第四节中提出了消除噪声样本的算法,取得了很好的效 果。 2支持向量机 2.1最大间隔分类器 支持向量机中最早提出的模型是最大间隔分类器,由 Boser,Guyon和Vapnik发明[31。假设有,个样本训练点( 1,Y1), (X2,Y2),…,(轨,Y,)ER ×{±1},学习得到线性分类超平面:W・ + b=O,将样本分成两类:yi(w・ +6)>0和yi( ・ 6)<0。 显然,超平面中的W和b乘以系数后仍能满足方程,不失 一大多数文本分类问题是线性可分的 ,使用线性核函数的 SMO(Sequential Minimal Optimization)算法能够取得非常好的 分类效果。但是文本向量是一种极度稀疏的向量.向量中很多 维的权值用0表示.采用线性核和多项式核的SMO算法对这 样的噪声样本非常敏感.容易产生不能收敛的问题。本文第三 节通过推导解释了SM0算法为什么对噪声样本非常敏感的原 般性.对于所有的样本.适当调整W和b,使1 ・x+bI的最小值 为1。经过归一化处理得到:yi( ・ 『卜6)≥1。因。此,两类样本到超 平面最小距离之和为_厂( )= 1 l lW l l20如果两类到该超平面的 二 间隔最大,则该超平面为最优超平面。通过优化函数f(w),求 解最优超平面: 基金项目:国家自然科学基金资助项目(编号:60435010);国家863高技术研究发展计划资助项目(编号:2003AA115220);中澳科技合作特别基金 项目;北京市自然科学基金资助项目(编号:4052025) 160 2006.24计算机工程与应用 维普资讯 http://www.cqvip.com

Min imis。 1 .old old n删 nelo a1+sa2 +sa2=r o,,(7) , 0 二 Subject to yi(w・xi+b)≥1(1≤i≤ 考虑到可能存在一些样本不能被超平面严格地正确分类。 其中s=y ,r为常数,Ⅱol dⅡld为 Ot2变化前的值,Ⅱne ”:Ⅱ2new为变化后的值。将(7)代入(4)并优化目标函数可以得到: — Y2(E2一E1) Ⅱ2=a2 — (8) 1995年Cones和Vapnikt41 ̄l入了SVM的软间隔版本,使用松 弛变量喜≥0,使点 满足Yl( ・ +6)≥1 条件。这样原函数 , 变成 )=— 1 ll l:+c∑ ,其中C是一个正常数,函数中第 厶 =1 一其中,k=2KlrKl厂如,E1 1)一Y1,E2=f(x:)-y2。求得Ⅱ2new的 项使样本到超平面的距离尽量大,从而提高泛化能力,第2 值后,由(7)求解Ⅱ_ 。 项则使误差尽量小。原优化问题变为: Minimise 10  l lW ll +c 1.1 ・口 i=1 Subject to yi(w・ 6)≥1 ,基≥0(1≤i≤ (1) 利用拉格朗日乘子法.得到拉格朗日函数: , ,J(W yb, r): 1 c∑ 二 E=1 , , ∑ Jj, ( +6)一1 卜∑r春 (2) 1 i=1 , , 分别对W,b,毒求偏导置零得: = O1.1 tfY , 1.1 Ot y ̄--O,c— 广 =1 i:1 ri-0。代入(2)式中,得到拉格朗日函数的对偶目标函数: , , L ∑ 广 ∑ iYiOtjYj( ) (3) 1 厶i.j=l 设W是原函数的一个可行解,是Ot目标函数的一个可行 解,根据上面的推导可知 ( )≤,J( ,b, ,Ot,r)≤_厂( ),即对偶 问题的值的上界由原问题的值给出。而原函数和目标函数都是 凸二次函数,在鞍点处有L。( )_厂( )。所以,原函数的优化问题 变成目标函数的优化问题: , , Maxmise L ∑ 广 ∑ yiOZfj(Xi" ) “ I=I i., I Subject to∑OtiYi=0,0≤ ≤c(1≤ ≤ (4) l 目标函数的最优解必须满足KKTt ̄互补条件: , Oti (∑嘞( ・规)+6)一1 J=0 l f=0,i=1,…, (5) 根据该条件,仅仅最靠近超平面的点对应的Ot 非0。而在 超平面的权重W表达式中,只有Ot 非0的点才包括在内,因此 这些点被称为支持向量。通过优化目标函数,寻找支持向量,从 而训练得到一个SVM的分类规则函数: , )=sgn(∑Otiy (规. )+6) (6) =l 2.2 SM0算法 SMO优化(4)时使用了块与分解技术,并将分解算法思想 推向极致,每次迭代仅优化两个点的最小子集,其威力在于两 个数据点的优化问题可以获得解析解,从而不需要将二次规划 优化算法作为算法一部分。尽管需要更多的迭代才收敛,但每 个迭代需要很少的操作,因此算法在整体速度上有数量级的提 , 高。不失一般性优化 。, :,其他Oti固定,由线性约束条件∑Ot i=1 yi=O可知: SMO算法从初始值为0的Ot 开始优化(4),相应地巨的 初始值为Y 。每次变更后Ot1,Ot2要对E 进行修改,E ( ) = , 1K1f+ + ayj(x , )+6-y ,假设偏置b保持不变,则E ,=3 的变化量为: AEf=Aa ̄r1K1,+Aazy ̄ (9) SMO每次迭代时,从训练集中启发式地选择最可能违反 KKT条件的两点进行优化,加快算法的收敛速度。根据拉格朗 日乘子取值范围(0≤ ≤C)分析KKT条件,当Ot <C时,y五≥ 0;Ot >0时,,, f≤0。因此,最可能违反KKT条件的点是:当 l<C 时,y五为最小的点;当Ot >0时,y 为最大的点 所以SMO算 法根据当前点的E 启发式地选择优化的两点。 3 噪声样本影响SMO算法收敛的原因 噪声样本是指向量相同或相似(相似度达90%以上),而分 类标签相反的训练样本。如果SMO通过启发式选择算法选择 了两对相互矛盾的两点,由于文本向量是极度稀疏的向量,大 量的属性权值以0表示。在计算噪声样本的线性核函数或多项 式核函数时.个别有差异的属性权值乘以其他向量的属性权 值,而其他向量在这个属性的权值为0的概率: 常大,就可能 会得到相同核函数的结果。其E在迭代时出现反复振荡,导致 SMO算法在两对相互矛盾的两点上反复迭代,无法收敛,这也 说明SMO算法对这样的噪声是非常敏感的。因此,在训练前应 该设法消除这样的样本向量。下面的推导进一步说明了噪声样 本导致SM0算法无法收敛的原因。 假设训练集中存在两对相互矛盾的向量S。,S:,S3,S ,其中 。, 是一对噪声样本, :, 是另一对噪声样本。为简化推导, 只考虑向量相同,而分类标签相反的情况。不妨设 。, 3相同, 2, 相同,且yl=1,y2=一1,y3=一1,y4=1。假设在对 l, 2, 3, 4向 量优化之前, 。, :, 3, 向量的E 分别为E。,E ,E3,E 。训练活 动集经过一定次数迭代后,如果SMO算法第一次启发式地选 择了 。, :两点,对它们进行优化。根据(8),Ott,Ot:本次迭代的 变化量分别为: △ 兰 (10) △ ,: 兰! (11) k 根据(9),E。,E:, ,臣本次迭代的变化量分别为: △巨=△ ly1K1l+A  l—(E ̄-E2) (KH-K12) (12) —AEz=A 肌K12+A : 1二2 (13) 3=Aa ̄y,K13-1-m zy ̄23:—(E,-E2)(KI3-K23) (14) —-—/l: 计算机工程与应用20o6.24 161 维普资讯 http://www.cqvip.com

AE △ 1 14+△ 2K =—(El-E2(K14-K ̄) (15) ———)一了这里k=2K -K 1-K 。由于S1,S3是相同的向量; , 是相 同的向量,则K13= ll’K∞= 12; 14= l2’ 24= 。所以AG=AE1, E E 然后SMO算法启发式地选择 ,, 两点,对它们进行优 化。根据(8), , 本次迭代的变化量分别为: … 2K3 4-K 33一 “ 2Ks4-K33-K44 . E 坷 +(13)一(12) E4坷3幅,坷2 衄 —~’ 2K34-K—33-K44 —2K34-K 33一 K44 同样道理, 34= l2,K33= ll,K4:K ;而且,Sl’S2,S3,S4向量 在第一次优化之前,ylE1= 3,y2E2=y,E4。所以 3, 4本次迭代的 变化量可分别表示为: Aa3=2y3 — 喜 (16) Aot4-2 里喜 (17) 同样根据(9),E。,E ,E,,E4本次迭代的变化量分别为: 衄1=△ 3+△ 4= 学 [ (18) 衄 △ 24= (19) △ 3=△ 33+△ — 34=△ I AE4=Aot3yfl( ̄+Aa4y4K44=AE2 经过两次迭代之后,E ,E2,E3,E4的变化量分别为: 衄1=(12)+(18): ! ! ! (20) 衄 (13)+(19): ! 二 (21) 衄 衄1,衄4=衄 紧接下来.SMO又启发式地选择S ,S 两点进行优化,同 理可推导出 。。 ,本次迭代的变化量分别为: Aoq=2y1—E |-E2 (22) Ao ̄2=2y2里粤 (23) E ,E2,E,,E4本次迭代的变化量分别为: 衄 2 ! (24) 后 衄,=2 1皇 ! ! 二 望 (25) 后 衄 衄..衄d=衄, 经过三次迭代之后, , 2,E ,E2,E3,E4的变化量分别为: Aoh=(10)+(22)=3 丁ElsE2 (26) AO ̄2=(11)+(23)=3y2— E,一E (27) 衄l=(20)+(24):!皇 二 .和(12)相同 衄 (21)+(25): 丝 ,和(13)相同 AE3=AEl,△ =AE2 162 20o6.24计算机工程与应用 然后再启发式地选择S,,S 两点,对它们进行优化。经过四 次迭代之后, 3, ,E1,E ,E3,E4的变化量分别为: = ,△ 学 20)相同 AE,=! 丝 .k 和(21)相同 AE3=AEl,△ 4=△ 2 依此类推,每迭代两次, , 的拉格朗日乘子 , 的系 数按2n一1(n>0)顺序增加, ,, 的拉格朗日乘子 , 的系数 按2n(n>0)顺序增加。而噪声样本 , 3的E ( 1,3)在(12)和 (20)式之间反复振荡; , 的E ( 2,4)在(13)和(21)式之间 反复振荡。从而导致SMO算法在两对相互矛盾的两点上反复 迭代.无法收敛。 4消除噪声样本算法 为消除训练样本中可能存在的噪声样本,遍历训练样本文 件中所有向量.比较分析正负样本向量的相似度,如果相似度 大于或等于90%。我们认为正负样本向量对是相互矛盾的。相 似度计算公式如下: Max(面正向量非零属性数. 鬻 负向量非零属性数) ‘、 28 设训练样本数为 ,算法执行的步骤描述如下: 步骤1按1到 哽序从训练样本集中取一个样本S 如果 取完样本集所有样本.则算法结束。 步骤2按i+1到 顺序取训练样本集中另一个样本S 如 果取完样本。则转步骤1。 步骤3比较S 和S,的类标。如果Yi和 相同,S 和S不 可能是相互矛盾的向量,转步骤2。 步骤4根据公式(28)计算S 和S,的相似度。如果S 和s| 的相似度大于或等于90%,则S 和S,是相互矛盾的向量,从训 练集中去掉S 和S 转步骤1;否则,转步骤2。 5实验结果 本文实验系统训练使用了13个训练集样本文件:从文件 S1.tm到文件S13.tm,训练13个分类,每类对应一个超平面。 在采用线性核和多项式核执行SM0算法训练时.发现训练文 件S1.tm.S3.tm.S8.tm无法收敛。分析发现这三个训练文件中 表1 消除噪声样本数统计 维普资讯 http://www.cqvip.com

存在比较多的噪声样本,即相同(或相似)的两个向量的类标相 反。对S1,S3和S8文件进行除噪声处理后,训练收敛了,并得 到了模型文件。我们继续对其他文件也进行了训练前的除噪声 优化算法计算线性核或多项式核时,相互矛盾的向量的核函数 计算结果非常容易一致.当训练集中噪声样本比较多时,容易 引发SMO训练算法不能收敛.出现收敛前振荡 使用本文提供 处理,发现这些文件也或多或少的存在相互矛盾的向量.结果 如表l所示。随后我们又使用了984个测试数据,对训练得到 的预处理算法能够消除训练集中的噪声样本,很好地解决 SM0对训练集中噪声样本敏感的问题。 (收稿日期:2006年3月) 的分类器进行了测试,相应测试准确率见表2。 表2 基于SM0的文本分类测试结果表 参考文献 1.Thorsten Joachims.Text Categorization with Support’Vector Machines: Learning with Many Relevant Features[C].In:Proceedings of European Conference on Machine Eeaming,1998 2.Thorsten Joachims.Making large-scale SVM leami11g plactica1.In:B Schslkopf,C J C Barges,A J Smola eds.Advances in Kernel Methods— Support Vector Learning,MIT Press,1999:169~184 3.B E Boser.I M Guyon.V N Vapnik.A training algorithm for optimal margin classifiers[C].In:D Haussler eds.Proceeding of the 5th Annual ACM Workshop on Computational Eeaming TheoryACM Press,1992: ,,144~152 4.C Cortes,V Vapnik.Support vector networksl J1.Machine Learning,1995; 20:273~297 5.H Kuhn.A Tucher.Nonlinear programming[C].In:Proceedings of 2nd Berkley Symposium on Mathematical Statistics and Probabilistics, 6 结论 在文本自动分类巾.文本分类通常采用向量空间模型将文 本表示成空间巾的向量。向最空『口】的维数为词的总数,每维对 应一个词.向量的维数很高,而一篇文章中出现的词占总词数 巾的词比例很低,这样导致文本r口】量是一种极度稀疏的向量, 向茸叶1很的权值用0表示。侄计算向量的内积时,只有两 两向量不为0的乘积才有非0值。 此,使用SMO这样的两点 University of Califomia Press,1 95 1 6.J Platt.Fast training of support vector machines using sequential minimal optimization[C].In:B Scholkopf.C Burges,A Smola eds.Ad— vances in Kernel Methods—Support Vector Learning,MIT Press,1998 7.K Aas.L Eikvil.Text categorization:a suiwey[R]Tech,lical report,Nor— wegian Computing Center.1999一O6 8.史忠植知识发现IMl_清华大学出版社,2002 (上接67页) 引入的背景颜色 这种情况可能存Bayes matting巾发生,因为 通过与当前交互式分割算法的对比可以看出Grab cut分割算 法有较强的优势。笔者结合自己的研究课题,将该分割算法应 用到了医学图像器官分割巾.得到了较好的实际效果。 (收稿日期:2005年l1月) 采用的概率函数斌图取消背景影响,但是做的又不够准确,就 现为前景颜色的流失。这里通过从前景71f里取像素来避免 这种情况。首先采用Bayes matting算法获得像素n(n∈Tf)的 前景颜色估计 。然后在邻域 素来形成前景颜色 。 里面找到与 .颜色相近的像 参考文献 1.Ruzon M,Tomasi C Alpha estinmtion in natural images[C],In:Pro(: 1EEE Conf Comp Vision and Pattern Recognition,2000 2.Carsten Rother.Vladimir Kolmogorov,Andres Blake“Grabcut”一inter— 圈 盈 (a)头部横切网 (b)脑室的分 割结果 图5 Grab cut医学图像分割结果 active Foreground Extraction using iterated Graph CUts[C}.In:Microsoft Research Cambridge,UK,2004 3.Chuang y-y,Curless B,Salesin D et a1.A Bayesian approach to (C)腹部横切罔 (d)肝脏分 割结果 digital matting[C].In:Proc IEEE Conf Computer Vision and Pattern Recog,CD—ROM,2001 4.Boykov Y.Jolly M-P.Interactive graph cuts for optimal boundary and 注:图中的试验罔片均来自重庆第三军医大学的人体切片数据库 region segmentation of objects in N—D images[C].In:Proc IEEE Int Conf on Computer Vision,CD-ROM,200 1 5.Kolmogorov V.Zabih R.What energy functions can be nlinimized via 5结论与试验结果 本文详细的阐述了一种新的交互式目标分割方法Grab cut.并演示了其分割效果图。该方法能在难度适度的图像中通 过相对较少的交 互工作得到满意的分割效果,并获得了高质量 的前景alpha值。整个算法结合基于Graph cuts的优化迭代和 B0rder matting来处理目标边界处图像模糊和像素重叠问题。 raph cutgs[C].In:Proc ECCV CD—ROM,2002 6.Mortensen E,Barrett W.Tobogan—based intelligent scissors with a four parameter edge model[C].In:Proc IEEE Conf Computer Vision and Pattern Recog,1999;2:452 ̄458 7.Rucklidge W J.Efficient visual recognition using the Hausdorff dis— tance[M].LNCS,Springer—Verlag,NY,1996 计算机工程与应用:2006.24 163 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务