第40卷第11A期 2013年11月 计算机科学 Computer Science Vo1.40 No.11A Nov 2013 基于协方差的高斯混合模型参数学习算法 廖晓锋L 范修斌。姜青山 (南昌大学信息工程学院 南昌330031) (中国科学院深圳先进技术研究院 深圳550085) ̄ (中国科学院软件研究所摘要对混合高斯模型参数估计问题的算法通常是基于期望最北京100190)。 (Expectation Maximization)给出的。在混合高斯 模型的因素协方差矩阵已知、因素各分量的前提下,给出了基于协方差矩阵的机器学习算法,简称CVB(Covari~ ance Based)算法,并 ̄4/-2r一定的数学分析。最后给出了与期望最大算法的实验结果比较。实验结果表明,在该条件 下,基于协方差的算法优于期望最大算法。 关键词混合高斯模型,期望最大化,协方差,CVB算法 Covariance Based Learning Algorithm for Gaussian Mixture Model LIAO Xiao-feng ’ FAN Xiu-bin3 JIANG Qing-shane (Information Engineering School,Nanchang University,Nanehang 330031,China) (Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen 550085,China)z (Institute of Software,Chinese Academy of Sciences,Beijing 100190,China)a Abstract Expectation maximization is connnonly used for parameter estimation in Gaussian mixture mode1.This paper presented a machine learning algorithm based on covariance(CVB)for solving the Gaussian mixture model with the spe— cific constrain that eovarianee is already known.Experiments show that the CVB algorithm has better performance than the EM algoritm whith regard to the specific constraint. Keywords Gaussian mixture model,Expectation maximization,Covariance based,CVB algorithm 1 引言 高斯混合模型(Gaussian Mixture Model, ,IM)指由多 个高斯分布混合而成的模型。设: K 计中常用的机器学习算法。EM的名字在Dempster、Laird和 Rubin于1977年发表的文章中给出叭],由两个步骤组成,一 是期望步(Expectation Step),二是最大化步(Maximization Step)。 (X—z)一∑ g(五一 肫, ) K 令y—xUz代表全体数据, 代表参数 的假设值,h 代 表在EM算法的每次迭代中修改的假设值。EM算法通过搜 式中,X是D维连续或离散随机变量,7ci是混合权重,满足∑ 一寻使E[1nP(YI )]最大的 来寻找极大似然假设 定义一个函数Q(h I矗),在O=h和观察到的部分X的假 1。其中g(X— I , )是第i个分布的密度函数,满足: 1 exp{一÷(x--/ ̄) g(x—zI能, )一—— 面 (x--1 ̄)} 一 定之下,它将E[1nP(Y J Jiz )I 7z,X]作为^ 的一个函数给出,我 们可令: Q(五 f )一E[1nP(YI矗 )Ih,X] 在EM算法中,重复以下两个步骤直至收敛。 步骤1(估计期望)使用当前假设h和观察到的数据X 来估计似然函数的期望。 Q( l矗)+一E[1nP(yIh )Ih,X3 式中,肚, 是第i个分布的均值向量和协方差矩阵。高斯混 合模型参数分离的目的是求出参数集合 ={/-q, , },这是 社会实践中常见的问题,例如人脸识别 、图像分割 ]、语 音识别_8_ ]等。 常用的高斯混合模型参数分离算法是期望最大(Expec— tation Maximization)算法[ii-13]。EM算法是实现最大似然参 数估计的一种算法,尤其适用于存在隐含变量时的情况。在 高斯混合模型中,通常不知道观测数据来自于混合分布中的 步骤2(最大化期望)将假设h替换为使Q函数最大化 的假设h 。 ^一arg maxQ(h I矗) 哪一个,用变量 来表示样本 来自于第J个高斯分布。隐 藏变量 的存在,使得EM算法成为高斯混合模型的参数估 一当函数Q连续时,EM算法收敛到似然函数P(Yl^ )的 个不动点。若此似然函数只有单个的最大值时,EM算法 本文受深圳市战略性新兴产业发展专项资金基础研究重点项目:海量恶意软件鉴别关键技术及其在钓鱼网站检测中的应用(JCYJ20120 617120716224),江西省教育厅青年科学基金项目:双模态概率主题模型及基于DOT的并行扩展研究(GJJl3013)资助 廖晓锋(1981一),男,博士,讲师,主要研究方向为主题模型、机器学习,E-mail:xfliao@neu.edu.on;范修斌(1962一),男,博士,研究员,主要研究 方向为密码学、信息安全;姜青山(1962~),博士,研究员,主要研究方向为数据挖掘、信息安全。 ・ 77 ・ 可以收敛到这个全局的极大似然。否则,它只保证收敛到一 个局部最大值 ]。 EM算法在GMM中的应用简介如下: 证明:当J一是时, E((弱一 )(‰一 ))一E(蜀一 ) :砖 当 ≠愚时,因曷, ,故: E(( 一 )( 一 ))一E( 一 )E( 一 )一O 不妨设随机变量XE 是k个高斯分布的混合,如果其 密度函数如下: 我们的研究问题为:已知x一墨U…UK和协方差矩阵 ,( l =壹 X exp{一号( 一一) ( , =1,…S,五的各分量,且满足正态分布,求雎= (肚1,…, ), 一1,…,s。 一 )} 其中参数集 一{ ,鸬, ) ; ,满足: 1. f>O,∑ 一1; 2. 6R , 是dXd维矩阵。 在给定数据 一,岛时,0的最大似然估计是 =arg maxf(x1,…, l 。 GMM中需要估计的参数一般有 , , ,或其中的部 分参数。GMM的EM算法基本步骤: 第1步(Expectation step): 计算 一 , :1,… k一1,… ∑ _厂( I肫, ) 第2步(Maximization step): 计算 1 n ∑wtjXf 蚤 ,一一}  ̄,wtj(五一 )(五一 ) 一EL——— ————一 ∑ f;l 本文对高斯混合模型中因素协方差矩阵已知、因素各分 量前提下的期望参数分离问题进行研究 这个条件问题 的研究是具有理论意义和实践意义的,在社会实践中比比皆 是,例如标准正态分布的混合模型中的期望参数分离等。EM 算法是一般条件下的机器学习算法,在特殊条件下,通常都存 在特殊的机器学习方法。本文给出了上述条件下的基于协方 差矩阵的机器学习算法,并且给出了其数学分析。 本文最后给出了在该条件下的基于期望最大算法以及基 于协方差矩阵算法的实验结果比较。实验结果表明,在上述 条件下,基于协方差的算法优于期望最大算法。 2基于协方差的高斯混合模型学习算法 不妨设X一(Xi 一, ), 一1,…,s都是概率空间(0, F, )上的t维正态分布随机变量,并且V i,1≤ ≤ ,X1, Xz,…,蜀也是相互的。设X= U U…U五是5 个t维正态分布随机变量的混合随机变量,假设我们已知各 个随机变量的协方差矩阵: 一(E((五 一 )( ~ )))c×f。我们要依据X, 求雎=(肚1, 2,…, ),其中 一E(XfI),是分量的数学期望。 根据上述条件的要求,易得如下结论: 性质1设D(X ̄j)一磅, 一1,2,…,s,J一1,2,…,t,X1, …, 相互,则: 商0 。・‘0 0 。。‘0 一 ● : 0 O … ・ 78・ 我们给出似然函数如下: 定义1(似然函数) L:∑∑∑∑∑( 一/-to)(黝一 )7[( , ,k,Z)F(X= 气 J≠ f 。 (…,粕,…,岛,…))+∑∑ ∑(匈一 )t 7c( , , ,Z)F(X=(…,粕,…)) 其中,i一1,…, , ,k一1,…,t,z一1,…,S,7c( ,J,k,z)一 三盈 三 为边缘分布函数。 (曷一 , : l ) 为描述方便,简记: F2(z ,瓢)一F(X一(…, ,…,‰,…)) F1( )一F(X一(…,五f,…)) 性质2 7c( , ,k,Z)一Ⅱ( ,k, ,Z)。 证明:由 J z)一 监 业 ,户(墨一 , =勘J ) 易知性质成立。 当_『≠忌时,记 全 其中,△为我们算法的计算精度。当J—k时,记 (i,J,z) 上述定义中,在 初始值给定的前提下,易得如下性质: 性质3 ≠志, ( ,J,愚,z)一 ∑ ( , ,k,Z) 一 ( J ,z)一 ∑ ( , .Z) 为了使用似然估计方法,我们近似认为F2(黝,…,z ) 及n(i, ,k,z)是关于 ,Z一1,2,…,S的常数。在这个近似假 定下,对L求偏导如下: 嚣 一 善( 一 ) ( , ,k,z)F2( , )一 2∑(匈一 )7c( ,J,J,Z)F1(xo) 可得: 差:。 甘一 ∑暑(缸一 )7c( ,J,k,z)F2(≈,协)一2∑ (粕一 )7【( ,J, ,Z)F2(z ,孙)  ̄2,uo∑7【( , ,J,Z)F1(粕)=22x 7c( ,J, ,Z)F1(粕) +22N (勘--t ̄)n(i,J,k,Z)F2( ,勘) .甘 ∑ ( , ,J,Z)F1(z )一∑z 丁c( , ,J,1)F1(粕)+ ÷∑∑∑(孙一 ) ( ,J,k,z)F2(动,.Tik) %J 可得: , ( d ( , , ,z)F1(嘞)+专 ∑墨(孙一 )7c( , ,k,1)1:2( ,如)) l t z J ( ,J,J,Z)F1(xo) 以上 作为似然估计后的新值。 算法1 CVB(Covariance Based)算法: (1)给定初值向量心,i一1,2,…,S。 (2)利用式(1)求向量11, ,i=l,2,…,s。 , 一————————— ——————(3)将第(2)步结果代入第(1)步,直到收敛。 性质4初始均值一样,迭代马上进入不动点。 证明: (Ex n(u, , )1:1(‰)-4-∑E E(‰一 )n(u, ,点)1:2(‰, )) 一 其中 < ,…, >,它描述了k个分布中每一个分布的均值。我们 一鏖兰兰 希望对这些均值找到一个极大似然假设,即一个使L(D I ) 最大的假设h,其中D代表实例数据。该问题中,已有的数据 为观察到的x一(z{>。隐藏变量为z一< “,钰),表示第k 个分布生成ZCi。单个正态分布的选择基于均匀的概率进行, k个正态分布有相同的方差 。,且方差已知。全部数据为三 元组<JtSi, ,Zi。),其中Xi表示第i个实例的观测值,麓1,麓2表 示两个正态分布中哪个被用于产生值.TCi。确切地讲,Xi由第 J个正态分布产生时编,值为1,否则为o。 壹 (“ 耋 1:苛x 2 1: (xVz乞-tn3)2 1:。(百x-/ ̄v)2蛾 O(u, ,愚) (“, ,忌)一 EO(u,72,尼) 壁壁:兰兰 敬 耄 1 S 图1 两个同方差正态分布混合生成的实例[ 6] 3.2 K均值问题的EM算法 由于 ,2 ̄i。未知,无法直接使用最大似然法来求均值胁 和 ,Mitchell在文献[16]中使用EM估计两个一维高斯分 布的均值。EM算法根据当前假设h一(触,…, >不断地再 估计隐藏变量 的期望值。然后用这些隐藏变量的期望值 重新计算极大似然假设。 所以有: S ̄ F1( +l , ‰E 蚤 : , 1s E F1(‰) 全部数据为(五,麓 ,giz>,其中只有五可以观察到。令x 代表观测到的数据,Z代表未观察到的数据,y—XUZ代表 全体数据。 一< , )代表参数0的当前假设值,6r代表每次 迭代中的新值。 首先推导出可用于K均值问题的表达式Q(h I )。每个 实例yl一<Xi,22i ,22iz>的概率p(M l矗 )可被写作: 乏 +乏 E互等 c‰ ———— —一 一‰+∑(%一 )F1( ) 一 + 一 一 ( 渤 )一志e一壶 其中只有一个 值为1,其他的为0。所有m个实例的 概率的对数似然为 In p(YI )=lnⅡP(Y l,z )一∑lnp(y ̄J矗 ) 一3基于方差的一维高斯混合模型算法 作为情况的特例,可以对一维高斯混合模型做出同 样的改进。当随机变量只有一维时,协方差就不存在了,我们 的算法也相应地退化成基于方差。注意到,一维高斯混合模 型又称为K均值问题,是一类经典的机器学习问题。下面给 善(In。 1一壶善 ‘Xi一 。 出我们对一维高斯混合模型的基于方差的机器学习算法。 3.1 K均值问题 最后,计算此对数似然的均值。对2的线性函数f( ), 有下面的等式成立: K均值问题,是为了估计k个正态分布的均值 一(,al, …瓯_厂( )]一_厂(Ⅱ ) 可得: , )。数据D是一个实例集合,它由k个正态分布的混合 而成的分布生成。每个实例由一个两步骤过程生成。首先, 随机选择k个正态分布中的一个;其次,实例按照被选中的分 布生成。 E[-lnp(Y ]一E[蚤(In。 1一寿置 (圹tg) )] 一这一问题框架如图1所示。简单起见,不妨设k一2,实 蚤(1 In‘ 21一寿善17c z 一 一 ・ 一 ) 79 ・ 例为沿着z轴分布的点。学习的任务是输出一个假设h一 也即,Q函数为: Q(矗 I矗)一 (1n 1一 1善2 E[ ](薯一 )。) 其中, 一( , ),而EEz{j]表示实例z 由第J个正态分布 同样,简单起见,我们近似认为 是关于 , 一1,2,…, 的常数。在这个近似假定下,我们研究基于方差的机器学 习算法。 求似然函数的偏导数: 差一2 (x ((i- )7 ̄s 从而求出: 2步(M)接着寻找使此Q函数最大的 一< , )。 ∑(in P(X— )一 p(X— ))一O argmaxQ(^ I矗)一arg啪 圣(1n。 1一 1善2 E[ ] :argmin ̄EEE ̄j](五一 )。 ,.∑(in P(x— ))一 ( ∑( (x— ))一 ∑(in P(X— )) , i—d 户(x— )) ( P(x— )) 耻s (2) ∑( p(X— )) 算法2 (1)任意取定(u1,u2),但L11≠u2,否则第(1)步迭代,就进入不动点 (O.5,o.5) (2)由式(2)求新的(u1,u2)。 (3)将第(2)步结果代人第(1)步,直至收敛。 性质5初始均值一样,马上进入不动点。 Il X2 l1.”ll ,即X ,X2,…, 的混合。给出极大似然估 计参数分离方法,即求触, ,…, 。设: 证明:已知 一 一…一 ,由 的定义可知, X:I 出 骞』 因此, b , i一0 — —如 6 ——一 ∑(in ̄p(X— )) ∑( (X— )) L一∑( 一 ) ———— =竺 L—丁一) L—圭∑(妻。一 ∑r_l, e一一2 ~ i=a s=一————E( ) b l∑( p(X— )) z—n ∑( (X— )) —『_一 推论{混合模型中只有一个高斯分布时,基于协方差/ 方差的算法比EM算法更合理。 证明:只有一个高斯分布,也即实例同分布抽取于一 I"f 一— =l_———— 一 I e … dx 个高斯分布。当这个高斯分布为时, 一 吼 1 z则 一 nL一∑( (i--N) p(X=i)n ) …a 1 耋 耋÷ 1耋蕊 一 b 一n ∑ (X— )(∑( 一 ) ) 为实例z的加权平均值。而 ————一 (∑z rt(u, , )Fl(‰)+∑∑∑( 一 )7c( , ,愚)F2(‰,.z础)) 一 ————— I螂 Ex n(u, , ) (‰) . 一 ∑n(u, ,v)F1(z ) 一 乏 可见,均值为实例的加权平均。易知当这个高斯分布为 一成数据。简单起见,在试验中,假设各个分布的混合权值相 等,也即取均匀分布,另外假设分布的方差、协方差和相关系 数已知。所求的参数为均值(向量)。 4.1 K均值实验 维时,结论也成立。 4实验 本节使用两个实验对本文提出的方法进行验证。第一个 设有随机变量X1~N( ,胁),X2~N( ,,u2),X1∈Eo, 实验使用来自两个一维高斯分布的合成数据来检验我们提出 的方法处理低维随机变量的能力。第二个实验的目的是检验 处理数据的能力,使用的是来自两个二维高斯分布的合 ・4], ∈[4,8]。随机变量x由x 和X2混合生成,首先,随 机选择两个正态分布中的一个,其次,按照选择的分布生成 x∈Eo,8]。生成一组数据,如图2所示。简单起见,假设单 8O ・ 个正态分布的选择基于均匀概率进行,并且假设两个方差已 知,学习任务是输出一个假设h一< , ),它描述了两个分 布中每一个分布的均值。 表l CVB和EM结果与真值的欧式距离 从图2可以看出,CVB算法比EM算法更快收敛,并且 更靠近真实的均值( 一2, 一6)。CVB算法得到的估计参 数收敛值为( 一2.1816, 一6.1101),EM得到的估计参数 收敛值为( l一2.3941,,uz一6.3816)。相比EM算法,CVB算 结束语本文针对混合高斯模型参数估计问题提出一种 基于协方差矩阵CVB(Covariance Based)的参数学习算法。 法所得的两个估计值的精度分别提高8.87 和4.25%。 红色为EM的结果,蓝色为CVB的结果 图2两高斯分布混合所生成的实例(左)及参数估计结果(右) 4.2二维高斯混合合成数据 使用来自两个二维高斯分布的合成数据。假设每个高斯 分布中的两个分量各自。数据生成过程中,两个高斯分 布以相同的概率被选取,另外假设分布的方差已知,需要估计 的参数是两个分布的均值向量。 首先生成一个总体,其中样本数量为300,分别以相同的 概率从两个二维高斯分布中生成。假设两个二维高斯分 布的均值和协方差矩阵均已知, 一(一1,一2>, 一(1,2> /3 0、 /2 0、 —10 2J, 一(o 1 J 我们的目标是在有观察数据X一(xl ,Xi ,…, ), 一 1,2,…,300,t=2,以及已知协方差矩阵的情况下估计均值向 量。 实验结果如图3所示,其中蓝色点所示为生成数据时所 使用的均值真值,红色轨迹为使用CVB算法得出的均值估计 值的迭代曲线,绿色为使用EM算法得出的均值估计值的迭 代曲线。从图中看出绿色轨迹似乎比红色轨迹更接近真值。 实际情况为,下方的绿色轨迹为对上方蓝色均值点的估 计,上方绿色轨迹为对下方蓝色均值点的估计。可以看出 CVB算法的起始估计值比EM算法的起始估计值更接近 真值。 红色为CVB迭代曲线,绿色为EM迭代曲线 图3 EM和CVB在二维高斯混合合成数据的迭代轨迹 表1对比了EM算法和CVB算法得出的最终估计值和 原始均值点的欧式距离,可以看出我们的算法比EM算法得 出的结果更接近真实值。 该算法的适用条件是混合高斯模型的因素协方差矩阵已知, 因素各分量。本文进行了一定的数学分析,并且通过实 验将其与常用的期望最大算法进行了对比分析。实验结果表 明,在该条件下,基于协方差的算法优于期望最大算法。 参考文献 [1]Martinez B,Binefa X,Pantie M Facial component detection in thermal imagery[C]//Proceedings of the Computer Vision and Pattern Recognition WorkshcIps(CVPRW),2010 IEEE Com— puter Society Conference.June 2010:48-54 [2]McKenna S J,Gong Shao-gang,Raja Y.Modelling Facial Colour and Identity with Gaussian MixturesVJ].Pattern Recognition, 1998,31(12):1883—1892 [3]Figueiredo M Bayesian Image Segmentation Usign Gaussian Field PriorsEM] Rangarajan A,Vemuri B,Yuille Energy Minimization Methods in Computer Vision and Pattern Recogni— tion.Berlin,Heidelberg:Springer,2005:74—89 [4]Chad C,Serge B,Hayit G,et a1.Blobworld:Image Segmentation Usign Expectation-Maximiaztion and Its Application to Image Querying[J].IEEE Transactions on Pattern Analysis and Ma— chine Intelligence,2002,24:1026—1038 [5]Greenspan H,Ruf A,Goldberger J.Constrained Gaussian mix- ture model framework for automatic segmentation of MR brain iamges[J].IEEE Transactions on Medical Imagign,2006,25 (9):1233—1245 E63向日华,.一种基于高斯混合模型的距离图像分割算法 [J].软件学报,2003,14(7):1250—1257 [7]陈允杰,张建伟,韦志辉,等.基于高斯混合模型的活动轮廓模型 脑MR1分割_J].计算机研究与发展,2007,9:1595—1603 [8]Reynolds D A,Rose R C.Robust text-independent speaker iden- tification using Gaussian mixture speaker models[J].IEEE Transactions onSpeech andAudioProcessign,1995,3(1):72—83 [9]Reynolds D A,Quatieri T F,Dunn R 13.Speaker Verification U— sign Adapted Gaussian Mixture Models[J ̄.Digital Signal Pro- cessing,2000,10(1—3):19—41 ElO]张怡颖,朱小燕,张钹.与文本无关的说话人自适应确认方法 r-j].软件学报,2000,11(6):799—803 [11]Zivkovic Z,van der Heijden F Recursive unsupervised learnign of finite mixture models[J].IEEE Transactions on Pattem A— nalysis and Machine Intelligence,2004,26(5):651—656 [12]FigueiredoM,Leit ̄oJ,JainA OnFittingMixtureModels[M]∥ Hancock E,Pelillo M Energy iMnimization Methods in Computer Vision and Pattern Recognition.Berlin/Heidelberg:Sprigner, 1999:732—732 [133王平波,蔡志明,刘旺锁.混合高斯概率密度模型参数的期望最 大化估计口].声学技术,2007,26(3):5 [14]Dempster A P,Laird N M,Rubin D B Maximun Likelihood from Incomplete Data via the EM Algorithm[J].Journal of the Royal Statistical Society,1977,39(1):1-38 1-15]Xu Lei,Jordan M I.On oCnvergence Properties of the EM Algo- rithm for Gaussian Mixtures[J"].Neural oCmputation,1996,8: 129—151 [16]Mitchell T M Machine LeamignEM].McGraw-Hill,1997 ・ 8】 ・