基于协方差的高斯混合模型参数学习算法

来源：化拓教育网

第４０卷第１１Ａ期　２０１３年１１月　计算机科学　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　Ｖｏ１．４０　Ｎｏ．１１Ａ　Ｎｏｖ　２０１３　基于协方差的高斯混合模型参数学习算法　廖晓锋Ｌ　范修斌。姜青山　（南昌大学信息工程学院　南昌３３００３１）　（中国科学院深圳先进技术研究院　深圳５５００８５）￣　（中国科学院软件研究所摘要对混合高斯模型参数估计问题的算法通常是基于期望最北京１００１９０）。　（Ｅｘｐｅｃｔａｔｉｏｎ　Ｍａｘｉｍｉｚａｔｉｏｎ）给出的。在混合高斯　模型的因素协方差矩阵已知、因素各分量的前提下，给出了基于协方差矩阵的机器学习算法，简称ＣＶＢ（Ｃｏｖａｒｉ～　ａｎｃｅ　Ｂａｓｅｄ）算法，并￣４／－２ｒ一定的数学分析。最后给出了与期望最大算法的实验结果比较。实验结果表明，在该条件　下，基于协方差的算法优于期望最大算法。　关键词混合高斯模型，期望最大化，协方差，ＣＶＢ算法　Ｃｏｖａｒｉａｎｃｅ　Ｂａｓｅｄ　Ｌｅａｒｎｉｎｇ　Ａｌｇｏｒｉｔｈｍ　ｆｏｒ　Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ　ＬＩＡＯ　Ｘｉａｏ－ｆｅｎｇ　’　ＦＡＮ　Ｘｉｕ－ｂｉｎ３　ＪＩＡＮＧ　Ｑｉｎｇ－ｓｈａｎｅ　（Ｉｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｓｃｈｏｏｌ，Ｎａｎｃｈａｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｎａｎｅｈａｎｇ　３３００３１，Ｃｈｉｎａ）　（Ｓｈｅｎｚｈｅｎ　Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ａｄｖａｎｃｅｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ，Ｓｈｅｎｚｈｅｎ　５５００８５，Ｃｈｉｎａ）ｚ　（Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｓｏｆｔｗａｒｅ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ　１００１９０，Ｃｈｉｎａ）ａ　Ａｂｓｔｒａｃｔ　Ｅｘｐｅｃｔａｔｉｏｎ　ｍａｘｉｍｉｚａｔｉｏｎ　ｉｓ　ｃｏｎｎｎｏｎｌｙ　ｕｓｅｄ　ｆｏｒ　ｐａｒａｍｅｔｅｒ　ｅｓｔｉｍａｔｉｏｎ　ｉｎ　Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅ１．Ｔｈｉｓ　ｐａｐｅｒ　ｐｒｅｓｅｎｔｅｄ　ａ　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ　ｃｏｖａｒｉａｎｃｅ（ＣＶＢ）ｆｏｒ　ｓｏｌｖｉｎｇ　ｔｈｅ　Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ　ｗｉｔｈ　ｔｈｅ　ｓｐｅ—　ｃｉｆｉｃ　ｃｏｎｓｔｒａｉｎ　ｔｈａｔ　ｅｏｖａｒｉａｎｅｅ　ｉｓ　ａｌｒｅａｄｙ　ｋｎｏｗｎ．Ｅｘｐｅｒｉｍｅｎｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ＣＶＢ　ａｌｇｏｒｉｔｈｍ　ｈａｓ　ｂｅｔｔｅｒ　ｐｅｒｆｏｒｍａｎｃｅ　ｔｈａｎ　ｔｈｅ　ＥＭ　ａｌｇｏｒｉｔｍ　ｗｈｉｔｈ　ｒｅｇａｒｄ　ｔｏ　ｔｈｅ　ｓｐｅｃｉｆｉｃ　ｃｏｎｓｔｒａｉｎｔ．　Ｋｅｙｗｏｒｄｓ　Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ，Ｅｘｐｅｃｔａｔｉｏｎ　ｍａｘｉｍｉｚａｔｉｏｎ，Ｃｏｖａｒｉａｎｃｅ　ｂａｓｅｄ，ＣＶＢ　ａｌｇｏｒｉｔｈｍ　１　引言　高斯混合模型（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ，　，ＩＭ）指由多　个高斯分布混合而成的模型。设：　Ｋ　计中常用的机器学习算法。ＥＭ的名字在Ｄｅｍｐｓｔｅｒ、Ｌａｉｒｄ和　Ｒｕｂｉｎ于１９７７年发表的文章中给出叭］，由两个步骤组成，一　是期望步（Ｅｘｐｅｃｔａｔｉｏｎ　Ｓｔｅｐ），二是最大化步（Ｍａｘｉｍｉｚａｔｉｏｎ　Ｓｔｅｐ）。　（Ｘ—ｚ）一∑　ｇ（五一　肫，　）　Ｋ　令ｙ—ｘＵｚ代表全体数据，　代表参数　的假设值，ｈ　代　表在ＥＭ算法的每次迭代中修改的假设值。ＥＭ算法通过搜　式中，Ｘ是Ｄ维连续或离散随机变量，７ｃｉ是混合权重，满足∑　一寻使Ｅ［１ｎＰ（ＹＩ　）］最大的　来寻找极大似然假设　定义一个函数Ｑ（ｈ　Ｉ矗），在Ｏ＝ｈ和观察到的部分Ｘ的假　１。其中ｇ（Ｘ—　Ｉ　，　）是第ｉ个分布的密度函数，满足：　１　ｅｘｐ｛一÷（ｘ－－／￣）　ｇ（ｘ—ｚＩ能，　）一——　面　（ｘ－－１￣）｝　一　定之下，它将Ｅ［１ｎＰ（Ｙ　Ｊ　Ｊｉｚ　）Ｉ　７ｚ，Ｘ］作为＾　的一个函数给出，我　们可令：　Ｑ（五　ｆ　）一Ｅ［１ｎＰ（ＹＩ矗　）Ｉｈ，Ｘ］　在ＥＭ算法中，重复以下两个步骤直至收敛。　步骤１（估计期望）使用当前假设ｈ和观察到的数据Ｘ　来估计似然函数的期望。　Ｑ（　ｌ矗）＋一Ｅ［１ｎＰ（ｙＩｈ　）Ｉｈ，Ｘ３　式中，肚，　是第ｉ个分布的均值向量和协方差矩阵。高斯混　合模型参数分离的目的是求出参数集合　＝｛／－ｑ，　，　｝，这是　社会实践中常见的问题，例如人脸识别　、图像分割　］、语　音识别＿８＿　］等。　常用的高斯混合模型参数分离算法是期望最大（Ｅｘｐｅｃ—　ｔａｔｉｏｎ　Ｍａｘｉｍｉｚａｔｉｏｎ）算法［ｉｉ－１３］。ＥＭ算法是实现最大似然参　数估计的一种算法，尤其适用于存在隐含变量时的情况。在　高斯混合模型中，通常不知道观测数据来自于混合分布中的　步骤２（最大化期望）将假设ｈ替换为使Ｑ函数最大化　的假设ｈ　。　＾一ａｒｇ　ｍａｘＱ（ｈ　Ｉ矗）　哪一个，用变量　来表示样本　来自于第Ｊ个高斯分布。隐　藏变量　的存在，使得ＥＭ算法成为高斯混合模型的参数估　一当函数Ｑ连续时，ＥＭ算法收敛到似然函数Ｐ（Ｙｌ＾　）的　个不动点。若此似然函数只有单个的最大值时，ＥＭ算法　本文受深圳市战略性新兴产业发展专项资金基础研究重点项目：海量恶意软件鉴别关键技术及其在钓鱼网站检测中的应用（ＪＣＹＪ２０１２０　６１７１２０７１６２２４），江西省教育厅青年科学基金项目：双模态概率主题模型及基于ＤＯＴ的并行扩展研究（ＧＪＪｌ３０１３）资助　廖晓锋（１９８１一），男，博士，讲师，主要研究方向为主题模型、机器学习，Ｅ－ｍａｉｌ：ｘｆｌｉａｏ＠ｎｅｕ．ｅｄｕ．ｏｎ；范修斌（１９６２一），男，博士，研究员，主要研究　方向为密码学、信息安全；姜青山（１９６２～），博士，研究员，主要研究方向为数据挖掘、信息安全。　・　７７　・　可以收敛到这个全局的极大似然。否则，它只保证收敛到一　个局部最大值　］。　ＥＭ算法在ＧＭＭ中的应用简介如下：　证明：当Ｊ一是时，　Ｅ（（弱一　）（‰一　））一Ｅ（蜀一　）　：砖　当　≠愚时，因曷，　，故：　Ｅ（（　一　）（　一　））一Ｅ（　一　）Ｅ（　一　）一Ｏ　不妨设随机变量ＸＥ　是ｋ个高斯分布的混合，如果其　密度函数如下：　我们的研究问题为：已知ｘ一墨Ｕ…ＵＫ和协方差矩阵　，（　ｌ　＝壹　Ｘ　ｅｘｐ｛一号（　一一）　（　，　＝１，…Ｓ，五的各分量，且满足正态分布，求雎＝　（肚１，…，　），　一１，…，ｓ。　一　）｝　其中参数集　一｛　，鸬，　）　；　，满足：　１．　ｆ＞Ｏ，∑　一１；　２．　６Ｒ　，　是ｄＸｄ维矩阵。　在给定数据　一，岛时，０的最大似然估计是　＝ａｒｇ　ｍａｘｆ（ｘ１，…，　ｌ　。　ＧＭＭ中需要估计的参数一般有　，　，　，或其中的部　分参数。ＧＭＭ的ＥＭ算法基本步骤：　第１步（Ｅｘｐｅｃｔａｔｉｏｎ　ｓｔｅｐ）：　计算　一　，　：１，…　ｋ一１，…　∑　＿厂（　Ｉ肫，　）　第２步（Ｍａｘｉｍｉｚａｔｉｏｎ　ｓｔｅｐ）：　计算　１　ｎ　∑ｗｔｊＸｆ　蚤　，一一｝　￣，ｗｔｊ（五一　）（五一　）　一ＥＬ———　————一　∑　ｆ；ｌ　本文对高斯混合模型中因素协方差矩阵已知、因素各分　量前提下的期望参数分离问题进行研究　这个条件问题　的研究是具有理论意义和实践意义的，在社会实践中比比皆　是，例如标准正态分布的混合模型中的期望参数分离等。ＥＭ　算法是一般条件下的机器学习算法，在特殊条件下，通常都存　在特殊的机器学习方法。本文给出了上述条件下的基于协方　差矩阵的机器学习算法，并且给出了其数学分析。　本文最后给出了在该条件下的基于期望最大算法以及基　于协方差矩阵算法的实验结果比较。实验结果表明，在上述　条件下，基于协方差的算法优于期望最大算法。　２基于协方差的高斯混合模型学习算法　不妨设Ｘ一（Ｘｉ　一，　），　一１，…，ｓ都是概率空间（０，　Ｆ，　）上的ｔ维正态分布随机变量，并且Ｖ　ｉ，１≤　≤　，Ｘ１，　Ｘｚ，…，蜀也是相互的。设Ｘ＝　Ｕ　Ｕ…Ｕ五是５　个ｔ维正态分布随机变量的混合随机变量，假设我们已知各　个随机变量的协方差矩阵：　一（Ｅ（（五　一　）（　～　）））ｃ×ｆ。我们要依据Ｘ，　求雎＝（肚１，　２，…，　），其中　一Ｅ（ＸｆＩ），是分量的数学期望。　根据上述条件的要求，易得如下结论：　性质１设Ｄ（Ｘ￣ｊ）一磅，　一１，２，…，ｓ，Ｊ一１，２，…，ｔ，Ｘ１，　…，　相互，则：　商０　。・‘０　０　。。‘０　一　●　：　０　Ｏ　…　・　７８・　我们给出似然函数如下：　定义１（似然函数）　Ｌ：∑∑∑∑∑（　一／－ｔｏ）（黝一　）７［（　，　，ｋ，Ｚ）Ｆ（Ｘ＝　气　Ｊ≠　ｆ　。　（…，粕，…，岛，…））＋∑∑　∑（匈一　）ｔ　　７ｃ（　，　，　，Ｚ）Ｆ（Ｘ＝（…，粕，…））　其中，ｉ一１，…，　，　，ｋ一１，…，ｔ，ｚ一１，…，Ｓ，７ｃ（　，Ｊ，ｋ，ｚ）一　三盈　三　为边缘分布函数。　（曷一　，　：　ｌ　）　为描述方便，简记：　Ｆ２（ｚ　，瓢）一Ｆ（Ｘ一（…，　，…，‰，…））　Ｆ１（　）一Ｆ（Ｘ一（…，五ｆ，…））　性质２　７ｃ（　，　，ｋ，Ｚ）一Ⅱ（　，ｋ，　，Ｚ）。　证明：由　Ｊ　ｚ）一　监　业　，户（墨一　，　＝勘Ｊ　）　易知性质成立。　当＿『≠忌时，记　全　其中，△为我们算法的计算精度。当Ｊ—ｋ时，记　（ｉ，Ｊ，ｚ）　上述定义中，在　初始值给定的前提下，易得如下性质：　性质３　≠志，　（　，Ｊ，愚，ｚ）一　∑　（　，　，ｋ，Ｚ）　一　（　Ｊ　，ｚ）一　∑　（　，　．Ｚ）　为了使用似然估计方法，我们近似认为Ｆ２（黝，…，ｚ　）　及ｎ（ｉ，　，ｋ，ｚ）是关于　，Ｚ一１，２，…，Ｓ的常数。在这个近似假　定下，对Ｌ求偏导如下：　嚣　一　善（　一　）　（　，　，ｋ，ｚ）Ｆ２（　，　）一　２∑（匈一　）７ｃ（　，Ｊ，Ｊ，Ｚ）Ｆ１（ｘｏ）　可得：　差：。　甘一　∑暑（缸一　）７ｃ（　，Ｊ，ｋ，ｚ）Ｆ２（≈，协）一２∑　（粕一　）７【（　，Ｊ，　，Ｚ）Ｆ２（ｚ　，孙）　￣２，ｕｏ∑７【（　，　，Ｊ，Ｚ）Ｆ１（粕）＝２２ｘ　７ｃ（　，Ｊ，　，Ｚ）Ｆ１（粕）　＋２２Ｎ　（勘－－ｔ￣）ｎ（ｉ，Ｊ，ｋ，Ｚ）Ｆ２（　，勘）　．甘　∑　（　，　，Ｊ，Ｚ）Ｆ１（ｚ　）一∑ｚ　丁ｃ（　，　，Ｊ，１）Ｆ１（粕）＋　÷∑∑∑（孙一　）　（　，Ｊ，ｋ，ｚ）Ｆ２（动，．Ｔｉｋ）　％Ｊ　可得：　，　（　ｄ　（　，　，　，ｚ）Ｆ１（嘞）＋专　∑墨（孙一　）７ｃ（　，　，ｋ，１）１：２（　，如））　ｌ　ｔ　ｚ　Ｊ　（　，Ｊ，Ｊ，Ｚ）Ｆ１（ｘｏ）　以上　作为似然估计后的新值。　算法１　ＣＶＢ（Ｃｏｖａｒｉａｎｃｅ　Ｂａｓｅｄ）算法：　（１）给定初值向量心，ｉ一１，２，…，Ｓ。　（２）利用式（１）求向量１１，　，ｉ＝ｌ，２，…，ｓ。　，　一—————————　——————（３）将第（２）步结果代入第（１）步，直到收敛。　性质４初始均值一样，迭代马上进入不动点。　证明：　（Ｅｘ　ｎ（ｕ，　，　）１：１（‰）－４－∑Ｅ　Ｅ（‰一　）ｎ（ｕ，　，点）１：２（‰，　））　一　其中　＜　，…，　＞，它描述了ｋ个分布中每一个分布的均值。我们　一鏖兰兰　希望对这些均值找到一个极大似然假设，即一个使Ｌ（Ｄ　Ｉ　）　最大的假设ｈ，其中Ｄ代表实例数据。该问题中，已有的数据　为观察到的ｘ一（ｚ｛＞。隐藏变量为ｚ一＜　“，钰），表示第ｋ　个分布生成ＺＣｉ。单个正态分布的选择基于均匀的概率进行，　ｋ个正态分布有相同的方差　。，且方差已知。全部数据为三　元组＜ＪｔＳｉ，　，Ｚｉ。），其中Ｘｉ表示第ｉ个实例的观测值，麓１，麓２表　示两个正态分布中哪个被用于产生值．ＴＣｉ。确切地讲，Ｘｉ由第　Ｊ个正态分布产生时编，值为１，否则为ｏ。　壹　（“　耋　１：苛ｘ　２　１：　（ｘＶｚ乞－ｔｎ３）２　１：。（百ｘ－／￣ｖ）２蛾　Ｏ（ｕ，　，愚）　（“，　，忌）一　ＥＯ（ｕ，７２，尼）　壁壁：兰兰　敬　耄　１　Ｓ　图１　两个同方差正态分布混合生成的实例［　６］　３．２　Ｋ均值问题的ＥＭ算法　由于　，２￣ｉ。未知，无法直接使用最大似然法来求均值胁　和　，Ｍｉｔｃｈｅｌｌ在文献［１６］中使用ＥＭ估计两个一维高斯分　布的均值。ＥＭ算法根据当前假设ｈ一（触，…，　＞不断地再　估计隐藏变量　的期望值。然后用这些隐藏变量的期望值　重新计算极大似然假设。　所以有：　Ｓ￣　Ｆ１（　＋ｌ　，　‰Ｅ　蚤　：　，　１ｓ　Ｅ　Ｆ１（‰）　全部数据为（五，麓　，ｇｉｚ＞，其中只有五可以观察到。令ｘ　代表观测到的数据，Ｚ代表未观察到的数据，ｙ—ＸＵＺ代表　全体数据。　一＜　，　）代表参数０的当前假设值，６ｒ代表每次　迭代中的新值。　首先推导出可用于Ｋ均值问题的表达式Ｑ（ｈ　Ｉ　）。每个　实例ｙｌ一＜Ｘｉ，２２ｉ　，２２ｉｚ＞的概率ｐ（Ｍ　ｌ矗　）可被写作：　乏　＋乏　Ｅ互等　ｃ‰　————　—一　一‰＋∑（％一　）Ｆ１（　）　一　＋　一　一　（　渤　）一志ｅ一壶　其中只有一个　值为１，其他的为０。所有ｍ个实例的　概率的对数似然为　Ｉｎ　ｐ（ＹＩ　）＝ｌｎⅡＰ（Ｙ　ｌ，ｚ　）一∑ｌｎｐ（ｙ￣Ｊ矗　）　一３基于方差的一维高斯混合模型算法　作为情况的特例，可以对一维高斯混合模型做出同　样的改进。当随机变量只有一维时，协方差就不存在了，我们　的算法也相应地退化成基于方差。注意到，一维高斯混合模　型又称为Ｋ均值问题，是一类经典的机器学习问题。下面给　善（Ｉｎ。　１一壶善　‘Ｘｉ一　。　出我们对一维高斯混合模型的基于方差的机器学习算法。　３．１　Ｋ均值问题　最后，计算此对数似然的均值。对２的线性函数ｆ（　），　有下面的等式成立：　Ｋ均值问题，是为了估计ｋ个正态分布的均值　一（，ａｌ，　…瓯＿厂（　）］一＿厂（Ⅱ　）　可得：　，　）。数据Ｄ是一个实例集合，它由ｋ个正态分布的混合　而成的分布生成。每个实例由一个两步骤过程生成。首先，　随机选择ｋ个正态分布中的一个；其次，实例按照被选中的分　布生成。　Ｅ［－ｌｎｐ（Ｙ　］一Ｅ［蚤（Ｉｎ。　１一寿置　（圹ｔｇ）　）］　一这一问题框架如图１所示。简单起见，不妨设ｋ一２，实　蚤（１　Ｉｎ‘　２１一寿善１７ｃ　ｚ　一　一　　・　一　）　７９　・　例为沿着ｚ轴分布的点。学习的任务是输出一个假设ｈ一　也即，Ｑ函数为：　Ｑ（矗　Ｉ矗）一　（１ｎ　１一　１善２　Ｅ［　］（薯一　）。）　其中，　一（　，　），而ＥＥｚ｛ｊ］表示实例ｚ　由第Ｊ个正态分布　同样，简单起见，我们近似认为　是关于　，　一１，２，…，　的常数。在这个近似假定下，我们研究基于方差的机器学　习算法。　求似然函数的偏导数：　差一２　（ｘ　（（ｉ－　）７￣ｓ　从而求出：　２步（Ｍ）接着寻找使此Ｑ函数最大的　一＜　，　）。　∑（ｉｎ　Ｐ（Ｘ—　）一　ｐ（Ｘ—　））一Ｏ　ａｒｇｍａｘＱ（＾　Ｉ矗）一ａｒｇ啪　圣（１ｎ。　１一　１善２　Ｅ［　］　：ａｒｇｍｉｎ￣ＥＥＥ￣ｊ］（五一　）。　，．∑（ｉｎ　Ｐ（ｘ—　））一　（　∑（　（ｘ—　））一　∑（ｉｎ　Ｐ（Ｘ—　））　，　ｉ—ｄ　户（ｘ—　））　（　Ｐ（ｘ—　））　耻ｓ　（２）　∑（　ｐ（Ｘ—　））　算法２　（１）任意取定（ｕ１，ｕ２），但Ｌ１１≠ｕ２，否则第（１）步迭代，就进入不动点　（Ｏ．５，ｏ．５）　（２）由式（２）求新的（ｕ１，ｕ２）。　（３）将第（２）步结果代人第（１）步，直至收敛。　性质５初始均值一样，马上进入不动点。　Ｉｌ　Ｘ２　ｌ１．”ｌｌ　，即Ｘ　，Ｘ２，…，　的混合。给出极大似然估　计参数分离方法，即求触，　，…，　。设：　证明：已知　一　一…一　，由　的定义可知，　Ｘ：Ｉ　出　骞』　因此，　ｂ　，　ｉ一０　—　—如　６　——一　∑（ｉｎ￣ｐ（Ｘ—　））　∑（　（Ｘ—　））　Ｌ一∑（　一　）　————　＝竺　Ｌ—丁一）　Ｌ—圭∑（妻。一　∑ｒ＿ｌ，　ｅ一一２　～　ｉ＝ａ　ｓ＝一————Ｅ（　）　ｂ　ｌ∑（　ｐ（Ｘ—　））　ｚ—ｎ　∑（　（Ｘ—　））　—『＿一　推论｛混合模型中只有一个高斯分布时，基于协方差／　方差的算法比ＥＭ算法更合理。　证明：只有一个高斯分布，也即实例同分布抽取于一　Ｉ＂ｆ　一—　＝ｌ＿————　一　Ｉ　ｅ　…　ｄｘ　个高斯分布。当这个高斯分布为时，　一　吼　１　ｚ则　一　ｎＬ一∑（　（ｉ－－Ｎ）　ｐ（Ｘ＝ｉ）ｎ　）　…ａ　１　耋　耋÷　１耋蕊　一　ｂ　一ｎ　∑　（Ｘ—　）（∑（　一　）　）　为实例ｚ的加权平均值。而　————一　（∑ｚ　ｒｔ（ｕ，　，　）Ｆｌ（‰）＋∑∑∑（　一　）７ｃ（　，　，愚）Ｆ２（‰，．ｚ础））　一　—————　Ｉ螂　Ｅｘ　ｎ（ｕ，　，　）　（‰）　．　一　∑ｎ（ｕ，　，ｖ）Ｆ１（ｚ　）　一　乏　可见，均值为实例的加权平均。易知当这个高斯分布为　一成数据。简单起见，在试验中，假设各个分布的混合权值相　等，也即取均匀分布，另外假设分布的方差、协方差和相关系　数已知。所求的参数为均值（向量）。　４．１　Ｋ均值实验　维时，结论也成立。　４实验　本节使用两个实验对本文提出的方法进行验证。第一个　设有随机变量Ｘ１～Ｎ（　，胁），Ｘ２～Ｎ（　，，ｕ２），Ｘ１∈Ｅｏ，　实验使用来自两个一维高斯分布的合成数据来检验我们提出　的方法处理低维随机变量的能力。第二个实验的目的是检验　处理数据的能力，使用的是来自两个二维高斯分布的合　・４］，　∈［４，８］。随机变量ｘ由ｘ　和Ｘ２混合生成，首先，随　机选择两个正态分布中的一个，其次，按照选择的分布生成　ｘ∈Ｅｏ，８］。生成一组数据，如图２所示。简单起见，假设单　８Ｏ　・　个正态分布的选择基于均匀概率进行，并且假设两个方差已　知，学习任务是输出一个假设ｈ一＜　，　），它描述了两个分　布中每一个分布的均值。　表ｌ　ＣＶＢ和ＥＭ结果与真值的欧式距离　从图２可以看出，ＣＶＢ算法比ＥＭ算法更快收敛，并且　更靠近真实的均值（　一２，　一６）。ＣＶＢ算法得到的估计参　数收敛值为（　一２．１８１６，　一６．１１０１），ＥＭ得到的估计参数　收敛值为（　ｌ一２．３９４１，，ｕｚ一６．３８１６）。相比ＥＭ算法，ＣＶＢ算　结束语本文针对混合高斯模型参数估计问题提出一种　基于协方差矩阵ＣＶＢ（Ｃｏｖａｒｉａｎｃｅ　Ｂａｓｅｄ）的参数学习算法。　法所得的两个估计值的精度分别提高８．８７　和４．２５％。　红色为ＥＭ的结果，蓝色为ＣＶＢ的结果　图２两高斯分布混合所生成的实例（左）及参数估计结果（右）　４．２二维高斯混合合成数据　使用来自两个二维高斯分布的合成数据。假设每个高斯　分布中的两个分量各自。数据生成过程中，两个高斯分　布以相同的概率被选取，另外假设分布的方差已知，需要估计　的参数是两个分布的均值向量。　首先生成一个总体，其中样本数量为３００，分别以相同的　概率从两个二维高斯分布中生成。假设两个二维高斯分　布的均值和协方差矩阵均已知，　一（一１，一２＞，　一（１，２＞　／３　０、　／２　０、　—１０　２Ｊ，　一（ｏ　１　Ｊ　我们的目标是在有观察数据Ｘ一（ｘｌ　，Ｘｉ　，…，　），　一　１，２，…，３００，ｔ＝２，以及已知协方差矩阵的情况下估计均值向　量。　实验结果如图３所示，其中蓝色点所示为生成数据时所　使用的均值真值，红色轨迹为使用ＣＶＢ算法得出的均值估计　值的迭代曲线，绿色为使用ＥＭ算法得出的均值估计值的迭　代曲线。从图中看出绿色轨迹似乎比红色轨迹更接近真值。　实际情况为，下方的绿色轨迹为对上方蓝色均值点的估　计，上方绿色轨迹为对下方蓝色均值点的估计。可以看出　ＣＶＢ算法的起始估计值比ＥＭ算法的起始估计值更接近　真值。　红色为ＣＶＢ迭代曲线，绿色为ＥＭ迭代曲线　图３　ＥＭ和ＣＶＢ在二维高斯混合合成数据的迭代轨迹　表１对比了ＥＭ算法和ＣＶＢ算法得出的最终估计值和　原始均值点的欧式距离，可以看出我们的算法比ＥＭ算法得　出的结果更接近真实值。　该算法的适用条件是混合高斯模型的因素协方差矩阵已知，　因素各分量。本文进行了一定的数学分析，并且通过实　验将其与常用的期望最大算法进行了对比分析。实验结果表　明，在该条件下，基于协方差的算法优于期望最大算法。　参考文献　［１］Ｍａｒｔｉｎｅｚ　Ｂ，Ｂｉｎｅｆａ　Ｘ，Ｐａｎｔｉｅ　Ｍ　Ｆａｃｉａｌ　ｃｏｍｐｏｎｅｎｔ　ｄｅｔｅｃｔｉｏｎ　ｉｎ　ｔｈｅｒｍａｌ　ｉｍａｇｅｒｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　ＷｏｒｋｓｈｃＩｐｓ（ＣＶＰＲＷ），２０１０　ＩＥＥＥ　Ｃｏｍ—　ｐｕｔｅｒ　Ｓｏｃｉｅｔｙ　Ｃｏｎｆｅｒｅｎｃｅ．Ｊｕｎｅ　２０１０：４８－５４　［２］ＭｃＫｅｎｎａ　Ｓ　Ｊ，Ｇｏｎｇ　Ｓｈａｏ－ｇａｎｇ，Ｒａｊａ　Ｙ．Ｍｏｄｅｌｌｉｎｇ　Ｆａｃｉａｌ　Ｃｏｌｏｕｒ　ａｎｄ　Ｉｄｅｎｔｉｔｙ　ｗｉｔｈ　Ｇａｕｓｓｉａｎ　ＭｉｘｔｕｒｅｓＶＪ］．Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ，　１９９８，３１（１２）：１８８３—１８９２　［３］Ｆｉｇｕｅｉｒｅｄｏ　Ｍ　Ｂａｙｅｓｉａｎ　Ｉｍａｇｅ　Ｓｅｇｍｅｎｔａｔｉｏｎ　Ｕｓｉｇｎ　Ｇａｕｓｓｉａｎ　Ｆｉｅｌｄ　ＰｒｉｏｒｓＥＭ］　Ｒａｎｇａｒａｊａｎ　Ａ，Ｖｅｍｕｒｉ　Ｂ，Ｙｕｉｌｌｅ　Ｅｎｅｒｇｙ　Ｍｉｎｉｍｉｚａｔｉｏｎ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉ—　ｔｉｏｎ．Ｂｅｒｌｉｎ，Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００５：７４—８９　［４］Ｃｈａｄ　Ｃ，Ｓｅｒｇｅ　Ｂ，Ｈａｙｉｔ　Ｇ，ｅｔ　ａ１．Ｂｌｏｂｗｏｒｌｄ：Ｉｍａｇｅ　Ｓｅｇｍｅｎｔａｔｉｏｎ　Ｕｓｉｇｎ　Ｅｘｐｅｃｔａｔｉｏｎ－Ｍａｘｉｍｉａｚｔｉｏｎ　ａｎｄ　Ｉｔｓ　Ａｐｐｌｉｃａｔｉｏｎ　ｔｏ　Ｉｍａｇｅ　Ｑｕｅｒｙｉｎｇ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｐａｔｔｅｒｎ　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｍａ—　ｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，２００２，２４：１０２６—１０３８　［５］Ｇｒｅｅｎｓｐａｎ　Ｈ，Ｒｕｆ　Ａ，Ｇｏｌｄｂｅｒｇｅｒ　Ｊ．Ｃｏｎｓｔｒａｉｎｅｄ　Ｇａｕｓｓｉａｎ　ｍｉｘ－　ｔｕｒｅ　ｍｏｄｅｌ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ａｕｔｏｍａｔｉｃ　ｓｅｇｍｅｎｔａｔｉｏｎ　ｏｆ　ＭＲ　ｂｒａｉｎ　ｉａｍｇｅｓ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｍｅｄｉｃａｌ　Ｉｍａｇｉｇｎ，２００６，２５　（９）：１２３３—１２４５　Ｅ６３向日华，．一种基于高斯混合模型的距离图像分割算法　［Ｊ］．软件学报，２００３，１４（７）：１２５０—１２５７　［７］陈允杰，张建伟，韦志辉，等．基于高斯混合模型的活动轮廓模型　脑ＭＲ１分割＿Ｊ］．计算机研究与发展，２００７，９：１５９５—１６０３　［８］Ｒｅｙｎｏｌｄｓ　Ｄ　Ａ，Ｒｏｓｅ　Ｒ　Ｃ．Ｒｏｂｕｓｔ　ｔｅｘｔ－ｉｎｄｅｐｅｎｄｅｎｔ　ｓｐｅａｋｅｒ　ｉｄｅｎ－　ｔｉｆｉｃａｔｉｏｎ　ｕｓｉｎｇ　Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｓｐｅａｋｅｒ　ｍｏｄｅｌｓ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎＳｐｅｅｃｈ　ａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｇｎ，１９９５，３（１）：７２—８３　［９］Ｒｅｙｎｏｌｄｓ　Ｄ　Ａ，Ｑｕａｔｉｅｒｉ　Ｔ　Ｆ，Ｄｕｎｎ　Ｒ　１３．Ｓｐｅａｋｅｒ　Ｖｅｒｉｆｉｃａｔｉｏｎ　Ｕ—　ｓｉｇｎ　Ａｄａｐｔｅｄ　Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌｓ［Ｊ￣．Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏ－　ｃｅｓｓｉｎｇ，２０００，１０（１—３）：１９—４１　ＥｌＯ］张怡颖，朱小燕，张钹．与文本无关的说话人自适应确认方法　ｒ－ｊ］．软件学报，２０００，１１（６）：７９９—８０３　［１１］Ｚｉｖｋｏｖｉｃ　Ｚ，ｖａｎ　ｄｅｒ　Ｈｅｉｊｄｅｎ　Ｆ　Ｒｅｃｕｒｓｉｖｅ　ｕｎｓｕｐｅｒｖｉｓｅｄ　ｌｅａｒｎｉｇｎ　ｏｆ　ｆｉｎｉｔｅ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌｓ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｐａｔｔｅｍ　Ａ—　ｎａｌｙｓｉｓ　ａｎｄ　Ｍａｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，２００４，２６（５）：６５１—６５６　［１２］ＦｉｇｕｅｉｒｅｄｏＭ，Ｌｅｉｔ￣ｏＪ，ＪａｉｎＡ　ＯｎＦｉｔｔｉｎｇＭｉｘｔｕｒｅＭｏｄｅｌｓ［Ｍ］∥　Ｈａｎｃｏｃｋ　Ｅ，Ｐｅｌｉｌｌｏ　Ｍ　Ｅｎｅｒｇｙ　ｉＭｎｉｍｉｚａｔｉｏｎ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ．Ｂｅｒｌｉｎ／Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｇｎｅｒ，　１９９９：７３２—７３２　［１３３王平波，蔡志明，刘旺锁．混合高斯概率密度模型参数的期望最　大化估计口］．声学技术，２００７，２６（３）：５　［１４］Ｄｅｍｐｓｔｅｒ　Ａ　Ｐ，Ｌａｉｒｄ　Ｎ　Ｍ，Ｒｕｂｉｎ　Ｄ　Ｂ　Ｍａｘｉｍｕｎ　Ｌｉｋｅｌｉｈｏｏｄ　ｆｒｏｍ　Ｉｎｃｏｍｐｌｅｔｅ　Ｄａｔａ　ｖｉａ　ｔｈｅ　ＥＭ　Ａｌｇｏｒｉｔｈｍ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　ｔｈｅ　Ｒｏｙａｌ　Ｓｔａｔｉｓｔｉｃａｌ　Ｓｏｃｉｅｔｙ，１９７７，３９（１）：１－３８　１－１５］Ｘｕ　Ｌｅｉ，Ｊｏｒｄａｎ　Ｍ　Ｉ．Ｏｎ　ｏＣｎｖｅｒｇｅｎｃｅ　Ｐｒｏｐｅｒｔｉｅｓ　ｏｆ　ｔｈｅ　ＥＭ　Ａｌｇｏ－　ｒｉｔｈｍ　ｆｏｒ　Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅｓ［Ｊ＂］．Ｎｅｕｒａｌ　ｏＣｍｐｕｔａｔｉｏｎ，１９９６，８：　１２９—１５１　［１６］Ｍｉｔｃｈｅｌｌ　Ｔ　Ｍ　Ｍａｃｈｉｎｅ　ＬｅａｍｉｇｎＥＭ］．ＭｃＧｒａｗ－Ｈｉｌｌ，１９９７　・　８】　・　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文