GMM与EM算法.pdf-资料库

61efa28c-d7c4-4192-939d-ebb6d83cfe16.pdf-第1页.png

第1页 / 共11页

61efa28c-d7c4-4192-939d-ebb6d83cfe16.pdf-第2页.png

第2页 / 共11页

61efa28c-d7c4-4192-939d-ebb6d83cfe16.pdf-第3页.png

第3页 / 共11页

61efa28c-d7c4-4192-939d-ebb6d83cfe16.pdf-第4页.png

第4页 / 共11页

61efa28c-d7c4-4192-939d-ebb6d83cfe16.pdf-第5页.png

第5页 / 共11页

61efa28c-d7c4-4192-939d-ebb6d83cfe16.pdf-第6页.png

第6页 / 共11页

61efa28c-d7c4-4192-939d-ebb6d83cfe16.pdf-第7页.png

第7页 / 共11页

61efa28c-d7c4-4192-939d-ebb6d83cfe16.pdf-第8页.png

第8页 / 共11页

如需转载请注明 CSDN 博客网址：http://blog.csdn.net/qq_30091945 高斯混合模型与 EM 算法接下来，我们将讨论高斯混合模型与 EM 算法。假设我们给定一个训练集，由于是高斯混合模型（Mixtures of Gaussians ，GMM）属于无监督算法，因此训练集中不会出现任何标签。一高斯混合模型我们希望通过指定联合分布来对数据进行建模。在这里我们假定，即服从多项式分布，，，并且参数能够推导出，同时我们假设，在上叙述中，代表的种类数。因此，我们的模型假定每个是通过从中随机选择而生成的，然后也是来自依赖于的个高斯分布。那么上述模型被称为高斯混合模型。在这里，是隐式随机变量，这也将我们估计问题变得非常困难。那么对于给定的数据集，高斯混合模型的对数似然函数如下：然而，如果我们令上述函数的偏导数为 0 的话，那么在封闭区域内，我们无法直接解决这个问题。随机变量表示每个属于个高斯分布的概率大小。请注意，如果我们知道是多少，那么最大似然问题就很容易了。具体来说，我们可以将对数似然函数写成：由于，那么我们有： 1 1,,mxx,iiiiipxzpxzpzizMultinomializ0j11kjjjipzj= ,iijjxzjkizix1,,kizixizkiz1,,mxx11,,log;,,log;,;miiimiiiipxzpxzpzizixkiz1,,log;,+log;miiiipxzpzizMultinomial111;;ikkzjiijjjpzpzj

如需转载请注明 CSDN 博客网址：http://blog.csdn.net/qq_30091945 同理，因为，那么我们有：因此，对数似然函数可以写成：那么，对求偏导有：由于是矩阵，那么：同理，对求偏导有：其中用到了如下矩阵求导公式：因此， 2 = iijjxzj1111122;,;,11exp-22ikiiiijzjkTiijjnjjpxzpxzjxx11111,,log;,+log;111-log2log222=1logmiiiikTiiijjjjmjkiijjpxzpznzjxxzjj1110miijjijzjx1j1111miiijmiizjxzjj211111022mTiiijjjjijzjxx-1-1-2==

如需转载请注明 CSDN 博客网址：http://blog.csdn.net/qq_30091945 ，那么我们必须利用拉格朗日乘数法来求解。因此构造如下函由于数：那么分别对求偏导有：那么我们可以得到：带入上式有：那么有：实际上，我们可以从上得知，如果是已知的，那么高斯混合模型的最大似然估计变得几乎与我们在估计高斯判别分析模型的参数时所具有的相同，除了这里正在起到类标签的作用。然而，在我们的密度估计问题中，是未知的。我们可以做什么？ EM 算法是一种迭代算法，有两个主要步骤。应用于我们的问题，在 E 步骤 3 1111mTiiijjijmiizjxuxuzj11kjjj111;,1log1mkkijjjijfzzj,j111010imijjkjjzjff11=1mijizj111111111=1=1=1=1kkmmkmiijjjiijimzjzj1=1=1mijimzjmiziziz

如需转载请注明 CSDN 博客网址：http://blog.csdn.net/qq_30091945 中，它试图“猜测的值。在 M 步骤中，它根据我们的猜测更新模型的参数。由于在 M 步骤中我们假设第一部分中的猜测是正确的，因此最大化变得容易。下面是高斯混合模型的 EM 算法的伪代码：在 E 步骤中，给定并使用当前设置的参数最后结合贝叶斯准则，我们计算得到参数的后验概率：在这里，由样本在均值为，协方差矩阵为的高斯分布上的概率给出；同时，由给出。在 E 步骤中计算的的值表示我们对的“软”猜测。此外，通过将 M 步骤中的参数更新与我们确切知道时的公式进行对比，你可以发现它们是相同的，除了没有表明每个数据点来自哪个高斯分布的指示函数，而我们现在将其改为。 EM 算法也让人联想到 K-means 聚类算法，除了代替“硬”聚类分配，我 4 iz11111 : , , {:;,,1: = :iiijmijjimiijijmijimTiiijjjijmijiRepeatuntilconvergenceEstepForeachijsetMstepUpdatetheparametwpzjxwmwerxuwwxuxuws：ixiz1;,;,;,,;,;iiiiikiiilpxzjpzjpzjxpxzlpzl;,iipxzjixjj;ipzjjijwiziz1izjijwic

如需转载请注明 CSDN 博客网址：http://blog.csdn.net/qq_30091945 们改为使用“软”赋值。与 K-means 算法类似，它也容易陷入局部最优解，因此在几个不同的初始参数上重新初始化可能是一个好主意。很明显，EM 算法具有非常自然的解释——反复尝试猜测未知的；但是它是如何产生的，我们可以对它做出任何保证，例如它是如何收敛的？因此接下来，我们将描述 EM 算法一般表示，这将使我们能够轻松地将其应用于其他还有隐含变量的估计问题，也会提供给我们能够提供收敛的保证。二 Jessen 不等式为了更好地理解 EM 算法的原理，我们必须对子 EM 算法中运用广泛的 Jessen 不等式进行详细推导。设是一个定义域为实数集的函数。回想一下，如果，那么是一个凸函数。当对于的向量输入，这是广义的条件，它的海森（hessian）矩阵是半正定，即。如果，那么我们说是严格凸函数 (在向量值情况下，相应的表述为必须是严格的半正定的，记为。那么 Jessen 不等式可以这样表述为：是凸函数，即，假定是随机变量，那么有。而且，如果是严格凸函数时，那么当且仅当时， (即当是常数时)，其中，代表随机变量的数学期望。其实这是 Jessen 不等式的一般形式，Jessen 不等式的加权形式为：，那么恒成立。同理，如果当是个凹函数时，Jessen 不等式的一般形式为：，假定是随机变量，那么有。其加权形式为：，那么恒成立。下面对利用数学归纳法来证明 Jessen 不等式。 5 ijwizf,0xRfxffH0H,0xRfxfH0Hf,0xRfxXEfXfEXf1pXEX=EfXfEXXEXX11,0,,,,1nnnixRfxqqq11nniiiiiiqfxfqxf,0xRfxXEfXfEX11,0,,,,1nnnixRfxqqq11nniiiiiiqfxfqx

如需转载请注明 CSDN 博客网址：http://blog.csdn.net/qq_30091945 我们以是凸函数为例来证明 Jessen 不等式的加权形式。证明过程如下： 1) 当时，，那么恒成立。 2) 当时，，由于，那么根据不等式性质我们有: 恒成立。 3) 当时，假设当时恒成立，那么只需证明，当时，。那么时，显然有：综合 1)、2)、3)有，Jessen 不等式恒成立。同理可证是凹函数时的 Jessen 不等式恒成立。为了更好地理解 Jessen 不等式，我们来看上面的函数图。在图中，是由实线表示的凸函数。是随机变量，各有 0.5 的概率取得变量和变量。因此， 6 f1n11q11111qfxfxfqx2n121qq0fx11221122+qfxqfxfqxqx3nnk11kniiiiiiqfxfqx1nk111kniiiiiiqfxfqx1111,0,,,,1kknixRfxqqq11+11+111111+1111+111=+=+zzzzzzkkkkiiikkiikkkikiiiiikkikkkiikkkikkkiiiiikqqfxqfxqfxqfxfxzqqqfxfxqfqxxfqxffXab

如需转载请注明 CSDN 博客网址：http://blog.csdn.net/qq_30091945 的期望值由和之间的中点给出。我们还可以看到，和在轴上的值。现在是和之间的中点。从我们的例子中,我们看到，因为是凸函数，恒成立。因此，Jessen 不等式也可以这样理解，当指定函数是凸函数时，函数值的加权平均大于等于自变量的加权平均后对应的函数值；当指定函数是凹函数时，函数值的加权平均小于等于自变量的加权平均后对应的函数值。三 EM 算法假设我们有一个评估问题，其中有一个训练集由个独立的样本组成。我们希望利用数据来你拟合模型的参数，其中似然函数为：但是，明显寻找参数极大似然估计是困难的。这里是隐式随机变量；通常情况下，若果知道了，那么极大似然估计就会很容易。在这种情况下，EM 算法给出了一种有效的估计最大值似然的方法。最大化明显可能很困难，我们的策略是重复构造一个上确界(E-step)，然后优化这个上下限(M-step)。对于每一个，令是的函数，且有，。那么根据 Jessen 不等式，我们有： (1) 具体地说, 是凹函数,因为。现在，对于任何一组分布，公式(3)为给出了一个下界。有很多可能的选择。我们应该用哪一种？如果我们有一些目前想猜测的参数，很自然地让似然函数在处的下界变小是我们的目标。即我们将使上面的不等式在处等号成立。 7 XabfafbfEXyEfXfafbfEfXfEX,,imxxm,pxz11log;log,;mmiipxpxziziziiQz1izQz0iQzlog;log,;,;log,;logiiiiiiiiiiiiziiiiiiizipxpxzpxzQzQzpxzQzQzloglnfxxx21,-0xfxxiQiQ

如需转载请注明 CSDN 博客网址：http://blog.csdn.net/qq_30091945 为了一个特殊是的上界变小，我们的推动过程中需要涉及 Jessen 不等式去等的条件。为了使等号成立，我们知道期望是常变量时将会带来高效率。即我们要求：对于不依赖于的常数，只要满足如下条件即可。实际上，由于，那么我们有：因此，我们只是将设置为的后验分布，是的条件概率，且被参数化。现在，对于的选择，式(1)给出了我们试图最大化的对数似然的下界，这是 E 步骤。算法的 M 步骤中，最大化式(1)的参数，从而获得一个新参数。反复执行这两个步骤。上述就是 EM 算法的两个过程，具体流程如下所示：我们怎么知道 EM 是否收敛？假设和连续两次迭代的参数。接下来我们将证明，这也将解释 EM 为什么总是单调提高对数似函数。这个结果的关键在于我们对的选择。具体来说，在 EM 算法的迭代过程中，参数将从开始，那么我们令。我们在前面看到，这个选择确保了 Jensen 不等式能够去取等。因此， 8 ,;=iiiipxzcQzizc,;iiiiQzpxz1iizQz,;,;=,;;=;iiiiiiiiziipxzpxzQzpxzpxpzxiQizizixiQ , {-;,;log : iiiiiiiiiiziiEStepQzpzRepeatuntilconverxpxzQzgenceForeachisetMstepSetarQzgmax｝t+1t1ttiQt;tiiitiQzpzx

资料库

GMM与EM算法.pdf

相关推荐

人工智能

热门标签

最新资料