****大学研究生期末论文
成
绩
****大学(硕士)研究生
课 程 名 称:
机器学习(案例)
任 课 教 师:
***
开课学年/开课学期:
****学年度/第 1 学期
学 时 / 学 分:
32 学时/2 学分
所 在 教 学 学 院:
电气信息工程学院
专 业 名 称:
信息与通信工程
学 号 / 姓 名:
***111/***
教师评语:__________________________________
__________________________________
__________________________________
任课教师签字(章):_________
《机器学习(案例)》课程期末论文
期望最大化(EM)
一、 摘要
期望最大化算法(Expectation-maximization algorithm)是机器学习中一个非常重
要的算法,又称作 EM 算法。EM 算法是由 Dempster 等人 1977 年提出的统计模型参数估
计的一种算法。它采用的迭代交替搜索方式可以简单有效的求解最大似然函数估计问题。
已知的概率模型内部存在隐含的变量,导致了不能直接用极大似然法来估计参数,EM
算法就是通过迭代逼近的方式用实际的值带入求解模型内部参数的算法。它在当代的工
业、商业和科学研究领域发挥了重要的作用。
EM 算法分成 2 个部分,E 步骤和 M 步骤。其中,E 步骤叫做期望化步骤,M 步骤为
最大化步骤。 本文将会详细推导和解释以上两个步骤。
二、 案例描述
要解决的问题:期望最大化算法是解决对于不可观察变量进行似然估计的一种方法。
最大期望算法是一种启发式的迭代算法,是一种从“不完全数据”中求极大似然的方法。
在人工智能、机器学习、数理统计、模式识别等许多应用都需要进行模型的参数估计,
极大似然估计和极大后验似然估计是必要进行的。然而在理想的可观察变量模型中,即
变量分布式均匀的时候,做出以上两个估计是显然可以的。但是实际的情况往往不是这
样,某些变量并不是可以观察的,对这类模型进行极大似然估计就比较复杂了。
再通过分布律反向推导出概率参数,最后将得出的参数代入假设的公式中进行调整。
举例:在一个样本集{x(1),x(2),……x(n)},将它建模成 P(x),此时有一个样本
点xtest,并且 P(xtest)<ε,(ε是阈值)。但是在一整个样本集中我们无法确定哪个样本
点是xtest,即它是不可观察的。但是我们可以假设样本点xtest为某一类,计算出分布律,
已知:此时并不知道xtest 属于哪一类,我们假设为某一类,得到相应的分布概率后
进行调整。样本集为一维高斯分布估计,令xtest为z(i),z(i)=j~multinomal(φ),则有:
P(x(i),z(i))= P(x(i)|z(i))*P(z(i));
P(z(i)=j)=φj;
而 P(x(i)|z(i)=j)~N(μj,Σj),则:
1
《机器学习(案例)》课程期末论文
P(x(i)|z(i)=j)=
(2π)−n2|Σ|12 exp(- (xi−μj)T
1
2Σ(xi−μj));
L(φ, μ,Σ)= i=1m logPxi zi, μ, Σ)
未知:样本点xtest的分布律wj(i)
参数φj,μj,Σj
*P(z(i),φ);
三、 解决思路
解决方法:期望最大化。
期望最大化主要是用来计算后验分布的众数或极大似然估计。该方法广泛的应用于
缺损数据、截尾数据、成群数据、带有复杂参数的数据等不完整数据。期望最大化算法
流行的原因,一是在于它的理论简单化和一般性,二是许多应用都能够纳入到期望最大
化算法的范畴,期望最大化算法已经成为统计学上的一个标准工具。
理由:(1)EM 算法中,由于似然函数是有界的,并且算法的每一步迭代都使似然函
数增加,根据单调有界定理可以证明 EM 算法具有收敛性;
(2) EM 算法是一种初始值敏感的算法,选取不同初始参数会有不同的最终结果;
(3) EM 算法得到的不会是全局最优,每次迭代逼近的都是当前的局部最优。
四、 解决原理
EM 算法,分成 2 个部分,E 步骤和 M 步骤。其中,E 步骤叫做期望化步骤,M 步骤
为最大化步骤。
整体算法的步骤如下所示:
1. 初始化分布参数。
2. E 步骤:(1) 将当前轮次得到的参数 作为固定的观测点;
(2) 利用参数 计算出隐含变量 Z 的分布,计算期望 E;
(3) 将隐含变量 Z 的分布带入构造似然函数在当前观测点下的下界函数,计算其最
大似然估计值,以此实现期望化的过程。
3. M 步骤:最大化在 E-步骤上的最大似然估计值来计算参数的值;
2