GMM高斯混合模型.pdf

发布时间：2022-06-19 发布人：admin 分类：说明书资料大小：0.33M 资料格式：pdf 举报版权申诉

a373b51b-637d-48b6-9588-83fd2c2df794.pdf-第1页.png

第1页 / 共5页

a373b51b-637d-48b6-9588-83fd2c2df794.pdf-第2页.png

第2页 / 共5页

a373b51b-637d-48b6-9588-83fd2c2df794.pdf-第3页.png

第3页 / 共5页

a373b51b-637d-48b6-9588-83fd2c2df794.pdf-第4页.png

第4页 / 共5页

a373b51b-637d-48b6-9588-83fd2c2df794.pdf-第5页.png

第5页 / 共5页

文本预览

聚类算法 - 高斯混合分布高斯混合模型：一个数据集可以由一个或多个高斯模型加权求和来生成，每个高斯模型代表一簇。采用概率模型来表达数据分布。由于假设了整个数据集是由多个高斯分布生成，现在我们要求整个数据的高斯分布。如果我们已知数据集中每个数据的的簇编号，那么我们就能知道哪些数据共同生成一个高斯分布，从而利用下面公式来求出每簇数据的高斯参数，从而求出具体分布形式。这些公式其实是通过极大似然估计推导出来的。 but，我们并不知道每个数据的簇编号，所以上面公式中的，就无法确定。也即，我们不知道那些样本属于同一个高斯分布，无法使用极大似然估计推导出上述公式，只能使用 EM 算法在逐次优化。因此，我们只能使用所以数据来对每一个高斯模型进行估计。 1. n 维高斯分布 ()()11()()iiixclusteriiTikkxclusteriiNNxNxxNiN()xclusteri

其中代表均值向量，代表协方差矩阵。n 代表高斯分布为 n 维，即所给数据有 n 个特征。 2. 高斯混合分布 2.1 高斯混合分布的数学形式假设混合分布包含的高斯模型的个数为 m，任意样本的高斯混合分布：其中。 2.2 样本由高斯分布生成的概率 - E 3. 极大似然估计 - M 3.1 联合分布样本的个数为 k： 11()()21221(|,)(2)||TxxnPxex1(|,)(|,)mGMMiiiiPxPx11miijxiG1(|)(,|)(|)()()(|,)()()(|,)=(|,)ijiijjiijjiiijijiimijiiiPGxPxPxGPGPxPxPGPxPxPx1(,)(,,)(|)kijiijijjLGxLxPGx

3.2 极大似然估计极大似然估计就是求解一组模型参数，使得当前模型下的数据后验概率的联合概率最大。对三个参数分别求导，得到第 i 个高斯模型的参数：第 i 个高斯模型的混合系数等于所有样本属于该高斯模型的后验概率的加权平均。第 i 个高斯模型的均值向量等于，所有样本在该模型下的平均期望。换句话说，样本的概率越大，则该样本越能决定这个高斯模型的位置。第 i 个高斯模型的协方差矩阵。 4. EM 算法 4.1 MLE，MAP，EM 算法 MLE：模型种类已知，属于该模型的样本已知，那么利用极大似然估计可以求出模型参数，比如 logistic 回归，以及开篇提到的样本属于哪个簇已知的情况下都可以适用。频率学家的观点。 1111ln(,)ln(|)ln(|)(|,)=ln(|,)kkijijijjjkijiimjijiiiLGxPGxPGxPxPx,,iii1111(|)(,|)kkiijiijjjPGxPxkki1111(|)(,|)(|)(,|)kkijjiijjjjikkijiijjjPGxxPxxPGxPxi11(,|)()()(,|)mTiijjijijimiijjPxxxPx

MAP：朴素贝叶斯。 EM 算法：模型种类已知，但是属于该模型的样本未知（这其实是一个 clusters label 隐变量，即非观测变量），因此 EM 算法适用于含有隐变量的概率模型的极大似然估计。比如 GMM。 4.2 EM 算法 & GMM GMM 只知道当前数据属于多个高斯分布，但是具体哪些数据属于一个高斯却不知道。因此只能使用 EM 算法：因此整个过程就是不断迭代上面算法的 E,M 步，直到结束，利用初始参数生成，极大似然估计生成；利用新得到的去更新 …这样鸡生蛋，蛋生鸡。直到达到结束条件，比如最大迭代次数，或者高斯模型的参数几乎没什么改变。最终，每个高斯模型的代表簇中心，而每个点的在每一簇下的概率可反映当前点属于哪一簇（概率最大）。算法实现过程在这里 http://blog.csdn.net。 4.3 GMM 优化的核心 – 概率矩阵（probMatrix）下面的图，代表一个概率矩阵，一行是一个样本；一列是一个高斯模型，总共四个高斯；每个数据代表当前行的样本属于当前列的模型的概率。整个 EM 算法就是为了把左边这个初始化的一个概率矩阵优化成右边的形式。从右边，我们能很明显的知道任意一个样本属于哪一簇。 ,,(,|)iijPx,,,,(,|)iijPx

分享到：

赞收藏

资料库

GMM高斯混合模型.pdf

相关推荐

人工智能

热门标签

最新资料