logo资料库

概率图模型的课程报告.docx

第1页 / 共10页
第2页 / 共10页
第3页 / 共10页
第4页 / 共10页
第5页 / 共10页
第6页 / 共10页
第7页 / 共10页
第8页 / 共10页
资料共10页,剩余部分请下载后查看
字典构造的方法
总结
一、介绍 本文主要引入了马尔科夫潜在特征模型,用于简单序列构造的稀疏潜在特征 模型中。主要思想是把序列过程的每一个状态和潜在特征关联在一起,把两次空 状态之间遍历的状态集作为一次观察所选的特征。 潜在特征模型可以学习到对象集中共享的未观察因素,这些潜在特征的一小 部分可以用于对单个物体的联合描述和稀疏编码。潜在特征分配的过程可以认为 是 0-1 矩阵分配的过程,每一行的 1 元素代表了分配给此对象的潜在特征。例如, 印度自助餐过程(IBP)根据富人越富的方案通过独立的特征分配定义了特征分 配额。IBP 是贝叶斯非参数模型(潜在特征的数量可以增长到无穷大的数据), 对象之间有可交换性。对于 IBP 的混合度量是 beta 过程。 基于 IBP 和 beta 过程的模型是假设在分配给物体的潜在特征之间是独立的。 例如,在实际的自然图像中车是更有可能发生在公交车上而不是在鲸鱼上面。针 对潜在特征和集群之间的模型依赖提出了几个方法。比如,beta 融合树以树的 结构组织潜在特征来学习多分辨率的特征结构。其他的树模型,如嵌套的中国餐 馆过程和嵌套层次狄利克雷过程使用基于树结构的离散路径为每一个对象选择 特征。为了避免混合成员架构中树结构的固化,马尔科夫混合成员模型提出了在 全联通有限图上潜在集群的成对相关性。 这篇文章提出了马尔科夫潜在特征模型,把马尔科夫随机游走的思想拓展到 了潜在因素建模问题上(这些问题可以通过 IBP 和 beta 过程解决)。主要的创 新在于使用了序列块(两个邻接空状态之间遍历的子集)来定义特征分配。 二、序列化的特征分配 下图是表示从序列化过程构造 0-1 矩阵。 链 Z 从空状态 Z0 开始产生四个块 Z1 到 Z4,四行 0-1 矩阵表明了每一块中所 访问的独特的状态集。
Z=(Z0,Z1,...)是一个无限长的随机过程。Z0=0 表示空状态,空状态的主 要作用对不同的对象划分潜在特征,N 是特征系数集。 三、马尔科夫潜在特征模型 上面提到 Z 是循环马尔科夫链的混合。以下是基于简单的一阶马尔科夫假设 所提出的参数和非参数模型。 1.参数模型:N 是观察次数,K+1 是包含空状态的可能状态。则 Z 可形式化 向量 k 服从于 此模型为有限马尔科夫潜在特征模型。到空状态期望返回的次数是比 K 值小 的话,视为稀疏编码模型,在模型中每一次观察都拥有特征的子集。 2.非参数模型:基于 IBP 和 beta 过程的思想,把上面提到的模型扩展到无 数量的特征上。可以使用层次狄利克雷过程对混合度量模型化 此模型为无限马尔科夫潜在特征模型。 3.线性高斯模型的应用:把这些模型可以运用在字典学习的问题中,N 次观 察的数据矩阵 X 可以模型化为 C 是 K x N 矩阵,是噪音矩阵
四、推断算法 推导出变分推断算法用于参数的马尔科夫潜在特征模型,在其中我们把混合 度量模型化为狄利克雷分布,也可以通过模型化 beta 把变分推断算法应用到非 参数问题中。 算法流程: 1.批处理的变分推理 马尔科夫潜在特征模型的联合分布模型化为 后验模型化为 定义 变分的目标为 紧接着就是更新 Z 和 C,更新 )(q ,更新 W。
2.随机的变分推理 用于处理大规模学习的变分推理。 五、实验 1.基因数据的实验 2.图像去噪的实验 六、总结 本文提出马尔科夫潜在特征模型用于序列化的构造。关键是马尔科夫可交换 性的约束,允许使用变分推断进行混合度量。构造的潜在特征模型可以从数据中 学习特征的相关性。通过实验的分析可看出特征相关性模型的优势。
补充 1.贝叶斯非参数模型 贝叶斯非参数模型是一种定义在无限维参数空间上的贝叶斯模型。大致为非 参数模型的大小可以随着模型内数据的增大或减小而自适应模型的变化,可以根 据数据的多少选择参数来确定模型。 即使是非参数模型,也是需要假设参数的,与以往参数模型不同之处在于这 个非参数模型只需要一个很小的假设就能够学习数据并进行聚类,不断增加的数 据也能够不断的被聚集到相应的类中。同时,这个模型的还具备预测的功能,根 据具体的学习问题可以选择能与这个问题的相关的所有的参数构成的空间数据 模型进行解决。 在回归问题中,参数空间能够由所有的连续函数构成。简单说,就是只要你 能找到的,能对解决目标问题有帮助的参数信息,都可以一起用来组建模型。那 这样是否会无限的增加模型的复杂度,其实,非参数模型可利用的参数维数中的 有限的子数组来解释有限的样本观察量,维数的选择取决于样本的分布情况,这 样模型(样本分布决定其维数)的复杂度就可以自适应于数据。 总体来说,贝叶斯非参方法的建模对象是 distribution(或 probability m easure)。你的 prior information 是 the distribution is centered around some other distribution (比如正态分布),然后再通过观测到的数据点更 新你的 distribution。以 Dirichlet Process 为例,如果把 prior distributi on 想象成一个 step function,那么你的 prior 是这些 steps jointly follow a Dirichlet distribution(如上例中,这个 Dirichlet distribution 的参数 来自于另一个 prior distribution,比如 normal)。数据进来之后,有 observ ation 的地方,台阶的高度得到更新(某种意义上台阶的宽度也由此明确),没 有 observation 的地方,台阶的高度依旧来自 prior。关键是更新之后,这些台 阶的高度仍然是 follow a distribution,而不是定值。正因为唯有有数据的地 方台阶高度才会更新, 所以这个方法是非参数方法。 非参数的分析及模型选择,主要要归结到贝叶斯推断问题中(INFERENCE). 当前较为流行的贝叶斯非参数模型包括高斯回归过程,这个是结构的变化随着样 本的变化而不断发生变化。另一个广泛使用的是狄里克雷混合过程用于解决 clu
stering,它将新来的数据不断的分到相应的 clustering 中去。机器学习的一些 典型问题,如回归 Regression,分类 classification(supervised),分簇 cluste ring(unsupervised),潜在语义模型 latent variable modeling,序列模型 sequ ential modeling,图像分割 image segmentation,source separation and gra mmar induction 等等,这些问题决都可引入贝叶斯非参数模型,所以这个模型 可以谈的上是一个应用较广的模型。 非参数贝叶斯方法的应用:k-means,不需要事先指定类数,可以根据实际 情况进行聚类,当往数据集中添加新数据时,产生的聚类数量可能会增多。 2.马尔科夫随机过程 随机过程是依赖于参数的一族随机变量的全体。参数通常是时间。随机变量 是随机现象的数量表现,其取值随着偶然因素的影响而改变。 随机过程的两层含义: (1)随机过程是一个时间函数,其随着时间变化而变化 (2)随机过程的每个时刻上函数值是不确定的、随机的,即每个时刻上函 数值按照一定的概率进行分布。 独立链:随机过程中各个语言符合或者词是独立的,不相互影响,则称这种 链是独立链。反之,各语言词或者符号彼此有关则是非独立链。 等概率独立链与非等概率独立链:在独立链中,各个语言符合或者词是等概 率出现的是等概率独立链,各个语言词或者语言符号是非等概率出现的则为非等 概率链。 马尔可夫过程:在独立链中,前面语言符号对后面的语言符号无影响,是无 记忆没有后效的随机过程,在已知当前状态下,过程的未来状态与它的过去状态 无关,这种形式就是马尔可夫过程。 马尔可夫过程是研究离散事件动态系统状态空间的重要方法,马尔可夫过程 (Markov process)是一类随机过程,它的原始模型马尔可夫链。 常见马尔可夫过程是独立随机过程、独立增量过程、泊松过程、维纳过程、 质点随机游动过程。
马尔可夫链:在随机过程中,每个语言符号的出现概率不相互独立,每个随 机试验的当前状态依赖于此前状态,这种链就是马尔可夫链。 链的解析:也可以当做一种观察序列,诸如:“2016 年是建党 95 周年”, 就可以看着一个字符串链。其中如上字符串中每个字符出现是随机的,其他如果 每个字出现是独立的就是独立链,如果每个字符出现有前面字符相关,即不独立 具有依赖性则为马尔科夫链。 N 元马尔科夫链: 考虑前一个语言符号对后一个语言符号出现概率的影响,这样得出的语言成 分的链叫做一重马尔可夫链,也是二元语法。 考虑前两个语言符号对后一个语言符号出现概率的影响,这样得出的语言成 分的链叫做二重马尔可夫链,也是三元语法。 考虑前三个语言符号对后一个语言符号出现概率的影响,这样得出的语言成 分的链叫做三重马尔可夫链,也是四元语法。 类似的,考虑前(4,5,….,N-1)个语言符号对后一个语言符号出现概率的 影响,这样得出的语言成分的链叫做(4,5,….,N-1)重马尔可夫链,也是(5, 6,….,N)元语法。 马尔科夫链在数学上描述了自然语言句子的生成过程,是一个早期的自然语 言形式的模型,后来 N 元语法的研究,都是建立在马尔科夫模型的基础上,马尔 科夫链也就是显性的马尔科夫模型,马尔科夫链和隐马尔科夫模型都是有限自动 机(状态集合状态之间的转移集)的扩充。 加权有限状态机:加权有限状态机中每个弧与一个概率有关,这个概率说明 通过这个弧的可能性,且某一个点出发的弧具有归一化的性质,即某点出发的弧 概率之和为 1。 序列分类器:序列分类器或序列标号器是给序列中的某个单元指派类或者标 号的模型。马尔可夫模型(又叫显马尔可夫模型 VMM)和隐马尔可夫模型(HMM) 都是序列分类器。诸如:词类标注、语音识别、句子切分、字素音位转换、局部 句法剖析、语块分析、命名实体识别、信息抽取都属于序列分类。 随机漫步 RW 是指每一步的状态是在图形中的点,每一步可以移到任何一个 相邻的点,移到每个点的概率相同。
3.字典学习 为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形 式,从而使学习任务得以简化,模型复杂度得以降低,通常称为‘字典学习’ (dictionary learning),亦称‘稀疏编码’(sparse coding)”块内容。 假设我们用一个 M*N 的矩阵表示数据集 X,每一行代表一个样本,每一列代 表样本的一个属性,一般而言,该矩阵是稠密的,即大多数元素不为 0。 稀疏 表示的含义是,寻找一个系数矩阵 A(K*N)以及一个字典矩阵 B(M*K),使得 B*A 尽可能的还原 X,且 A 尽可能的稀疏。A 便是 X 的稀疏表示。 稀疏表示原理 字典就是一个矩阵(n 维),这个矩阵比之前的的高维数据(k 维)的维度 要低得多,即 n<
分享到:
收藏