AAM原论文翻译及笔记.docx

发布时间：2022-06-19 发布人：admin 分类：说明书资料大小：0.40M 资料格式：docx 举报版权申诉

710ab000-62a8-4018-bb4d-3e140d989ebb.docx.pdf-第1页.png

第1页 / 共6页

710ab000-62a8-4018-bb4d-3e140d989ebb.docx.pdf-第2页.png

第2页 / 共6页

710ab000-62a8-4018-bb4d-3e140d989ebb.docx.pdf-第3页.png

第3页 / 共6页

710ab000-62a8-4018-bb4d-3e140d989ebb.docx.pdf-第4页.png

第4页 / 共6页

710ab000-62a8-4018-bb4d-3e140d989ebb.docx.pdf-第5页.png

第5页 / 共6页

710ab000-62a8-4018-bb4d-3e140d989ebb.docx.pdf-第6页.png

第6页 / 共6页

文本预览

1、基于模型的方法在解释对象图像方面引起了研究者们的极大兴趣。通过拟合模型的有效实例可以得到鲁棒的输出结果。此外，根据一组模型参数解释图像的能力为场景解释提供了基础。为了实现这些好处，对象外观模型应该尽可能的完整，且能够合成接近目标物体的任意图像。尽管基于模型的方法以及被证明是有效的，而且也存在着一些合适的方法，但大都有着大量的参数，虽然也可以利用通用的方法进行优化求解，但是一般情况下会很慢。本文中提出一种直接优化方法，方法不会每次都去求解一个一般的优化问题去将模型拟合一张新图片上。相反，我们对每一次的优化问题都很相似这个点进行扩展，而这些相似之处在离线的时候就学习到。这样即使在高维空间下也能快速收敛。本文通过总结之前相关工作讨论了图像解释的概念。2 中解释了如何构建对象外观紧凑模型，这个模型可以很好的生成与训练集中相似的通用模型。 1.1 【5】中虽然提取了灰度外表的 3D 模型，允许全部组合形状和外观，然而却没能给出合理的搜索算法来对新图像进行建模。【6】中对形状和局部灰度外观进行建模，使用 ASM 模型灵活的定位新图像中的对象。【8】中将 ASM 扩展，生成一个形状和灰度外观的联合模型，但依然依赖 ASM 去在新图像中定位脸部。本文新方法可以看做是【8】的延伸，其利用联合外观模型的全部信息去拟合图像。本文新方法得益于早前的两篇文章。【7】中显示了本质特征模型的参数能被用来推导形状模型点到正确的位置。这里描述的 AAM 就是这个方法的一个扩展。【2】中用手工制作的模型去跟踪面部的特征点，但是没有尝试对整个脸部建模。AAM 可以被归纳为：学习与每个模型参数的变化对应的图像差异模式，并用于修改模型估计。（学习与模型参数变化相一致的图像差异模式，并用之来修改模型估计） [18]中在离线处理阶段使用不同的图像去跟踪、学习图像误差和参数补偿之间的关系（该方法大致是使用图像差异来驱动跟踪，在离线处理阶段中学习图像误差和参数偏移之间的关系。）。不同之处在于，【18】使用的单独一张图像，而 AAM 使用一个训练集。 2、这一部分介绍外观模型是如何建立的。方法就像【8】中提到的那样，只是扩展了正规化和加权重步骤。首先需要一个标记了特征点的训练集。给定一个训练集我们可以用 6 中的方法生成一个形状变化模型。标记点描述了对象的形状。将所有数据对齐到标准帧(ASM 中，标准帧指的是所有帧的平均。这里指的是标准帧还是仅仅对齐到一个共同的框架上就可以？)---（不管怎样，这里的最终结果和 ASM 一样，所以每个步骤也和 ASm 一样）上并用向量 x 来表示，之后使用 PCA，得到每个样本的形状变化模型的表示：为了构建统计意义上的灰度外观模型我们扭曲每个样本图像，目的是为了使其控制点匹配到平均形状（使用三角化方法）。从对齐到标准形状后的图像中的由平均形状覆盖的区域部分采样灰度信息 gim。（我们从平均形状覆盖的区域上的形状归一化图像中采样灰度信息 gim。）（那么这里，意思是灰度信息 gim 是整个覆盖区域的像素点的灰度值？）为了最小化全局光照变化的影响，我们通过应用缩放 a 和偏移 b 来标准化示例样本:

选择 a 和 b 的值以使向量与归一化均值最佳匹配. 令 g 杠为归一化数据的均值（将所有脸对齐到 X 杠，采样灰度之后进行平均？），缩放和偏移使得元素之和为零，元素方差为 1。然后给出标准化 gim 所需的 a 和 b 的值：（以上，得到 gim，将其与 g 杠匹配最佳，得到 a 和 b，问题是 g 杠是什么）当然，获得归一化数据的均值就是递归过程，因为归一化是根据均值来定义的。通过使用其中一个示例作为平均值的第一个估计，将其他示例与其重新估计均值和迭代，可以找到稳定的解决方案。（以上，g 杠递归求解，首先初始化其为某个样本的 gim？之后，通过式子 2 和 3 将其他样本对齐到这个 g 杠，重新估计均值并迭代，这样就得到了最终的 g 杠？这里，重新估计均值是指什么）应用 PCA 就得到：（应用 PCA 相当于将每个 g 组合成 g 杠和所有 g 的特征向量的线性组合，注意这里有 g 中非主成分的 0.） G 杠是灰度向量的归一化均值。将形状和外观参数求和，使用 PCA，得到： Ws 是形状参数的权重对角矩阵，允许形状和灰度之间的单位差异？。 Q 为特征矩阵，c 是决定形状和灰度的模型外观参数。因为形状和外观参数是零均值，所以 c 也是零均值。考虑到模型的线性性质，可以将形状和灰度直接描述为 c 的函数；其中：给定 c，通过从向量 g 生成无形状灰度图，并用由 x 描述的控制点来 warp 它，可以生成示例图像。 2.1、选择形状参数权重 Ws Bs 有距离单元，bg 有强度单元，因此不可以直接就比较。因为 Pg 有正交列向量，所以将 bg 变化一个单位，g 也将移动一个单位。为了使 bs 和 bg 相称，必须估计 bs 变化对样本 g 的影响。为此，对每个训练样本，我们系统地将 bs 的每个元素从其最佳值移位，并在给定移位形状的情况下对图像进行采样。形状参数 bs 中 g 的每单位 RMS 变化给出了权重 Ws，即公式 5 中用到的参数。 2.2、例子：脸部外观模型

我们使用上面描述的方法创建一个脸部外观模型。使用一个有 400 张人脸图像的训练集，每个标签有 122 个点。从图像中生成一个有 23 个参数的形状模型，一个有 114 个参数的自由形状灰度模型，和一个仅仅用 80 个参数来说明 98%的观察到的变化的联合外观模型。该模型使用大约 10000 个像素值来构成脸部补丁。图 2 和图 3 显示了通过加减 3 标准偏差改变前两个形状和灰度模型参数的效果，如从训练集确定的。第一个参数对应于协方差矩阵的最大特征值，其给出了整个训练集的方差。图 4 显示了改变前四个外观模型参数的效果，显示了身份，姿势和表情的变化。 2.3、逼近新样本给定一张带标记的新图像，我们可以生成模型的近似值。结合匹配样本的形状和灰度参数，按照之前步骤得到 b。因为 Q 是正交的，结合外观模型参数，可以得到 c：然后通过应用等式 7，反转灰度级归一化，将适当的姿势应用于点并将灰度级向量投影到图像中来给出完全重建。例如，图 5 示出了先前未见到的图像以及面部补片的模型重建（覆盖在原始图像上）。 3、主动外观模型搜索我们现在解决中心问题：我们有一个要解释的图像，一个如上所述的完整外观模型和一个合理的起始近似。我们提出了一种用于有效地调整模型参数的方案，从而生成合成示例，其尽可能地匹配新图像。在给出算法的细节之前，我们首先概述基本思想. 3.1、概述我们希望将解释视为一种优化问题，其中我们最小化新图像与外观模型合成的图像之间的差异。差异向量我可以定义：其中，Ii 是图像灰度向量，Im 是当前参数模型灰度向量。为了找到模型和图像之间的最佳匹配，我们希望通过改变模型参数 c 来最小化差矢量的幅度。由于外观模型可以具有许多参数，因此首先出现这是一个困难的高维优化问题。但是，我们注意到，每次尝试将模型与新图像匹配实际上都是类似的优化问题。我们建议提前了解如何解决这类问题。通过提供在图像搜索期间如何调整模型参数的先验知识，我们得到了一种有效的运行时算法。特别地，δI 中的空间模式编码关于应如何改变模型参数以便实现更好拟合的信息。在采用这种方法时，问题有两个部分：学习δI 和模型参数δc 中的误差之间的关系，并在迭代算法中使用这些知识来最小化△。 3.2、学习纠正模型参数我们可以选择δI 和模型参数中的误差之间的关系的最简单模型（以及需要进行的修正）是线性的：结果证明这是一个足够好的近似值，可以获得可接受的结果。为了找到 A，我们对已知模型位移δc 的样本和相应的差分图像δI 执行多元多元线性回归。我们可以通过扰动已知模型的真实模型参数来生成这些随机位移集。这些可以是原始训练图像或使用外观模型生成的合成图像。在后一种情况下，我们准确地知道参数，并且图像不会被噪声破坏。

除了模型参数的扰动外，我们还在 2D 位置，比例和方向上模拟小位移。这四个额外参数包含在回归中; 为简单起见，它们可以简单地视为向量δc 的额外元素。为了保持线性，我们使用（Sx，Sy，Tx，ty，其中 Sx=s*cos（Θ），sy=s*sin（Θ））表示姿势。为了获得良好的关系，重要的是仔细选择计算图像差异的参照系。最合适的参考框架是第 2 节中描述的形状标准化补丁。我们计算一个差异：让 c0 成为当前图像的已知外观模型参数。我们将参数置换已知量 δc，以获得新参数 c=δc+c0。对于这些参数，我们使用 7 生成形状 x 和标准化灰度级 gm。我们从图像中采样，使用点x 进行扭曲，以获得标准化的样本 gs。然后样本误差为δg = gs-gm。然后，训练算法简单地随机移动每个训练图像中的模型参数，记录 c 和 g。然后，我们执行多变量回归以获得关系：在训练期间使用的δc 的最佳值范围是通过实验确定的。理想情况下，我们寻求建立一种关系，该关系可以保持尽可能大的范围误差δg。然而，发现实际关系仅在有限的值范围内是线性的。我们在人脸模型上的实验表明，对于每个模型参数，最佳扰动大约为 0.5 个标准偏差（在训练集上），大约 10％的比例和 2 个像素的平移。脸部建模结果：我们将上述算法应用于 2.2 节中描述的人脸模型。在执行线性回归之后，我们可以计算每个参数扰动的 R2 统计量，ci 来测量误差向量δg“预测”位移的程度。 80 个参数的平均 R2 值为 0.82，最大值为 0.98（第 1 个参数），最小值为 0.48。我们可以将扰动的影响可视化如下。如果 ai 是回归矩阵 A 的第 i 行，则第 i 个参数 ci 的预测变化由下式给出并且 ai 在估计位移时给出附加到采样贴片的不同区域的权重。图 6 显示了与姿势参数变化相对应的权重（Sx，Sy，Tx，ty）。明亮区域是正权重，暗区域是负区域。正如人们所预料的那样，x 和 y 位移权重类似于 x 和 y 导数图像。对于对应于外观模型参数的权重获得类似的结果。扰乱面部模型：为了检验预测的性能，我们系统地将面部模型从一组 10 个测试图像上的真实位置移位，并使用该模型来预测给定采样误差矢量的位移。图 7 和图 8 显示了针对实际翻译的预测翻译。在零的约 4 个像素内存在良好的线性关系。虽然这会因较大的位移而中断，但只要预测与实际误差具有相同的符号，并且不会过度预测，迭代更新方案就会收敛。在这种情况下，x 中最多 20 个像素位移，y 中约 10 个像素位移应该是可校正的。

但是，我们可以通过构建对象外观的多分辨率模型来扩展此范围。我们为每个训练图像生成高斯金字塔，并为金字塔的每个级别生成外观模型。图 9 显示了在三个分辨率下以 x 换算的模型的预测。 L0 是基本模型，大约 10000 像素。 L1 具有大约 2500 个像素，L2 具有大约 600 个像素。曲线的线性区域在较粗糙的分辨率上延伸较大范围，但不如最精细的分辨率精确。对于其他姿势参数和模型参数的变化，获得了类似的结果。 3.3、迭代模型改进给定一种预测模型参数中需要进行校正的方法，我们可以构造一个迭代方法来解决我们的优化问题。给定当前估计的模型参数 c0 和当前估计的归一化图像样本 gs，迭代过程的一个步骤如下：重复此过程，直到没有对错误 g 进行改进，并声明收敛。我们使用多分辨率实现，在将当前解决方案投影到模型的下一级之前，我们迭代到每个级别的收敛。这更有效，并且可以从远离单一分辨率的搜索收敛到正确的解决方案。例子：我们使用面部 AAM 在以前看不见的图像中搜索面部。图 10 显示了模型的最佳拟合，给出了三个面用手标记的图像点。图 11 显示了来自 AAM 搜索每个面部的帧，每个帧从从真实面部中心移位的平均模型开始。

作为将该方法应用于医学图像的示例，我们构建了膝部的一部分的外观模型，如通过 MR 图像的切片中所见。该模型在 30 个实例上进行了训练，每个实例都标有 42 个标志点。图 12 显示了改变前两个外观模型参数的效果。图 13 显示了模型与新图像的最佳拟合，给定了手标记的标记点。图 14 显示了来自移位位置的 AAM 搜索的帧。 AAM 不仅可以用来提取特征（包括形状和外观灰度特征），还可以根据 AAM 参数来合成图像。准确的说，AAM 是一个统计模型，包括了形状（ASM）和灰度纹理模型。我们选择带标记的训练集图像（这里可以是 68 点，可以是 100 点，又可以是单纯的嘴部点），使用 AAM 算法（论文里描述的），创建出基于这些训练图像的 AAM 模型，得到模型参数。使用训练好的模型，就可以对新的测试图像进行特征提取，同样包括形状和灰度纹理特征，另外，如果直接有这些 AAM 特征，可以合成一个人脸图像。

分享到：

赞收藏

资料库

AAM原论文翻译及笔记.docx

相关推荐

人工智能

热门标签

最新资料