A Neural Algorithm of Artistic Style（中文版）.pdf-资料库

12f6a394-5f3c-48b7-9319-49155604cbfd.pdf-第1页.png

第1页 / 共12页

12f6a394-5f3c-48b7-9319-49155604cbfd.pdf-第2页.png

第2页 / 共12页

12f6a394-5f3c-48b7-9319-49155604cbfd.pdf-第3页.png

第3页 / 共12页

12f6a394-5f3c-48b7-9319-49155604cbfd.pdf-第4页.png

第4页 / 共12页

12f6a394-5f3c-48b7-9319-49155604cbfd.pdf-第5页.png

第5页 / 共12页

12f6a394-5f3c-48b7-9319-49155604cbfd.pdf-第6页.png

第6页 / 共12页

12f6a394-5f3c-48b7-9319-49155604cbfd.pdf-第7页.png

第7页 / 共12页

12f6a394-5f3c-48b7-9319-49155604cbfd.pdf-第8页.png

第8页 / 共12页

在美术，尤其是绘画中，人类已经掌握了通过在图像的内容和风格之间构成复杂的相互作用来创造独特的视觉体验的技能。到目前为止，这个过程的算法基础是未知的，并且不存在具有类似能力的人工系统。然而，在视觉感知的其他关键领域，例如物体和人脸识别近似人类表演最近由一类称为深层神经网络的生物启发的视觉模型展示。这里我们介绍一个基于深层神经网络的人工系统，创造高感知质量的艺术形象。该系统使用神经表示来分离和重组任意图像的内容和风格，提供用于创建艺术图像的神经算法。此外，鉴于性能优化的人工神经网络和生物视觉之间的惊人的相似之处，我们的工作提供了一个前进的路径，以理解人类如何创造和感知艺术形象。在图像处理任务中最强大的深层神经网络类称为卷积神经网络。卷积神经网络由前馈方式分层处理视觉信息的小计算单元的层组成（图 1）。每个单元层可以被理解为图像过滤器的集合，其中每个图像过滤器从输入图像中提取特定特征。因此，给定层的输出包括所谓的特征映射：输入图像的不同过滤的版本。当卷积神经网络被训练对象识别时，他们开发了一个图像的表示，使对象信息的处理层次结构越来越明确。我们可以通过从该层中的特征图重建图像来直接可视化输入的图像每个层所包含的信息（图 1，内容重建，参见关于如何重建图像的细节的方法）。网络中的较高层在对象及输入图像中的布置方面捕获高级内容，但不限制重建的确切像素值。（图 1，内容重构 d，e）。

相比之下，来自较低层的重建简单地再现原始图像的精确像素值（图 1，内容重建 a，b，c）。因此，我们将网络的较高层中的特征响应称为内容表示。为了获得输入图像的样式表示，我们使用最初用来捕获纹理信息的特征空间。该特征空间建立在网络的每个层中的过滤器响应的顶部上，它由在特征图的空间范围内的不同滤波器之间的响应相关性组成（细节参见方法）。通过包含多个层的特征相关捕获其纹理信息而不是全局布置，我们获得了输入图像的静态的多尺度表示。图一图 1：卷积神经网络（CNN）：给定的输入图像被表示为在 CNN 中的每个处理阶段的一组滤波图像。虽然不同滤波器的数量沿着处理层次增加，但是滤波图像的大小通过一些下采样机制（例如

最大池）减少，导致网络每层的单元总数的减少。内容重构：我们可以通过仅知道特定层中的网络响应来重建输入图像，从而在 CNN 中的不同处理阶段可视化信息。我们从 VGG 网络原始图像的层'conv1_1'（a），'conv2_1'（b），'conv3_1'（c），'conv4_1'（d）和'conv5_1' 中发现从较低层的重建几乎是完美的（a，b，c），而在网络的较高层，在保留图像的高级内容（d，e）的同时，详细的像素信息将会丢失。样式重建:在原始 CNN 表示之上，我们构建了一个新的特征空间，捕获输入图像的样式。样式表示计算 CNN 的不同层中的不同特征之间的相关性。我们从建立在 CNN 层的不同子集（'conv1 1'（a），'conv1 1'和'conv2 1'（b），'conv1 1'， 'conv2 1'）上的风格表示重建输入图像的风格， 'conv3 1'（c）， 'conv11'，'conv2 1'，'conv3 1'和'conv4 1'（d），'conv11'，'conv2' 和 'conv5 1'（e））。这些创建的图像在以递增的尺度匹配给定图像风格的同时丢弃了场景全局布置信息。再次，我们可以可视化的信息被这些风格特征空间建立在不同的网络层，通过构造一个图像匹配一个给定的输入图像的方式表示（图 1，风格重建）。从重建的风格特点产生纹理化版本的输入图像，只是捕捉了色彩方面的整体外观和局部结构。此外，输入图像的局部图像结构尺寸和复杂性沿着层次结构增加，可以解释为感受野的大小和特征复杂度增加，我们将这种多尺度表示称为样式表示。本文的主要发现是卷积神经网络中的内容和风格（样式）的表

示是可分离的。也就是说，我们可以独立地操作这两种表示去产生新的、感知上有意义的图像。为了证明这一发现，我们生成混合来自两个不同源图像的内容和样式表示的图像。特别地，我们匹配德国 Tubingen 上的描述“Neckarfront”的照片的内容表示，以及从不同艺术时期（图 2）获取的几个着名艺术品的风格表现。通过找到同时匹配照片的内容表示和相应艺术品的样式表示的图像来合成图像（详见方法）。在保留原始照片的全局布置的同时，构成全局风景的颜色和局部结构由艺术品提供。有效地，这使照片以艺术品的风格呈现，使得合成图像的外观类似于艺术作品，即使它显示与照片相同的内容。

图二图 2：将照片的内容与几个知名艺术品的风格相结合的图像。通过找到同时匹配照片的内容表示和艺术品的风格表示（参见方法）的图像来创建图像。描述德国 Tubingen 的 Neckarfront 的原始照片显示在¨A（照片：Andreas Praefcke）。为每个生成的图像提供样式的绘画显示在每个面板的左下角。 B 由 J.M.W.Turner，1805 年的 Minotaur 的沉船。C 1839 年的梵高的繁星夜，1889 年的 Edvard Munch 的 D Der Schrei。 E Femme nue assise by Pablo Picasso，

1910. F Composition VII by Wassily Kandinsky，1913。如上所述，样式表示是包括多层次神经网络的多尺度表示。在图 2 所示的图像中，样式表示包括来自整个网络分层结构的层。通过仅包括较少数量的较低层导致不同的视觉体验（图 3，沿着行），也可以更局部地定义样式。当将样式表示匹配到网络中的较高层时，局部图像结构在越来越大的尺度上匹配，导致更平滑和更连续的视觉体验。因此，视觉上最吸引人的图像通常通过匹配样式表示直到网络中的最高层（图 3，最后一行）来创建。当然，图像内容和风格不能完全分开。当将一个图像的内容与另一个图像的样式组合来合成图像时，通常不存在同时完全匹配两个约束的图像。然而，我们在图像合成期间最小化的损失函数分别包含两个用于内容和风格的术语，这两个术语是分开的（见方法）。因此，我们可以平滑地调节重建内容或风格（图 3，沿列）的重点。强烈的重视风格将产生与艺术品的外观相匹配的图像，有效地给出它的纹理化版本，但几乎不显示任何照片的内容（图 3，第一列）。当强调内容时，可以清楚地识别照片，但是绘画的风格不是很匹配（图 3，最后一列）。对于特定的源图像对，可以为调整内容和样式之间的平衡以创建视觉上吸引人的图像。在这里我们提出一个人工神经系统，实现图像内容与风格的分离，从而允许重塑一个图像的内容引用任何其他图像的风格。我们通过创造新的，艺术的图像，结合几个着名的绘画的风格与任意选择的照片的内容展示这一点。特别地，我们从对对象识别

训练的高性能深度神经网络的特征响应中导出图像的内容和风格的神经表示。据我们所知，这是第一个图像特征将内容与整个自然图像中的风格分离的演示。以前关于从风格中分离内容的工作是针对不太复杂的感觉输入来评估的，例如不同笔迹中的字符或不同姿势中的脸或小人物的图像。图三图 3：Wassily Kandinsky 的绘画风格的组合 VII 的详细结果。行显示了 CNN 层增加子集的风格表示的匹配结果（见方法）。我们发现，当包括来自网络的较高层的样式特征时，由样式表示捕获

的局部图像结构在大小和复杂性上增加。这可以解释为沿着网络的处理层级的提高增加了感受野的大小和特征复杂度。列在内容和样式重建之间显示不同的相对权重。每列上面的数字表示强调匹配照片的内容和艺术品的风格（参见方法）之间的比率 α/β。在我们的演示中，我们以一系列知名艺术品的风格呈现给定的照片，这个问题通常是接近于计算机视觉的一个分支称为非真实渲染。概念上最密切相关的方法是使用纹理转移来实现艺术风格转换。然而，这些先前的方法主要依赖于非参数技术来直接操纵图像的像素表示。相比之下，通过使用训练对象识别的深层神经网络，我们在特征空间中操纵来显式表示图像的高级内容。深度神经网络在对象识别方面训练的特征已用于风格识别以便根据它们被创建的时期对艺术品进行分类。目前，在原始网络激活之上训练分类器，我们称之为内容表示。我们推测，将其转换为静止特征空间（例如我们的样式表示）可能在样式分类中实现更好的性能。总的来说，我们从不同的来源混合内容和风格合成图像的方法，提供了一种新的、有趣的工具来研究艺术、风格和内容无关的图像外观的感知和神经表示。我们可以设计新的刺激，引入两个独立的，感知有意义的变异来源：图像的外观和内容。我们设想，这对范围广泛的实验研究，从心理物理学在视觉感知功能成像甚至电生理神经记录是有用的。事实上，我们的工作提供了一

资料库

A Neural Algorithm of Artistic Style（中文版）.pdf

相关推荐

后端

热门标签

最新资料