logo资料库

A Neural Algorithm of Artistic Style(中文版).pdf

第1页 / 共12页
第2页 / 共12页
第3页 / 共12页
第4页 / 共12页
第5页 / 共12页
第6页 / 共12页
第7页 / 共12页
第8页 / 共12页
资料共12页,剩余部分请下载后查看
在美术,尤其是绘画中,人类已经掌握了通过在图像的内容和 风格之间构成复杂的相互作用来创造独特的视觉体验的技能。到 目前为止,这个过程的算法基础是未知的,并且不存在具有类似 能力的人工系统。然而,在视觉感知的其他关键领域,例如物体 和人脸识别近似人类表演最近由一类称为深层神经网络的生物 启发的视觉模型展示。这里我们介绍一个基于深层神经网络的人 工系统,创造高感知质量的艺术形象。该系统使用神经表示来分 离和重组任意图像的内容和风格,提供用于创建艺术图像的神经 算法。 此外,鉴于性能优化的人工神经网络和生物视觉之间的 惊人的相似之处,我们的工作提供了一个前进的路径,以理解人 类如何创造和感知艺术形象。 在图像处理任务中最强大的深层神经网络类称为卷积神经网 络。 卷积神经网络由前馈方式分层处理视觉信息的小计算单元 的层组成(图 1)。 每个单元层可以被理解为图像过滤器的集合, 其中每个图像过滤器从输入图像中提取特定特征。 因此,给定 层的输出包括所谓的特征映射:输入图像的不同过滤的版本。 当卷积神经网络被训练对象识别时,他们开发了一个图像的 表示,使对象信息的处理层次结构越来越明确。我们可以通过从 该层中的特征图重建图像来直接可视化输入的图像每个层所包 含的信息(图 1,内容重建,参见关于如何重建图像的细节的方 法)。网络中的较高层在对象及输入图像中的布置方面捕获高级 内容,但不限制重建的确切像素值。 (图 1,内容重构 d,e)。
相比之下,来自较低层的重建简单地再现原始图像的精确像素值 (图 1,内容重建 a,b,c)。 因此,我们将网络的较高层中的特 征响应称为内容表示。 为了获得输入图像的样式表示,我们使用最初用来捕获纹理 信息的特征空间。该特征空间建立在网络的每个层中的过滤器响 应的顶部上, 它由在特征图的空间范围内的不同滤波器之间的 响应相关性组成(细节参见方法)。通过包含多个层的特征相关 捕获其纹理信息而不是全局布置,我们获得了输入图像的静态的 多尺度表示。 图一 图 1:卷积神经网络(CNN):给定的输入图像被表示为在 CNN 中 的每个处理阶段的一组滤波图像。 虽然不同滤波器的数量沿着 处理层次增加,但是滤波图像的大小通过一些下采样机制(例如
最大池)减少,导致网络每层的单元总数的减少。 内容重构:我 们可以通过仅知道特定层中的网络响应来重建输入图像,从而在 CNN 中的不同处理阶段可视化信息。 我们从 VGG 网络原始图像 的层'conv1_1'(a),'conv2_1'(b),'conv3_1'(c),'conv4_1'(d) 和'conv5_1' 中发现从较低层的重建几乎是完美的(a,b,c),而 在网络的较高层,在保留图像的高级内容(d,e)的同时,详细 的像素信息将会丢失。样式重建:在原始 CNN 表示之上,我们构 建了一个新的特征空间,捕获输入图像的样式。 样式表示计算 CNN 的不同层中的不同特征之间的相关性。 我们从建立在 CNN 层的不同子集('conv1 1'(a),'conv1 1'和'conv2 1'(b),'conv1 1', 'conv2 1')上的风格表示重建输入图像的风格, 'conv3 1'(c), 'conv11','conv2 1','conv3 1'和'conv4 1'(d),'conv11','conv2' 和 'conv5 1'(e))。 这些创建的图像在以递增的尺度匹配给定图像 风格的同时丢弃了场景全局布置信息。 再次,我们可以可视化的信息被这些风格特征空间建立在不 同的网络层,通过构造一个图像匹配一个给定的输入图像的方式 表示(图 1,风格重建)。从重建的风格特点产生纹理化版本的输 入图像,只是捕捉了色彩方面的整体外观和局部结构。此外,输 入图像的局部图像结构尺寸和复杂性沿着层次结构增加,可以解 释为感受野的大小和特征复杂度增加,我们将这种多尺度表示称 为样式表示。 本文的主要发现是卷积神经网络中的内容和风格(样式)的表
示是可分离的。也就是说,我们可以独立地操作这两种表示去产 生新的、感知上有意义的图像。为了证明这一发现,我们生成混 合来自两个不同源图像的内容和样式表示的图像。特别地,我们 匹配德国 Tubingen 上的描述“Neckarfront”的照片的内容表示, 以及从不同艺术时期(图 2)获取的几个着名艺术品的风格表现。 通过找到同时匹配照片的内容表示和相应艺术品的样式表示的 图像来合成图像(详见方法)。 在保留原始照片的全局布置的同 时,构成全局风景的颜色和局部结构由艺术品提供。 有效地, 这使照片以艺术品的风格呈现,使得合成图像的外观类似于艺术 作品,即使它显示与照片相同的内容。
图二 图 2:将照片的内容与几个知名艺术品的风格相结合的图像。 通 过找到同时匹配照片的内容表示和艺术品的风格表示(参见方法) 的图像来创建图像。 描述德国 Tubingen 的 Neckarfront 的原始照 片显示在¨A(照片:Andreas Praefcke)。 为每个生成的图像提 供样式的绘画显示在每个面板的左下角。 B 由 J.M.W.Turner,1805 年的 Minotaur 的沉船。C 1839 年的梵高的繁星夜,1889 年的 Edvard Munch 的 D Der Schrei。 E Femme nue assise by Pablo Picasso,
1910. F Composition VII by Wassily Kandinsky,1913。 如上所述,样式表示是包括多层次神经网络的多尺度表示。 在图 2 所示的图像中,样式表示包括来自整个网络分层结构的层。 通过仅包括较少数量的较低层导致不同的视觉体验(图 3,沿着 行),也可以更局部地定义样式。当将样式表示匹配到网络中的 较高层时,局部图像结构在越来越大的尺度上匹配,导致更平滑 和更连续的视觉体验。因此,视觉上最吸引人的图像通常通过匹 配样式表示直到网络中的最高层(图 3,最后一行)来创建。 当然,图像内容和风格不能完全分开。当将一个图像的内容与 另一个图像的样式组合来合成图像时,通常不存在同时完全匹配 两个约束的图像。然而,我们在图像合成期间最小化的损失函数 分别包含两个用于内容和风格的术语,这两个术语是分开的(见 方法)。因此,我们可以平滑地调节重建内容或风格(图 3,沿列) 的重点。强烈的重视风格将产生与艺术品的外观相匹配的图像, 有效地给出它的纹理化版本,但几乎不显示任何照片的内容(图 3,第一列)。当强调内容时,可以清楚地识别照片,但是绘画的 风格不是很匹配(图 3,最后一列)。对于特定的源图像对,可以 为调整内容和样式之间的平衡以创建视觉上吸引人的图像。 在这里我们提出一个人工神经系统,实现图像内容与风格的 分离,从而允许重塑一个图像的内容引用任何其他图像的风格。 我们通过创造新的,艺术的图像,结合几个着名的绘画的风格与 任意选择的照片的内容展示这一点。特别地,我们从对对象识别
训练的高性能深度神经网络的特征响应中导出图像的内容和风 格的神经表示。据我们所知,这是第一个图像特征将内容与整个 自然图像中的风格分离的演示。以前关于从风格中分离内容的工 作是针对不太复杂的感觉输入来评估的,例如不同笔迹中的字符 或不同姿势中的脸或小人物的图像。 图三 图 3:Wassily Kandinsky 的绘画风格的组合 VII 的详细结果。行显 示了 CNN 层增加子集的风格表示的匹配结果(见方法)。 我们 发现,当包括来自网络的较高层的样式特征时,由样式表示捕获
的局部图像结构在大小和复杂性上增加。 这可以解释为沿着网 络的处理层级的提高增加了感受野的大小和特征复杂度。 列在 内容和样式重建之间显示不同的相对权重。 每列上面的数字表 示强调匹配照片的内容和艺术品的风格(参见方法)之间的比率 α/β。 在我们的演示中,我们以一系列知名艺术品的风格呈现给定 的照片,这个问题通常是接近于计算机视觉的一个分支称为非真 实渲染。 概念上最密切相关的方法是使用纹理转移来实现艺术 风格转换。然而,这些先前的方法主要依赖于非参数技术来直接 操纵图像的像素表示。 相比之下,通过使用训练对象识别的深 层神经网络,我们在特征空间中操纵来显式表示图像的高级内容。 深度神经网络在对象识别方面训练的特征已用于风格识别以便 根据它们被创建的时期对艺术品进行分类。目前,在原始网络激 活之上训练分类器,我们称之为内容表示。 我们推测,将其转 换为静止特征空间(例如我们的样式表示)可能在样式分类中实 现更好的性能。 总的来说,我们从不同的来源混合内容和风格合成图像的方 法,提供了一种新的、有趣的工具来研究艺术、风格和内容无关 的图像外观的感知和神经表示。我们可以设计新的刺激,引入两 个独立的,感知有意义的变异来源:图像的外观和内容。我们设 想,这对范围广泛的实验研究,从心理物理学在视觉感知功能成 像甚至电生理神经记录是有用的。事实上,我们的工作提供了一
分享到:
收藏