在美术,尤其是绘画中,人类已经掌握了通过在图像的内容和
风格之间构成复杂的相互作用来创造独特的视觉体验的技能。到
目前为止,这个过程的算法基础是未知的,并且不存在具有类似
能力的人工系统。然而,在视觉感知的其他关键领域,例如物体
和人脸识别近似人类表演最近由一类称为深层神经网络的生物
启发的视觉模型展示。这里我们介绍一个基于深层神经网络的人
工系统,创造高感知质量的艺术形象。该系统使用神经表示来分
离和重组任意图像的内容和风格,提供用于创建艺术图像的神经
算法。 此外,鉴于性能优化的人工神经网络和生物视觉之间的
惊人的相似之处,我们的工作提供了一个前进的路径,以理解人
类如何创造和感知艺术形象。
在图像处理任务中最强大的深层神经网络类称为卷积神经网
络。 卷积神经网络由前馈方式分层处理视觉信息的小计算单元
的层组成(图 1)。 每个单元层可以被理解为图像过滤器的集合,
其中每个图像过滤器从输入图像中提取特定特征。 因此,给定
层的输出包括所谓的特征映射:输入图像的不同过滤的版本。
当卷积神经网络被训练对象识别时,他们开发了一个图像的
表示,使对象信息的处理层次结构越来越明确。我们可以通过从
该层中的特征图重建图像来直接可视化输入的图像每个层所包
含的信息(图 1,内容重建,参见关于如何重建图像的细节的方
法)。网络中的较高层在对象及输入图像中的布置方面捕获高级
内容,但不限制重建的确切像素值。 (图 1,内容重构 d,e)。
相比之下,来自较低层的重建简单地再现原始图像的精确像素值
(图 1,内容重建 a,b,c)。 因此,我们将网络的较高层中的特
征响应称为内容表示。
为了获得输入图像的样式表示,我们使用最初用来捕获纹理
信息的特征空间。该特征空间建立在网络的每个层中的过滤器响
应的顶部上, 它由在特征图的空间范围内的不同滤波器之间的
响应相关性组成(细节参见方法)。通过包含多个层的特征相关
捕获其纹理信息而不是全局布置,我们获得了输入图像的静态的
多尺度表示。
图一
图 1:卷积神经网络(CNN):给定的输入图像被表示为在 CNN 中
的每个处理阶段的一组滤波图像。 虽然不同滤波器的数量沿着
处理层次增加,但是滤波图像的大小通过一些下采样机制(例如
最大池)减少,导致网络每层的单元总数的减少。 内容重构:我
们可以通过仅知道特定层中的网络响应来重建输入图像,从而在
CNN 中的不同处理阶段可视化信息。 我们从 VGG 网络原始图像
的层'conv1_1'(a),'conv2_1'(b),'conv3_1'(c),'conv4_1'(d)
和'conv5_1' 中发现从较低层的重建几乎是完美的(a,b,c),而
在网络的较高层,在保留图像的高级内容(d,e)的同时,详细
的像素信息将会丢失。样式重建:在原始 CNN 表示之上,我们构
建了一个新的特征空间,捕获输入图像的样式。 样式表示计算
CNN 的不同层中的不同特征之间的相关性。 我们从建立在 CNN
层的不同子集('conv1 1'(a),'conv1 1'和'conv2 1'(b),'conv1 1',
'conv2 1')上的风格表示重建输入图像的风格, 'conv3 1'(c),
'conv11','conv2 1','conv3 1'和'conv4 1'(d),'conv11','conv2' 和
'conv5 1'(e))。 这些创建的图像在以递增的尺度匹配给定图像
风格的同时丢弃了场景全局布置信息。
再次,我们可以可视化的信息被这些风格特征空间建立在不
同的网络层,通过构造一个图像匹配一个给定的输入图像的方式
表示(图 1,风格重建)。从重建的风格特点产生纹理化版本的输
入图像,只是捕捉了色彩方面的整体外观和局部结构。此外,输
入图像的局部图像结构尺寸和复杂性沿着层次结构增加,可以解
释为感受野的大小和特征复杂度增加,我们将这种多尺度表示称
为样式表示。
本文的主要发现是卷积神经网络中的内容和风格(样式)的表
示是可分离的。也就是说,我们可以独立地操作这两种表示去产
生新的、感知上有意义的图像。为了证明这一发现,我们生成混
合来自两个不同源图像的内容和样式表示的图像。特别地,我们
匹配德国 Tubingen 上的描述“Neckarfront”的照片的内容表示,
以及从不同艺术时期(图 2)获取的几个着名艺术品的风格表现。
通过找到同时匹配照片的内容表示和相应艺术品的样式表示的
图像来合成图像(详见方法)。 在保留原始照片的全局布置的同
时,构成全局风景的颜色和局部结构由艺术品提供。 有效地,
这使照片以艺术品的风格呈现,使得合成图像的外观类似于艺术
作品,即使它显示与照片相同的内容。
图二
图 2:将照片的内容与几个知名艺术品的风格相结合的图像。 通
过找到同时匹配照片的内容表示和艺术品的风格表示(参见方法)
的图像来创建图像。 描述德国 Tubingen 的 Neckarfront 的原始照
片显示在¨A(照片:Andreas Praefcke)。 为每个生成的图像提
供样式的绘画显示在每个面板的左下角。 B 由 J.M.W.Turner,1805
年的 Minotaur 的沉船。C 1839 年的梵高的繁星夜,1889 年的
Edvard Munch 的 D Der Schrei。 E Femme nue assise by Pablo Picasso,
1910. F Composition VII by Wassily Kandinsky,1913。
如上所述,样式表示是包括多层次神经网络的多尺度表示。
在图 2 所示的图像中,样式表示包括来自整个网络分层结构的层。
通过仅包括较少数量的较低层导致不同的视觉体验(图 3,沿着
行),也可以更局部地定义样式。当将样式表示匹配到网络中的
较高层时,局部图像结构在越来越大的尺度上匹配,导致更平滑
和更连续的视觉体验。因此,视觉上最吸引人的图像通常通过匹
配样式表示直到网络中的最高层(图 3,最后一行)来创建。
当然,图像内容和风格不能完全分开。当将一个图像的内容与
另一个图像的样式组合来合成图像时,通常不存在同时完全匹配
两个约束的图像。然而,我们在图像合成期间最小化的损失函数
分别包含两个用于内容和风格的术语,这两个术语是分开的(见
方法)。因此,我们可以平滑地调节重建内容或风格(图 3,沿列)
的重点。强烈的重视风格将产生与艺术品的外观相匹配的图像,
有效地给出它的纹理化版本,但几乎不显示任何照片的内容(图
3,第一列)。当强调内容时,可以清楚地识别照片,但是绘画的
风格不是很匹配(图 3,最后一列)。对于特定的源图像对,可以
为调整内容和样式之间的平衡以创建视觉上吸引人的图像。
在这里我们提出一个人工神经系统,实现图像内容与风格的
分离,从而允许重塑一个图像的内容引用任何其他图像的风格。
我们通过创造新的,艺术的图像,结合几个着名的绘画的风格与
任意选择的照片的内容展示这一点。特别地,我们从对对象识别
训练的高性能深度神经网络的特征响应中导出图像的内容和风
格的神经表示。据我们所知,这是第一个图像特征将内容与整个
自然图像中的风格分离的演示。以前关于从风格中分离内容的工
作是针对不太复杂的感觉输入来评估的,例如不同笔迹中的字符
或不同姿势中的脸或小人物的图像。
图三
图 3:Wassily Kandinsky 的绘画风格的组合 VII 的详细结果。行显
示了 CNN 层增加子集的风格表示的匹配结果(见方法)。 我们
发现,当包括来自网络的较高层的样式特征时,由样式表示捕获
的局部图像结构在大小和复杂性上增加。 这可以解释为沿着网
络的处理层级的提高增加了感受野的大小和特征复杂度。 列在
内容和样式重建之间显示不同的相对权重。 每列上面的数字表
示强调匹配照片的内容和艺术品的风格(参见方法)之间的比率
α/β。
在我们的演示中,我们以一系列知名艺术品的风格呈现给定
的照片,这个问题通常是接近于计算机视觉的一个分支称为非真
实渲染。 概念上最密切相关的方法是使用纹理转移来实现艺术
风格转换。然而,这些先前的方法主要依赖于非参数技术来直接
操纵图像的像素表示。 相比之下,通过使用训练对象识别的深
层神经网络,我们在特征空间中操纵来显式表示图像的高级内容。
深度神经网络在对象识别方面训练的特征已用于风格识别以便
根据它们被创建的时期对艺术品进行分类。目前,在原始网络激
活之上训练分类器,我们称之为内容表示。 我们推测,将其转
换为静止特征空间(例如我们的样式表示)可能在样式分类中实
现更好的性能。
总的来说,我们从不同的来源混合内容和风格合成图像的方
法,提供了一种新的、有趣的工具来研究艺术、风格和内容无关
的图像外观的感知和神经表示。我们可以设计新的刺激,引入两
个独立的,感知有意义的变异来源:图像的外观和内容。我们设
想,这对范围广泛的实验研究,从心理物理学在视觉感知功能成
像甚至电生理神经记录是有用的。事实上,我们的工作提供了一