logo资料库

图像理解经典综述详细翻译.docx

第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
资料共9页,剩余部分请下载后查看
介绍
主要的 图像理解 深度学习范例
矢量到序列的学习 Vector-to-sequence learning
注意力机制
组合框架
其他相关工作
度量
基准
工业部署
展望
《Deep Learning for Image-to-Text Generation 》 A technical overview 《image to text 综述》阅读 从图像生成自然语言描述是计算机视觉,自然语言处理和人工智能(AI)交叉处的一 个新兴的跨学科问题。 这项任务通常被称为图像或视觉字幕/描述(captioning),它构成了许 多重要应用的技术基础,如语义视觉搜索,聊天机器人的视觉智能,社交媒体中的照片和视 频分享以及帮助视障人士感知周围环境视觉内容。由于最近深度学习的发展,人工智能研究 界近年来在可视字幕方面取得了巨大的进步。在本文中,我们将首先总结这个令人兴奋的新 兴视觉描述(captioning :给图片照片等加描述文字)领域。 然后,我们将分析社区的关键 发展和主要进展,其对研究和产业部署的影响,以及未来突破的未来。 介绍 人们一直认为,有一天机器能够在人类智能水平上理解视觉世界。 由于深度学习 [15], [36], [59], [60], [69]的进展,研究人员现在可以构建非常深的卷积神经网络(CNN), 并且实现了令人惊讶的在大规模图像分类[9],[15],[23]等任务的低错误率。在这些任务中 ,研究人员训练模型以预测给定图像的类别的一种方法是首先使用预定义的一组类别中的标 签在训练集中注释每个图像。 通过这种完全监督的培训,计算机学习如何分类图像。 然而,在图像分类等任务中,图像的内容通常很简单,包含要分类的主要对象。 当 我们想让计算机理解复杂的场景时,情况可能更具挑战性。 图像描述就是这样一个任务。 挑战来自两个方面。 首先,为了生成语义上有意义且语法流畅的描述,系统需要检测图像 中显着的语义概念,理解它们之间的关系,并对图像的整体内容进行连贯的描述,涉及超越 物体识别的语言和常识知识的建模。另外,由于图像场景的复杂性,很难用类别的简单属性 来表示它们之间所有的细粒度的,微妙的差别。有监督地训练图像描述的模型就是,使用自 然语言处理完整地描述图像的内容,这种描述有时是模棱两可的,并且缺乏图像中的子区域 和描述中的文字之间细粒度的校准。 此外,与图像分类任务不同,在图像分类任务中,我们可以通过将分类输出与实际情 况( the ground truth)进行比较,轻松地判断分类输出的结果是正确还是错误,这里有多种 有效的方法可以描述图像的内容。在某种程度上,要判断生成的描述是否正确并不容易。
在实践中,通常会用人类研究来判断图像描述的质量。 然而,由于人的评估代价昂贵且耗 时,因此提出了许多自动衡量指标,这可以作为主要用于加速系统开发周期的代理。 图像描述的早期方法大致可以分为两个系列。 第一个系列基于模板匹配[6],[16], [17]。这些方法从检测图像中的对象,动作,场景和属性开始,然后将它们填充到手工设计 和严格的句子模板中。这些方法产生的描述并不总是流畅和富有表现力。第二个系列则基于 检索的方法,首先从大型数据库中选择一组视觉相似的图像,然后将检索到的图片的描述转 换得可以适合于原图像[10],[20]。基于查询图像的内容在修改单词时几乎没有灵活性,因 为它们直接依赖训练图像的描述,并且不能生成新的描述。 深度神经网络可以通过生成流畅和富有表现力的描述来潜在地解决这两个问题,这些 描述也可以推广到训练集之外。特别是,最近在图像分类[9],[15],[23]和目标检测[8]中使 用神经网络的,已经成功激发了使用神经网络进行视觉描述的强烈兴趣。 主要的 图像理解 深度学习范例 端到端的框架end-to-end 矢量到序列的学习 Vector-to-sequence learning 最近,受启发于机器翻译中序列到序列学习的成功,研究人员为图像描述,研究了端 到端,编码器-解码器框架[2] - [4],[12] ,[26]。图 1 描述了一个典型的基于编码器-解码器 的描述系统[26]。 Figure 1. An illustration of the CNN-RNN-based image captioning framework. 在这样的框架中,首先通过一个全局视觉特征向量对原始图像进行编码,该向量通过 深度 CNN 表示图像的整体语义信息。 如图 2 所示,一个 CNN 由几个卷积层,最大池化层 ,响应规范化层和完全连接层组成。这种架构对于大规模图像分类非常成功[21],并且学习
到的特征已经应用到各种各样的视觉任务中[40]。通常,给定原始图像,将倒数第二个完全 连通层的激励值,提取为全局视觉特征向量。 Figure 2. An illustration of a deep CNN such as the AlexNet [15]. The CNN is trained for a 1,000-class image classification task on the large-scale ImageNet data set [41]. The last layer of the AlexNet contains 1,000 nodes, each corresponding to a category. The second last fully connected dense layer is usually extracted as the global visual feature vector, representing the semantic content of the overall images. 一旦全局视觉矢量被提取出来,它就会被送入基于循环神经网络(RNN)的解码器 用于描述生成,如图 3 所示。实际上,基于 RNN 变化的长短时记忆网络(LSTM)[40]或门 控递归单元(GRU)[39]也经常被使用; 两者在训练和捕捉大跨度语言依赖方面都显示出比 普通的 RNNs 更高效和更有效[38,39],并且两者都已经在识别任务中找到了成功的应用[62] ,[63]。
Figure 3. An illustration of an RNN-based caption decoder. At the initial step, the global visual vector, which represents the overall semantic meaning of the image, is fed into the RNN to compute the hidden layer at the first step while the sentence-start symbol is used as the input to the hidden layer at the first step. Then the first word is generated from the hidden layer. Continuing this process, the word generated in the previous step becomes the input to the hidden layer at the next step to generate the next word. This generation process keeps going until the sentence-end symbol, , is generated. 使用上述端到端框架的代表性研究包括图像描述的[2] - [4],[7],[11] - [13],[19]和 视频描述的[26] ,[21] [24],[25]和[32]。各种方法的差异主要在于 CNN 架构的类型和基于 RNN 的语言模型。 例如,在[12]和[19]中使用了基本的 RNN,而在[26]中使用了 LSTM。 视 觉特征向量在[26]中,只被送入到 RNN 的第一个时间步(一次),而在[19]的 RNN 的每个 时间步被使用。 注意力机制 最近,[29]利用基于注意力的机制来学习描述生成期间里图像中关注焦点的位置。注 意力体系结构如图 4 所示。不同于简单的编码器 - 解码器方法,基于注意力的方法首先使用 CNN 来生成全局视觉矢量,同时,也为图像中的子区域生成一组视觉矢量。 这些子区域矢 量可以从 CNN 中较低的卷积层提取。 然后,在语言生成中,在生成新单词的每个步骤中,
RNN 将引用这些子区域向量,并确定每个子区域与当前状态相关以生成单词的可能性。 最 终,注意力机制将形成一个上下文向量,该向量是由相关可能性加权的子区域视觉向量的总 和,以便 RNN 解码下一个新词。 Figure 4. An illustration of the attention mechanism in the image caption generation process. 在[30]这项工作中,引入了一个“审查(review)”模块,以改善注意力机制;并进一步在 [18]中,提出了一种方法来提高视觉注意力的正确性。 最近,基于对象检测,在[64]中提出 了自下而上的注意力模型,这表明了图像描述的最先进的表现。 在端到端框架中,所有模 型参数(包括 CNN,RNN 和注意力模型)都以端到端的方式联合培训; 因此,这个术语就 是端到端。 组合框架 与前面描述的端到端编码器 - 解码器框架不同,单独的一类图像到文本方法使用明确 的语义概念检测过程来生成描述。 检测模型和其他模块通常分开进行培训。 图 5 描述了 Fang 等人提出的基于语义概念检测的组合方法。[5]。 Figure 5. An illustration of a semantic-concept-detection-based compositional approach [5]. 在这个框架中,描述生成管道的第一步是检测一组语义概念,称为标记或属性(tags/ attributes),这可能是图片描述的一部分。这些标签可能属于言语的任何部分,包括名词,动 词和形容词。与图像分类不同,标准监督学习技术不直接适用于学习检测器,因为监督只包 含整个图像和人标注的整个描述的句子,而与单词对应的图像边界框是未知的。为了解决这
个问题,[5]提出了使用多实例学习(MIL)的弱监督方法[42],[43]来学习检测器,而在[33] 中,这个问题被视为多重分类任务。 在[5]中,检测到的标签然后被馈送到基于 n 元语法的最大熵语言模型中以生成描述假 设的列表。 每个假设都是一个完整的句子,涵盖了某些标签,并通过语言模型通过语法建 模进行规范化,它定义了单词序列的概率分布。 然后,所有这些假设通过在整个句子和整个图像上计算的特征的线性组合来重新排序 ,包括句子长度,语言模型分数以及整个图像和整个描述假设之间的语义相似性。 其中, 图像-描述的语义相似度由深度多模式相似度模型(DMSM)计算,该模型由一对神经网络 组成,它用于将每个输入形态,图像和语言映射为共同语义空间中的向量。 然后将图像描 述语义相似性定义为其向量之间的余弦相似性。 与端到端框架相比,组合方法在系统开发和部署方面提供了更好的灵活性和可扩展性 ,并有助于利用各种数据源更有效地优化不同模块的性能,而不是学习有限图像描述配对数 据的所有模型。另一方面,端到端模型通常具有更简单的架构,并且可以共同优化整个系统 以获得更好的性能。 最近,已经提出了一类模型将明确的语义概念检测集成到编码器 - 解码器框架中。图 6 说明了这类模型的一般图。例如,[1]在生成描述时,将检索到的句子作为附加语义信息应 用于指导 LSTM,而[31]和[33]在生成语句之前,应用了语义概念检测过程。在文献[7]中, 语义构成网络是基于检测到的构成字幕的语义概念的概率。 Figure 6. An illustration of integrate explicit semantic-concept-detection in an encoder-decoder framework. 其他相关工作 其他相关工作也会学习视觉特征和相关描述的联合嵌入,包括[5]图像描述和[21]视频 描述。最近,[27]研究为图像中的各个区域生成密集的图像描述。此外,[22]中为图像字幕 开发了一种变分自动编码器。同样受到最近成功的激励,研究人员提出了一套基于强化学习 的算法,以直接优化特定奖励模型。例如,[67]提出了一种自我批评序列训练算法。它使用
REINFORCE 算法来优化通常不可区分的特定评估度量标准,因此不易通过传统的基于梯度 的方法进行优化。在文献[65]中,在演员评论框架内,学习策略网络和价值网络,通过优化 视觉语义奖励来生成描述,从而衡量图像和生成的描述之间的相似性。与图像描述生成相关 的是,基于生成对抗网络(GAN)的模型最近已被提出用于文本生成。其中,SeqGAN [68] 将发生器建模作为用于文本等离散输出的强化学习中的随机策略,而 RankGAN [66]为鉴别 器提出了基于排名的损失,从而更好地评估生成文本的质量,因此导致更好的生成器。 度量 自动生成描述的质量在文献中在自动化测量和人类研究中评估并报告。常用的自动指 标包括 BLEU [45],METEOR [44],CIDEr [46]和 SPICE [47]。 BLEU [45]广泛应用于机器翻 译,并测量假设与参考或参考集之间常见的 n-gram(最多 4 gram)的比例/分数。 METEOR [44]不是测量 uni-gram 的精度和召回,而是扩展精确的单词匹配以包括基于 WordNet 同义词 和词干标记的类似单词。 CIDEr [46]也测量了描述假设和参考集之间的 n-gram 匹配,而 n- gram 则通过词频 - 逆文档频率(TF-IDF)进行加权。另一方面,SPICE [47]测量指定参考集 中的图像描述里包含的语义命题内容的 F1 得分,因此它与人类判断的相关性最好[47]。这 些自动度量可以被有效地计算。他们可以大大加快图像理解算法的开发。然而,所有这些自 动衡量指标都只与人为判断大致相关[50]。 基准 研究人员创建了许多数据集以促进图像理解的研究。 Flickr 数据集[49]和 PASCAL 语 句数据集[48]是为促进图像字幕的研究而创建的。 最近,微软赞助创建了上下文中的通用对 象(COCO)数据集[51],这是当今公众可获得的最大的图像字幕数据集。 大规模数据集的 可用性显着促进了过去几年中图像理解的研究。 2015 年,约有 15 个团队参加了 COCO 字幕挑战赛[52]。挑战中的条目由人为判断进 行评估。表 1 中列出了五项人工评判指标。在竞争中,所有条目均基于度量 1(M1)和度量 2(M2)的结果进行评估。其他指标已用于诊断和解释结果。具体而言,在评估中,每项任 务都会向人类法官呈现图像和两个描述:一个是自动生成的,另一个是人类描述。对于 M1 ,法官被要求选择哪个描述更好地描述图像,或者在质量相同时选择“相同”选项。对于 M2 ,法官被要求说出两个描述中的哪一个是由人类产生的。如果法官选择自动生成的描述,或 选择“不能判断”选项,则认为它已通过图灵测试。表 2 列出了 2015 年 COCO 字幕挑战中 15
个条目的结果。其中,微软研究项目(MSR)实现了图灵测试指标的最佳性能,而谷歌团队 的表现优于其他人的描述百分比与人类描述一样好或更好。 总体而言,微软研究院和谷歌 联合获得了 2015 年 COCO 图像字幕挑战赛的一等奖。 两个特殊系统的结果,人类和随机, 也包括在内供参考。 自 2015 年 COCO 竞赛以来,已经有更多的系统得到开发。 但是,由于成本高昂,人 的判断不再执行。 相反,COCO 基准的组织者建立了一个自动评估服务器。 服务器可以接 收新系统生成的字幕,然后在自动度量标准中评估和报告盲测测试集中的结果。 表 3 总结 了截至 2017 年 8 月的前 24 个条目加人类体系,按 SPICE 排序,每个图像使用 40 个参考集 [52]。 请注意,除 SPICE 外,这 24 个系统在所有自动指标中均优于人类系统。 但是,根据 人类的判断,人类系统很可能仍然处于领先地位,鉴于表 2 中最佳系统与人类之间存在巨大 差距。
分享到:
收藏