logo资料库

image caption总结.docx

第1页 / 共10页
第2页 / 共10页
第3页 / 共10页
第4页 / 共10页
第5页 / 共10页
第6页 / 共10页
第7页 / 共10页
第8页 / 共10页
资料共10页,剩余部分请下载后查看
目前实现的技术路线
实际应用的可行方案:
Image Caption 实际应用:
目前实现的技术路线 1. CNN+LSTM 结构 2. 多示例学习+MELM+DMSM 3. CNN+LSTM 结构+attention 机制
4. 以生成短语为单元的层次化 LSTM 结构 5. 以生成关键词列表为基础的层次化 GRU 结构 6. review 网络结构
7. 针对 dense caption 的候选区域 anchor 提取网络 8. 针对 dense caption 的全局特征与局部特征融合
实际应用的可行方案: 1. 针对 attention 机制的可行方案 1)基于隐藏状态ℎ与 feature map 关联的加权 attention 机制 2)基于之前时刻生成单词与 feature map 关联的加权 attention 机制 3)基于多个 proposal region 的加权 attention 机制
4)视觉信息与文本信息自适应 attention 机制 5)基于 ground truth 的 attention 机制 6)基于卷积网络特性的 attention 机制
2. 结合高层视觉与文本语义嵌入的方式 1)自适应调整选择 word 语义嵌入/visual 语义嵌入 2)卷积语义嵌入
3. 针对隐藏向量的改进方案 1)隐藏向量ℎ的三维表示法 2)隐藏向量ℎ的重构
Image Caption 实际应用: 1. 适用于图像检索,通过 visual-to-seq 的转换,借助语言的检索机 制实现更细粒度的搜索; 2. 视力受损人士的生活辅助,将图片信息转化为语言描述,或将自 然语言转化为图片信息。可以让残障人士方便对智能设备进行操 作。 3. 使用手机拍摄照片之后,为该照片生成 caption,便于分享和查找; 4. 应用于儿童教学 5. 抽象图片中的概念信息,压缩存储核心内容 6. 实际情景对象的人机交互 7. 图片问答 8. 为图片生成相关评价 9. 智能客服,商品推荐应用
分享到:
收藏