目前实现的技术路线
1. CNN+LSTM 结构
2. 多示例学习+MELM+DMSM
3. CNN+LSTM 结构+attention 机制
4. 以生成短语为单元的层次化 LSTM 结构
5. 以生成关键词列表为基础的层次化 GRU 结构
6. review 网络结构
7. 针对 dense caption 的候选区域 anchor 提取网络
8. 针对 dense caption 的全局特征与局部特征融合
实际应用的可行方案:
1. 针对 attention 机制的可行方案
1)基于隐藏状态ℎ与 feature map 关联的加权 attention 机制
2)基于之前时刻生成单词与 feature map 关联的加权 attention 机制
3)基于多个 proposal region 的加权 attention 机制
4)视觉信息与文本信息自适应 attention 机制
5)基于 ground truth 的 attention 机制
6)基于卷积网络特性的 attention 机制
2. 结合高层视觉与文本语义嵌入的方式
1)自适应调整选择 word 语义嵌入/visual 语义嵌入
2)卷积语义嵌入
3. 针对隐藏向量的改进方案
1)隐藏向量ℎ的三维表示法
2)隐藏向量ℎ的重构
Image Caption 实际应用:
1. 适用于图像检索,通过 visual-to-seq 的转换,借助语言的检索机
制实现更细粒度的搜索;
2. 视力受损人士的生活辅助,将图片信息转化为语言描述,或将自
然语言转化为图片信息。可以让残障人士方便对智能设备进行操
作。
3. 使用手机拍摄照片之后,为该照片生成 caption,便于分享和查找;
4. 应用于儿童教学
5. 抽象图片中的概念信息,压缩存储核心内容
6. 实际情景对象的人机交互
7. 图片问答
8. 为图片生成相关评价
9. 智能客服,商品推荐应用