image caption总结.docx

发布时间：2022-05-31 发布人：admin 分类：说明书资料大小：2.31M 资料格式：docx 举报版权申诉

josephq_ssp-10980968-4744300845375296533.docx.pdf-第1页.png

第1页 / 共10页

josephq_ssp-10980968-4744300845375296533.docx.pdf-第2页.png

第2页 / 共10页

josephq_ssp-10980968-4744300845375296533.docx.pdf-第3页.png

第3页 / 共10页

josephq_ssp-10980968-4744300845375296533.docx.pdf-第4页.png

第4页 / 共10页

josephq_ssp-10980968-4744300845375296533.docx.pdf-第5页.png

第5页 / 共10页

josephq_ssp-10980968-4744300845375296533.docx.pdf-第6页.png

第6页 / 共10页

josephq_ssp-10980968-4744300845375296533.docx.pdf-第7页.png

第7页 / 共10页

josephq_ssp-10980968-4744300845375296533.docx.pdf-第8页.png

第8页 / 共10页

目前实现的技术路线

实际应用的可行方案：

Image Caption 实际应用：

目前实现的技术路线 1. CNN+LSTM 结构 2. 多示例学习+MELM+DMSM 3. CNN+LSTM 结构+attention 机制

4. 以生成短语为单元的层次化 LSTM 结构 5. 以生成关键词列表为基础的层次化 GRU 结构 6. review 网络结构

7. 针对 dense caption 的候选区域 anchor 提取网络 8. 针对 dense caption 的全局特征与局部特征融合

实际应用的可行方案： 1. 针对 attention 机制的可行方案 1）基于隐藏状态ℎ与 feature map 关联的加权 attention 机制 2）基于之前时刻生成单词与 feature map 关联的加权 attention 机制 3）基于多个 proposal region 的加权 attention 机制

4）视觉信息与文本信息自适应 attention 机制 5）基于 ground truth 的 attention 机制 6）基于卷积网络特性的 attention 机制

2. 结合高层视觉与文本语义嵌入的方式 1）自适应调整选择 word 语义嵌入/visual 语义嵌入 2）卷积语义嵌入

3. 针对隐藏向量的改进方案 1）隐藏向量ℎ的三维表示法 2）隐藏向量ℎ的重构

Image Caption 实际应用： 1. 适用于图像检索，通过 visual-to-seq 的转换，借助语言的检索机制实现更细粒度的搜索； 2. 视力受损人士的生活辅助，将图片信息转化为语言描述，或将自然语言转化为图片信息。可以让残障人士方便对智能设备进行操作。 3. 使用手机拍摄照片之后，为该照片生成 caption，便于分享和查找； 4. 应用于儿童教学 5. 抽象图片中的概念信息，压缩存储核心内容 6. 实际情景对象的人机交互 7. 图片问答 8. 为图片生成相关评价 9. 智能客服，商品推荐应用

分享到：

赞收藏

资料库

image caption总结.docx

相关推荐

人工智能

热门标签

最新资料