Mcginn's Blog

论文笔记 Semantic Compositional Networks for Visual Captioning

2018/08/18

简介

​ 该论文提出了语义组合网络(Semantic Compositional Network, SCN),其有效利用语义概念(标签)来达到效果比较好的图文生成。

Semantic compositional networks

  • 模型基础

    使用CNN提取图像特征,RNN作文字生成。

    文字生成的概率公式: 表示文字序列, 为提取的图像特征。

    LSTM的转换函数: 𝟙 ​ 图像特征仅在开始输入一次

  • 语义概念检测

    作者将语义标签检测作为多标签分类问题。

    首先先从训练集的文字说明中提取常见的 个单词作为分类标签

    标签使用MLP来预测(Ps:这里可能是在CNN的基础上加入MLP), 表示每个标签的概率,也可以理解为权重。

    优化目标函数:

  • SCN-RNN

    这一步就是将语义标签嵌入到RNN中。

    嵌入相关公式: 𝟙

  • 视频文字生成(video caption)

    视频的图像特征包括两部分:均值池化2D CNN提取的图像特征和3D CNN提取的特征,两个特征连接起来作为视频的图像特征。

结果

  • 在数据集COCO和Youtube2Text的各个评估指标全面提升。

CATALOG
  1. 1. 简介
  2. 2. Semantic compositional networks
  3. 3. 结果