简介
该论文提出了语义组合网络(Semantic Compositional Network, SCN),其有效利用语义概念(标签)来达到效果比较好的图文生成。
Semantic compositional networks
模型基础
使用CNN提取图像特征,RNN作文字生成。
文字生成的概率公式:
表示文字序列, 为提取的图像特征。 LSTM的转换函数:
图像特征仅在开始输入一次。 语义概念检测
作者将语义标签检测作为多标签分类问题。
首先先从训练集的文字说明中提取常见的
个单词作为分类标签 。 标签
使用MLP来预测(Ps:这里可能是在CNN的基础上加入MLP), 表示每个标签的概率,也可以理解为权重。 优化目标函数:
SCN-RNN
这一步就是将语义标签嵌入到RNN中。
嵌入相关公式:
视频文字生成(video caption)
视频的图像特征包括两部分:均值池化2D CNN提取的图像特征和3D CNN提取的特征,两个特征连接起来作为视频的图像特征。
结果
- 在数据集COCO和Youtube2Text的各个评估指标全面提升。