Deep Reinforcement Learning-based Image Captioning with Embedding Reward

27 Apr 2017

这篇是对最新关于image caption的文章的总结。和大部分state-of-the-art的方法大相径庭的是，这篇文章没有使用Encoder-Decoder框架，而是剑走偏锋受到增强学习中actor-critic方法的启发，提出了一种新的称之为“决策制定”(decision-making)的框架。并且据他们的实验结果显示，在各种评测标准中都达到了state-of-the-art的水平。本文从增强学习中的相关概念出发，来剖析这篇文章的方法思路以及探讨这篇文章可以带给我们的启发。

Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li. “Deep Reinforcement Learning-based Image Captioning with Embedding Reward”[https://arxiv.org/abs/1704.03899]

Abstract

image caption是一个具有挑战性的问题，原因在于认知图片内容的复杂性和自然语言表达描述的多样性。最新的方法利用神经网络，已经在性能上有了很大的提升。大部分的state-of-the-art的方法都使用的是encoder-decoder的框架，这种框架利用序列递归预测模型来生成标注。这篇文章推出了一种新的叫做“决策制定”的框架，利用“策略网络”和“价值网络”共同生成标注。策略网络做局部指导，在某种状态下给出生成某个单词的概率；而价值网络做全局指导，给出某状态下所有可能的延伸的完整句子的评测。两种网络通过增强学习中actor-critic方法进行训练，训练中回报为新的视觉语义嵌入。扩展实验及分析显示，这种框架无论在何种评测标注下都表现出了不俗的性能。

Actor-cirtic

这是我之前在学习和整理policy gradient的时候挖下的坑，现在又不得不去填了。Actor-cirtic，“演员-批评家”方法，由其名称来看，actor根据当前环境进行表演，而cirtic会对进行actor进行评价，actor又根据这个评价来改变自己的表演，最终得到比较好的演出效果。作为值函数方法和策略函数方法两种方法的结合体，actor-cirtic拥有两者的优点。我们之前介绍过在policy gradient方法中增加一个baseline函数来减少方差，这里的baseline函数就是模拟的状态值函数。

actor-critic算法是一种TD method。结合了value-based和policy-based方法。policy网络是actor（行动者），输出动作（action-selection）。value网络是critic（评价者），用来评价actor网络所选动作的好坏（action value estimated），并生成TD_error信号同时指导actor网络critic网络的更新。

其中TD的作用和MC差不多，不过MC是要等到所有序列完成之后才能更新，而TD只需要几步就可以。

TD（Time Difference） method，是Monte-Carlo和Dynamic Programming 方法的一个结合。相比MC方法，TD除了能够适用于连续任务外，和MC的差异从下图可以清楚看到。MC需要回退整个序列更新Q值，而TD只需要回退1步或n步更新Q值。因为MC需要等待序列结束才能训练，而TD没有这个限制，因此TD收敛速度明显比MC快，目前的主要算法都是基于TD。下图是TD和MC的回退图，很显然MC回退的更深。

Introduction

这里介绍了很多关于encoder-decoder方法的内容，这里跳过。与encoder-decoder方法不同的是，文章的方法每次通过policy net和value net来选出最好的单词。通过value network，即使是当前概率很小的单词也可以选到，只要由它生成的完整的句子的回报高。这就避免了贪心所导致的得不到最好的句子。

训练方法：policy network通过标准的监督学习中的交叉熵损失进行预训练，value network通过均方误差进行预训练。然后两者再通过深度增强学习进行训练。

policy network

结构如下所示

和encoder-decoder非常相似。

value network

在进行介绍之前，我们先定义一下策略p的状态值函数：当前状态下s_t执行策略p之后所能得到的期望回报。value network的目的就是逼近这个值函数，并把它作为对于当前状态的评判依据。网络结构如下所示

由CNN,RNN,MLP组成。状态s_t由图片信息和当前部分句子组成。

Reward defined by visual-semantic embedding

这篇文章的嵌入模型由三部分构成：CNN,RNN,线性映射层。线性映射层的作用是将图片信息向量映射到嵌入式空间。训练时按下面的损失函数训练

回报为向量做点积后除以它们模长之积。

Training using deep reinforcement learning

记policy networks为p，value networks为v。

p和v分两步进行训练。第一步按之前的讲的进行预训练。

第二步p和v一起通过深度增强学习进行训练。目标是最大化agent的期望总回报，利用policy gradient threom，得到

可以看到，这里v在训练p的时候作为baseline函数。这个方法可以看做是actor-cirtic，这里p为actor而v作为cirtic。

难训练的解决办法

用增强型学习来进行image caption有一个很大的问题是难训练，因为在决策制定过程中action的范围太大。为了解决这个问题，这篇文章使用了课程学习来训练actor-cirtic模型。为了逐渐教会模型去生成稳定的句子，在训练采样点的时候渐渐加大训练的难度，先通过交叉熵来训练前$T-i\cdot\Delta$个单词，然后用增强学习来训练后$i\cdot\Delta$个单词。$i$逐渐增大。

inference

这也是文章的重点之一。之前的方法，比如show and tell中用到的是beam search（聚束搜索）,每次找分数排名前B个的单词，往后进行。这种方法的缺点是只会找当前分数排名高的，但可能会错过前景大的单词。为了解决这个问题，我们在分数上下文章，结合刚才讲的p和v。将原来的分数S()由生成概率改为下式

w_b为当前生成的句子，将w(t+1)拆分长两项：前t个单词组成的句子和第t+1个单词，那么分数就由着两者的分数构成，而第t+1个单词的分数由之前的p和v线性组合得到。