Trust Region Policy Optimization

A Natural Policy Gradient Kakade, 2001
Trust region policy optimization. Schulman, L., Moritz, Jordan, Abbeel. 2015

参考：techblog: Natural Gradient Descent
知乎：自然策略梯度

1 Natural Policy Gradient

标准梯度下降\(\pmb{\theta}_{k+1} = \pmb{\theta}_k - \alpha_k \nabla J(\pmb{\theta}_k)\)无法保证目标函数\(J(\pmb{\theta})\)按最大速度下降，因为标准梯度下降是非协变的 (non-covariant)，\(\pmb{\theta}\)的参数空间不是欧几里得的。一般来说参数空间具有黎曼度量结构，如神经网络。在这些情况下，普通梯度不能给出目标函数最陡峭的方向，所以A Natural Policy Gradient一文提出了能够实现参数空间最速下降的自然梯度。

1.1 Riemannian Space

欧式空间具有标准正交坐标系，其微分向量的平方长度为\(\vert d w \vert^2 = \sum_{i=1}^n (d w_i)^2\)。而黎曼空间是一种矢量空间，不具有正交坐标系，其微分向量的平方长度由正定二次型决定

\[\vert d \boldsymbol{w} \vert^2 = \sum_{i,j} \mathbf{G} dw_i dw_j\]

其中\(\mathbf{G}\)是一个\(n * n\)的对称矩阵。当\(\mathbf{G}\)为单位对角阵\(\mathbf{I}\)时，黎曼空间退化为欧氏空间。

黎曼空间中最速下降的梯度为

\[\tilde{\nabla} L(\boldsymbol{w}) = \mathbf{G}^{-1}(\boldsymbol{w}) \nabla L(\boldsymbol{w})\]

其中\(G\)可以用Fisher信息矩阵\(F\)替换。【证明】

似然函数\(L(\theta \mid x) = f_{\theta}(x) = f(\theta \mid x)\) (\(L(\theta \mid x) = p(X = x; \theta) = p_{\theta}(x)\))，对数似然函数为\(s(\theta) = \nabla_{\theta} \log p(x \mid \theta)\)，其Fisher矩阵为

\[\mathbf{F} = \mathbb{E}_{p(x \mid \theta)}[\nabla \log p(x \mid \theta) \nabla \log p(x \mid \theta)^T]\]

1.2 A Natural Gradient

一个有限MDP可以描述为\((S, s_0, A, R, P)\)，agent的决策根据随机策略\(\pi (a; s)\)。假设每个策略\(\pi\)有静态分布\(\rho^{\pi}\)，那么average reward（或undiscounted reward）为

\[\eta(\pi) \equiv \sum_{s, a} \rho^\pi(s) \pi(a; s) R(s, a)\]

state-action值为

\[Q^\pi(s, a) \equiv E_\pi \left\{ \sum_{t=0}^{\infty} R\left(s_t, a_t\right) - \eta(\pi)\mid s_0=s, a_0=a \right\}\]

value funtion为

\[J^{\pi} \equiv E_{\pi(a';s)} \{ Q^\pi(s, a') \}\]

考虑更复杂的情况，目标是找到一个能最大化平均奖励的策略且该策略是平滑参数化的，\(\tilde{\Pi} = \left\{ \pi_\theta: \theta \in \Re^m \right\}\)，其中\(\pi_\theta\)表示\(\pi(a; s, \theta)\)。

那么平均奖励的精确梯度为

\[\nabla \eta(\theta) = \sum_{s, a} \rho^\pi(s) \nabla \pi(a; s, \theta) Q^\pi(s, a)\]

其中，我们用\(\eta(\theta)\)来简写\(\eta(\pi_{\theta})\)。

最速下降方向向量为\(d \theta\)，其平方长度为\(\vert d \theta \vert^2 = \sum_{i,j} G_{i,j} d \theta_i d \theta_j = d \theta^T G(\theta) d \theta\)，所以最速下降的方向为\(G^{-1} \nabla \eta(\theta)\)。对于每个状态\(s\)都有一个对应的概率流形，分布\(\pi(a; s, \theta)\)是坐标系为\(\theta\)的流形上的一点。分布\(\pi(a; s, \theta)\)的Fisher信息矩阵为

\[F_s(\theta) \equiv \mathbb{E}_{\pi(a; s, \theta)} \left[ \frac{\partial \log \pi(a ; s, \theta)}{\partial \theta_i} \frac{\partial \log \pi(a ; s, \theta)}{\partial \theta_j} \right]\]

Fisher信息矩阵在一定程度上是概率分布参数空间上的不变度量，因为用它定义的距离与坐标系的选择（即参数化）如何无关。

由于平均奖励是在这些分布的集合上定义的，我们为度量做出的直接选择是

\[\color{green}{ F(\theta) \equiv \mathbb{E}_{\rho^{\pi}}[F_s(\theta)] }\]

其中期望与\(\pi_{\theta}\)的静态分布有关。值得注意的是，虽然每个\(F_s\)独立于MDP转移模型的参数，但是静态分布的权重引入了对这些参数的依赖性。

最终得到的自然梯度为

\[\color{green}{ \widetilde{\nabla} \eta(\theta) \equiv F(\theta)^{-1} \nabla \eta(\theta) }\]

2 Trust Region Policy Optimization

一种优化控制策略的方法，可保证单调改进。通过对理论上合理的方案进行一些近似，开发了一种实用的算法，称为信任区域策略优化 (TRPO)。该方法对优化更大的非线性策略有效，比如神经网络。尽管其近似偏离了理论，但是TRPO倾向于给出单调改进，且几乎不需要调整超参数。

2.1 Preliminaries

无限MDP表示为\((\mathcal{S}, \mathcal{A}, P, c, \rho_0, \gamma)\)，其中\(P: \mathcal{S} \times \mathcal{A} \times \mathcal{S}\)为转移概率分布，\(c\)为cost，\(\rho_0\)为初态\(s_0\)的概率分布。随机策略为\(\pi : \mathcal{S} \times \mathcal{A}\)。

期望折扣cost为

\[\begin{aligned} & \eta(\pi) = \mathbb{E}_{s_0, a_0, \ldots} \left[ \sum_{t=0}^{\infty} \gamma^t c (s_t) \right], \\ & \text { where } s_0 \sim \rho_0\left(s_0\right), a_t \sim \pi\left(a_t \mid s_t\right), s_{t+1} \sim P\left(s_{t+1} \mid s_t, a_t\right) \end{aligned}\]

state-action value function \(Q_\pi\)，value function \(V_\pi\)和advantage function \(A_\pi\)分别为

\[\begin{aligned} & Q_\pi (s_t, a_t) = \mathbb{E}_{s_{t+1}, a_{t+1}, \ldots} \left[\sum_{l=0}^{\infty} \gamma^l c (s_{t+l}) \right], \\ & V_\pi t(s_t) = \mathbb{E}_{a_t, s_{t+1}, \ldots} \left[ \sum_{l=0}^{\infty} \gamma^l c (s_{t+l}) \right], \\ & A_\pi (s, a) = Q_\pi(s, a)-V_\pi(s), \\ & \text { where } a_t \sim \pi (a_t \mid s_t), s_{t+1} \sim P\left(s_{t+1} \mid s_t, a_t\right) \text { for } t \geq 0 . \end{aligned}\]

策略\(\tilde{\pi}\)的期望折扣cost \(\eta\)，用\(\pi\)的adavantage函数表示为

\[\begin{aligned} & \eta(\tilde{\pi}) = \eta(\pi) + \mathbb{E}_{s_0, a_0, s_1, a_1, \ldots} \left[ \sum_{t=0}^{\infty} \gamma^t A_\pi (s_t, a_t) \right], \\ & \text { where } s_0 \sim \rho_0 (s_0), a_t \sim \tilde{\pi} (a_t \mid s_t), s_{t+1} \sim P (s_{t+1} \mid s_t, a_t) \end{aligned} \tag{1}\]

令\(\rho_\pi\)为(非归一化的)折扣访问频率

\[\rho_\pi(s) = \left( P(s_0=s)+\gamma P(s_1=s)+\gamma^2 P(s_2=s)+\ldots \right)\]

把(1)改写为按状态求和，得到

\[\eta(\tilde{\pi}) = \eta(\pi) + \sum_s \rho_{\tilde{\pi}}(s) \sum_a \tilde{\pi}(a \mid s) A_\pi(s, a) \tag{2}\]

表明每次策略更新\(\pi \rightarrow \tilde{\pi}\)时，对于所有状态\(s\)都有非正的期望advantage，即\(\sum_a \tilde{\pi}(a \mid s) A_\pi(s, a) \le 0\)必能让\(\eta\)变小。当用确定性策略\(\tilde{\pi}(s) = \operatorname{arg} \min_a A_{\pi}(s, a)\)更新时，当至少有一个state-action的\(A\)为负且有非零访问概率时，才会改进策略。但是，由于估计和近似误差的存在，无法保证\(A \le 0\)。并且\(\rho_{\tilde{\pi}}(s)\)与\(\tilde{\pi}\)的关系复杂，所以(2)无法直接优化。

对\(\eta(\tilde{\pi})\)作局部近似，用\(\rho_\pi\)代替\(\rho_{\tilde{\pi}}\)，得到

\[\color{green}{\boxed{ L_{\pi}(\tilde{\pi}) = \eta(\pi) + \sum_s \rho_{\pi}(s) \sum_a \tilde{\pi}(a \mid s) A_\pi(s, a) }}\tag{3}\]

对于参数化策略\(\pi_{\theta}\)，若\(\pi_{\theta}(a \mid s)\)关于\(\theta\)可微，那么\(L_{\pi}\)符合\(\eta\)的一阶等效，即二者关于\(\theta\)的梯度相等。

How big a step?
— 保守策略迭代 (conservative policy iteration)，给出\(\eta\)改进的明确下界。

当前策略为\(\pi_{\text{old}}\)，假设可解\(\pi' = \operatorname{arg} \min_{\pi'} L_{\pi_{\text{old}}} (\pi')\)。新策略采用以下混合策略：

\[\pi_{\text {new }}(a \mid s) = (1-\alpha) \pi_{\text {old }}(a \mid s)+\alpha \pi^{\prime}(a \mid s) \tag{5}\]

Kakade and Langford为该更新证明了以下结果：

\[\eta (\pi_{\text {new }}) \le L_{\pi_{\text{old}}}(\pi_{\text {new }}) + \frac{2 \epsilon \gamma}{(1-\gamma(1-\alpha))(1-\gamma)} \alpha^2 \tag{6}\]

其中，\(\epsilon\)是\(\pi'\)关于\(\pi\)的最大advantage（正或负）

\[\epsilon = \max _s \left|\mathbb{E}_{a \sim \pi^{\prime}(a \mid s)}\left[A_\pi(s, a)\right] \right|\]

由于\(\alpha, \gamma \in [0, 1]\)，(6)意味着以下更简单的界限

\[\eta (\pi_{\text {new }}) \le L_{\pi_{\text{old}}}(\pi_{\text {new }}) + \frac{2 \epsilon \gamma}{(1-\gamma)^2} \alpha^2 \tag{8}\]

此界限仅在\(\alpha \ll 1\)时略弱，Kakade & Langford (2002)的保守策略迭代方法通常就是这种情况。此界限只适用于(5)生成的混合策略，该策略再实践中笨拙且受限，所以我们期望能有个实用的策略更新方案，能够适用于所以一般随机策略类型。

2.2 Monotonic Improvement Guarantee for General Stochastic Policies

主要理论成果：通过用\(\pi\)和之间的\(\tilde{\pi}\)的距离代替\(\alpha\)，将由(6)约束的策略改进推广到一般随机策略，而非仅仅是混合策略。

距离度量采用总二分散度 (total variation divergence)。离散概率分布\(p, q\)之间的总二分散度为\(D_{\text{TV}} (p \| q) = \frac{1}{2} \sum_i \vert p_i - q_i \vert\)，定义

\[D_{\text{TV}}^{\max}(\pi, \tilde{\pi}) = \max_s D_{\text{TV}} \big( \pi(\cdot \mid s) \| \tilde{\pi}(\cdot \mid s) \big)\]

Theorem 1. 令\(\alpha = D_{\text{TV}}^{\max}(\pi_{\text{old}}, \pi_{\text{new}})\)，且令\(\epsilon = \max_s \vert \mathbb{E}_{a \sim \pi^{\prime}(a \mid s)} [A_{\pi}(s, a)] \vert\)，那么(8)成立。

由于\(D_{\text{TV}} (p \| q)^2 \le D_{\text{KL}} (p \| q)\)，令\(D_{\text{KL}}^{\max}(\pi, \tilde{\pi}) = \max_s D_{\text{KL}} \big( \pi(\cdot \mid s) \| \tilde{\pi}(\cdot \mid s) \big)\)，那么由(8)可得

\[\color{green}{\boxed{ \eta(\tilde{\pi}) \le L_\pi(\tilde{\pi}) + C D_{\mathrm{KL}}^{\max }(\pi, \tilde{\pi}), \text { where } C = \frac{2 \epsilon \gamma}{(1-\gamma)^2} }}\tag{10}\]

注意，从这里开始，我们假设adavantage values \(A_{\pi}\)的精确评估。

下面提出的TRPO将是Alg 1的近似，TRPO通过对KL散度的约束而非惩罚来稳健地允许大的更新。

2.3 Optimization of Parameterized Policies

前面考虑的都是与\(\pi\)的参数化无关的策略优化问题，并且基于所有状态下的策略都可以被评估的假设。下面将描述如何得到根据以上理论基础得到一个实用的算法，在有限采样次数和任意参数化下都实用。

考虑参数化的策略\(\pi_{\theta}(a \mid s)\)，其参数为\(\theta\)，所以用\(\theta\)来重载之前\(\pi\)的函数。用\(\theta_{\text{old}}\)来表示我们希望改进的旧策略的参数。
前面推导出\(\eta(\theta) \le L_{\theta_{\text{old}}} + C D_{\mathrm{KL}}^{\max }(\theta_{\text{old}}, \theta)\)，且在\(\theta = \theta_{\text{old}}\)时取等号。因此通过求以下最小值，可以保证改进真是目标\(\eta\)。

\[\min_{\theta} [L_{\theta_{\text{old}}} + C D_{\mathrm{KL}}^{\max }(\theta_{\text{old}}, \theta)]\]

在实际操作中，如果用罚系数\(C\)，步长会非常小。一个比较稳健的采用更大的步长的方法是在新策略和旧策略间的KL散度上加一个约束，i.e. a trust region constraint:

\[\begin{aligned} &\min_{\theta} L_{\theta_{\mathrm{old}}}(\theta) \\ &\text { s.t. } D_{\mathrm{KL}}^{\max }\left(\theta_{\mathrm{old}}, \theta\right) \leq \delta \end{aligned}\]

但是，因为约束的量太多（状态空间的每个点上的KL散度都受限）所以这个问题不好解。可以用考虑了平均KL散度的启发式近似方法：

\[\bar{D}_{\mathrm{KL}}^\rho\left(\theta_1, \theta_2\right) := \mathbb{E}_{s \sim \rho} \bigg[ D_{\mathrm{KL}}\big(\pi_{\theta_1}(\cdot \mid s) \| \pi_{\theta_2}(\cdot \mid s)\big) \bigg]\]

因此，提出通过解以下优化问题来生成策略更新：

\[\color{green}{\boxed{\begin{aligned} &\min_{\theta} L_{\theta_{\mathrm{old}}}(\theta) \\ &\text { s.t. } \bar{D}_{\mathrm{KL}}^{\max }\left(\theta_{\mathrm{old}}, \theta \right) \leq \delta \end{aligned}}} \tag{13}\]

2.4 Sample-Based Estimation of the Objective and Constraint

这节主要介绍如何用Monte Carlo simulation来近似目标函数和约束函数。

将(13)中\(L_{\theta_{\mathrm{old}}}(\theta)\)展开，得到以下优化问题：

\[\begin{aligned} \min_{\theta} & \sum_s \rho_{\theta_{\text {old }}}(s) \sum_a \pi_\theta(a \mid s) A_{\theta_{\text {old }}}(s, a) \\ \text {s.t. } & \bar{D}_{\mathrm{KL}}^{\rho_{\theta_{\text{old}}}} (\theta_{\text {old }}, \theta) \le \delta \end{aligned}\]

首先，用期望\(\frac{1}{1 - \gamma} \mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}} [\cdots]\)代替\(\sum_s \rho_{\theta_{\text {old }}}(s) [\cdots]\)。然后用Q-values \(Q_{\theta_{\text {old}}}\)代替\(A_{\theta_{\text {old}}}\)。最后，用重要性采样代替对action的求和。用\(q\)表示采样分布，单个\(s_n\)对损失函数的贡献为

\[\sum_a \pi_\theta (a \mid s_n) A_{\theta_{\text{old}}}(s_n, a) = \mathbb{E}_{a \sim q} \left[ \frac{\pi_\theta (a \mid s_n)}{q(a \mid s_n)} A_{\theta_{\text {old }}}\left(s_n, a\right) \right]\]

把(14)写成如下期望的形式

\[\begin{aligned} \min_{\theta} \ & \mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}, a \sim q}\left[\frac{\pi_\theta(a \mid s)}{q(a \mid s)} Q_{\theta_{\text{old}}}(s, a)\right] \\ \text {s.t.} \ & \mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}}\left[D_{\mathrm{KL}}\left(\pi_{\theta_{\text {old }}}(\cdot \mid s) \| \pi_\theta(\cdot \mid s)\right)\right] \leq \delta \end{aligned}\]

剩下的就是用样本均值代替预期，用经验估计代替Q值。下面将介绍两种不同的估计方案。

2.4.1 Single path

在这个估计过程中，通过采样\(s_0 \sim \rho_0\)收集状态序列，然后模拟策略\(\pi_{\theta_{\text{old}}}\)对一些时间步长生成轨迹\(s_0, a_0, a_1, a_1, \ldots, s_{T-1}, a_{T-1}, s_T\)。因此，\(q(a \vert s) = \pi_{\theta_{\text{old}}} (a \vert s)\)。通过沿轨迹取未来成本的折扣和可以得到每个state-action的\(Q_{\theta_{\text{old}}} (s, a)\)。

2.4.2 Vine

在这个估计过程中，首先采样\(s_0 \sim \rho_0\)并仿真策略\(\pi_{\theta_i}\)来生成一些轨迹。然后沿着这些轨迹选一个子集表示为\(s_1, s_2, \ldots, s_N\)，称为"rollout set"。对rollout set中每个状态\(s_n\)，我们根据\(a_{n, k} \sim q(\cdot \vert s_n)\)采样\(K\)个动作。在实操中，我们发现\(q(\cdot \vert s_n) = \pi_{\theta_i}(\cdot \vert s_n)\)在连续问题中很好用，如机器人运动，而均匀分布在离散任务中很好用，比如Atari游戏，在这些任务中有时能取得更好的探索。

对于每个状态\(s_n\)下采样到的动作\(a_{n,k}\)，我们通过操作一个从状态\(s_n\)和动作\(a_{n,k}\)开始的rollout（i.e. 一段短的轨迹）来估计\(\hat{Q}_{\theta_i}(s_n, a_n, k)\)。通过对每个K rollouts中的噪声使用相同的随机数序列（i.e. 普通随机数），可以极大地减小不同rollout之间Q值的方差。

对于小且有限的动作空间，我们可以对每个给定的状态下可能的动作生成一个rollout。单个状态\(s_n\)对\(L_{\theta_{\text{old}}}\)的贡献为

\[L_n(\theta) = \sum_{k=1}^K \pi_\theta (a_k \mid s_n) \hat{Q}(s_n, a_k)\]

其中，状态空间为\(\mathcal{A} = \{ a_1, \ldots, a_K \}\)

在大的或连续的状态空间中，我们可以利用重要性采样构造替代损失的估计器。单个状态\(s_n\)下得到的\(L_{\theta_{\text{old}}}\)自正则化估计量为

\[L_n(\theta) = \frac {\sum_{k=1}^K \frac{\pi_\theta\left(a_{n, k} \mid s_n\right)} {\pi_{\theta_{\text {old }}}\left(a_{n, k} \mid s_n\right)} \hat{Q}\left(s_n, a_{n, k}\right)} {\sum_{k=1}^K \frac{\pi_\theta\left(a_{n, k} \mid s_n\right)} {\pi_{\theta_{\text {old }}}\left(a_{n, k} \mid s_n\right)}}\]

假设我们从状态\(s_n\)开始执行\(K\)个动作\(a_{n,1}, a_{n,2}, \cdots, a_{n,K}\)。该自正则估计量去除了Q值（注意，在Q值中增加一个常数，梯度是不变的）使用基线的需要。对\(s_n \sim \rho(\pi)\)取平均，就得到了\(L_{\theta_{\text{old}}}\)的估计和它的梯度。

左：Single Path，这里我们通过模拟策略生成一组轨迹，并将所有状态-动作对合并到目标中。右：Vine，我们生成一组"trunk"轨迹，然后从已到达的子集中生成"branch" rollout。对这些状态中的每一个，我们都执行多个动作并在每个动作后都执行一个rollout，用一般随机数（CRN）来抑制方差。

Vine比single path好的地方在于，在代理损失中给定同样数量的Q值采样，vine对目标的本地估计具有更低的方差。即，vine对advantage值的估计更好。该方法的缺点在于必须对每个advantage做更多模拟。不仅如此，vine法需要对rollout集合中每个状态生成多条轨迹，这限制了算法可以将系统重置到任意状态的设定。与之相反，single path法无需状态重置且可直接在物理系统上实现。