Overview

提示

强化学习中采用术语agent、environment和action代替controller、controlled system (or plant)和control signal，因为前者的含义更广泛。

强化学习的特征

探索过程
奖励延迟
时间有影响（序列数据，而非i.i.d.（独立同分布）的）
agent的行为会影响随后得到的数据（agent的行为会改变环境）

补充

强化学习可以取得超人的效果。

1.1 序列决策简介

1.1.1 Rewards

奖励是标量反馈信号
表明agent在第t步表现如何
强化学习是基于最大化奖励的：agent的目标可以描述为使期望积累的奖励最大。

补充

使用奖励信号来描述目标的概念是强化学习最显著的特征之一。
奖励信号是用来告诉agent我们想要什么的，而不是我们想要如何达到目标。

1.1.2 Sequential decision making

agent的目标：选择一系列行为来最大化未来总奖励
行为可能会产生长期影响
奖励可能会延迟
短期奖励与长期奖励的权衡
历史是观察、行为、奖励的序列\(H_t = O_1, R_1, A_1, \ldots, A_{t-1}, O_t, R_t\)
下面会发生什么与历史有关
状态是用于决定下面发生什么的函数\(S_t = f(H_t)\)
环境状态\(S_t^e = f^e(H_t)\)和agent状态\(S_t^a = f^a(H_t)\)
完全可观性：agent可以直接观察到环境状态，被建模为马尔可夫决策过程（MDP）\(O_t = S_t^e = S_t^a\)
部分可观性：agent无法直接观察到环境状态，被建模为部分可观马尔可夫决策过程（POMDP）

1.1.3 RL angent的主要成分

一个RL angent可能包括以下一个或多个成分：

策略：agent的行为函数
价值函数：评估当前状态或行为
模型：agent对环境的理解

Policy

策略是agent的行为模型，是从输入状态/观察到行为的映射

有两种策略：

Stochastic policy（随机策略）：概率样本\(\pi (a \vert s) = P[A_t = a \vert S_t = s]\)
Deterministic policy（确定性策略）：\(a^* = \mathop{argmax}_a \pi (a \vert s)\)

Value function

值函数：特定策略\(\pi\)下延迟奖励的预期折现

折扣因子可以权衡即时奖励 vs 延迟奖励，用于量化状态与行为的好/坏 \(v_{\pi} \doteq \mathbb{E}_{\pi} [G_t \vert S_t=s] = \mathbb{E}_{\pi} \bigg[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \vert S_t = s \bigg] \ , \forall s \in S\)

Q-function（可用于在行为中进行选择） \(q_{\pi}(s,a) \doteq \mathbb{E}_{\pi} [G_t \vert S_t=s, A_t = a] = \mathbb{E}_{\pi} \bigg[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \vert S_t = s, A_t = a \bigg]\)

Model

模型用于预测环境下一步会做什么

预测下一步状态：\(P_{ss'}^a = \mathbb{P} [ S_{t+1} = s' \vert S_t = s, A_t = a ]\)
预测下一步奖励：\(P_{s}^a = \mathbb{E} [ R_{t+1} = s' \vert S_t = s, A_t = a ]\)

Agent的分类

根据agent学习的内容分类

Value-based agent
显式：值函数
隐式：策略（可以从价值函数导出策略）
Policy-based agent
显式：策略
没有值函数
Actor-Critic agent
显式：策略和值函数

根据是否有模型分类

Model-based
显式：模型
可能有/没有策略和/或值函数
Model-free
显式：值函数和/或策略函数
没有模型

1.2 序列决策中的两大问题

Planning
- 给定环境如何工作的模型
- 计算如何行动能最大化期望回报，且没有外部互动
Reinforcement learning
- agent不知道世界如何运作
- 通过与世界交互来学习世界如何运作
- agent会改善策略（也包括规划）

1.3 Exploration and Exploitation

Agent只能经历尝试的行为发生的后果。

一个RL Agent应如何平衡自己的行为？

Exploration：尝试可能使agent在未来做出更好决策的新事物
Exploitation：根据过去的经验，选择预期会产生良好回报的行动

通常会存在探索与利用的权衡

为了探索和了解可能更好的政策，可能不得不牺牲奖励