Introduction

1.1 Classical and Modern Control

  现代控制理论主要解决多输入多输出(MIMO)问题,以一系列一阶differential (or difference) equation为基础。线性时不变系统(LTI)为

\[\begin{aligned} & \dot{\mathbf{x}}(t) = \mathbf{Ax}(t) + \mathbf{Bu}(t) \\ & \mathbf{y}(t) = \mathbf{Cx}(t) + \mathbf{Du}(t) \end{aligned}\]

类似地,非线性系统为

\[\begin{aligned} & \dot{\mathbf{x}}(t) = \mathbf{f}(\mathbf{x}(t),\mathbf{u}(t),t) \\ & \mathbf{y}(t) = \mathbf{g}(\mathbf{x}(t),\mathbf{u}(t),t) \end{aligned}\] 现代理论认为,所有的状态变量都应在适当的加权后进行反馈。

  由图1.2可以看出,在modern control configuration中,

1.输入\(\mathbf{u}(t)\)由根据系统状态\(\mathbf{x}(t)\)和参考输入\(\mathbf{r}(t)\)驱动的控制器(由error detector和compensator)决定;
2.所有或大部分状态变量可控;
3.基于完善的矩阵理论,适合大规模的计算机仿真。

Figure 1.2 Modern Control Configuration

  现代控制系统的组成部分如图1.3所示。

Figure 1.3 Components of a Modern Control System


1.2 Optimization

  如图1.4所示,变分法是优化领域的一小部分,它是学习最优控制系统的基础。

Figure 1.4 Overview of Optimization

  优化可以进一步地分为静态优化和动态优化。
1.Static Optimization关注steady state条件下系统的控制,i.e.系统变量是时不变的。系统可以由代数方程表示,用的方法有:传统变分法、Lagrange乘数法、线性和非线性规划。
2.Dynamic Optimization关注dynamic条件下系统的最优控制,i.e.系统变量是时变的,因此系统描述与时间相关。系统由微分(或差分)方程描述,用的方法有搜索法、动态规划、变分法和Pontryagin原理。


1.3 Optimal Control

  最优控制的主要目标是找出使过程能满足某些物理约束,同时可以最大化或最小化某项性能标准(性能指标或成本函数)。

  最优控制问题的明确描述需要:
  1.被控系统的数学描述(或模型)(一般是状态空间表达式);
  2.性能指标的确定;
  3.边界条件或状态和/或控制的物理约束的描述。

1.3.1 Plant

  出于优化的目的,我们用一系列线性或非线性微分(或差分)方程来描述一个物理设备。

1.3.2 Performance Index (PI)

  在现代控制理论中,最优控制问题是控制动态系统到达目标或跟随某个状态变量(或轨迹),并且同时最值化性能指标,可能有以下几种形式:

1.时间最优系统:在最短时间内,从任意的初始状态\(\mathbf{x}(t_0)\)到指定的最终状态\(\mathbf{x}(t_f)\)。相应的PI为

\[J = \int_{t_0}^{t_f} = t_f - t_0 = t^* \tag{1.3.1}\]

2.燃料最优系统:令\(u(t)\)为火箭引擎推力,假设推力大小\(\|u(t)\|\)与燃料消耗速率成比例。为了最小化燃料总支出,可以令PI为

\[J = \int_{t_0}^{t_f} |u(t)| dt \tag{1.3.2}\]

如果有多个控制量,可以写成

\[J = \int_{t_0}^{t_f} \sum_{i=1}^m {R_i |u_i(t)|} dt \tag{1.3.3}\]

其中,\(R\)为权重。

3.能量最优系统:电路的第i个回路的电流为\(u_i(t)\),\(\sum_{i=1}^m u_i^2(t) r_i\)(其中,\(r_i\)是回路阻抗)为电路的总能量或能量的总消耗率。

\[J = \int_{t_0}^{t_f} \sum_{i=1}^m {u_i^2(t) r_i} dt \tag{1.3.4}\]

或者更一般的

\[J = \int_{t_0}^{t_f} {\mathbf{u}^T(t) \mathbf{R} \mathbf{u}(t) } dt \tag{1.3.5}\]

其中,\(\mathbf{R}\)是一个正定阵。

  类似地,考虑跟踪系统的平方误差最小化问题,有

\[J = \int_{t_0}^{t_f} {\mathbf{x}^T(t) \mathbf{Q} \mathbf{x}(t) } dt \tag{1.3.6}\]

其中,\(\mathbf{x}_d(t)\)为期望值,\(\mathbf{x}_a(t)\)为真实值,\(\mathbf{x}(t) = \mathbf{x}_a(t) - \mathbf{x}_d(t)\)为误差。这里的\(\mathbf{Q}\)是权重矩阵,可以是半正定的。

4.最终控制系统:最终误差为\(\mathbf{x}(t_f) = \mathbf{x}_a(t_f) - \mathbf{x}_d(t_f)\)。考虑误差的正负和权重系数,得到成本函数

\[J = \mathbf{x}^T(t_f) \mathbf{F} \mathbf{x}(t_f) \tag{1.3.7}\]

也可以叫terminal cost function。这里的\(\mathbf{F}\)是半正定矩阵。

5.一般的最优控制系统:结合以上几种情况,得到一般形式

\[J = \mathbf{x}^T(t_f) \mathbf{F} \mathbf{x}(t_f) + \int_{t_0}^{t_f} [\mathbf{x}^T(t) \mathbf{Q} \mathbf{x}(t) + \mathbf{u}^T(t) \mathbf{R} \mathbf{u}(t)] dt \tag{1.3.8}\]

或者

\[J = S(\mathbf{x}(t_f),t_f) + \int_{t_0}^{t_f} V \left( \mathbf{x}(t), \mathbf{u}(t), t\right) dt \tag{1.3.9}\]

其中,\(\mathbf{R}\)为正定阵,\(\mathbf{Q}\)和\(\mathbf{F}\)分别为半正定阵。Q、R可能是时变的。形如(1.3.8)的性能指标被称为二次型(quadratic)。

  最优控制问题是基于性能指标的形式进行分类的。如果PI包含\(S(\mathbf{x}(t),\mathbf{u}(t),t)\),就是Mayer问题,如果PI只包含积分项,就是Lagrange问题,如果二者都有,就是Bolza问题

1.3.2 Constraints

  控制向量\(\mathbf{u}t\)和状态向量\(\mathbf{x}t\)是否受限是由物理条件决定的,如

\[\mathbf{U}_+ \le \mathbf{u}(t) \le \mathbf{U}_- , \text{and} \quad \mathbf{X}_+ \le \mathbf{x}(t) \le \mathbf{X}_- \tag{1.3.10}\]

1.3.3 Formal Statement of Optimal Control System

  最优控制问题指的是找到最优控制\(\mathbf{u}^*t\),使得线性时不变系统

\[\dot{\mathbf{x}}(t) = \mathbf{Ax}(t) + \mathbf{Bu}(t) \tag{1.3.11}\]

给出轨迹\(\mathbf{x}^*t\),能优化或者最值化(最大值或最小值)性能指标

\[J = \mathbf{x}^T(t_f) \mathbf{F} \mathbf{x}(t_f) + \int_{t_0}^{t_f} [\mathbf{x}^T(t) \mathbf{Q} \mathbf{x}(t) + \mathbf{u}^T(t) \mathbf{R} \mathbf{u}(t)] dt \tag{1.3.12}\]

或者使非线性系统

\[\dot{\mathbf{x}}(t) = \mathbf{f}(\mathbf{x}(t),\mathbf{u}(t),t) \tag{1.3.13}\]

给出状态\(\mathbf{x}^*t\),能优化一般性能指标

\[J = S(\mathbf{x}(t_f),t_f) + \int_{t_0}^{t_f} V \left( \mathbf{x}(t), \mathbf{u}(t), t\right) dt \tag{1.3.14}\]

并且,控制变量\(\mathbf{u}t\)和/或状态变量\(\mathbf{x}t\)受(1.3.11)约束。最终时间\(t_f\)可以是固定的或自由的,最终状态可以是完全或半固定的或者自由的。整个问题描述如图1.5所示。

Figure 1.5 Optimal Control Problem

  最优控制系统的学习有三个阶段:

  1.考虑形如(1.3.14)的PI,用变分法求最优函数。

  2.引入(1.3.11)的系统,尝试解决形如(1.3.12)的PI的最优控制\(\mathbf{u}^*(t)\)。接着,在离散域讨论以上问题。

  3.在同时考虑约束和性能指标的情况下,找到最优控制。