MLP与优化算法

2.1 SGD家族

缺点:梯度方向:收敛速度慢,可能在鞍点处震荡;    学习率:需要手动设定,非最优。

2.2 SGD with Momenturn

2.3 SGD with NAG

2.4 AdaGrad

2.5 RMSprop

2.6 Adam & Nadam

思考:Adam那么棒,为什么还对SGD念念不忘?

2.7 梯度折断

  一种比较简单的启发式方法,把梯度的模限定在一个区间,当梯度的模小于或大于这个区间时就进行截断。(在训练Transformer时经常用到)

\[\mathbf{g}_t = \max(\min(\mathbf{g}_t, b), a)\]