缺点:梯度方向:收敛速度慢,可能在鞍点处震荡; 学习率:需要手动设定,非最优。
思考:Adam那么棒,为什么还对SGD念念不忘?
一种比较简单的启发式方法,把梯度的模限定在一个区间,当梯度的模小于或大于这个区间时就进行截断。(在训练Transformer时经常用到)