最近发现了一个讲MAE与MSE损失函数选择的文章:

如何选择回归损失:MAE还是MSE?

其中有句话

MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大。这样不利于模型的学习。为了解决这个缺陷,我们可以使用变化的学习率,在损失接近最小值时降低学习率。而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。这使得在训练结束时,使用MSE模型的结果会更精确。

推导了一下梯度更新的式子,理解到了MSE自动调整更新步长的含义:

推导过程