昨天,我读到了一篇有趣的文章,内容令人困惑,即在使用批处理归一化训练神经网络时可以使用成倍增长的学习率时间表:李志远和Sanjeev Arora(2019)深度学习的指数学习进度表本文提供了这种可重分属性的理论见解和经验证明。尺度不变性这样做的原因归结为以下事实:批量归一化使神经网络的损失函数按比例缩放-按常数缩放权重不会更改批量归一化网络的输出或损失。事实证明,单独使用此属性可能会导致某些出乎意料且可能对优化有用的属性。我将使用2D玩具示例,通过这篇文章来说明尺度不变损失函数的某些属性-以及它们的梯度下降轨迹: 在这里,我画了一个具有尺度不变性的损失函数。损耗的值仅取决于角度,而不取决于权重向量的大小。从原点向外的沿任何径向线的损耗值是恒定的。尺度不变的简单后果是(论文的引理1)该函数的梯度始终与参数向量的当前值正交,并且您离原点越远,渐变的幅度就越小。这可能不太直观,但请考虑函数在原点周围的圆周上的行为。函数是相同的,但是随着半径的增加,将相同的函数拉伸到更大的圆上会变胖,因此其梯度会减小。这是一个有点混乱的颤动图,显示了上面函数的梯度: 由于原点周围的梯度会爆炸,所以颤动图很乱。

默认分类 · 2023-12-14 · 5197 人浏览
Theme Jasmine by Kent Liao