随机化自动微分

作者: | Deniz Oktay | Nick McGreivy | Joshua Aduol | Alex Beatson | Ryan P. Adams |

摘要:深度学习、变分推理和许多其他领域的成功都得益于反模式自动微分(AD)的专门实现,以计算超维目标的梯度。这些工具背后的AD技术旨在计算精确到数值精度的梯度,但现代机器学习模型几乎总是用随机梯度下降进行训练。为什么要在精确的(小批量)梯度上花费计算和内存,而只将它们用于随机优化呢?我们开发了一个通用的随机自动微分(RAD)框架和方法,它允许以减少内存来换取方差来计算无偏梯度估计。我们检查了一般方法的局限性,并认为我们必须利用特定于问题的结构来实现收益。我们为各种简单的神经网络结构开发了RAD技术,并证明了对于固定的存储预算,RAD收敛的迭代次数比使用小批量的前馈网络少,而对于递归网络的收敛次数相似。我们还证明了RAD可以应用于科学计算,并利用它发展了一种低记忆随机梯度法来优化代表裂变反应堆的线性反应扩散偏微分方程的控制参数。

论文地址

https://arxiv.org/abs/2007.10412v1

下载地址

https://arxiv.org/pdf/2007.10412v1.pdf

全部源码

https://github.com/PrincetonLIPS/RandomizedAutomaticDifferentiation 类型: pytorch

随机优化

相关推荐

暂无评论

微信扫一扫,分享到朋友圈

随机化自动微分