矢量量化瓶颈模型的鲁棒训练

作者: | Adrian Łańcucki | Jan Chorowski | Guillaume Sanchez | Ricard Marxer | Nanxin Chen | Hans J. G. A. Dolfing | Sameer Khurana | Tanel Alumäe | Antoine Laurent |

摘要:在本文中,我们展示了使用矢量量化变分自动编码器模型(VQ-VAE)对离散表示进行可靠和有效训练的方法。离散潜变量模型已被证明可以学习语音的非平凡表示,适用于无监督语音转换,并在单元发现任务中达到最先进的性能。对于无监督表示学习,它们成为连续潜变量模型的可行选择,如变分自动编码器(VAE)。然而,由于离散化操作固有的不可微性,训练深度离散变量模型是具有挑战性的。在这篇文章中,我们关注的是VQ-VAE,这是一个最先进的离散瓶颈模型,其性能与其连续同行不相上下。它利用在线k-均值聚类对编码器输出进行量化。我们表明,码本学习会受到聚类编码器输出的不良初始化和非平稳性的影响。我们证明,可以通过提高码本的学习率和周期性的依赖于日期的码字重新初始化来成功地克服这些问题。因此,我们实现了跨不同任务的更健壮的训练,并显著增加了潜在码字的使用率,即使对于大型码本也是如此。这具有实际益处,例如,在无监督表示学习中,其中大的码本可能导致潜在表示的解耦。

论文地址

https://arxiv.org/abs/2005.08520v1

下载地址

https://arxiv.org/pdf/2005.08520v1.pdf

全部源码

https://github.com/distsup/DistSup 类型: pytorch

潜变量模型表示学习非监督表示学习语音转换

相关推荐

暂无评论

微信扫一扫,分享到朋友圈

矢量量化瓶颈模型的鲁棒训练