【论文阅读】Recurrent Neural Network Regularization
本来是打算搜搜RNN或者LSTM的原文,结果arxiv上没搜到(求求,帮帮),然后就搜到知乎上一个回答:
心想完蛋,年份跨度比较远的论文读起来会不会很费劲啊。结果搜到LSTM的原论文了(论文链接:https://www.bioinf.jku.at/publications/older/2604.pdf),一看,30页还有好多看不懂的公式与图,就突发感慨:啊,有些知识还是看看二创的比较好,LSTM这种还是果断放弃吧,之后有时间找找比较好的博客之类的看,http://colah.github.io/posts/2015-08-Understanding-LSTMs/这个感觉就不错。
废话说多了。今天看的这个是《Recurrent Neural Network Regularization》,加上参考文献一共就8页,讲的是RNN及其变体怎么进行正则化以防止过拟合的方法。
论文地址:[1409.2329v5] Recurrent Neural Network Regularization (arxiv.org)
以下是正文:
这篇文章的主旨是:dropout最好只用在从当前时间步的输入到输出的连接上,而不应用在递归连接上(即与隐藏状态或者历史信息相关的计算)。
然后,恭喜你已经看完了整个文章。
引言
正则化最常用的一种方法是dropout,但是RNNs却不怎么适合应用dropout(可能是实验的结果),也是因此,RNNs只能使用小网络以避免过拟合,这很大程度上限制了RNN的能力。
这篇文章就是讲作者如何改造应用dropout的方式以帮助RNN从dropout中受益。
相关工作
这一节,作者引用了很多相关的工作的文献,很不巧,我一个都没看过。
关于为什么RNN不适合用dropout,有一个文献提到,RNN不适合dropout的原因是因为递归过程会放大噪声。
其他的文献就一点都不懂啦
正则化LSTM
作者首先贴心地带着我复习了一下RNN和LSTM的基础知识,之后开门见山地讲这篇文章的主要思想:dropout只应用在非递归连接上,用图展示就是:
虚线是应用dropout的连接,实线是不应用dropout的连接。作者下面给出的公式表明,dropout进行mask的对象是每一层的输入向量(有的论文里进行mask的对象是权值矩阵):
为什么这样呢?我理解作者的意思是:这样做,dropout引入的不确定性不会伤害到整个网络记住过去信息的能力,即关于记忆的部分不会被引入的不确定性影响。换句话说,可以看到,每一个过往的输入与当前的输出的连接都经过了L+1次dropout(L是层数),这个次数是固定的,且不随时间差的改变而改变。而标准的dropout扰乱了递归连接,使得LSTM更难学习存储长期信息。
实验
作者在四种领域里进行实验:language modeling、speech recognition、machine translation、image caption generation。结果的数据就不多赘述了,不过我对作者进行的实验有一些怀疑,因为作者设置的大LSTM与小LSTM的差别只是每一层的单元数不同,但是我想,正常的第一反应不应该是增加层数吗,毕竟相比更宽,更深才是深度学习的主流趋势吧。而且作者进行对比的实验的其他参数设置等没有做到对照实验要求的一致,不太明白为什么。
不过我看作者实验过程提到一句,大概意思是第一个minibatch的初始隐藏状态被初始化为0,此后的minibatch的初始隐藏状态都以上一个minibatch的最后一步的隐藏状态作为初始化。我没想过还能这样玩,学到了,以后可以试试。
总结
哦瓦力马苏,不写啦。
没啥不懂的地方,这篇文章读得特别顺,45分钟就读完了。
感谢作者!