BN：Batch Normalization 解读

随机梯度下降法（SGD）对于训练深度网络简单高效，但是它有个毛病，就是需要我们人为的去选择参数，比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要，以至于我们很多时间都浪费在这些的调参上。那么使用BN之后，你可以不需要那么刻意的慢慢调整参数。

1.我们知道数据在输入到神经网络之前要进行预处理，其中包括数据增强，裁剪、归一化等操作，这会使网络对数据分布达到更好的训练效果。
2.那是不是考虑将每一层网络的输出也经过一次预处理再输送到下一层网络，通过这样的做法使网络的泛化性和训练速度更优呢？
3.BN层主要是解决“Internal Covariate Shift”的问题，因为网络主要学习的是数据集的分布。但数据经过深层次的网络后分不会发生变化，这样变化后的数据在经过下一层网络，会引发梯度爆炸或消失(只要网络的前面几层发生微小的改变，那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变，那么这一层网络就需要去适应学习这个新的数据分布，所以如果训练过程中，训练数据的分布一直在发生变化，那么将会影响网络的训练速度)。
4.BN的计算流程：

对每层数据都进行这样的操作，防止数据的分布
计算样本均值。
计算样本方差。
样本数据标准化处理。
进行平移和缩放处理。引入了γ和β两个参数。来训练γ和β两个参数。引入了这个可学习重构参数γ、β，让我们的网络可以学习恢复出原始网络所要学习的特征分布。
如果γ和β分别等于此batch的方差和均值，那么yi就还原到了归一化前的x，β 和γ分别称之为平移参数和缩放参数。这样就保证了每一次数据经过归一化后还保留的有学习来的特征，同时又能完成归一化这个操作，加速训练。
正向传播时，计算β 和γ，使输出达到和输入相同的分布，反向传播时通过计算β 和γ的梯度，调整权重。
假设我们的数据分布如a所示，参数初始化一般是0均值，和较小的方差，此时拟合的y=wx+b y=wx+by=wx+b如b图中的橘色线，经过多次迭代后，达到紫色线，此时具有很好的分类效果，但是如果我们将其归一化到0点附近，如图c，显然会加快训练速度，如此我们更进一步的通过变换拉大数据之间的相对差异性(图d)，那么就更容易区分了。

总结

1.加入BN层后由于网络每层的训练数据分布相同，极大的提高了训练速度和收敛速度。
2.减少对初始化参数的依赖
3.改善正则化策略：作为正则化的一种形式，轻微减少了对dropout的需求(对梯度爆炸和下降有大的改善)
4.对于彻底打乱的数据鲁棒性高，因为输入分布被归为一致化。

enjoy~