每日一问02——在训练过程中,若一个模型不收敛,是否说明这个模型无效?导致模型不收敛的原因有哪些?

每日一问02

Question:在训练过程中,若一个模型不收敛,是否说明这个模型无效?导致模型不收敛的原因有哪些?


在训练过程中,如果模型不收敛并不能说明该模型时无效的。

导致模型不收敛的原因包括:

1. 没有对数据做归一化处理。

2. 没有使用正则化。

3.Batch Size设的太大

4.学习率设置的太大容易产生震荡,太小会导致不收敛。

5.没有做数据预处理。

6.没有检查过预处理结果和最终的训练测试结果。

7.网络存在坏梯度,比如当Relu对负值的梯度为0,反向传播时,梯度为0表示不传播。

8.网络设定不合理,网络太浅或者太深。

9.最后一层的激活函数错误。

10.参数初始化错误。

11.隐藏层神经元数量错误。

12.数据集标签的设置有错误。