问题描述

模型训练的过程中损失值很大,且反复震荡不下降

解决方法

  1. 给模型都加参数初始化,权重参数使用 kaiming_uniform_,偏置参数使用0初始化
  2. 调大dropout率
  3. 给模型中间层增加BatchNorm/LayerNorm

结果

在改变dropout值和增加归一化层之后,问题没有得到有效解决,但是加入模型参数初始化之后,问题得到了有效解决

结论

最有用的可能是权重参数初始化,也足以看到初始化的重要性

更多推荐