① softmax的上溢问题。前段时间手写的多层感知机可视化和numpy(青春版),如果使用ReLU激活函数,则网络输出NaN。这是因为自己实现的softmax没有处理数值上溢的问题。具体来说,网络输出层给到softmax中指数函数的数值过大,致使指数函数溢出成infinity,导致后面各层变成NaN。解决这个问题的方法很简单,只需要给输入softmax的向量减去其最大者,即可避免这个问题。这是基于以下事实: [图片] ② 梯度下降的稳定性。自己手搓的梯度下降是最为朴素的恒定学习率小批量梯度下降,没有引入...【查看原文】