当前位置:首页|资讯|AI大模型

AI大模型和5G无线电(无端联想)

作者:BD4SUR发布时间:2024-03-22

① softmax的上溢问题。前段时间手写的多层感知机可视化和numpy(青春版),如果使用ReLU激活函数,则网络输出NaN。这是因为自己实现的softmax没有处理数值上溢的问题。具体来说,网络输出层给到softmax中指数函数的数值过大,致使指数函数溢出成infinity,导致后面各层变成NaN。解决这个问题的方法很简单,只需要给输入softmax的向量减去其最大者,即可避免这个问题。这是基于以下事实: [图片] ② 梯度下降的稳定性。自己手搓的梯度下降是最为朴素的恒定学习率小批量梯度下降,没有引入...【查看原文】

大语言模型 (LLM)

Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1