当前位置:首页|资讯

做个记录-代码正确-服务器运行是损失函数计算不出来

作者:任永旺发布时间:2024-09-18

今天遇到贼离谱的事,花费四个小时才知道啥情况,我的Transformer代码,之前在服务器上运行过很多次,没有问题,找到了一个靠谱的模型,现在需要更换一批数据,测试一下结果,奇幻的事就开始出来了,在我自己的电脑上,运行完全正常,但是在服务器上却无法正确的计算损失函数

  0%|          | 0/3125 [00:00<?, ?it/s]lossSum: tensor(10.4855, device='cuda:0')

lossSum: tensor(4.5966e+15, device='cuda:0')

lossSum: tensor(nan, device='cuda:0')

lossSum: tensor(nan, device='cuda:0')

lossSum: tensor(nan, device='cuda:0')

lossSum: tensor(nan, device='cuda:0')

我把损失函数累加,结果得到的都是nan,对比源代码,发现只更改了数据,验证数据,发现没问题,此时我的英文数据集取名1-en_train_10w.pkl,然后就改了文件名,改为英文开头 en_train_10w.pkl,好吧,这样之后,损失函数计算正确,

  0%|          | 0/3125 [00:00<?, ?it/s]lossSum: tensor(10.4842, device='cuda:0')

lossSum: tensor(19.7517, device='cuda:0')

lossSum: tensor(28.8157, device='cuda:0')

lossSum: tensor(37.5586, device='cuda:0')

lossSum: tensor(46.2351, device='cuda:0')

lossSum: tensor(54.6823, device='cuda:0')

我真的,从来没想过这样是因为文件名的问题,也许很多人这辈子都碰不到,我都怀疑是灵异事件了,得亏最后问题解决了。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1