w***g 发帖数: 5958 | 1 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。
有同学见过么? |
l*******m 发帖数: 1096 | 2 和Titan v没关系吧。把var init减小些,特别是dense layer的 init
:同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
:我开始以为是docker的问题,但是在docker外面跑也还是爆炸。 |
s*********1 发帖数: 12 | 3 楼主用的是什么framework,什么cuda/cudnn版本?
1.model里用了batchNormalizaiton没有,试试去掉batchNorm还会不会出NaN? 如果是的
话,试试调小LR,楼上说的把var init减小应该也有帮助
2.如果model里有RNN,GV100 + cuDNN 7.1.4/7.1.3有小概率会产生NaN,换成新的cuDNN
7.2.1就好了 |
m*****k 发帖数: 58 | 4 https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
单位IT跟我提过,没想到真有人遇到这个问题了
【在 w***g 的大作中提到】 : 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN) : 我开始以为是docker的问题,但是在docker外面跑也还是爆炸。 : 并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。 : 有同学见过么?
|
w***g 发帖数: 5958 | 5 这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。
【在 m*****k 的大作中提到】 : https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/ : 单位IT跟我提过,没想到真有人遇到这个问题了
|
l*******m 发帖数: 1096 | 6 安装最新的driver,CUDA9.2和patch。9.1莫名地被拿下了,可能和V有关
【在 w***g 的大作中提到】 : 这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。
|
L****8 发帖数: 3938 | 7 1080ti 有类似问题么?
【在 w***g 的大作中提到】 : 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN) : 我开始以为是docker的问题,但是在docker外面跑也还是爆炸。 : 并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。 : 有同学见过么?
|
w***g 发帖数: 5958 | 8 10x0 大部分我都用过,没这问题。
更新驱动tf不支持啊。我会试试。
:1080ti 有类似问题么?
:【 在 wdong (万事休) 的大作中提到: 】 |
s*********1 发帖数: 12 | 9 关键要装新的cuDNN, 因为所有数值操作都是cuDNN在算, 如果碰到cuDNN的bug就有可能
会出NaN
装新的cuda toolkit没有用, 因为cuDNN并不depend on cuda toolkit, 但是装新的驱
动不会有坏处,不会有不支持的情况
4楼说的问题八成是因为driver或者cuDNN, cuBLAS里面有个软件bug, 硬件bug很难碰到
的 |
s*********1 发帖数: 12 | 10 @wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点
https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html#
rel_730 |
|
|
l*******m 发帖数: 1096 | 11 tf应该没用cudnn的batch norm
:@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
:batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第
四点 |
w***g 发帖数: 5958 | 12 谢谢! 看来近期必须升级工具链了。我还在用tf1.6。
四点
【在 s*********1 的大作中提到】 : @wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个 : batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点 : https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html# : rel_730
|
s*********1 发帖数: 12 | 13 有可能会用到吧,至少tf里有它的wrapper
https://github.com/tensorflow/tensorflow/blob/
1cb8940078f6be9313899734e1307a69fffc4b6f/tensorflow/stream_executor/cuda/
cuda_dnn.cc
【在 l*******m 的大作中提到】 : tf应该没用cudnn的batch norm : : :@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个 : :batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第 : 四点
|
w***g 发帖数: 5958 | 14 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。
有同学见过么? |
l*******m 发帖数: 1096 | 15 和Titan v没关系吧。把var init减小些,特别是dense layer的 init
:同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
:我开始以为是docker的问题,但是在docker外面跑也还是爆炸。 |
s*********1 发帖数: 12 | 16 楼主用的是什么framework,什么cuda/cudnn版本?
1.model里用了batchNormalizaiton没有,试试去掉batchNorm还会不会出NaN? 如果是的
话,试试调小LR,楼上说的把var init减小应该也有帮助
2.如果model里有RNN,GV100 + cuDNN 7.1.4/7.1.3有小概率会产生NaN,换成新的cuDNN
7.2.1就好了 |
m*****k 发帖数: 58 | 17 https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
单位IT跟我提过,没想到真有人遇到这个问题了
【在 w***g 的大作中提到】 : 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN) : 我开始以为是docker的问题,但是在docker外面跑也还是爆炸。 : 并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。 : 有同学见过么?
|
w***g 发帖数: 5958 | 18 这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。
【在 m*****k 的大作中提到】 : https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/ : 单位IT跟我提过,没想到真有人遇到这个问题了
|
l*******m 发帖数: 1096 | 19 安装最新的driver,CUDA9.2和patch。9.1莫名地被拿下了,可能和V有关
【在 w***g 的大作中提到】 : 这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。
|
L****8 发帖数: 3938 | 20 1080ti 有类似问题么?
【在 w***g 的大作中提到】 : 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN) : 我开始以为是docker的问题,但是在docker外面跑也还是爆炸。 : 并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。 : 有同学见过么?
|
|
|
w***g 发帖数: 5958 | 21 10x0 大部分我都用过,没这问题。
更新驱动tf不支持啊。我会试试。
:1080ti 有类似问题么?
:【 在 wdong (万事休) 的大作中提到: 】 |
s*********1 发帖数: 12 | 22 关键要装新的cuDNN, 因为所有数值操作都是cuDNN在算, 如果碰到cuDNN的bug就有可能
会出NaN
装新的cuda toolkit没有用, 因为cuDNN并不depend on cuda toolkit, 但是装新的驱
动不会有坏处,不会有不支持的情况
4楼说的问题八成是因为driver或者cuDNN, cuBLAS里面有个软件bug, 硬件bug很难碰到
的 |
s*********1 发帖数: 12 | 23 @wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点
https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html#
rel_730 |
l*******m 发帖数: 1096 | 24 tf应该没用cudnn的batch norm
:@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
:batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第
四点 |
w***g 发帖数: 5958 | 25 谢谢! 看来近期必须升级工具链了。我还在用tf1.6。
四点
【在 s*********1 的大作中提到】 : @wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个 : batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点 : https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html# : rel_730
|
s*********1 发帖数: 12 | 26 有可能会用到吧,至少tf里有它的wrapper
https://github.com/tensorflow/tensorflow/blob/
1cb8940078f6be9313899734e1307a69fffc4b6f/tensorflow/stream_executor/cuda/
cuda_dnn.cc
【在 l*******m 的大作中提到】 : tf应该没用cudnn的batch norm : : :@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个 : :batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第 : 四点
|
L****8 发帖数: 3938 | 27 请问 这个问题解决了么?
打算买titan V 怕浪费钱了
【在 w***g 的大作中提到】 : 谢谢! 看来近期必须升级工具链了。我还在用tf1.6。 : : 四点
|