t*****z 发帖数: 812 | 1 调试一个程序,要run 20小时才到可能出错的地点
星期一早上加了几行printout,然后就闲着上网了。
星期二早上一看,机子没有硬盘空间了,昨天还有1TB的,原来被另外一个人用光了。
熬到下午,好不容易等那个人的程序运行完了,再submit一次
星期三早上一看,运行完了?没有,被人踢出来了,说是有个人把机子crash了,要
reboot.只好再submit一次,
今天早上一看,运行完了?没有,license忘了设置对,再submit。
可惜全公司也只有那台机子有60G的RAM。。。
老天保佑明天给点结果吧。 一个星期快过去了,一点东西也没有出来,太郁闷了了。
。。 |
e*****n 发帖数: 124 | 2 60G RAM?你老是跑什么程序啊?
【在 t*****z 的大作中提到】 : 调试一个程序,要run 20小时才到可能出错的地点 : 星期一早上加了几行printout,然后就闲着上网了。 : 星期二早上一看,机子没有硬盘空间了,昨天还有1TB的,原来被另外一个人用光了。 : 熬到下午,好不容易等那个人的程序运行完了,再submit一次 : 星期三早上一看,运行完了?没有,被人踢出来了,说是有个人把机子crash了,要 : reboot.只好再submit一次, : 今天早上一看,运行完了?没有,license忘了设置对,再submit。 : 可惜全公司也只有那台机子有60G的RAM。。。 : 老天保佑明天给点结果吧。 一个星期快过去了,一点东西也没有出来,太郁闷了了。 : 。。
|
t*****z 发帖数: 812 | 3 汽车有限元数值模拟阿,12M X 12M 矩阵的特征值求解
【在 e*****n 的大作中提到】 : 60G RAM?你老是跑什么程序啊?
|
S*********g 发帖数: 5298 | 4 if just for debugging purpose, why not use a smaller matrix?
This problem grows N^6, right?
【在 t*****z 的大作中提到】 : 汽车有限元数值模拟阿,12M X 12M 矩阵的特征值求解
|
t*****z 发帖数: 812 | 5 你说的很有道理,我试了几十个小model都好好的。
可是它就在这个大model上出错。
【在 S*********g 的大作中提到】 : if just for debugging purpose, why not use a smaller matrix? : This problem grows N^6, right?
|
t****t 发帖数: 6806 | 6 i guess you have memory problem if you are using c/c++...
if so, you can try running valgrind for your small model. it can find out
some hidden problem (such as runaway pointer or using uninitialized values)
even if your normal run is ok.
【在 t*****z 的大作中提到】 : 你说的很有道理,我试了几十个小model都好好的。 : 可是它就在这个大model上出错。
|
g*****g 发帖数: 34805 | 7 If your program takes days to finish, it would
make sense to save intermediate result periodly.
If you save each 6 hours, you at most waste 6 hours,
not 20.
【在 t*****z 的大作中提到】 : 调试一个程序,要run 20小时才到可能出错的地点 : 星期一早上加了几行printout,然后就闲着上网了。 : 星期二早上一看,机子没有硬盘空间了,昨天还有1TB的,原来被另外一个人用光了。 : 熬到下午,好不容易等那个人的程序运行完了,再submit一次 : 星期三早上一看,运行完了?没有,被人踢出来了,说是有个人把机子crash了,要 : reboot.只好再submit一次, : 今天早上一看,运行完了?没有,license忘了设置对,再submit。 : 可惜全公司也只有那台机子有60G的RAM。。。 : 老天保佑明天给点结果吧。 一个星期快过去了,一点东西也没有出来,太郁闷了了。 : 。。
|
t*****z 发帖数: 812 | 8 我也想过,不过这个程序不是我编的,我也就懂个70%。local variables, static
variables, global variables, dumped files on the disk... Too much for me to
understand which are need to be saved.
【在 g*****g 的大作中提到】 : If your program takes days to finish, it would : make sense to save intermediate result periodly. : If you save each 6 hours, you at most waste 6 hours, : not 20.
|
t*****z 发帖数: 812 | 9 Purify doesn't provide any useful info. So I would rather believe it is a
overflow issue. But just need to identify which variables
【在 g*****g 的大作中提到】 : If your program takes days to finish, it would : make sense to save intermediate result periodly. : If you save each 6 hours, you at most waste 6 hours, : not 20.
|
P********e 发帖数: 2610 | 10 哇,新人就给这么重要的东西.
我奋斗,做的东西好无聊
static
to
【在 t*****z 的大作中提到】 : 我也想过,不过这个程序不是我编的,我也就懂个70%。local variables, static : variables, global variables, dumped files on the disk... Too much for me to : understand which are need to be saved.
|
|
|
t*****z 发帖数: 812 | 11 怎个无聊法? 展开说说,看看是不是真的比我无聊(这几天已经无聊到顶了)
【在 P********e 的大作中提到】 : 哇,新人就给这么重要的东西. : 我奋斗,做的东西好无聊 : : static : to
|
P********e 发帖数: 2610 | 12 写程序,写不到2小时,就会被email, im, phone打断,去干杂事
【在 t*****z 的大作中提到】 : 怎个无聊法? 展开说说,看看是不是真的比我无聊(这几天已经无聊到顶了)
|
w*********l 发帖数: 1337 | 13 现在还有人用purify呢?见识了。
【在 t*****z 的大作中提到】 : Purify doesn't provide any useful info. So I would rather believe it is a : overflow issue. But just need to identify which variables
|
t*****z 发帖数: 812 | 14 过时了? 又没有更好的tool推荐?
【在 w*********l 的大作中提到】 : 现在还有人用purify呢?见识了。
|
t*****z 发帖数: 812 | 15 这不是manager干的事么? 还无时无刻体现了你的重要性。 哪像我,就是一个民工
,除了跟隔壁说声hello,别人都不知道你存在
【在 P********e 的大作中提到】 : 写程序,写不到2小时,就会被email, im, phone打断,去干杂事
|
k****f 发帖数: 3794 | 16 握手呀
天下民工是一家
【在 t*****z 的大作中提到】 : 这不是manager干的事么? 还无时无刻体现了你的重要性。 哪像我,就是一个民工 : ,除了跟隔壁说声hello,别人都不知道你存在
|
t*****z 发帖数: 812 | 17 终于熬到下班了。回家
【在 k****f 的大作中提到】 : 握手呀 : 天下民工是一家
|
w*********l 发帖数: 1337 | 18 我胡说的。我没用过。
purify那篇paper是够老的了,valgrind要新很多。我以为现在大家都用valgrind了。
【在 t*****z 的大作中提到】 : 过时了? 又没有更好的tool推荐?
|
r****t 发帖数: 10904 | 19 我也遇到类似情况,尺寸小的 video 文件做输入运行就完全正常,尺寸大点的就
crash 了,或者是 malloc assertion error, 或者是月realloc error, double free 什么的每次运行还不一样。 靠 log 把问题缩小到一个 api call 上面,comment 掉就没问
题了,或者手动在此只处理一个 frame 的一部分,只要总尺寸还比较小也没有问
题。 之后就不知道该怎么办了。valgrind 也没发现啥明显的。
现在 feature set 还不全,都是 plugin 结构的,我估计几天以后完成另外一个
plugin 以后要回头来 debug 这个, 痛苦。
static
to
【在 t*****z 的大作中提到】 : 我也想过,不过这个程序不是我编的,我也就懂个70%。local variables, static : variables, global variables, dumped files on the disk... Too much for me to : understand which are need to be saved.
|
v****s 发帖数: 1112 | 20 oh man, can't believe u r using a single machine to compute this!!! we
usually qsub to our supercomputer with 512 nodes.
ru using LAPACK? try some sampling tek to reduce it.
【在 t*****z 的大作中提到】 : 汽车有限元数值模拟阿,12M X 12M 矩阵的特征值求解
|
|
|
r****t 发帖数: 10904 | 21 这么大的矩阵怎么求特征值阿?
【在 t*****z 的大作中提到】 : 汽车有限元数值模拟阿,12M X 12M 矩阵的特征值求解
|
k****f 发帖数: 3794 | 22 一般就是求最大或者最小的几个特征值,
Lanczos迭代法就可以了
【在 r****t 的大作中提到】 : 这么大的矩阵怎么求特征值阿?
|
r****t 发帖数: 10904 | 23 我只学到 LR+QR on Hessenberg, Lanczos 还没学,是不是要求厄阵?
【在 k****f 的大作中提到】 : 一般就是求最大或者最小的几个特征值, : Lanczos迭代法就可以了
|
f******n 发帖数: 264 | 24 so crazy
【在 t*****z 的大作中提到】 : 调试一个程序,要run 20小时才到可能出错的地点 : 星期一早上加了几行printout,然后就闲着上网了。 : 星期二早上一看,机子没有硬盘空间了,昨天还有1TB的,原来被另外一个人用光了。 : 熬到下午,好不容易等那个人的程序运行完了,再submit一次 : 星期三早上一看,运行完了?没有,被人踢出来了,说是有个人把机子crash了,要 : reboot.只好再submit一次, : 今天早上一看,运行完了?没有,license忘了设置对,再submit。 : 可惜全公司也只有那台机子有60G的RAM。。。 : 老天保佑明天给点结果吧。 一个星期快过去了,一点东西也没有出来,太郁闷了了。 : 。。
|
r****t 发帖数: 10904 | 25 公司这么重要的机子没有 quota 限制随便用?
【在 t*****z 的大作中提到】 : 调试一个程序,要run 20小时才到可能出错的地点 : 星期一早上加了几行printout,然后就闲着上网了。 : 星期二早上一看,机子没有硬盘空间了,昨天还有1TB的,原来被另外一个人用光了。 : 熬到下午,好不容易等那个人的程序运行完了,再submit一次 : 星期三早上一看,运行完了?没有,被人踢出来了,说是有个人把机子crash了,要 : reboot.只好再submit一次, : 今天早上一看,运行完了?没有,license忘了设置对,再submit。 : 可惜全公司也只有那台机子有60G的RAM。。。 : 老天保佑明天给点结果吧。 一个星期快过去了,一点东西也没有出来,太郁闷了了。 : 。。
|
f**********w 发帖数: 93 | 26 推荐petsc包,自带很多解线性方程的方法,可以并行 |