由买买提看人间百态

topics

全部话题 - 话题: walltime
(共0页)
n******7
发帖数: 12463
1
有几个问题请教:
1. 如何效率地评估java程序的内存消耗和运行时间?
前几天问了java code在不同机器上内存消耗不同的问题。现在测试了不同的Xms Xmx参
数,同样的机器使用16core,16个进程时大致如下.基本上Xms=1/2g,Xmx=6g时内存消耗
最少,也显著比其他参数要快。没有再往下测了。但是这样测试觉得好没效率,有没有
什么自动半自动的方法可以做这个评估的?特别是很多语言benchmark的测试,他们是
怎么评估像java这样语言的速度和内存使用的?
Xms Xmx
16g 112g: cput=11:50:14,mem=30666936kb,vmem=125003524kb,walltime=00:48
:24
16g 48g: cput=11:50:32,mem=28415984kb,vmem=55443888kb,walltime=00:48:
22
16g 40g: cput=11:47:43,mem=25669572kb,vmem=46747780kb,walltime=00:48:
13
16g 32g: cput=11:49:53,mem=... 阅读全帖
h**********c
发帖数: 4120
2
suggest you read Java Performance, written by Oracle engineers.
My thinking is GC should be handled out of the vm box. Single VM should be
stress-tested and the program/task should be able to throttle itself for
memory utilization and persist over usage to database. Use cluster/load
balancer to comprehensively conduct the VMs' symphony by major process
tables' reading or VM status readings -- process threshhold trigger balancer
audit and administration.
Unfortunately, in real life, we rather hav... 阅读全帖
n******7
发帖数: 12463
3

这个我现在明白了 GC pause对我无所谓
这个我有疑问。就我的结果,同样Xmx的情况下,Xms越小反而越快
6g 6g: cput=11:55:44,mem=6518500kb,vmem=9793676kb,walltime=00:48:59
2g 6g: cput=11:26:22,mem=3628316kb,vmem=9793676kb,walltime=00:47:49
1g 6g: cput=11:25:40,mem=3005524kb,vmem=9793676kb,walltime=00:47:48
虽然只测了一次,这个1分钟的差异还是挺大的
而同样Xms的情况下,Xmx几乎没影响
16g 112g:cput=11:50:14,mem=30666936kb,vmem=125003524kb,walltime=00:48:24
16g 48g: cput=11:50:32,mem=28415984kb,vmem=55443888kb,walltime=00:48:22
16g 40g: cput=11:47:43,mem=25669572kb,vmem=4... 阅读全帖
n******7
发帖数: 12463
4
一样的java code,用java.util.concurrent做的multi-threading
在cluster上的不同node上跑
在16个E5-2665 core上跑的结果:
cput=58:16:02,mem=11399236kb,vmem=35791888kb,walltime=03:46:17
在24个Opteron 6176 core上:
cput=173:12:55,mem=5841312kb,vmem=16428220kb,walltime=11:09:09
Opteron 慢些我理解,可是为啥用的内存要少一半?
n******7
发帖数: 12463
5
学校公用的机器可能是比较挤,不过你一次submit一堆,应该可以差不多时间开跑
我不懂进化分析,你每个job可以再细分吗?比如要分几步,每次只跑一步就可以控制
在三天内了
另外看看你们系有没有自己的机器?我们系的机器比学校的好用多了,1个月walltime
限制,每个ID最多可以用250个core,大部分时候不用排队
t*****z
发帖数: 1598
6
我们学校的机器,好像没有资源总量和同时提交任务数的限制,也可以一次申请很多个
节点(虽然那样会排队排很久),但是,我的一个任务毕竟只能在一个节点上跑,确实
无法分摊到多个。有少数几个最好的节点是四路E7-4830和双路E5-2660的,排队排到过
几次,跑这个任务要三天半。还有少数几个节点有两块特斯拉显卡,但是我编译时无法
引用CUDA模块,不知什么原因。
系里自然是没有好机器的,只有一个教室的台式机供学生上机。我们毕竟只是生物系嘛。
我的家庭神机的第一个任务已经跑好了,用了2.85天。
我想了一些变通的注意:先跑几个同样的任务,观察哪一个跑得特别好,把seed记下来
,下次用同样的seed,但是任务步数少一些,这样就可以节省时间。想归想,暂时没时
间去追究了,正好别的非计算的任务吃紧。

walltime
r****t
发帖数: 10904
7
来自主题: Linux版 - pbs总是kill job
walltime 总有个默认限制的。你确定没有限制?
新的 TORQUE 默认只显示自己job, 需要 pbs_servee qmgr 改。
S**********l
发帖数: 3835
8
来自主题: Linux版 - pbs总是kill job
应该怎么改?谢谢!确定没有walltime限制

pbs
n******7
发帖数: 12463
9
最近发现我们这里一个韩国大妈,提交的所有job都是interactive job
我的理解是interactive job是给你run GUI程序,或者test一些比较费资源的code的
她倒好,居然提交了快60个这样的job,就算是用虚拟窗口,这tmd搞一遍也要死人了吧
唯一能想到的好处,就是她可以霸占这几百个节点(接近最大允许的core数目了)2个
星期(最大walltime),即使什么也没干
我在考虑要不要更我们总是很愤怒的管理员举报她滥用资源。主要是没什么证据证明她
这些job都是闲置的,也许admin可以看到。
上次我举报一个人在登录节点跑了一百多个python进程,后来才发现是一起吃饭的过来
访问游玩的中国大妈,有点尴尬。。。
w***g
发帖数: 5958
10
你的出发点是好的,但我觉得没做到点子上。48分钟walltime,就是差1分钟,也就是2
%的样子,并不是显著差异。如果你非要测这2%的差异,那么就要跑比如10次取平均,
而且每次跑之前需要invalidate buffer cache http://aplawrence.com/Linux/buffer_cache.html。有各种原因可能导致2%的差异,不一定光是Xms, Xmx的问题。当然最后测出来,可能还是只有2%的差异。所以还不如花时间在优化代码上,尽量简化代码的内存分配,减少不确定性,提高L2 cache命中率。前面也提了,把Xmx和Xms设成比你可用的最大量小一点就可以,反正不用也是浪费。
thread > core会有性能提升是因为一个thread block的时候另一个thread可以跑。
hyperthread有时候有帮助,有时候反而会使得程序更慢,没有一个定论。我认识有的人
一上来就disable hyperthreading。我的经验是hyperthread能有一定的性能提升。
如果你的cache命中率本来就低,那么再提高线程数可能还能更快。但正道是改代码
... 阅读全帖
g**********y
发帖数: 423
11
来自主题: Biology版 - NGS生物信息工作
我写的一个在cluster上并行运行pipeline的工具:
======================================================

../tools/run_cmd_pbs/run_cmd_pbs.py pipeline_rnaseq_gene_exp.sh -s 1-2 -p 2:
mem=10gb
PBS setting when it starts running the commands:

mem = 16gb

nodes = 1
... 阅读全帖
h********r
发帖数: 821
12
来自主题: Physics版 - 为什么很多人这么不待见matlab
是的,你讲的是对的,比较不同领域的问题的大小不是很有意义。我最开始说的意思完
全是个经验性的结果:一般人们在做的condensed matter计算要比差不多size的分子计
算要量小一些。这个不是什么值得推敲的结论。只不过你如果在大机器上交作业,就往
往会发现walltime巨长的都是在做大分子的。
对强相关体系不熟,你的意见给了我新认识,谢谢。我对frouier变换的评论是针对一
般的情况,比如现在各种计算程序包里面的算法情况而言的。
t****g
发帖数: 715
13
来自主题: Statistics版 - 新手求教:linux下怎么跑R文件?
Have another trouble:
whenever I submit a job, it will be killed after 1 minute. I thought it is
related to the wall clock time limit settting, hence i put:
PBS -1 walltime=999:99:99
Though I can still submit jobs, I still suffer from the 1 minute time limit.
What goest wrong? Thanks.

use
(共0页)