服务器测试结果 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 服务器测试结果

相关主题
● 10G网络到了	● 大坑看晕了
● 求推荐一个真心交流技术的地方	● Goodbug，是不是单机大于1 million/s的I/O你就输了？
● socket re-connection problem	● high performance computer architecture 这课有啥大意义吗
● C10M 练习2：空TCP 连接，1M per 4G RAM	● 什么是OS Memory management and heap structure？
● 我的原帖在这里	● 老魏问你个问题
● dereference a NULL pointer in C	● 代码开源了
● Java 问题，请教如何找出一个array里的duplicate segments?	● GPU的本质
● Excel VSTO 4.0 project deveopled in VS2010 migration to VST (转载)	● 為什麼golang algernon比C nginx慢幾十倍？golang行嗎

相关话题的讨论汇总
话题: llc话题: loads话题: cpu话题: session话题: misses

进入Programming版参与讨论

(共1页)

t**********1
发帖数: 550

一台E3做服务器，另一台i3做client。
不管单TCP还是多TCP，throughput稳定在大约6-7M/s之间。
估计1G网络是瓶颈。
今晚以前我会放出来的。

w****w
发帖数: 521

内存多大？春运算20天罢，把TRAIN改成10万，看看对throughput有没有影响。

【在 t**********1 的大作中提到】

: 一台E3做服务器，另一台i3做client。
: 不管单TCP还是多TCP，throughput稳定在大约6-7M/s之间。
: 估计1G网络是瓶颈。
: 今晚以前我会放出来的。

t**********1
发帖数: 550

E3 4G，i3 2G。
你自己算算好了。理论上TRAIN 10万cache miss稍大一点。其实现在我这个也已经远大
于cache。而且请求是random的，故意造成最大cache miss。
因此，我很肯定没大影响。你可以自己改了试试。都不用改程序，-D TRAIN=100000 就
好了。
确保你物理内存够用。否则直接core dump。

【在 w****w 的大作中提到】

: 内存多大？春运算20天罢，把TRAIN改成10万，看看对throughput有没有影响。

w****w
发帖数: 521

找了台10年的老机器E5405 @ 2.00GHz，ubuntu 14.04 VM
ticket pool size改为原来的1/4
TRAINS=5000，SEGMENTS=10，time=31s, memory used=0.6G
TRAINS=100000，SEGMENTS=10，time=70s, memory used=11G
TRAINS=100000，SEGMENTS=20，time=151s, memory used=22G

t**********1
发帖数: 550

所以说，这个要求，10年前就能轻松做到。 :)

【在 w****w 的大作中提到】

: 找了台10年的老机器E5405 @ 2.00GHz，ubuntu 14.04 VM
: ticket pool size改为原来的1/4
: TRAINS=5000，SEGMENTS=10，time=31s, memory used=0.6G
: TRAINS=100000，SEGMENTS=10，time=70s, memory used=11G
: TRAINS=100000，SEGMENTS=20，time=151s, memory used=22G

j******a
发帖数: 100

难道瓶颈不是那个IO单核？

【在 t**********1 的大作中提到】

: 一台E3做服务器，另一台i3做client。
: 不管单TCP还是多TCP，throughput稳定在大约6-7M/s之间。
: 估计1G网络是瓶颈。
: 今晚以前我会放出来的。

T********i
发帖数: 2416

我不认为是IO单核。这个核10G全双工都没问题。
对了10G你帮我测一下。用我最后commit的代码，大约昨晚5:00多那个。
估计跑10M/s没问题。再多了，抢票机单核就到极限了。

【在 j******a 的大作中提到】

: 难道瓶颈不是那个IO单核？

w****w
发帖数: 521

mlockall在VM里lock不住，估计得在host上lock

T********i
发帖数: 2416

VM上这行注释掉，没问题。
要是你VM RAM只有2G，频繁SWAP，就有乐子看了。

【在 w****w 的大作中提到】

: mlockall在VM里lock不住，估计得在host上lock

j******a
发帖数: 100

中午休息的时候，我跑了一下
两台HSX EP的DP
一台2颗CPU是 E5-2699 v3
另一台两颗CPU是 E5-2695 v3
都是8根16G的DDR4 跑1866
10G是X540对联，10G都在头一个CPU上
(client)10.10.172.1《-》10.10.172.2（server)
net/TCP参数我看了下，改了下MTU，其他的没动
netperf -t TCP_STREAM -H 10.10.172.2 -l 10
MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF_INET to 10.10.172.
2 () port 0 AF_INET : demo
Recv Send Send
Socket Socket Message Elapsed
Size Size Size Time Throughput
bytes bytes bytes secs. 10^6bits/sec
87380 16384 16384 10.00 9792.80
因为server只有两个working threads，所以我10.10.172.2关了HT，每个CPU开一个
core，这样可以跑高turbo，
taskset -cp 0 3406
pid 3406's current affinity list: 0,1
pid 3406's new affinity list: 0
taskset -cp 1 3407
pid 3407's current affinity list: 0,1
pid 3407's new affinity list: 1
峰值跑不到8Mt/s,明显CPU0用比较厉害，
watch cat /proc/stat
cpu 446509 0 11326 643305 169 0 6104 0 0 0
cpu0 253237 0 7415 286122 104 0 5594 0 0 0
cpu1 193271 0 3911 357182 65 0 509 0 0 0
我没想明白为什么idle这么高，下了班再看了

相关主题
● dereference a NULL pointer in C	● 大坑看晕了
● Java 问题，请教如何找出一个array里的duplicate segments?	● Goodbug，是不是单机大于1 million/s的I/O你就输了？
● Excel VSTO 4.0 project deveopled in VS2010 migration to VST (转载)	● high performance computer architecture 这课有啥大意义吗
进入Programming版参与讨论

T********i
发帖数: 2416

抢票核任何时候都是100%。
我建议你numactrl确保mem都用同一个numa node看看。

172.

【在 j******a 的大作中提到】

: 中午休息的时候，我跑了一下
: 两台HSX EP的DP
: 一台2颗CPU是 E5-2699 v3
: 另一台两颗CPU是 E5-2695 v3
: 都是8根16G的DDR4 跑1866
: 10G是X540对联，10G都在头一个CPU上
: (client)10.10.172.1《-》10.10.172.2（server)
: net/TCP参数我看了下，改了下MTU，其他的没动
: netperf -t TCP_STREAM -H 10.10.172.2 -l 10
: MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF_INET to 10.10.172.

T********i
发帖数: 2416

你这个配置不对。
我的进程需要至少2个core.
请确保两个core和网卡都在同一个cpu socket上。然后控制numa内存分配也在那个
socket上才是最优的。

172.

【在 j******a 的大作中提到】

j******a
发帖数: 100

是两个core没错，我系统有两个CPU，一个CPU一个core
numa我觉得不是问题，你的memory用度小，我的系统QPI跑9.6G的
你要是担心numa的问题，我可以拿掉一个CPU跑下，但turbo bin会少跑一档，因为要多
加一个core到CPU里

【在 T********i 的大作中提到】

: 你这个配置不对。
: 我的进程需要至少2个core.
: 请确保两个core和网卡都在同一个cpu socket上。然后控制numa内存分配也在那个
: socket上才是最优的。
:
: 172.

T********i
发帖数: 2416

turbo的影响比numa小多了。
这个cache miss很严重的。
你的xeon cache比我的大多了。搞好了应该能超10M/s。

【在 j******a 的大作中提到】

: 是两个core没错，我系统有两个CPU，一个CPU一个core
: numa我觉得不是问题，你的memory用度小，我的系统QPI跑9.6G的
: 你要是担心numa的问题，我可以拿掉一个CPU跑下，但turbo bin会少跑一档，因为要多
: 加一个core到CPU里

j******a
发帖数: 100

10M/s应该没问题，我用的是v3的CPU，上v4的CPU，cache多10M，memory到2400.只是我
的v4最近要release，都在做别的事情

j******a
发帖数: 100

恩，我想这个是很有可能的，45M的L3 cache够不够大我没有把握，要测过才知道

【在 T********i 的大作中提到】

: turbo的影响比numa小多了。
: 这个cache miss很严重的。
: 你的xeon cache比我的大多了。搞好了应该能超10M/s。

j******a
发帖数: 100

我试了没太多差，我猜是cache missing本来就很高了
很容易验证，我可以在你的branch上加些code把cache missing打出来看一下
如果是这样的话，瓶颈应该就在memory了，我的v4全在跑burnin，等过了这阵子我去测
一下ddr 2400

【在 j******a 的大作中提到】

: 恩，我想这个是很有可能的，45M的L3 cache够不够大我没有把握，要测过才知道

T********i
发帖数: 2416

你用numactl把CPU 和memory都限制在同一个numa node上面了？

【在 j******a 的大作中提到】

: 我试了没太多差，我猜是cache missing本来就很高了
: 很容易验证，我可以在你的branch上加些code把cache missing打出来看一下
: 如果是这样的话，瓶颈应该就在memory了，我的v4全在跑burnin，等过了这阵子我去测
: 一下ddr 2400

j******a
发帖数: 100

我拿掉了一颗CPU，没有开COD，整个就是一个SMP

T********i
发帖数: 2416

那看来就这样了。单线程也就8M左右。

【在 j******a 的大作中提到】

: 我拿掉了一颗CPU，没有开COD，整个就是一个SMP

相关主题
● 什么是OS Memory management and heap structure？	● GPU的本质
● 老魏问你个问题	● 為什麼golang algernon比C nginx慢幾十倍？golang行嗎
● 代码开源了	● 说说我以前做的ultra low latency架构吧
进入Programming版参与讨论

j******a
发帖数: 100

我改了我的BIOS把performance bias改到从OS改到BIOS，这样我的BIOS可以override
OS，always turbo,让两个core稳定跑3.5G（因为有两个core，跑不到最高3.6），可以
跑上8M/s了,不换高频CPU/memory，应该是极限了

T********i
发帖数: 2416

赞。这个结果我已经很满意了。
看来要超10M还得多核并行。

【在 j******a 的大作中提到】

: 我改了我的BIOS把performance bias改到从OS改到BIOS，这样我的BIOS可以override
: OS，always turbo,让两个core稳定跑3.5G（因为有两个core，跑不到最高3.6），可以
: 跑上8M/s了,不换高频CPU/memory，应该是极限了

j******a
发帖数: 100

我又仔细调了一下，现在可以到9M/s了
# time counts unit events
3.000105834 1,843,134 LLC-loads
3.000105834 568,715 LLC-loads-misses
6.000348237 98,750,471 LLC-loads
6.000348237 1,804,739 LLC-loads-misses
9.000746193 274,980,789 LLC-loads
9.000746193 5,255,184 LLC-loads-misses
12.000940350 258,626,768 LLC-loads
12.000940350 8,324,724 LLC-loads-misses
Session closed
Session closed
Session closed
Session closed
Session closed
Session closed
15.001277633 32,839,409 LLC-loads
15.001277633 1,686,588 LLC-loads-misses
18.001451881 199,047 LLC-loads
18.001451881 784 LLC-loads-misses

j******a
发帖数: 100

魏老师写的这个短小精悍的程序，真是值得多琢磨

T********i
发帖数: 2416

多劳费心，多谢夸奖。

【在 j******a 的大作中提到】

: 魏老师写的这个短小精悍的程序，真是值得多琢磨

b***i
发帖数: 3043

学到了很多可以提高效率的方法。这些是老魏自己发明的，还是也是学的？
比如
104 for (size_t i=0; i 105 Ticket *cur = &_tickets[i];
106 cur->_next = (cur + 1);
107 }
108 _tickets[n - 1]._next = NULL;

【在 T********i 的大作中提到】

: 多劳费心，多谢夸奖。

g****u
发帖数: 252

你测这些有啥开源软件吗？
我以前用vtune，后来改oprofile，后来改perf. 但是要能直接以lib的形式
链接进去，只测核心代码的话我觉得会很酷。

【在 j******a 的大作中提到】

: 我又仔细调了一下，现在可以到9M/s了
: # time counts unit events
: 3.000105834 1,843,134 LLC-loads
: 3.000105834 568,715 LLC-loads-misses
: 6.000348237 98,750,471 LLC-loads
: 6.000348237 1,804,739 LLC-loads-misses
: 9.000746193 274,980,789 LLC-loads
: 9.000746193 5,255,184 LLC-loads-misses
: 12.000940350 258,626,768 LLC-loads
: 12.000940350 8,324,724 LLC-loads-misses

j******a
发帖数: 100

就拿38F/186/c1几个MSR写写，几行code的事情，intel SDM 19章写得不清不楚，拿
perf的code当event tables

【在 g****u 的大作中提到】

: 你测这些有啥开源软件吗？
: 我以前用vtune，后来改oprofile，后来改perf. 但是要能直接以lib的形式
: 链接进去，只测核心代码的话我觉得会很酷。

(共1页)

进入Programming版参与讨论

相关主题
● 為什麼golang algernon比C nginx慢幾十倍？golang行嗎	● 我的原帖在这里
● 说说我以前做的ultra low latency架构吧	● dereference a NULL pointer in C
● Question about Base Tag...	● Java 问题，请教如何找出一个array里的duplicate segments?
● How to get local hostname under linux?	● Excel VSTO 4.0 project deveopled in VS2010 migration to VST (转载)
● 10G网络到了	● 大坑看晕了
● 求推荐一个真心交流技术的地方	● Goodbug，是不是单机大于1 million/s的I/O你就输了？
● socket re-connection problem	● high performance computer architecture 这课有啥大意义吗
● C10M 练习2：空TCP 连接，1M per 4G RAM	● 什么是OS Memory management and heap structure？

相关话题的讨论汇总
话题: llc话题: loads话题: cpu话题: session话题: misses

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天