p******e 发帖数: 528 | 1 我知道ECC内存原则上要比一般内存更稳定,而且错误要少。但是我想知道是不是
对于科学计算,我们必须得用ECC内存。换句话说,如果不用ECC内存,会不会说
计算出了错误,而我根本就没法察觉出来呢?
我之所以会有这个问题,是想知道非ECC内存究竟有多不稳定?或者说非ECC内存
会不会产生不可察觉的计算错误。比方说我在一个有ECC内存的服务器上进行计算。
然后把这个结果下载并显示在自己的笔记本上。由于我的笔记本没有ECC内存,
会不会导致在笔记本上的信息产生随机的错误呢?要是非ECC内存真的这么不稳定,
岂不是说我在这个技术的每个环节上都得用服务器才行了吗? |
J*******i 发帖数: 2162 | 2 概率问题吧
比如一个计算持续了一个月才得到最终结果,那么产生错误的概率就比较高
你仅仅拷一下数据最多几个小时,出错的概率还是很低的
ECC的重要性就是把这一个月的计算的出错率大幅降低 |
a*****s 发帖数: 2663 | 3 折腾几个小时的东西,你可以轻松再花几个小时confirm一下。折腾几周数月才能出的
结果还是小心为妙。所以归根结底看你干嘛用。 |
d***a 发帖数: 13752 | 4 最近有过一个在Google data center做的研究,发现内存出错
的概率很高,平均每天每个内存条会出多个错误。后来也有意见
说可能没有那么高,但出错率高是肯定的。
除了内存之外,CPU也是重要环节。Xeon处理器比非Xeon处理器
出错率要低得多,所以比较重要的计算,应该放到服务器上去做。
【在 p******e 的大作中提到】 : 我知道ECC内存原则上要比一般内存更稳定,而且错误要少。但是我想知道是不是 : 对于科学计算,我们必须得用ECC内存。换句话说,如果不用ECC内存,会不会说 : 计算出了错误,而我根本就没法察觉出来呢? : 我之所以会有这个问题,是想知道非ECC内存究竟有多不稳定?或者说非ECC内存 : 会不会产生不可察觉的计算错误。比方说我在一个有ECC内存的服务器上进行计算。 : 然后把这个结果下载并显示在自己的笔记本上。由于我的笔记本没有ECC内存, : 会不会导致在笔记本上的信息产生随机的错误呢?要是非ECC内存真的这么不稳定, : 岂不是说我在这个技术的每个环节上都得用服务器才行了吗?
|
t*****z 发帖数: 1598 | 5 Xeon出错率低是什么原因?Xeon和Core的本质上不是一样的芯片吗?
【在 d***a 的大作中提到】 : 最近有过一个在Google data center做的研究,发现内存出错 : 的概率很高,平均每天每个内存条会出多个错误。后来也有意见 : 说可能没有那么高,但出错率高是肯定的。 : 除了内存之外,CPU也是重要环节。Xeon处理器比非Xeon处理器 : 出错率要低得多,所以比较重要的计算,应该放到服务器上去做。
|
N**D 发帖数: 10322 | 6 质量好。
质量好的是xeon, 差点的是core
当然都是合格品
【在 t*****z 的大作中提到】 : Xeon出错率低是什么原因?Xeon和Core的本质上不是一样的芯片吗?
|
p******e 发帖数: 528 | 7 其实这是个有意思的问题。这些由于内存和cpu造成的错误是不是几乎不可觉察呢?
换句话说大部分情况下这些错误不会造成系统直接down掉。因为我自己一般在工作
中用的普通台式机也是24x7的开着,如果每天在内存或cpu中都会出现一些随机的
错误,那么我的台式机为什么不会经常自己down掉呢?
另外还有一点,我们用木桶理论,一个木桶能装的水是由最短的木棍所决定的,那么
会不会出现说最后出错的瓶颈不在内存而在其他地方呢?比方说一个银行为了系统
稳定而用服务器来存储数据,但是在具体的某个branch里的工作人员用的是普通
的pc(这个只是猜测。)结果服务器上正确的数据由于client上的错误而导致了
最后的显示是不正确的,那岂不是说在server端所做的努力都废掉了吗?
【在 d***a 的大作中提到】 : 最近有过一个在Google data center做的研究,发现内存出错 : 的概率很高,平均每天每个内存条会出多个错误。后来也有意见 : 说可能没有那么高,但出错率高是肯定的。 : 除了内存之外,CPU也是重要环节。Xeon处理器比非Xeon处理器 : 出错率要低得多,所以比较重要的计算,应该放到服务器上去做。
|
d***a 发帖数: 13752 | 8 Xeon内部的寄存器和高速缓存有ECC保护,非Xeon的处理器是没有的。还有一些别的检
错和纠错的功能。
【在 t*****z 的大作中提到】 : Xeon出错率低是什么原因?Xeon和Core的本质上不是一样的芯片吗?
|
d***a 发帖数: 13752 | 9 一次出错只有一个bit的错误。对绝大多数的计算应用来说,程序的代码小,数据量大
。比如说做矩阵运算,代码量可以小到1MB以下,数据量可以达到若干个GB。数据出错
(非指针)不会让程序crash。如果代码出错,出错的代码并不一定会被执行,或者执
行了也不一定就crash。
在非服务器级机器上,也是有软件方法,以损失性能的方式增加可靠性。最简单的办法
,是把所有的计算做两次(或三次)。实际上现在有些高性能计算的任务,在服务器上
都选择这样来做,进一步提高可靠性。
有很多玩家喜欢把desktop级的处理器拿来超频。在实际的高性能计算中,超频是从来
不用的,会大大增加出错的风险。
【在 p******e 的大作中提到】 : 其实这是个有意思的问题。这些由于内存和cpu造成的错误是不是几乎不可觉察呢? : 换句话说大部分情况下这些错误不会造成系统直接down掉。因为我自己一般在工作 : 中用的普通台式机也是24x7的开着,如果每天在内存或cpu中都会出现一些随机的 : 错误,那么我的台式机为什么不会经常自己down掉呢? : 另外还有一点,我们用木桶理论,一个木桶能装的水是由最短的木棍所决定的,那么 : 会不会出现说最后出错的瓶颈不在内存而在其他地方呢?比方说一个银行为了系统 : 稳定而用服务器来存储数据,但是在具体的某个branch里的工作人员用的是普通 : 的pc(这个只是猜测。)结果服务器上正确的数据由于client上的错误而导致了 : 最后的显示是不正确的,那岂不是说在server端所做的努力都废掉了吗?
|
a*o 发帖数: 19981 | 10 我等屌丝对偶尔出个错啥的不是很怕,但是对超频带来的快感那是相当的享受。
来不用的,会大大增加出错的风险。
【在 d***a 的大作中提到】 : 一次出错只有一个bit的错误。对绝大多数的计算应用来说,程序的代码小,数据量大 : 。比如说做矩阵运算,代码量可以小到1MB以下,数据量可以达到若干个GB。数据出错 : (非指针)不会让程序crash。如果代码出错,出错的代码并不一定会被执行,或者执 : 行了也不一定就crash。 : 在非服务器级机器上,也是有软件方法,以损失性能的方式增加可靠性。最简单的办法 : ,是把所有的计算做两次(或三次)。实际上现在有些高性能计算的任务,在服务器上 : 都选择这样来做,进一步提高可靠性。 : 有很多玩家喜欢把desktop级的处理器拿来超频。在实际的高性能计算中,超频是从来 : 不用的,会大大增加出错的风险。
|
|
|
d***a 发帖数: 13752 | 11 那是...超频确实是很有意思的事情。不少做硬件的人也喜欢做,虐待一下处理器。:)
对有些应用,超频是可以的。比如说搞搞video encoding,处理照片什么的,出几个
bit的错也不怕。
【在 a*o 的大作中提到】 : 我等屌丝对偶尔出个错啥的不是很怕,但是对超频带来的快感那是相当的享受。 : : 来不用的,会大大增加出错的风险。
|
m*****n 发帖数: 3644 | 12 xeon也可以超。
【在 a*o 的大作中提到】 : 我等屌丝对偶尔出个错啥的不是很怕,但是对超频带来的快感那是相当的享受。 : : 来不用的,会大大增加出错的风险。
|
l*****e 发帖数: 227 | 13 如果ECC和Non-ECC内存混用,ECC将失效。
请问如果Non-ECC内存和Xeon混用,Xeon的ECC等纠错功能还会有效吗?
另外registered,unbuffered这些区别很大吗?
想作电路模拟,TCAD simulation ECC内存是否很关键? |
m*****n 发帖数: 3644 | 14 那我不超频,CPU换个强大点的散热器,内存也全贴上散热片,也可以大大减少出错的
风险了。这个成本比换Xeon低多了
【在 d***a 的大作中提到】 : 一次出错只有一个bit的错误。对绝大多数的计算应用来说,程序的代码小,数据量大 : 。比如说做矩阵运算,代码量可以小到1MB以下,数据量可以达到若干个GB。数据出错 : (非指针)不会让程序crash。如果代码出错,出错的代码并不一定会被执行,或者执 : 行了也不一定就crash。 : 在非服务器级机器上,也是有软件方法,以损失性能的方式增加可靠性。最简单的办法 : ,是把所有的计算做两次(或三次)。实际上现在有些高性能计算的任务,在服务器上 : 都选择这样来做,进一步提高可靠性。 : 有很多玩家喜欢把desktop级的处理器拿来超频。在实际的高性能计算中,超频是从来 : 不用的,会大大增加出错的风险。
|
d***a 发帖数: 13752 | 15 CPU的出错概率和温度有关,但低温下一样出错。
内存的出错概率和温度没有强关联,至少目前为止的研究没有证实。
【在 m*****n 的大作中提到】 : 那我不超频,CPU换个强大点的散热器,内存也全贴上散热片,也可以大大减少出错的 : 风险了。这个成本比换Xeon低多了
|
k*h 发帖数: 3668 | 16 呃,你这个想法太奇特了。
出错率是个概率,如果XEON的概率是10E(-20),core是10E(-10),然后每降10度,出错
率降一个量级,那core系芯片再怎么散热也赶不上XEON。再说了,core系cpu可以贴散
热片,XEON也可以呀。
当然这些数字都是我瞎说的,只是个大概idea而已。没有官方公布的错误率和温度的关
系(估计也很难测),很难量化差距。对计算精度有要求的,相当于就是花钱买个安心
,尽可能地降低错误率。
【在 m*****n 的大作中提到】 : 那我不超频,CPU换个强大点的散热器,内存也全贴上散热片,也可以大大减少出错的 : 风险了。这个成本比换Xeon低多了
|
a***e 发帖数: 27968 | 17 CPU出错概率不大,比内存小多了
内存的概率大多了,挡不住量大
Dram还不是双稳电路
也看你算法,搞蒙特卡罗错点
也就是outlier
【在 m*****n 的大作中提到】 : 那我不超频,CPU换个强大点的散热器,内存也全贴上散热片,也可以大大减少出错的 : 风险了。这个成本比换Xeon低多了
|