c***d 发帖数: 996 | 1 ☆─────────────────────────────────────☆
digital (你是疯儿我是傻?) 于 (Sun Aug 12 06:09:43 2007) 提到:
我原来的分析不是很严谨,现修改重发如下:
前面看到有人说浮点数计算和underflow的问题,
说是两个相近的浮点数相减不好,有人说会产生underflow,
有人说会损失有效数字(精度)。
http://www.mitbbs.com/article_t/Programming/24172384.html
我觉得是相近的数相减只有在很小的范围内才可能发生下溢出。
相反,我觉得浮点数的underflow更多可能是由除法(或者小数点
相对向左移动)导致的吧,因为除法直接导致指数部分的相减,
减到运算结果的指数部分那个整数的补码表示首位变正产生下溢。
而加减法,则是指数部分小的那个数要损失有效数字(精度)的。
而且是两个数字相差越大的话,那个小的数字的精度损失越严重。
反而是两个数字越相近的话,他们的减法运算的有效数字位数
的损失越小吧。我觉得通常要"舍”也是舍小的那个数。
同等精度的浮点数做加减,其 |
|
O*******d 发帖数: 20343 | 2 浮点数计算结果判断,不要用==。 一般用一个小范围来判断。两个相同值的浮点数相
加,和同一个值的浮点数乘以2,结果一般不会一样的。 就是a + a一般不等于 a * 2.
0, 但结果非常接近。 a - a不一定是0,但非常接近0。 我以前用过一个compiler,
写的程序运行结果预期是0的,变成一个几千次方的极大数。原因是指数部分从极负变
成极正。 类似例子是8bit的整数减法,-127 - 1 == 128. |
|
r**h 发帖数: 1288 | 3 比较浮点数不能用 ==
这个是常识了吧。。。
要判断两个浮点数相等,应该用(f1-f2) |
|
s****r 发帖数: 37 | 4 你用过NV的Kepler作过计算吗?NV从没有敢公布过Kepler的双精度
浮点计算性能。实测AMD 7970的双精度浮点计算性能至少比Kepler快
5倍。 |
|
s*****k 发帖数: 604 | 5 碰到一个非常困惑的问题
比如有一个浮点正数数组a[],
然后我通过一个for循环找到这个数组里面最小的数,
赋值为b,
然后for循环把a里每个数都减去这个b,
得到新的a.
那么这a[]里面一定有一个为0.0
我用 a[i]==0.0 来找这个index i,
发现有时候找不到,原来有时候减完b后
的a[]本来应该为0.0的那个数是一个非常小的数,而不等于0.0
请问有经验的人说说这个是我的程序出错呢,
还是新的那个a[]里最小的那个数有可能不等于0
浮点数运算难道 会有 a-a 不等于0的情况吗? |
|
s*****k 发帖数: 604 | 6 刚才找到了一篇讲float-point arithmetic
的文章,在这里
http://hal.archives-ouvertes.fr/hal-00128124/en/
没工夫细看。但是下面这段话(在第二页)
里面讲的浮点计算的pitfall可能好多人都不知道
第二条说浮点计算不是deterministic的。
这让我想起以前好像看一个c faq里面说
计算sin(x)也不是deterministic,也就是说你在程序的两个地方
对同一个x算sin(x)的值是不一样的,当时没看懂。
我以前只当float计算就是要注意rounding error,
用abs(x-y)
现在看来好像不是
Despite, or perhaps because of, the prevalence of “IEEE-compliant” systems,
there exist a number of myths of what IEEE-compliance really entails from
the
point of vie |
|
p*********w 发帖数: 23432 | 7 你就先反过来,看看带小数的浮点数的表达方式
比如第一个 0.647,转换成浮点数是什么样的。
然后和第一排的数字对比一下,也许就有结果了。 |
|
w*******x 发帖数: 489 | 8 【 以下文字转载自 Computation 讨论区 】
发信人: woshialex (Qi), 信区: Computation
标 题: 有人知道浮点数的压缩算法吗?有损也没关系
发信站: BBS 未名空间站 (Sat Oct 23 10:12:16 2010, 美东)
我的问题里头内存严重不够用,所以需要把很多浮点数数组(单精度吧)压缩,然后调
用的时候在内存里头一个数组一个数
组的解压缩。
有人知道有效的算法吗?能压缩几倍?即使适当的loss也没关系。数据有大片区域比较
平滑。
谢谢! |
|
y****g 发帖数: 36950 | 9 聪明的程度决定浮点数精确多少位,属于战术范畴。
智慧是通过模糊的估算迅速判断出今后很长一段时间的利益得失。
很会下棋的人背棋谱,精确到每一步的计算,但是不敢在棋局上用模糊的概念来判断得
失,但是人生比棋局复杂很多,没办法每一步都能计算出来,所以只能靠模糊的判断。
比如是否出国,选择专业等等。
按照下棋的方式判断人生,往往会人算不如天算。 |
|
w*****s 发帖数: 2896 | 10 愚公高见。
提高浮点运算速度,容易啊,计算机速度每两年翻一翻,摩尔定律。
模糊决策,人工智能有大的进展了吗?没有!
机器人比以前的聪明了,是因为里面的计算机处理器运算速度快了,很多以前不能运行
的算法都可以秒速实现了。但人工智能根本没有实质的突破,也就是学习学习再学习,
但算法还是一样的。 |
|
P**********n 发帖数: 6311 | 11 【 以下文字转载自 PKU 讨论区 】
发信人: Powerstation (彼岸§小筑云天), 信区: PKU
标 题: 现在浮点运算最好的CPU是啥?
发信站: BBS 未名空间站 (Mon May 7 22:42:36 2012, 美东)
当年 AMD 好过 Intel
现在呢?
各种 benchmark 都没这方面的比较
俺现在需要能疯跑 Fortran/C 还有 Matlab 的机器 |
|
t*****x 发帖数: 3 | 12 我不会java,但由于项目需要在编一个java程序。需要把浮点型
变量进行强制类型转换成字符串。
请各位高手指点,应该如何做?
谢谢! |
|
w******t 发帖数: 241 | 13 【 以下文字转载自 CS 讨论区 】
发信人: webcraft (此处不留爷,自有留爷处;处处不留爷,爷, 信区: CS
标 题: 问一个C语言中整型和浮点运算的问题
发信站: BBS 未名空间站 (Fri Nov 27 21:50:12 2009, 美东)
想取一个0-1之间随机数(0.1为单位)。
(rand()%10)/10之后老是不对,无论在哪里加上float的强制转换符都不行。每次
都会出现1.000001或者3.99999999之类的数值,而不是我想要的0.1或者0.4。不知道有
没有什么解决方法。谢谢 |
|
U********d 发帖数: 577 | 14 浮点判零是一个经典问题啊,一定不能a==0.0,应该用类似于if(a<10e-20 && a>-10e-
20)的条件判断。
至于原因嘛……嘿嘿,不说。 |
|
|
a****l 发帖数: 8211 | 16 正如大家猜测的,原因是有其他的中间过程,你的"抽象"其实就把浮点的问题给抽象掉了. |
|
a****l 发帖数: 8211 | 17 其实他的结论"同一个计算的结果可能是不同的"又对又不对.的确,x+y=z即使x,y是相同
的结果z也可能是不同的,但是原因是源代码和执行代码的区别,而不是说浮点计算的结
果在不同的时候会不同(针对硬件出来的结果而言).他说了很多时间,其实就是说,不要
光看源代码就说"计算值应该是多少"或者说"程序的路径应该是怎样的",因为有很多东
西可能会让这东西变化. |
|
h****r 发帖数: 2056 | 18 如果有很多浮点除法运算, Newton–Raphson division就很有帮助了。
也可以事先生成reciprocal表,然后就简单了。 |
|
|
F**p 发帖数: 1046 | 20 build target应该和浮点运算没有关系吧。 |
|
F**p 发帖数: 1046 | 21 这不是dot net的问题,是我程序的问题。因为我另外开一个vs的窗口,结果和你的一
样。
我只是不知道vs里面有什么设置,能影响到缺省的浮点存储/运算方式。 |
|
t****t 发帖数: 6806 | 22 我不懂C#, 不过很显然这是浮点精度不同的结果. 写了个小程序做试验:
#include
double mul(double a, double b); // return a*b, in another compilation unit
int main(int argc, char **argv)
{
printf("12.6 * 0.11985 = %20.18fn", mul(12.6, 0.11985));
printf("float(12.6 * 0.11985) = %20.18fn", (float)mul(12.6, 0.11985));
printf("12.6f * 0.11985 = %20.18fn", mul(12.6f, 0.11985));
printf("float(12.6f * 0.11985) = %20.18fn", (float)mul(12.6f, 0.11985));
printf("12.6 * 0.11985f = %20.18fn", mul(12.6, 0.11985f)... 阅读全帖 |
|
F**p 发帖数: 1046 | 23 谢大牛啊,终于能reproduce了。
不过这样的情况,不明白到底什么地方会强制double转换到float呢?VS里面对Build的
config没多少,更没有对浮点运算做设置的地方。还是c#的compiler因为内存的问题,
在某种情况下,自动用float来代表double?
); |
|
t******r 发帖数: 16 | 24 一个项目中的卡壳问题:
从通讯设备我收到一些数据。现在知道左边一栏是16进制浮点数, 右边一栏是相应的
十进制数值
3F25A1CB4007DF3B 0.647
3F25604240079DB2 0.646
3F1DB22D40015810 0.616
3F10A3D73FED4FDF 0.565
3F0F5C293FEB22D1 0.560
3F0CCCCD3FE6E979 0.550
3F0A3D713FE2D0E5 0.540
问题是:怎么以左边的数为输入而得到右边的值?
我觉得左边一列其实是两组数值:
3F25A1CB 4007DF3B 0.647 2.123
3F256042 40079DB2 0.646 2.119
3F1DB22D 40015810 0.616 2.021
3F10A3D7 3FED4FDF 0.565 1.854
3F0F5C29 3FEB22D1 0.560 1.837
3F0CCCCD 3FE6E979 0.550 1.804
3F0A3D71 3FE2D0E5 |
|
w*******x 发帖数: 489 | 25 我的问题里头内存严重不够用,所以需要把很多浮点数数组(单精度吧)压缩,然后调
用的时候在内存里头一个数组一个数
组的解压缩。
有人知道有效的算法吗?能压缩几倍?即使适当的loss也没关系。数据有大片区域比较
平滑。
谢谢! |
|
|
y*z 发帖数: 3244 | 27 2015年4月,美国商务部决定对中国四家国家超级计算机中心禁售至强PHI计算卡,当时
各种唱衰中国超算的声音不绝于耳。即便天河2号在2015年国际超级计算机大会上蝉联5
连冠,但因使用美国Intel公司的CPU而饱受一些别有用心之人的诟病,不少人声称没有
美国的CPU,天河2号要完蛋了。
现实却截然相反:
在ISC 2015发布会上,国防科大公布天河2A的升级方案,将采用国防科大自主研发的矩
阵2000(GPDSP)替代至强PHI计算卡。矩阵2000采用40nm制程,拥有16核,主频1G,双
精浮点2.4TFlops,功耗为200W。
新年伊始,从科技部公开的文章中透露出好消息——由上海高性能集成电路设计中心设
计的国产众核芯片已达到世界先进水平(美国情报部门对该芯片非常感兴趣,因此笔者
将其称为国产众核芯片)。该众核芯片采用28nm制程,峰值双精度浮点运算速度超过每
秒3万亿次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的众核芯片
)——第二代至强PHI计算卡产品代号“Knights Landing”,采用了14nm工艺,双精度
浮点性能超过3T... 阅读全帖 |
|
y*z 发帖数: 3244 | 28 2015年4月,美国商务部决定对中国四家国家超级计算机中心禁售至强PHI计算卡,当时
各种唱衰中国超算的声音不绝于耳。即便天河2号在2015年国际超级计算机大会上蝉联5
连冠,但因使用美国Intel公司的CPU而饱受一些别有用心之人的诟病,不少人声称没有
美国的CPU,天河2号要完蛋了。
现实却截然相反:
在ISC 2015发布会上,国防科大公布天河2A的升级方案,将采用国防科大自主研发的矩
阵2000(GPDSP)替代至强PHI计算卡。矩阵2000采用40nm制程,拥有16核,主频1G,双
精浮点2.4TFlops,功耗为200W。
新年伊始,从科技部公开的文章中透露出好消息——由上海高性能集成电路设计中心设
计的国产众核芯片已达到世界先进水平(美国情报部门对该芯片非常感兴趣,因此笔者
将其称为国产众核芯片)。该众核芯片采用28nm制程,峰值双精度浮点运算速度超过每
秒3万亿次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的众核芯片
)——第二代至强PHI计算卡产品代号“Knights Landing”,采用了14nm工艺,双精度
浮点性能超过3T... 阅读全帖 |
|
C*****5 发帖数: 8812 | 29 【 以下文字转载自 Military 讨论区 】
发信人: yjz (研究组), 信区: Military
标 题: 铁流:中国超算芯片是怎样一步步追上英特尔的
发信站: BBS 未名空间站 (Thu Jan 28 13:24:32 2016, 美东)
2015年4月,美国商务部决定对中国四家国家超级计算机中心禁售至强PHI计算卡,当时
各种唱衰中国超算的声音不绝于耳。即便天河2号在2015年国际超级计算机大会上蝉联5
连冠,但因使用美国Intel公司的CPU而饱受一些别有用心之人的诟病,不少人声称没有
美国的CPU,天河2号要完蛋了。
现实却截然相反:
在ISC 2015发布会上,国防科大公布天河2A的升级方案,将采用国防科大自主研发的矩
阵2000(GPDSP)替代至强PHI计算卡。矩阵2000采用40nm制程,拥有16核,主频1G,双
精浮点2.4TFlops,功耗为200W。
新年伊始,从科技部公开的文章中透露出好消息——由上海高性能集成电路设计中心设
计的国产众核芯片已达到世界先进水平(美国情报部门对该芯片非常感兴趣,因此笔者
将其称为国产众核芯片)。该众核芯片采用28nm... 阅读全帖 |
|
c***n 发帖数: 2232 | 30 胡伟武
2016年是红军长征胜利80周年,2016年研制成功的龙芯3A3000处理器即以CZ80命名,每
颗芯片的硅片上都刻有CZ80字样。
1936年10月,红一、二、四方面军经过艰苦卓绝的努力,三大主力会师,开创了中国革
命的新局面。它雄辩地表明,只要坚持理想,实事求是,中国共产党完全有能力摧坚于
正锐、挽澜于极危,从重大挫折中走出来。
2016年10月,以长征胜利80周年命名为CZ80的龙芯3A3000处理器研制成功。它雄辩地表
明,只要坚持自主研发,进行持续改进,自主研发的CPU性能完全可以超过引进技术的
CPU,满足自主信息化需求。
2016年10月7日,我怀着虔诚的心情走进毛主席纪念堂,向毛主席汇报龙芯3A3000的研
制成功。步出毛主席纪念堂,我感慨万千。当十年前我开始龙芯3号研制时,完全没有
想到龙芯3号系列CPU发展道路之曲折,奋斗之艰辛,付出之巨大。
2006年9月13日,以长征胜利70周年命名为CZ70的龙芯2E通过科技部组织的验收,时任
科技部部长徐冠华亲自参加了龙芯2E的验收会。龙芯2E的研制是“十五”末国家863计
划紧急安排的一个任务。当时“汉芯”造假事件... 阅读全帖 |
|
发帖数: 1 | 31 2016年是红军长征胜利80周年,2016年研制成功的龙芯3A3000处理器即以CZ80命名,每
颗芯片的硅片上都刻有CZ80字样。
1936年10月,红一、二、四方面军经过艰苦卓绝的努力,三大主力会师,开创了中国革
命的新局面。它雄辩地表明,只要坚持理想,实事求是,中国共产党完全有能力摧坚于
正锐、挽澜于极危,从重大挫折中走出来。
2016年10月,以长征胜利80周年命名为CZ80的龙芯3A3000处理器研制成功。它雄辩地表
明,只要坚持自主研发,进行持续改进,自主研发的CPU性能完全可以超过引进技术的
CPU,满足自主信息化需求。
2016年10月7日,我怀着虔诚的心情走进毛主席纪念堂,向毛主席汇报龙芯3A3000的研
制成功。步出毛主席纪念堂,我感慨万千。当十年前我开始龙芯3号研制时,完全没有
想到龙芯3号系列CPU发展道路之曲折,奋斗之艰辛,付出之巨大。
2006年9月13日,以长征胜利70周年命名为CZ70的龙芯2E通过科技部组织的验收,时任
科技部部长徐冠华亲自参加了龙芯2E的验收会。龙芯2E的研制是“十五”末国家863计
划紧急安排的一个任务。当时“汉芯”造假事件被曝光,... 阅读全帖 |
|
v*******e 发帖数: 11604 | 32 【 以下文字转载自 Military 讨论区 】
发信人: colon (航空报国), 信区: Military
标 题: 我们的龙芯3号---致龙芯15周年
发信站: BBS 未名空间站 (Sat Oct 22 15:48:14 2016, 美东)
胡伟武
2016年是红军长征胜利80周年,2016年研制成功的龙芯3A3000处理器即以CZ80命名,每
颗芯片的硅片上都刻有CZ80字样。
1936年10月,红一、二、四方面军经过艰苦卓绝的努力,三大主力会师,开创了中国革
命的新局面。它雄辩地表明,只要坚持理想,实事求是,中国共产党完全有能力摧坚于
正锐、挽澜于极危,从重大挫折中走出来。
2016年10月,以长征胜利80周年命名为CZ80的龙芯3A3000处理器研制成功。它雄辩地表
明,只要坚持自主研发,进行持续改进,自主研发的CPU性能完全可以超过引进技术的
CPU,满足自主信息化需求。
2016年10月7日,我怀着虔诚的心情走进毛主席纪念堂,向毛主席汇报龙芯3A3000的研
制成功。步出毛主席纪念堂,我感慨万千。当十年前我开始龙芯3号研制时,完全没有
想到龙芯3号系列CPU发展道... 阅读全帖 |
|
c***l 发帖数: 2490 | 33 一直一来,缺芯少魂一直是中国信息产业的心病,中国的CPU市场也一直被Intel、ARM
等国外厂商垄断,龙芯、申威、飞腾等国产CPU在社会上也往往遭到别有用心之徒诸如
“打磨芯片”、“骗经费”、“政绩工程”等舆论抨击。不久前,采用申威26010的神
威太湖之光在TOP500刷榜,飞腾也公布了采用ARM指令集的飞腾1500A和飞腾2000,龙芯
的3A3000也顺利完成流片,那么这些国产CPU的性能到底如何呢?
如何评价CPU
如何评价CPU的性能呢?从体系结构的角度来看,有个指标叫MIPS,即每分钟执行多少
条指令,执行指令数量越多,性能就越好,但这存在一个问题,当CPU指令集不同的时
候,比较MIPS就意义不大了——比如A一条指令只算一个加法,B一条指令能做一个1024
点的FFT。特别是在不同指令集的情况下,如何评价CPU的性能呢?
评价CPU性能必须考虑应用的多样性,比如科学运算重视双精浮点性能,但是如果数据
供不上,运算能力再强也没用;比如PC日常使用更偏重于定点性能;再比如计算中心多
任务环境关注的是吞吐率......因此单纯用某一个指标来衡量CPU性能是不科学的,必
须综合... 阅读全帖 |
|
f***y 发帖数: 4447 | 34 http://laoyaoba.com/ss6/html/66/n-570666.html
在刚刚结束的Hotchips 2015会议上,一家成立不久的中国企业公布了一颗代号”火星
”的ARM指令集64核心处理器。令人震惊的是,这颗由中国团队开发的CPU拥有媲美
Intel公司最顶级服务器芯片的性能,毫无疑问是目前ARM阵营最强大的处理器。
Phytium,中文名飞腾,是一家成立于2012年的年轻CPU研发企业。然而光是从公司名称
和所在地——广州,我们就可以知道这家企业的真实身份。飞腾公司是中国国防科技大
学高性能处理器研究团队建立的企业,而国防科大在IT界最为人熟知的作品就是天河2A
超级计算机——连续五届夺得世界超算排行榜性能冠军。天河2A的部分芯片采用了国防
科大自主开发的Sparc指令集CPU,飞腾1500。显然,飞腾公司的名称就是取自这款产品
。公司选址在广州也是为了靠近广州超级计算中心,也就是天河2A的所在地。
与中科院计算所知名的龙芯处理器团队不同,国防科大的CPU研发机构在公众眼中没什
么名气。事实上,早在十年前业内就有传闻指国防科大正在逆向山寨Intel的IA64体... 阅读全帖 |
|
x*******6 发帖数: 994 | 35 在刚刚结束的Hotchips 2015会议上,一家成立不久的中国企业公布了一颗代号“火星
”的ARM指令集64核心处理器。令人震惊的是,这颗由中国团队开发的CPU拥有媲美
Intel公司最顶级服务器芯片的性能,毫无疑问是目前ARM阵营最强大的处理器。
Phytium,中文名飞腾,是一家成立于2012年的年轻CPU研发企业。然而光是从公司
名称和所在地——广州,我们就可以知道这家企业的真实身份。飞腾公司是中国国防科
技大学高性能处理器研究团队建立的企业,而国防科大在IT界最为人熟知的作品就是天
河2A超级计算机——连续五届夺得世界超算排行榜性能冠军。天河2A 的部分芯片采用
了国防科大自主开发的Sparc指令集CPU,飞腾1500。显然,飞腾公司的名称就是取自这
款产品。公司选址在广州也是为了靠近广州超级计算中心,也就是天河2A的所在地。
与中科院计算所知名的龙芯处理器团队不同,国防科大的CPU研发机构在公众眼中
没什么名气。事实上,早在十年前业内就有传闻指国防科大正在逆向山寨Intel的IA64
体系处理器安腾。后来安腾CPU在市场上举步维艰,NUDT(国防科大英文缩写)也停止
了对其... 阅读全帖 |
|
g*********n 发帖数: 808 | 36 在刚刚结束的Hotchips 2015会议上,一家成立不久的中国企业公布了一颗代号“火星
”的ARM指令集64核心处理器。令人震惊的是,这颗由中国团队开发的CPU拥有媲美
Intel公司最顶级服务器芯片的性能,毫无疑问是目前ARM阵营最强大的处理器。
Phytium,中文名飞腾,是一家成立于2012年的年轻CPU研发企业。然而光是从公司
名称和所在地——广州,我们就可以知道这家企业的真实身份。飞腾公司是中国国防科
技大学高性能处理器研究团队建立的企业,而国防科大在IT界最为人熟知的作品就是天
河2A超级计算机——连续五届夺得世界超算排行榜性能冠军。天河2A 的部分芯片采用
了国防科大自主开发的Sparc指令集CPU,飞腾1500。显然,飞腾公司的名称就是取自这
款产品。公司选址在广州也是为了靠近广州超级计算中心,也就是天河2A的所在地。
与中科院计算所知名的龙芯处理器团队不同,国防科大的CPU研发机构在公众眼中
没什么名气。事实上,早在十年前业内就有传闻指国防科大正在逆向山寨Intel的IA64
体系处理器安腾。后来安腾CPU在市场上举步维艰,NUDT(国防科大英文缩写)也停止
了对其... 阅读全帖 |
|
发帖数: 1 | 37 美国能源部下属橡树岭国家实验室(ORNL)6月8日发布新一代超级计算机“顶点”(
Summit),其浮点运算速度峰值达每秒20亿亿次(200PFlops),性能超过此前世界最强
的中国超算“神威·太湖之光”(浮点运算峰值每秒12.5亿亿次)约60%,将帮助美国
问鼎阔别近5年之久的全球超算500强榜单。
超算技术长期来被视为一个国家创新能力乃至综合国力的象征,在诸如天气预报、生命
科学的基因分析、核工业、军事、航天等高科技领域发挥着至关重要的作用,因此也成
为大国角力的擂台,当前竞争趋向白热化。
不过,美国“顶点”即将引领的是十亿亿次级别的争夺,而百亿亿次的“E级超算”被
公认为“超算界的下一顶皇冠”,目前中、美、欧、日四强正在卯足劲向这一目标冲刺。
上月,我国在国家超算天津中心发布我国新一代百亿亿次(1000PFlops)超级计算机“
天河三号”原型机,目前其综合运算能力与‘天河一号’相当,该原型机将于今年6月
部署,年底正式投入使用。完整版的“天河三号”将在2020年交付,在进度上比对手暂
时领先。
时隔5年,美国将重夺最强超算宝座
橡树岭国家实验室称,“顶点”使用了4608个计算... 阅读全帖 |
|
y*d 发帖数: 2226 | 38 一、申威CPU Architecture分析
现在的新闻没有公布细节,但可以毛算一下这个CPU是啥样子的:
峰值速度1070万亿次,8704片cpu,16core
平均每core大约77亿FLOPS
目前cpu频率大约在1G 2G 3G这种水平,考虑到神威的低功耗(后面详细讲)
主频应小于2G
按2G算就是每指令周期做39次单精浮点计算
我估计最有可能的是,主频1.2G,每个周期64个浮点运算 (算下来大约是76.8亿FLOPS)
和天河一号用的nVidia Tesla M2050 GPU对比一下
2050有16个SM,每个SM每周期也是可以做64个浮点运算,主频1.15G
申威CPU 16个Core,每core 64个浮点运算,主频1.2G
可以看出在计算单元配置和主频选择上,申威和Fermi Tesla基本一样
但是GPU有一个取巧的地方是GPU有一个Fused MUL ADD运算。这样一个运算顶两个,所
以实际只有32个计算单元,却号称64个浮点运算。而实际上,很少有哪个程序可以全是
用这个特殊运算的。所以GPU的实测速度会低很多。使用GPU的中国的天河1,倭国的つ
ばめ(燕)都... 阅读全帖 |
|
t******n 发帖数: 2939 | 39 ☆─────────────────────────────────────☆
l63 (l63) 于 (Thu May 23 00:34:22 2013, 美东) 提到:
假设素数只有有限个, 记为 p_1,p_2,...,p_k
考察 N = p_1*p_2*...*p_k + 1
可知: 对于任意i = 1,2,3,...,k, p_i 不能整除 N
由素数的定义:
a是素数 <=> a是大于1的自然数, 且a不被任何小于a的素数整除
可知: N是素数
这与素数只有p_1,p_2,...,p_k矛盾.
故假设不成立.
所以素数有无穷多个.
☆─────────────────────────────────────☆
l63 (l63) 于 (Thu May 23 00:37:03 2013, 美东) 提到:
在承认素数的这个等价定义 (即 a是素数 <=> a是大于1的自然数, 且a不被任何小于a
的素数整除) 的前提下, 居然有人会认为这个证明是错的, 或者是不完备的.
我实在不能理解.
求问一下大家, 是不是有的人的脑子天生有缺陷, 根本怎么教都不会明白... 阅读全帖 |
|
y**c 发帖数: 6307 | 40 coppermatrix [网易广东省深圳市网友] 2015-04-07 21:48:20
测试结果如上 选择测试项目是SPEC_INT
也就是整数通用计算性能 龙芯2b频率 1.2ghz
龙芯2b的设计是 一款256bit浮点 全速64位FPU并行设计的矢量计算CPU 主要面向科学
计算和浮点计算的超算CPU
而整数执行管线部分继承的是2008年设计的龙芯3A的部分
拿向量计算型的CPU的整数性能去和通用计算CPU去比? 为什么跑SPEC 只选整数部分故
意不提SPEC_fp浮点计算部分的成绩? 因为它列举的这些芯片SPEC_fp测试成绩连龙芯
3B边都摸不到的原因吗?
龙芯3B 1Ghz下 实测122Gflops
它选区的对比芯片跑浮点什么成绩? 就是i7 4770k 3.9ghz也就86.36Gflops
也就是说浮点性能
i7 4770k 同频率也只有 龙芯3B-1500的 18% 接近1/5
用浮点向量处理器去比通用处理器不合理 确实
那么用通用计算处理器去和一个设计就是跑浮点运算的向量处理器 而且是使用8年前设
计的整数执行管线的处理器 去比通用处理性能 这就是编辑所想要的... 阅读全帖 |
|
t*******y 发帖数: 21396 | 41 Phytium,中文名飞腾,是一家成立于2012年的年轻CPU研发企业。然而光是从公司名称
和所在地----广州,我们就可以知道这家企业的真实身份。飞腾公司是中国国防科技大
学高性能处理器研究团队建立的企业,而国防科大在IT界最为人熟知的作品就是天河2A
超级计算机----连续五届夺得世界超算排行榜性能冠军。天河2A 的部分芯片采用了国
防科大自主开发的Sparc指令集CPU,飞腾1500。显然,飞腾公司的名称就是取自这款产
品。公司选址在广州也是为了靠近广州超级计算中心,也就是天河2A的所在地。
与中科院计算所知名的龙芯处理器团队不同,国防科大的CPU研发机构在公众眼中没什
么名气。事实上,早在十年前业内就有传闻指国防科大正在逆向山寨Intel的IA64体系
处理器安腾。后来安腾CPU在市场上举步维艰,NUDT(国防科大英文缩写)也停止了对
其模仿的工作,转而开发采用Sparc指令集的高性能芯片。经过数年的努力,NUDT先后
研制出飞腾1000、飞腾1500两款服务器处理器,开始逐渐为业界所知。
天河系列超算开始在全球超算领域崭露头角后,国防科大将眼光放到了更远的未来。天
河2A和之... 阅读全帖 |
|
X****r 发帖数: 3557 | 42 因为28032400.000000本身并不是这个浮点数的正真的值(即使你把这个常数赋给浮点
变量)。浮点数的精度是有限的。正如一个整型变量不能精确地表述1.5一样,浮点变
量只能精确表述有限个特定的有理数,而不是任意有理数。这个浮点变量实际的值比
28032400.000000略小一点点,所以转换成整数就成了28032399了。
因此,千万不要假定以浮点类型存储的整数转换成整型后还是原来整数的值。 |
|
a****a 发帖数: 5763 | 43 http://baike.baidu.com/view/6735801.html?fromTaglist
游戏主机性能谎言
目录
引言
正文
写在最后
展开
编辑本段
引言
优化极好的COD系列也难逃图像缩水我们通常认为像XBOX360,PS3这种次世代主
机是专业的游戏机拥有着卓越的游戏性能和PC平台难以比拟的游戏种类支持。在此谎言
被彻底戳穿之前,真相屡次浮出水面,先是Crytek公司在其他游戏产商试图讨好游戏主
机时反对其性能嗤之以鼻,然后是跨平台游戏生化危机5先行试玩DEMO爆出后,在PC上
测试成绩的令人瞠目结舌(在原生1080P,全特效,DX10主流PC的为全程近120帧,而
PS3成绩在DX9,不到720P,特效严重缩水的情况也只有26FPS的平均帧数),许多人不
禁惊愕道,“微软和索尼对我们撒了谎!”
主机与08年主流PC参数对比
09年主流PC与家用机对比 游戏机间参数对比
编辑本段
正文
一款游戏的画面效果其实是由游戏引擎和显卡共同决定的,二者之间的分工与协同
非常重要.在PC于家用游戏机”不相往来”的时代,游戏引擎与显卡的关系比较简单,加
上Direct... 阅读全帖 |
|
t*******r 发帖数: 22634 | 44 码工不处理无限集,但码工会考虑整型数边界的问题,浮点数要考虑的
更多,参见 IEEE 浮点标准。。。另外浮点数的数学程序不少要考虑
computational stable 的问题,也就是如果要是一个大浮点数
加一个小浮点数,重复抽插 N 次之后,结果可能很悲催。。。 |
|
a****a 发帖数: 5763 | 45 随着CPU与GPU合并成技术发展的趋势,苹果开发出了OpenCL框架,能够进行高速并行处
理的能力使OpenCL成为了业界标准,被广泛应用。
最近几年,GPU的发展吸引了很多来自科学计算界人士的目光。GPU有稳定的市场推动力
—公众喜闻乐见的电子游戏产生了源源不断的升级GPU的需求—因此比CPU的更新步伐更
快。从技术上讲,GPU本身就是多核架构,高端显卡往往有五百多个核心,即使低端的
集成GPU也有二三十个核心,所以能够通过并行来高效处理成千上万的线程。同时,对
于科学技算中的浮点计算,GPU往往通过硬件加速使其效率比传统CPU更高,因为图形渲
染等工作基本都是浮点计算。
GPGPU浮出水面
早期的GPU只能执行固定的程序,而不开放给程序员编程。随着时代的发展,图像处理
有时需要对着色器进行编程以实现一些特效,因此需要程序员可以使用GPU的汇编语言
写简单的着色程序。这自然对程序员要求过高,所以一些高阶的着色语言又被GPU厂商
开发出来。比如微软和NVIDIA共同开发的Cg语言,就能为顶点和像素编写专门的着色程
序。这类技术虽然面向图形渲染工作者,却吸引了一小簇科学计算研究者的兴趣。... 阅读全帖 |
|
J*******3 发帖数: 1651 | 46 Sandy Bridge展望
泡泡网笔记本频道1月11日 2011年1月6日注定是个不平凡的日子,在这一天全球最
大的电子消费大展CES 2011在美国赌城拉斯维加斯拉开序幕,去年从头火到尾的苹果也
选择在这一天推出Mac App Store在线商店,而让这一天更加不平凡的便是Intel推出全
新的Sandy Bridge平台,必将引领2011年硬件、笔记本、台式机等领域的重大变革。
浮云还是板砖 Sandy Bridge能飞多久?
Click Here
如果说Intel推出的平台是产业的“领导者”和“定义者”,那么一定会有某些竞
争对手反驳,同时他们也正将此转化为行动,维持住一定市场份额,Sandy Bridge的诞
生虽得到热捧但也受到了一定程度的阻击,该如何面对强劲对手,该如何踏平2011年,
它还有许多路要走,未来的一年里Sandy Bridge到底能火多久?能飞多久?我们一起煮
酒论英雄。
Sandy Bridge简介
Sandy Bridge是英特尔即将在2011年的发布的新一代处理器微架构,仍然保持酷睿
i3、i5、i7三个系列分别针对入门级... 阅读全帖 |
|
c*m 发帖数: 1599 | 47 申威基于当年的alpha处理器,还行。
申威5效率和功耗都比NVidia Titan GPU强,还是CPU,已经不错了。
只是申威的单核性能确实不济(虽然性能每瓦不错),做个人使用的桌面电脑确实不行。
放君搞得几款处理器都还行,虽然借(tou)鉴(dao)了别人的设计,但是搞出来的
CPU不算差。例如郭芳科大搞得Sparc指令集CPU和ARMv8指令集CPU,都还可以。
郭芳科大最早是逆向山寨Intel的IA64体系处理器安腾,只是安腾CPU在市场上举步维艰
,这个逆向工程虽然成功了却不得不放弃(立项时迷信intel,没想到intel也有失误的
时候)。然后因为太阳微系统免费开放了Sparc的设计代码,于是郭芳科大就在Sun的设
计基础上改改,弄出了飞腾1500,用在天河2号巨星机的通信上。 (Sparc的特点是通
信很牛但是浮点性能不足。)天河2的主要计算节点还是靠intel的CPU。因为Sparc指令
集市小,所以放君又瞄向了ARM指令集。郭芳科大ARMv8指令集,四发射乱序执行,拥有
多达64个核心,主频达到2GHZ的服务器CPU的理论浮点计算能力是512G DP Flops,采... 阅读全帖 |
|