k*********g 发帖数: 791 | 1 来自主题: Computation版 - 并行计算 并行计算
并行计算在科学、工程计算中是不可或缺的。通常人们认为,并行计算的瓶颈在于如何
实现不同处理器之间数据通信的时间远少于在当地处理器上的计算时间。本人的数值实
验和经验表明,这个根本不是并行计算的最大难点,这个其实这个很容易实现。假设我
们解决一个2维问题,N为一个方向上的未知数,把2维区域分成m^2个模块,每一个模块
由一个处理器管理。那么当地的计算量和N/m的平方成正比,而数据交换只跟N/m成正比
。对于典型的并行计算问题来说,N远比m要大,故通常的担忧、观点是偏颇的,没有抓
住问题要害。
数值实验表明,已经解决了人们关心的那个所谓瓶颈问题的现有软件的并行效果没有一
个是理想的。本人的研究表明,并行计算的瓶颈是,并行过程改变了原先的单处理器计
算的迭代结构,这种改变通常是往不利的方向改变的,并且跟处理器之间的数据依赖程
度有关,数据依赖程度越高,迭代的恶化程度越厉害。在有限元中,外来处理器在当地
处理器的渗透程度很高,而在谱元法中,外来处理器只允许影响本地处理器最表面的一
层。本人曾经的实验室同事的数值实验表明,谱元法能达到前所未有的并行效果。 |
|
U********a 发帖数: 75 | 2 版内有做并行计算的吗?小弟编了一个程序,打算先在多核处理器上并行计算,以小弟
有限的经验,只知道openmp和mpi可以做并行处理,不知道这种多核处理器上的并行计
算用什么并行语言比较合适呢?个人觉得openmp是不是比mpi简单一些喃?还有其他的
方法么?另外有经验的大侠点评一下多核处理器并行有效果吗?小弟对此不是很懂,想
了解一些,请各位大侠多多指导!先谢了! |
|
U********a 发帖数: 75 | 3 版内有做并行计算的吗?小弟编了一个程序,打算先在多核处理器上并行计算,以小弟
有限的经验,只知道openmp和mpi可以做并行处理,不知道这种多核处理器上的并行计
算用什么并行语言比较合适呢?个人觉得openmp是不是比mpi简单一些喃?还有其他的
方法么?另外有经验的大侠点评一下多核处理器并行有效果吗?小弟对此不是很懂,想
了解一些,请各位大侠多多指导!先谢了! |
|
l***d 发帖数: 396 | 4 【 以下文字转载自 Military 讨论区 】
发信人: CatchGodLine (捆仙绳), 信区: Military
标 题: 从并行计算谈谈前戏的重要性
发信站: BBS 未名空间站 (Tue Mar 17 16:51:18 2015, 美东)
最近跑了几个大型并行计算程序 时常在改变tolerance时收敛出错
也没有找到太好的解决办法
后来让这些nodes运行了几个前戏热身程序
我戳戳你的G点缓冲区 你甜甜我的冠状敏感带
然后再运行 结果都是一气呵成 融会贯通
运算过程不出错 计算结果出奇地好
连计算机都知道前戏的重要性
一时 我陷入了深深地沉思
大家虽然都知道在体育运动前要大量地热身才能取得好成绩
但在性生活中却往往忽视了这一点
华男经常喜欢 穿山越岭 一往无前 缺乏足够的前戏
却往往忽视了 循循善诱 曲径通幽的道理
常常鸡飞蛋打 人去楼空
一个国家的发展也是这样
任何太激进 急风暴雨般的政策或者改革
都往往是一地鸡毛 残砖断瓦的结果
必须循序渐进 摸索总结
才能亦步亦趋 达到一个又一个的高潮 |
|
f*****s 发帖数: 115 | 5 有经验的兄弟请指点小弟。
老板想买三台普通PC让偶试试做并行计算应用,要我列出需要买的东东。
偶的问题如下:
1,买DELL3000或4700回来自己下载Linux装行吗?(还是买带的Linux Enterprise 3的系
列?) 用linux哪个版本好一些?
2,买一个很便宜的100Mb交换机(newegg,20$)够用吗?三台机器怎么连有讲究吗?
电脑需要弄成双网卡吗?
3,准备用mosix和MPI,各自哪个版本比较合适,可免费下载吗?
4,还有没有什么软件或硬件是必须的?
5,原先的单机上的计算程序是否要修改很多才能进行并行计算?
这方面完全是新手,急需高手指点,感激不尽!谢谢了! |
|
l***d 发帖数: 396 | 6 【 以下文字转载自 Military 讨论区 】
发信人: CatchGodLine (捆仙绳), 信区: Military
标 题: 从并行计算谈谈前戏的重要性
发信站: BBS 未名空间站 (Tue Mar 17 16:51:18 2015, 美东)
最近跑了几个大型并行计算程序 时常在改变tolerance时收敛出错
也没有找到太好的解决办法
后来让这些nodes运行了几个前戏热身程序
我戳戳你的G点缓冲区 你甜甜我的冠状敏感带
然后再运行 结果都是一气呵成 融会贯通
运算过程不出错 计算结果出奇地好
连计算机都知道前戏的重要性
一时 我陷入了深深地沉思
大家虽然都知道在体育运动前要大量地热身才能取得好成绩
但在性生活中却往往忽视了这一点
华男经常喜欢 穿山越岭 一往无前 缺乏足够的前戏
却往往忽视了 循循善诱 曲径通幽的道理
常常鸡飞蛋打 人去楼空
一个国家的发展也是这样
任何太激进 急风暴雨般的政策或者改革
都往往是一地鸡毛 残砖断瓦的结果
必须循序渐进 摸索总结
才能亦步亦趋 达到一个又一个的高潮 |
|
b***k 发帖数: 2673 | 7 ☆─────────────────────────────────────☆
dArtagnan (达达尼昂) 于 (Sun Mar 9 14:59:22 2008) 提到:
银行里玩不玩cluster什么的?
☆─────────────────────────────────────☆
longtian (戒网中...) 于 (Sun Mar 9 15:09:29 2008) 提到:
他们用的最简单的,一个copy在不同的processor计算就完了,完全没有联系,
根本不需要HPC
☆─────────────────────────────────────☆
quant8 (quant8) 于 (Sun Mar 9 16:01:35 2008) 提到:
Yes. we use 并行计算.
////////
发信人: dArtagnan (达达尼昂), 信区: Quant
标 题: Quant 需要做并行计算么?
发信站: BBS 未名空间站 (Sun Mar 9 14:59:22 2008)
银行里玩不玩cluster什么的?
☆──── |
|
发帖数: 1 | 8 看版上讨论python3.x,有点动心。
我还在用python2的原因:
一是力求跟旧系统兼容,
二是最看重的并行计算部分,python3似乎并没有太好的解决方案,缺少动力换成3.
那个充满非议的GIL还在那里。
目前大部分并行方案都是基于process的,虽然能用,但是跟thread比还是太重,而且
涉及到内存共享和数据交换等,就很麻烦。
有没有谁用过python3搞并行算法,比2能快多少?
我知道python只是作为胶水语言,但是现在越来越多用来处理数据,不得不考虑并行的
性能。 |
|
b*****e 发帖数: 2511 | 9 你的意思是 游戏卡做并行计算 还是不如专门的并行计算卡?两个具体差别在哪里呢?
核都是一样的 |
|
v****k 发帖数: 229 | 10 兄弟有几个 matlab 并行计算方面的问题,用他们提供的工具箱:
I just found a simple example online, see:
Without parallel computing:
runtimes = 1e9;
dummy1 = 0;
dummy2 = 0;
tic
for x= 1:runtimes;
dummy1 = dummy1 + x;
dummy2 = 2 * x + 1;
end
toc
with 2012b, it took about 4.8 seconds; but with matlab 2007b, it takes much
longer, about 20 minutes. why 2012 so much faster than 2007?
Next, with parallel computing, the code is like following, it takes 50
seconds. 为什么用并行计算反而慢这么多?
runtimes = 1e9;
dummy1 = 0;
dummy2 ... 阅读全帖 |
|
M********l 发帖数: 181 | 11 老板说要买一批电脑,做cluster,进行并行计算。主要运行的软件有商用的有限元软
件,也会用到matlab,同时也会自己写代码计算。让我去查买什么合适,预算10k左右
,品牌限制为Dell。
Dell的workstation和server都说用于高性能计算,不知道哪个更合适?如果买多台
workstation回来是不是还要自己组cluster?还是直接买一台server性能更好?
请教板上的朋友们,谢谢! |
|
b*****e 发帖数: 2511 | 12 【 以下文字转载自 Hardware 讨论区 】
发信人: bechone (被抽呢), 信区: Hardware
标 题: 想买一块并行计算的GPU,求建议
发信站: BBS 未名空间站 (Fri Jul 18 23:06:46 2014, 美东)
1000刀以上是不是就只有 GTX Titan这个选择了?1000刀一下的游戏卡可以做并行吗?
效果怎么样? 谢谢大家 |
|
u**d 发帖数: 211 | 13 一般2核4核的台式机,写个 multi-thread 的程序就行了
操作系统会自动分配到各个 core 的
openmp mpi 都是不同架构,多是在服务器或 supercomputer 上用的
究竟哪个好,要看你的应用。
并行计算重要的是算法设计。多数问题不是那么容易就并行化
要不就是平行起来有各种各样的瓶颈,效果比起 single core 提高有限 |
|
d******e 发帖数: 7844 | 14 我不用R搞并行,那个破书Writing Extension写得太烂了,我想调用OpenMP,死活没看
明白书里要干什么。从此珍惜生命,远离R的并行计算 |
|
C**********e 发帖数: 23303 | 15 最近跑了几个大型并行计算程序 时常在改变tolerance时收敛出错
也没有找到太好的解决办法
后来让这些nodes运行了几个前戏热身程序
我戳戳你的G点缓冲区 你甜甜我的冠状敏感带
然后再运行 结果都是一气呵成 融会贯通
运算过程不出错 计算结果出奇地好
连计算机都知道前戏的重要性
一时 我陷入了深深地沉思
大家虽然都知道在体育运动前要大量地热身才能取得好成绩
但在性生活中却往往忽视了这一点
华男经常喜欢 穿山越岭 一往无前 缺乏足够的前戏
却往往忽视了 循循善诱 曲径通幽的道理
常常鸡飞蛋打 人去楼空
一个国家的发展也是这样
任何太激进 急风暴雨般的政策或者改革
都往往是一地鸡毛 残砖断瓦的结果
必须循序渐进 摸索总结
才能亦步亦趋 达到一个又一个的高潮 |
|
C**********e 发帖数: 23303 | 16 最近跑了几个超大型并行计算程序 时常在改变tolerance时收敛出错
也没有找到太好的解决办法
后来让这些nodes运行了几个前戏热身程序
哥戳戳你的G点缓冲区 妹儿甜甜哥的冠状敏感带
然后再运行
结果都是一气呵成 融会贯通
运算过程不出错
计算结果出奇地好
原来连计算机都知道前戏的重要性
一时 哥陷入了深深地沉思
大家虽然都知道在体育运动前要大量地热身才能取得好成绩
但在生活中却往往忽视了这一点
老中男经常喜欢 高谈阔论 穿山越岭 一往无前 指点江山 缺乏足够的前戏
却往往忽视了 循循善诱 曲径通幽的道理
常常鸡飞蛋打 人去楼空
而美国的治理之道就暗合天理
在大选之前互相扯皮 东一榔头西一棒子
任何太激进 急风暴雨般的政策或者改革
都往往是一地鸡毛 残砖断瓦的结果
必须循序渐进 摸索总结
才能亦步亦趋 让老百姓达到一个又一个的高潮
川普 哥看好你 |
|
|
a*******g 发帖数: 3500 | 18 超算领域之前研究过无数专门做并行计算的机器,什么几千个向量的向量处理器都被搞
出来过。
到现在 这种cpu gpu异构计算, 应该是最优化的结构了。 |
|
g******e 发帖数: 492 | 19 在美国自从80年代以来成立了多家超级计算中心,例如在UIUC的NSCA
,
在PITTSBURG和CARNEGIE MELLON的PSC和UCSD的T3E机群等。
现在在上海又成立了高性能计算研究所,是否并行计算已经成为当代
在进行系统模拟和性能材料预测方面的主要潮流了呢?
急切希望大侠给予指点。 |
|
|
d******e 发帖数: 7844 | 21 并行计算还是matlab或者python。R不是什么严肃的计算平台,太弱了 |
|
d******e 发帖数: 7844 | 22 为多线程优化过,不代表支持并行计算。
你要是自己不会coding的话,那就等SAS慢慢支持多核或者集群计算吧。 |
|
z*g 发帖数: 106 | 23 有点沾datascience的边。我现在在运行一个模型,需要进行并行计算,就是在多个网
格同时来计算。
我在用matlab里的parfor来做。在parfor里,我会调用我的模型,就是一个函数,现在
我可以在每一步把模型结果写到文本文件里,我现在想把模型的结果保存到一个变量了
,然后直接来用。
code大致是这样:
load data
parfor i=1:nLat
for j=1:nLon
outputs = f();
end
end
save out.mat outputs;
现在的问题是,parfor结束后里面的所有变量都消失了,不知道怎么才能实现把
outputs拿出来。
非常感谢! |
|
|
j**s 发帖数: 1518 | 25 未来1-3年内专门做并行计算的硬件会被开发出来 |
|
P*****f 发帖数: 2272 | 26 感觉在理论上没什么新的突破阿
还有这个Grid
跟几年前提的meta-computing好像没啥差异阿
当然,是指在并行计算的context下,和商用得Grid关系不大.
大家讨论一下这个问题吧 |
|
a***n 发帖数: 404 | 27 rrdw
有没有啥开源的软件可以将局域网内的很多电脑搭建成一个并行计算的环境,从而可以
跑MPI程序?
谢谢~~ |
|
I******c 发帖数: 163 | 28 想请教一下HiPC( High Performance Computing Conference)在并行计算方面属于一个
什么档次的会议?同行会看重上面发表的文章吗?我看到的一些排名好像还不错。
谢谢 |
|
|
t***l 发帖数: 533 | 30 本来是用VC编的一些C++程序,
现在想把它改成并行计算,
用什么比较好?
MPICH可以么?好像那上面的例子
中fortran比较多 |
|
j**u 发帖数: 6059 | 31 最近听说很多人在做GPU的并行计算,不知道这里有没有人搞,效果如何? |
|
|
m*****g 发帖数: 226 | 33 反正跟multi-core没一点关系
大部分跟并行计算也没关系
面试就跟考qualify一样,自己会什么问什么 |
|
r*********w 发帖数: 119 | 34 这个版做并行计算的应该有一些。请问你们是如何入门的?有没有推荐的lecture
notes之类的?多谢! |
|
G********K 发帖数: 127 | 35 请问怎么入手啊,做矿工要用到并行计算吗。
我发了几封简历,没人鸟我啊。
希望大牛们指点一下 |
|
l******n 发帖数: 9344 | 36 估计和人家说的并行计算不是一回事
你这个就是在不同的node上run不同的copy,你最后自己处理结果
他说那个估计是涉及算法,shared memory处理数据方面的,不是一个level的问题 |
|
k*******d 发帖数: 1340 | 37 并行计算是锦上添花的,数学和金融数学的基础还是要好 |
|
发帖数: 1 | 38 打算在databricks spark里用R and Rstudio 做并行计算,发现有些R 指令不工作,有
经验的高人请站内联系。 |
|
发帖数: 1 | 39 打算在databricks spark里用R and Rstudio 做并行计算,发现有些R 指令不工作,有
经验的高人请站内联系。 |
|
O*****y 发帖数: 222 | 40 我们实验室有台 8 核的 computer,内存有 32G。如果我想做一个 MC simulation,每
个 replicate 都相互独立,请问在 R 里应该怎么实现并行计算呀?我现在还在用最原
始的方法,就是起几个不同的 R 进程,然后分别 run simulation,然后把结果存到硬
盘上,最后再把结果综合到一起。这样做实在是太麻烦了,不知有没有更好的方法?谢
谢! |
|
发帖数: 1 | 41 【 以下文字转载自 Physics 讨论区 】
发信人: daguanyuan (jiazheng), 信区: Physics
标 题: [转帖]潘建伟等的量子计算和量子通讯也都是假的?
发信站: BBS 未名空间站 (Sun Jan 20 11:43:16 2019, 美东)
http://club.kdnet.net/dispbbs.asp?id=13076131&boardid=1
量子计算机和永动机—兼评郭光灿院士在深圳高交会上的报告
原创物理研究 2018-11-23 17:59:57
量子计算机和永动机—兼评郭光灿院士在深圳高交会上的报告
量子计算机和永动机
— 兼评郭光灿院士在深圳高交会上的报告 —
梅 晓 春
福州原创物理研究所
2018年11月15日上午,中国科技大学量子信息专家,中国科学院院士郭光灿教授在
深圳高交会上发表演讲。看完报道,本人觉得有必要进行评论,并再次提出,量子计算
机违背自然界的基本原则和事物的基本逻辑,类似于永动机,是根本造不出来的。
郭光灿院士在报告中有三点值得关注:
1... 阅读全帖 |
|
f***e 发帖数: 5443 | 42 透明计算的前世今生——缘起
作者:小兵张三
起疑
听说2014年度国家自然科学一等奖没有空缺,先是高兴,毕竟这是代表国家
实力的奖项,可看完新闻,感觉完全不是那么回事了:“网络路由器之父”、
“颠覆冯·诺依曼体系”、“透明计算”这些大词以前怎么从来没听说过?
众所周知,路由器就是网络设备,不存在什么“网络路由器”,而路由器进
入中国是以思科为代表的。查查维基百科【1】,多协议路由器首次出现于1981
年的Stanford和MIT,发明人分别为William Yeager和Neol Chiappa,而作为路
由器功能的设备,更可追溯到ARPANET建设时期的Interface Message Processor,
跟中国真是扯不上半毛钱关系。
冯·诺依曼体系提出了“存储程序”的概念,是现代计算机的基础。用大白
话来说就是,计算机由中央处理器(CPU)、存储器和输入输出设备三部分构成,
程序加载存放于存储器之中,并通过CPU来执行。此体系的提出,是因为早期的
计算机类似于现在的计算器,只能为单一的用途服务,而基于冯·诺依曼体系设
计的计算机,可以通过编写不同的软件,让计算机具备多样的功能。... 阅读全帖 |
|
f***e 发帖数: 5443 | 43 透明计算的前世今生——缘起
作者:小兵张三
起疑
听说2014年度国家自然科学一等奖没有空缺,先是高兴,毕竟这是代表国家
实力的奖项,可看完新闻,感觉完全不是那么回事了:“网络路由器之父”、
“颠覆冯·诺依曼体系”、“透明计算”这些大词以前怎么从来没听说过?
众所周知,路由器就是网络设备,不存在什么“网络路由器”,而路由器进
入中国是以思科为代表的。查查维基百科【1】,多协议路由器首次出现于1981
年的Stanford和MIT,发明人分别为William Yeager和Neol Chiappa,而作为路
由器功能的设备,更可追溯到ARPANET建设时期的Interface Message Processor,
跟中国真是扯不上半毛钱关系。
冯·诺依曼体系提出了“存储程序”的概念,是现代计算机的基础。用大白
话来说就是,计算机由中央处理器(CPU)、存储器和输入输出设备三部分构成,
程序加载存放于存储器之中,并通过CPU来执行。此体系的提出,是因为早期的
计算机类似于现在的计算器,只能为单一的用途服务,而基于冯·诺依曼体系设
计的计算机,可以通过编写不同的软件,让计算机具备多样的功能。... 阅读全帖 |
|
l*c 发帖数: 1 | 44 并行计算的能力不会超过图灵机, 因此一定可以用单CPU模拟
其实直觉上并行性并不能提供高于递归函数的能力,任何属于
递归可枚举(且非递归)或其上的函数(语言)直觉上在加入并行性后仍
不可计算,各种不可计算的判定问题显然不可能通过加入
并行性来解决 |
|
j**u 发帖数: 6059 | 45 ☆─────────────────────────────────────☆
cityhawk (呆鹰) 于 (Mon May 23 20:38:14 2011, 美东) 提到:
Matlab程序是 for 嵌套循环:比如,
a=0.1:0.5 with spacing 0.01; b=0.1:0.6 with spacing 0.01
c=0.1:0.8 with spacing 0.01; d=0.1:0.6 with spacing 0.01
e=0.1:0.9 with spacing 0.01; f=0.1:0.7 with spacing 0.01
g=0.1:0.6 with spacing 0.01; h=0.1:0.5 with spacing 0.01
执行部分
end; end; end; end;end; end; end; end;
这个程序在普通的PC 3.6GHz, 2GB内存上运行要2个星期多,把它放在系里的服务器上
运行,结果比我们lab的这个PC还慢,网管告诉我系里服务器的单个CPU才1.8GHz,尽管
我们有近30个CPU并行和全部 2... 阅读全帖 |
|
k**o 发帖数: 3006 | 46 ☆─────────────────────────────────────☆
kz80 (雨过天晴) 于 (Fri Feb 11 14:29:32 2011, 美东) 提到:
好吧, 我还是认真一点, 帮你做个计算, 省得好像在这版上混的在果果口中都一无所知.
一帧720P静态画面的图像有多大?
光算点阵1280*720*24(24 bit color)=22118400 bits / 8 = 2,764,800 bytes -> 算
2MB好了. 当然可以压缩, 假设"云计算"的CPU是"无限"的, 好吧, JPEG的720p是300KB
左右.
那么一秒的图像就是: 300KB * 30 frame/s = 9000KB/s = 9MB上下/s = 9*8 = 72Mbits/s, 今天的VERIZON FIOS下载号称达到50Mbit/s, 所以, 自己看...
(附加: 使用了H.264/MPEG-2,4 encoding压缩的视屏, 每秒的数据量应该大大小于72Mbits, 据说和完全不经过压缩的视屏比,压缩率能达到1:25. 但是压缩过头会影响到画面, 如电视篮... 阅读全帖 |
|
t******0 发帖数: 629 | 47 小弟最近写东西。想找一些公认的term或者名词来准确表达我的设计。
实现的算法方是N^2的复杂度,即a1,a2,a3..ai...a100,每一个ai需要和与全部这100个
数相乘。所以总共有100x100次乘法运算。
总共算下来,如果只用一个乘法器,一共要10000个周期。
(1)已有的大部分同样领域的VLSI文章:
它们号称有parallel computing,实现方法是用100个乘法器并行地算出每个ai和100数
相乘的乘积,那么只需要100周期就能全部完成。
(2)我们的设计是这样的:
也要号称有parallel computing, 实现方法是事先把100个数分成5个小的数据集,对于
每一个小的数据集用一个乘法器来实现ai与此集中全部20个数相乘,由于这5个乘法器
是并行执行的,所以总共需要20个周期就可以。
这里我没写错,的确是20个周期,而且总共的计算量是20x20x5次乘法,不需要10000次
了。数学算法比较难解释,但是最后需要的结果,以上两种方法的确是一样的,这是我
们这个邪门算法的bonus。
回到正题,VLSI实现中,
(1)是一个Core,这种设计依靠这个c... 阅读全帖 |
|
f*****f 发帖数: 371 | 48 不懂就不要乱喷,大规模并行计算你以为是你计算机上的程序?
计算计算就是算的数据,读进海量数据,运用并行算法根据可并行节点进行优化计算。 |
|
c***r 发帖数: 1570 | 49 来自主题: Computation版 - 并行计算 任何并行算法都是要事先计算 O_comm() 和O_comp()的大小的,
然后再动手编程,
当O_comp大于 O_comm 时,并行效果越好,
当O_comm 小于 O_comp时,并行效果越差,
这是做并行的常识。
并行算法要具体问题具体分析,
以上只适用于基于Mpi的并行。
shared memory的和 gpu fermi的下次有空再聊。 |
|