j**u 发帖数: 6059 | 1 ☆─────────────────────────────────────☆
cityhawk (呆鹰) 于 (Mon May 23 20:38:14 2011, 美东) 提到:
Matlab程序是 for 嵌套循环:比如,
a=0.1:0.5 with spacing 0.01; b=0.1:0.6 with spacing 0.01
c=0.1:0.8 with spacing 0.01; d=0.1:0.6 with spacing 0.01
e=0.1:0.9 with spacing 0.01; f=0.1:0.7 with spacing 0.01
g=0.1:0.6 with spacing 0.01; h=0.1:0.5 with spacing 0.01
执行部分
end; end; end; end;end; end; end; end;
这个程序在普通的PC 3.6GHz, 2GB内存上运行要2个星期多,把它放在系里的服务器上
运行,结果比我们lab的这个PC还慢,网管告诉我系里服务器的单个CPU才1.8GHz,尽管
我们有近30个CPU并行和全部 2... 阅读全帖 |
|
c******k 发帖数: 1140 | 2 Matlab程序是 for 嵌套循环:比如,
a=0.1:0.5 with spacing 0.01; b=0.1:0.6 with spacing 0.01
c=0.1:0.8 with spacing 0.01; d=0.1:0.6 with spacing 0.01
e=0.1:0.9 with spacing 0.01; f=0.1:0.7 with spacing 0.01
g=0.1:0.6 with spacing 0.01; h=0.1:0.5 with spacing 0.01
执行部分
end; end; end; end;end; end; end; end;
这个程序在普通的PC 3.6GHz, 2GB内存上运行要2个星期多,把它放在系里的服务器上
运行,结果比我们lab的这个PC还慢,网管告诉我系里服务器的单个CPU才1.8GHz,尽管
我们有近30个CPU并行和全部 24GB ram也没用。建议把这个程序编成并行处理,但是不
知道如何把嵌套循环程序给并行处理?谢谢 |
|
i****p 发帖数: 76 | 3 我不觉得用matlab 并行处理好。
建议你看看MPI,这个是很普遍的并行处理库。而且MATRIX MULTIPILCATION已经有现成
的程序了。你装个库,写个小的C程序,运行起来很容易。
如果你们系里有BATCH SYSTEM,我觉得他们应该有这个库。你上来说说你们系里是什么
系统? |
|
s*****2 发帖数: 117 | 4 在一个单cpu的计算机下跑程序,
如果这个程序采用多线程并行处理来实现,
或者采用一个线程逐个逐个实现,
哪一个快点?
我觉得在单cpu的情况下,两个的运行速度没啥区别。
不知道对不对?
thanks |
|
c******a 发帖数: 600 | 5 单CPU情况下多线程并行处理很可能要慢些,因为有context switch的开销 |
|
T***B 发帖数: 137 | 6 在工作中要解决一个scale相关的问题。现有的code简化后大约是这样:
class Predictor {
public Predictor() {
// time consuming stuff.
}
String synchronized predict(String input) {
String result = null;
// step 1
// step 2
// step 3
return result;
}
}
class PredictSvc {
private Predictor predictor = new Predictor();
public List handleRequest() {
List results = new ArrayList();
int count = getCount();
for (int i = 0; i < count; ++i) {
String input = get... 阅读全帖 |
|
l*******a 发帖数: 10 | 7 我老板最近对这个很热衷,尤其是时间序列在GPU上的应用,希望我能挑起这个担子。
虽然我在Machine Learning和Time Series上懂一些,但从来没有用过GPU或者Multi-
CPU的并行处理。不知道如果做这个,有多少Hedge Fund或者投行的Trading Group在用
呢?如果以后想跳槽到其他的Hedge Fund或者Asset Management公司,一般都比较看重
什么呢?
请教一下,多谢了! |
|
t****l 发帖数: 236 | 8 计算机系在系统级芯片并行性研究上取得可喜成绩
近日,由计算机系研究生胡向辉和导师华蓓副教授及校友唐锡南博士合作的论文“
High-performance IPv6 Forwarding Algorithm for Multi-core and Multithreaded
Network Processors”被国际并行处理一流会议,ACM SIGPLAN Symposium on
Principles and Practice of Parallel Programming 2006年(PPoPP?2006)发表。唐锡
南和胡向辉参加了在纽约召开的国际会议,并于3月31号在大会上宣读此论文。这是该会
自1988年创办以来首次录用中国大陆高校和科研单位的论文。
ACM PPoPP 是计算机系统领域的一流国际会议之一,会议的主题包括并行编程原理、
并行编程工具、以及并行编程应用等。由于它是计算机并行处理方面最高级别的国际会议
之一,论文录取的竞争是异常激烈和富有挑战。从1988年到2005年,除美国外,其他国家
和地区在PPoPP上发表的学术论文各自最多不超过6篇,中国台 |
|
U********a 发帖数: 75 | 9 版内有做并行计算的吗?小弟编了一个程序,打算先在多核处理器上并行计算,以小弟
有限的经验,只知道openmp和mpi可以做并行处理,不知道这种多核处理器上的并行计
算用什么并行语言比较合适呢?个人觉得openmp是不是比mpi简单一些喃?还有其他的
方法么?另外有经验的大侠点评一下多核处理器并行有效果吗?小弟对此不是很懂,想
了解一些,请各位大侠多多指导!先谢了! |
|
U********a 发帖数: 75 | 10 版内有做并行计算的吗?小弟编了一个程序,打算先在多核处理器上并行计算,以小弟
有限的经验,只知道openmp和mpi可以做并行处理,不知道这种多核处理器上的并行计
算用什么并行语言比较合适呢?个人觉得openmp是不是比mpi简单一些喃?还有其他的
方法么?另外有经验的大侠点评一下多核处理器并行有效果吗?小弟对此不是很懂,想
了解一些,请各位大侠多多指导!先谢了! |
|
A***l 发帖数: 461 | 11 pixel level的譬如去噪,矫正等等。
还有在频域的,譬如通过滤波器将图像分为高频,低频等等再分在不同processor处理
,譬如
contourlet transform可以被并行处理。
阵相加,
每个元素都跟周围的无关,可完全拆开并行。请问图像处理中应该有很多独立的
workload吧,能
帮忙列举些有实际意义的么? |
|
k****t 发帖数: 15 | 12 你做计算都应用在什么方面?你要处理的数据是什么?
如果是处理tick data,可能很少有计算可以让并行有绝对优势。
如果是monte carlo,倒是很适合gpu。 |
|
F********d 发帖数: 19 | 13 基于服务器的并行计算,有CLUSTER, CLOUD, GRID等。
基于个人机的并行计算,除了GPU平行, 还有基于多内核的,如Intel的Parallel
Studio (Cilk++,etc), Microsoft VS2010的PPL, OpenPM等。这类方法随着多内核个
人机的普及日渐流行。首先他们实现起来比较简单,尤其对于蒙特卡洛类的算法,通常
只需在原有CODE基础上做少量改动,而且容易从不同层级实现并行。但是这类加速跟内
核数目有直接关系,比如四内核的机器加速上限也就是4左右。一两年前微软貌似展示
过最多16内核的机器,估计到普及还要一两年时间。 |
|
m****s 发帖数: 1481 | 14 cuda,opencl都有bs期权定价的例子,去nvidia找找吧
理论上GPU处理大量简单计算的效率比CPU高得多,而且开发起来并不困难。但是如二楼
所说,这东西真的有没有必要就不好说了,很多时候,网络速度才是瓶颈,而不是计算
速度。
我不清楚金融机构比如投行,hedge fund的计算中心都是什么规模,但是如果目前都是基于CPU然后需要很多刀片机,很多server rack,那GPU加速是可以提高效率降低能耗和成本的。但是如果只是普通的个人电脑或者工作站就够用了,那GPU并行加速就没太大必要了。 |
|
m****s 发帖数: 1481 | 15 GPU核多,随便一个消费级的就有几百个核,当然这个核跟CPU的core不能相提并论,但
是处理不那么复杂的指令比如数学计算,效果相差不多,但是数量优势很明显。理论上
一个普通的民用GPU就可以提高速度到同级别CPU的几十倍到上百倍,当然这取决于运行
的算法本身的可并行化程度。
nvidia和ati都有专门的做计算的GPGPU产品,比消费级的geforce,radeon又要强悍很多
了。 |
|
o****k 发帖数: 401 | 16 系里的机器没法并行处理matlab,我就改改参数同时submit了好几个matlab程序,不过
好象有的时候有的程序就卡住不动了。程序写的有虫还是这样的假并行互相影响了? |
|
|
c******k 发帖数: 1140 | 18 再弱问下:只有matlab 2009a or b 以上的version才有这个parallel computing
toolbox. 我希望用系里的CPU batch system去并行计算,那么我是要求学校在系里的
服务器上装matlab 2009,还是在我们实验室的local PC上装matlab 2009就行? 实在
不懂,谢谢 |
|
l********a 发帖数: 1154 | 19 从这个需求看可以并行的
把a-g先做成一个矩阵,然后做成根据cpu数量做成cell数组,
直接parfor就行,每个u会拿到跟自己id对应的部分进行运算
并将计算结果写入结果矩阵的对应位置
最后你自己sort结果,拿出前10个数就可以了 |
|
f*******y 发帖数: 988 | 20 HFT in equity恐怕是最不可能用到并行的地方,绝大部分的计算都是sequential的;
HFT in option可能可以
HFT in equity最需要的是定制硬件解码,主要不是为了提高速度,而是为了减少
jitter
flow/
time may
a
complete |
|
e********5 发帖数: 422 | 21 我也有一模一样的问题 我坐过不少GPU的并行
写这东西基本就是C 写起程序来跟C++差的很远 全都是算法级别的东西
不过速度确实快 如果算法合适的话 100X的加速是很现实的目标 如果算法不大合适 比
如FFT或者系数矩阵的那些 大概10X-20X吧 就用普通的游戏卡
我现在也想某个公司看中我这个经验把我收去做个intern什么 不过仿佛看重这个的
finance方面的公司不多啊~~自然科学已经很多地方跃跃欲试了 中国日本都搭了带GPU
的超级计算机了 |
|
o**2 发帖数: 168 | 22 新加了PredictorCreator class,因为楼主说Predictor的constructor太CPU
intensive了,我又不确定是否能改写成普通method。由于FMP处理不了constructor,
所以把它移到了一个普通method,这样FMP就可以处理了。
public class PredictorCreator {
public Predictor createPredictor () {
return new Predictor ();
}
} |
|
r*****y 发帖数: 264 | 23 Predictor.predict()方法Thread Safe吗?
调用Predictor.predict()处理inputs的每一个item,先后次序有关系吗?
不同时间生成的Predictor对处理结果有影响吗? |
|
s*****d 发帖数: 267 | 24 你可以用Drop呀
提高任何编程水平的办法都是多想,多练。请教别人虽然快,但还不是自己的东西。不
好意思,不是批评只是建议。
一句话,Data Step加Hash Map加Array,基本可以高效率的搞定所有的问题。如果Data
Step处理慢了,同样的问题Proc SQL会更慢。
如果数据很大,可以考虑用Data Step2,或者HP DataStep。如果没有License, 只能用
Data Step的话,可以考虑把数据Divide and Conquer 然后并行处理。 |
|
d**********x 发帖数: 270 | 25 你的process做的workload跟传输的data有dependency吗?如果没有的话,把那些
workload放在MPI_Wait之前没有问题啊。workload跟数据传输是并行处理的阿。等你的
program flow到达MPI_Wait的时候,数据传输已经ready了,没有process wait。除非
你的workload太short,到达mpi_wait的时候,数据传输还没完成。 |
|
a***y 发帖数: 19743 | 26 ☆─────────────────────────────────────☆
sunfic (sunfic) 于 (Sun May 23 16:08:24 2010, 美东) 提到:
这个看起来牛逼哄哄的东西现在有两个瓶颈
一个是服务器端的运算能力,的确云计算可以通过数量换速度,但并不是所有的应用都
能这么干,特别是想要直接到桌面显示的程度。
一个是普通用户的网络带宽,大家可以做个简单的计算,要达到1024×768分辨率 60Hz
16bit色深需要的网络带宽是多少?考虑到比较成熟的视频压缩技术又要多少?
上面这两个瓶颈都是可以解决的,但是需要时间。那些说2-3年云计算成熟的人我不知
道你们的自信来自哪里
现阶段能够看到的唯一云应用就是云存储。
☆─────────────────────────────────────☆
meiyuan (美元) 于 (Sun May 23 16:31:33 2010, 美东) 提到:
我觉得云都是忽悠, 特别是以Cisco, Juni, HP,Goog带头的忽悠
现在1T, 2T的硬盘白菜价, 我老的A片,电视剧,盗版电影云存... 阅读全帖 |
|
a****a 发帖数: 5763 | 27 随着CPU与GPU合并成技术发展的趋势,苹果开发出了OpenCL框架,能够进行高速并行处
理的能力使OpenCL成为了业界标准,被广泛应用。
最近几年,GPU的发展吸引了很多来自科学计算界人士的目光。GPU有稳定的市场推动力
—公众喜闻乐见的电子游戏产生了源源不断的升级GPU的需求—因此比CPU的更新步伐更
快。从技术上讲,GPU本身就是多核架构,高端显卡往往有五百多个核心,即使低端的
集成GPU也有二三十个核心,所以能够通过并行来高效处理成千上万的线程。同时,对
于科学技算中的浮点计算,GPU往往通过硬件加速使其效率比传统CPU更高,因为图形渲
染等工作基本都是浮点计算。
GPGPU浮出水面
早期的GPU只能执行固定的程序,而不开放给程序员编程。随着时代的发展,图像处理
有时需要对着色器进行编程以实现一些特效,因此需要程序员可以使用GPU的汇编语言
写简单的着色程序。这自然对程序员要求过高,所以一些高阶的着色语言又被GPU厂商
开发出来。比如微软和NVIDIA共同开发的Cg语言,就能为顶点和像素编写专门的着色程
序。这类技术虽然面向图形渲染工作者,却吸引了一小簇科学计算研究者的兴趣。... 阅读全帖 |
|
g****t 发帖数: 31659 | 28 《三体III:死神永生》
作者:刘慈欣
申明:本书由奇书网(Www.Qisuu.Com)自网络收集整理制作,仅供预览交流学习使用,版权归原作者和出版社所有,如果喜欢,请支持订阅购买正版.
写在"基石"之前
姚海军
"基石"是个平实的词,不够"炫",却能够准确传达我们对构建中的中国科幻繁华巨厦的情感与信心,因此,我们用它来作为这套原创丛书的名字。
最近十年,是科幻创作飞速发展的十年。王晋康、刘慈欣、何宏伟、韩松等一大批科幻作家发表了大量深受读者喜爱、极具开拓与探索价值的科幻佳作。科幻文学的龙头期刊更是从一本传统的《科幻世界》,发展壮大成为涵盖各个读者层的系列刊物。与此同时,科幻文学的市场环境也有了改善,省会级城市的大型书店里终于有了属于科幻的领地。
仍然有人经常问及中国科幻与美国科幻的差距,但现在的答案已与十年前不同。
在很多作品上(它们不再是那种毫无文学技巧与色彩、想象力拘谨的幼稚故事),这种比较已经变成了人家的牛排之于我们的牛肉。差距是明显的--更准确地说,应该是"差别"--却已经无法再为它们排个名次。口味问题有了实际意义,这正是我们的科幻走向成熟的标志。
与美国科幻的差距,实际上是... 阅读全帖 |
|
a****a 发帖数: 5763 | 29 http://bbs.weiphone.com/read.php?tid=527142
上期连载《Grand Central Dispatch:迎接挑战(连载12/23)》中我们谈到,
GCD技术能够在操作系统的层面更加合理而充分地统筹分配系统资源,从而充分挖掘多
核系统的潜能。此前,我们在《并行难题:一封19年前的挑战书(连载11/23)》中介绍
了上世纪末Be公司推出的BeOS操作系统:
引用
BeOS操作系统最鲜明的特色在于“普适多线程(pervasive multithreading)”
技术。以现在的标准来衡量,BeBox和其他运行BeOS操作系统的计算机充分利用了计算
资源。BeBox的演示令人印象深刻。66MHz双处理器计算机能够流畅地运行多个视频并在
后台播放CD中的很多音轨——与此同时,用户界面响应也保持一贯的流畅。BeOS操作系
统让很多技术狂热者大跌眼镜,他们当中的许多人坚持认为,即便是目前的许多台式机
,操作体验仍旧无法与当年的BeOS相媲美。
19年以来,无数工程技术人员呕心沥血把自己关在实验室工作室里试图逾越“... 阅读全帖 |
|
发帖数: 1 | 30 【 以下文字转载自 Physics 讨论区 】
发信人: daguanyuan (jiazheng), 信区: Physics
标 题: [转帖]潘建伟等的量子计算和量子通讯也都是假的?
发信站: BBS 未名空间站 (Sun Jan 20 11:43:16 2019, 美东)
http://club.kdnet.net/dispbbs.asp?id=13076131&boardid=1
量子计算机和永动机—兼评郭光灿院士在深圳高交会上的报告
原创物理研究 2018-11-23 17:59:57
量子计算机和永动机—兼评郭光灿院士在深圳高交会上的报告
量子计算机和永动机
— 兼评郭光灿院士在深圳高交会上的报告 —
梅 晓 春
福州原创物理研究所
2018年11月15日上午,中国科技大学量子信息专家,中国科学院院士郭光灿教授在
深圳高交会上发表演讲。看完报道,本人觉得有必要进行评论,并再次提出,量子计算
机违背自然界的基本原则和事物的基本逻辑,类似于永动机,是根本造不出来的。
郭光灿院士在报告中有三点值得关注:
1... 阅读全帖 |
|
j**u 发帖数: 6059 | 31 ☆─────────────────────────────────────☆
eagletiger (eagletiger) 于 (Wed Nov 23 23:01:21 2011, 美东) 提到:
程序里现在需要一个很大的Matrix, 以前写的时候是放在一个文件里,每次程序执行的
时候现读入,这样很浪费时间,现在把整个Matrix写成一个array存在程序里作global
variable,但是编译的时候很慢,要十几分钟的样子,而且编译出来的程序很大,请问
各位一般处理大的矩阵时候是如何处理的,谢谢哈.
☆─────────────────────────────────────☆
Augu (奥古) 于 (Thu Nov 24 16:35:31 2011, 美东) 提到:
要不空间换时间
要不时间换空间
global
☆─────────────────────────────────────☆
eagletiger (eagletiger) 于 (Fri Nov 25 02:14:55 2011, 美东) 提到:
俺现在就是空间换时间,矩阵大概... 阅读全帖 |
|
w*********g 发帖数: 30882 | 32 这两年,兔子的国家重器和高端武器层出不穷。
俺的巴掌红得都要拍不动。
裤衩已成灰。
当然还有好多小兔子半信半疑。
过年时太忙,都没空,现在总算好点。
俺现在心情不错,就给大家818,为什么兔子这些年,这么牛逼,发展速度这么快。
当然,俺说的是军工和科研系统方面。
长期更新啊。大家慢慢看。
亲身经历,绝对原创。
为什么,兔子家的进步神速?
兔子家,是真正把霉菌在IT最高端的仿真模拟,和毛熊强大的系统分析设计以及体
系对抗思想,给结合起来了。
兔子家,正是靠了计算机仿真和模拟,所以节省了大量的实物实验,节省了成本,
提高了速度。
这,就是后发的巨大优势。这个优势,是上世纪90年代后期,尤其是2000年之后,
PC以及各种高端工具软件普及之后(UG,CATIA,ANSYS,Fluent……),才具有的优势。
有人问,为什么美帝善于仿真模拟,毛熊善于系统分析设计,体系对抗到底是啥玩
意?
这个,算是问道点子上了。
这个话题很大,俺只能简单滴回答,另外讲讲俺的亲身经历。
这个要从二战说起,霉菌,继承的是德国的思想,高大上的武器,高素质军人,高
超地战术思想和能力,类似狼或者鹰。
毛熊,则是完全不... 阅读全帖 |
|
l***a 发帖数: 198 | 33 原文:
http://blog.sciencenet.cn/blog-268546-1154610.html
量子计算的理论基础
量子计算的理论基础是量子力学,相比传统计算,它声称的巨大性能提升来自于量子态
的叠加性。
我发现很难跟量子计算(量子信息)的研究者解释清楚,他们说的量子力学实际上是非
相对论量子力学,而非相对论量子力学只是一套近似理论,并不代表真实的物理。在量
子信息研究者的眼中,只有一套神奇的理论叫做量子力学,谁也说不清楚怎么回事,但
是它就是对的。谁反对都没有用,爱因斯坦也不行。无论爱因斯坦有多么伟大,在与量
子力学的交锋中全都败下阵来。
其中最重要的一个争论,爱因斯坦认为世界是局域实在的,局域意味着满足相对论,不
能超光速,实在意味着客观世界独立于人的意识而存在。而量子力学认为,世界(量子
)是非局域的,量子现象可以超光速;世界(量子)在测量之前讨论它是不是客观实在
是没有意义的;量子的非局域性已经得到了众多实验的严格证明。(这里说的量子力学
观点存在重大争议,量子非局域性的实验证明,也没有得到广泛的认可。)
在非相对论量子力学中,作用势是唯象的,作用量传播速度无穷大... 阅读全帖 |
|
s********e 发帖数: 425 | 34 我感觉你想了解的问题可以归于科学计算范畴。科学计算在物理、机械工程,医学等多
个应用领域都需要。例如物理或天文里计算多个天体相互之间的作用力的问题(N-body
problem),天体数量可以达到几万到几十万;又比如医学中有医学图像重构问题(比如
backprojection),需要把多幅机器拍摄的原始图像以某种组合方式重构成医生能看懂
的图像,图像像素数可以是几千乘几千。
虽然可能处理三五个数据所使用的算法极其简单,但是由于数据量巨大,算法复杂度随
着数据量的增长迅速增加,于是同样简单的算法就无法使如此庞大的数据量在可接受时
间内算完,于是就构成了NP-complete问题。
这些都是需要超级计算机(supercomputer)来运算,也就是cluster或multiprocessor
。根据问题所需数据量的大小,运算时间从几小时到几天都有,一两个月也有可能。
运算方法概括来说叫做并行计算。具体就是尽可能编出并行性(Parallelism)高的程
序,使得庞大数据能够并行处理,比如一万个天体分给八个cpu同时运算,每个cpu算
1250个;1024x1024的图像分给16个cpu,每... 阅读全帖 |
|
s*******e 发帖数: 1389 | 35 围棋算法多少还能理解,人工智能就难多了。转载一篇文章:
基于神经网络的人机对抗人工智能系统
作者:Harreke
摘要
人工智能是一门科学名称。自电子计算机发明后不久,人工智能学科即宣布创立,其目
的就是要模拟人类的智力活动机制来改进计算机的软件硬件构成,使他们掌握一种或多
种人的智能,以便在各种领域内有效替代人的脑力劳动,特别是解决用传统软硬件方法
难以解决的问题,如模式识别,复杂的控制行为或对海量的数据进行实时评估等。
所谓人工智能,就是由人工建立的硬件或软件系统的智能,是无生命系统的智能。智能
是人类智力活动的能力,是一个抽象的概念。一个软件或硬件系统是否有智能,只能根
据它所表现出来的行为是否和人类某些行为相类似来做判断。
人工智能在计算机上的实现,有两种不同的方式。一种是采用传统的编程技术,使系统
呈现智能的效果,而不考虑所用方法是否与人或生物机体所用的方法相同。这种方法称
为工程学方法,它的编程方式虽然简单,智能效果显著,可是算法和程序一旦固定下来
,智能就很难再进一步提高。另一种是模拟法,它不仅要看智能效果,还要求实现方法
和人类或生物机体所用的方法相同或类似。人工神经网... 阅读全帖 |
|
e**********4 发帖数: 56 | 36 纳米大脑黑客,分子电子学应用脑控
2013-07-15 14:56:02| 分类: 大脑感觉神经机制 | 标签:大脑控制 脑计划 思
维破译 纳米神经假体装置 大脑黑客 |举报|字号 订阅
1995年9月27日至10月1日由美国出资的戈尔巴乔夫基金会,邀集当今世界的500名最重
要的政治家、经济界领袖和科学家,其中包括乔?布什(当时他还不是美国总统)、撒
切尔夫人、布莱尔、布热津斯基以及索罗兹、比尔盖茨、未来学家奈斯比特等大名鼎鼎
的全球热点人物,在旧金山费尔蒙特饭店举行高层圆桌会议。讨论关于全球化以及如何
引导人类走向21世纪的问题。这个会议认为,人类历史上一个崭新的时代业已到来。这
个时代将是非工业文明的时代。工业时代与它的大规模福利(社会保障)制度一起,已
成为经济史的短暂瞬间即将不复存在,他们产生一个方案,就是逐步设法用"高技术"手
段消灭80%他们认为的垃圾人口而留下20%的人类精英,或者采用"高技术"手段使那些垃
圾人口部分变成这些精英的活体试验品!
请看下面一段对话:
您好!
请问*先生,你具体是干什么工作的?或者你在负责什么项目呢?
我们初步认为:如果... 阅读全帖 |
|
z****e 发帖数: 54598 | 37 jvm也是c写的,最终什么都是c,但是c和汇编都太底层了
跟人的思维接不上,人毕竟是人,不可能完全用机器的思维方式去思考和书写语言
整个计算机系统就是层层封装的结果
并行计算跟分布式计算是两回事
并行计算很多时候对于单机更有意义,共享内存这些
分布式计算一定涉及网络连接,分布式计算不在乎甚至有意识地破坏某些nodes
以测试整个系统的健壮程度,比如chaos monkey,就是要让某些nodes fail掉
看看系统work不work,并行计算用得比较多的是hpc,而不是分布式系统
分布式系统因为nodes上各种乱七八糟的系统什么良莠不齐
所以找到一个统一的平台非常重要,否则每个node都要求定制软件,工作量太大
jvm是目前能找到的最好平台
其他语言要么效率比不过jvm,要么就是兼容性比不过java
hpc上的mpi这些到还真是用c比较多,物理系什么都很喜欢写pbsscript
然后提交hpc排队,执行后看结果,并行计算和分布式计算有一些共性和重叠
但是毕竟不是一个东西,不同的topics
从效率上说,效率提升不只比单线程的效率
是多线程,多进程的效率提升,能并行处理的部分越多,可以... 阅读全帖 |
|
z****e 发帖数: 54598 | 38 jvm也是c写的,最终什么都是c,但是c和汇编都太底层了
跟人的思维接不上,人毕竟是人,不可能完全用机器的思维方式去思考和书写语言
整个计算机系统就是层层封装的结果
并行计算跟分布式计算是两回事
并行计算很多时候对于单机更有意义,共享内存这些
分布式计算一定涉及网络连接,分布式计算不在乎甚至有意识地破坏某些nodes
以测试整个系统的健壮程度,比如chaos monkey,就是要让某些nodes fail掉
看看系统work不work,并行计算用得比较多的是hpc,而不是分布式系统
分布式系统因为nodes上各种乱七八糟的系统什么良莠不齐
所以找到一个统一的平台非常重要,否则每个node都要求定制软件,工作量太大
jvm是目前能找到的最好平台
其他语言要么效率比不过jvm,要么就是兼容性比不过java
hpc上的mpi这些到还真是用c比较多,物理系什么都很喜欢写pbsscript
然后提交hpc排队,执行后看结果,并行计算和分布式计算有一些共性和重叠
但是毕竟不是一个东西,不同的topics
从效率上说,效率提升不只比单线程的效率
是多线程,多进程的效率提升,能并行处理的部分越多,可以... 阅读全帖 |
|
f***y 发帖数: 4447 | 39 https://www.ifanr.com/1243061
清华大学开发出全球首款异构融合类脑计算芯片——「天机芯」,由该芯片驱动的的「
无人驾驶自行车」登上了最新一期 Nature 封面!
这项研究由依托精密仪器系的清华大学类脑计算研究中心施路平教授团队进行,演示了
一辆由新型人工智能芯片驱动的自动驾驶自行车。
基于此研究成果的论文「面向人工通用智能的异构天机芯片架构」(Towards
artificial general intelligence with hybrid Tianjic chip architecture)作为
封面文章登上了 8 月 1 日《自然》(Nature),实现了中国在芯片和人工智能两大领
域《自然》论文零的突破。
▲ 天机芯片 5×5 阵列扩展板
现阶段,发展人工通用智能的方法主要有两种:一种是以神经科学为基础,尽量模拟人
类大脑;另一种是以计算机科学为导向,让计算机运行机器学习算法。二者各有优缺点
,目前将两者融合被公认为最佳解决方案之一。发展一个二者融合的计算平台将是推动
融合的一个关键。新型芯片融合了两条技术路线,这种融合技术有望提升各个系统的能
... 阅读全帖 |
|
f*******e 发帖数: 8974 | 40 我觉得你举的多线程下载和处理器多线程是两码事。
据我所知windows不是并发多线程系统,所以理论上不能同时处理两个任务,只是在处
理器内部分配优先级,先到先作。所以我们看到的速度提高应该不是并行的结果,而是
指令处理顺序优化的结果。
现在的gpgpu编程应该是并行的,所以特定的程序在gpu上运行比在通用处理器上快很多
倍。
所以你的教授说的应该是对的,multi-core并行处理才是真正的并行,现在不也是朝这
个方向发展吗?
BTW,我不搞这个哈,不负责
BTW2,多线程下载效率绝对成倍增加,前提是服务器端的带宽和你自己的带宽都没用完
。如果你还用拨号,和现在的宽带比多线程没一点用。 |
|
r***e 发帖数: 10135 | 41 计算机学科,在中国的大学一般叫做计算机科学于与技术专业,虽然也经常被简称为CS
(Computer Science),但是从某种意义上来说,国外的CS应该是国内CS的一个部分,
国内在本科时期并没有把很多专业设置分散。到了研究生阶段就一般分为:计算机应用
、计算机软件与理论、计算机体系结构三个大部分了。不过一般各个实验室都会有所交
叉。
实验室内部有一个关于计算机专业研究方向统计的报告,想想也许很多朋友对这方面的
信息有所需求,比如那些对计算机学科感兴趣的中学生,或者面临考研的本科生等等。
看到一个大概的方向总表也许可以做的心中有数。
系统结构专业 研究方向:
1. 并行/分布处理及高性能计算机系统;
2. 先进的计算机结果和网络计算;
3. 系统的可重构和可扩展技术;
4. 高性能存储系统及处理机同步通信机制;
5. 并行编译技术;
6. 并行调试技术;
7. 并行与分布系统容错性、可用性、可靠性技术;
8. 指令及并行处理(ILP)体系结 |
|
t*******a 发帖数: 4055 | 42 日前,国防科技大学官方新闻宣布,由国防科技大学牵头研制的“天河三号E级原型机
系统”已在国家超级计算天津中心完成研制部署,并于22日顺利通过项目课题验收。未
来2-3年内,国防科技大学团队将打造出全自主的具有国际领先水平的新一代“天河三
号”E级超级计算机。
E级超算,是指每秒钟运算一百亿亿次的超级计算机。自从今年6月份美国SUMMIT超
算超过中国的神威太湖之光,登顶全球最快超算TOP500榜单之后,中国,美国,日本和
欧洲,这些在超算领域最为领先的国家和地区,纷纷加快了研制速度。其中,中美日三
国最为领先,目前都计划在2021年左右研发完毕,而欧洲的计划则要落后几年。
天河三号原型机打了谁的脸?
就在国防科技大学公布天河三号原型机进度之前一个礼拜,TOP500网站的总编辑发
表了一篇典型西方视角的预测文章。文章总结了前一段时间全球超算领域最大的三个新
闻,一个是日本富士通公司开发Post-K(后京级)超算的进度,一个是美国SUMMIT系统
重新夺回TOP500榜单的冠军,第三个居然是引述中国的一位参加E级超算的学者的话称
:中国的超算计划需要推后大约一年,从领先美日约一年推后到和美... 阅读全帖 |
|
f*******e 发帖数: 5594 | 43 从前文我们知道,“我”是大脑中神经细胞连接模式的总和。这里还要明确一下,这个
连接模式不但是物质上的,同时也是信息上的。因为这种连接模式本身就是信息。大脑
中的信息存储并不需要另外一个单独的地方去存储,信息在神经网络中传输的过程中,
就已经存储在这个网络的连接方式上了。打个比方,比如有五个神经细胞组成的细胞群
,这五个神经细胞原来是以五边形的连接方式存在的,当有一个特定的外界电信号刺激
传过这个细胞群后,五个细胞的连接方式变成了五角星形。这种从五边形到五角星形转
变的过程就是信息的存储,即记忆。如果以后再有同样的一个外界信号传到这个细胞群
后,那个五角星的突触连接状态就得到加强,由短期记忆转化为长期记忆。这就是神经
网络(大脑)的学习过程。在这个学习过程当中,改变的是连接的方式,而不是在神经
细胞里存储了什么信息。这种连接方式的快速改变,也称为大脑的可塑性。
目前的人工神经网络正是这样一种应用类似于大脑神经细胞连接方式进行信息处理的数
学模型。神经网络是一种运算模型,由大量的节点(相当于神经元,即神经细胞)之间
相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activat... 阅读全帖 |
|
f*******e 发帖数: 5594 | 44 从前文我们知道,“我”是大脑中神经细胞连接模式的总和。这里还要明确一下,这个
连接模式不但是物质上的,同时也是信息上的。因为这种连接模式本身就是信息。大脑
中的信息存储并不需要另外一个单独的地方去存储,信息在神经网络中传输的过程中,
就已经存储在这个网络的连接方式上了。打个比方,比如有五个神经细胞组成的细胞群
,这五个神经细胞原来是以五边形的连接方式存在的,当有一个特定的外界电信号刺激
传过这个细胞群后,五个细胞的连接方式变成了五角星形。这种从五边形到五角星形转
变的过程就是信息的存储,即记忆。如果以后再有同样的一个外界信号传到这个细胞群
后,那个五角星的突触连接状态就得到加强,由短期记忆转化为长期记忆。这就是神经
网络(大脑)的学习过程。在这个学习过程当中,改变的是连接的方式,而不是在神经
细胞里存储了什么信息。这种连接方式的快速改变,也称为大脑的可塑性。
目前的人工神经网络正是这样一种应用类似于大脑神经细胞连接方式进行信息处理的数
学模型。神经网络是一种运算模型,由大量的节点(相当于神经元,即神经细胞)之间
相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activat... 阅读全帖 |
|
发帖数: 1 | 45 作者: 特斯
这些天身边持有比特币的朋友一路爆炸,看着他们满面绿光的样子,翻了下自己的股票
账户,学习下阿Q精神:竟然还有人和我亏得一样多,今晚回去不用再跪洗衣板了吧。
想到去年也是同样的时间点,比特币价格9000美元。当时还总有人问我,比特币价值多
少啊?基本面到到底好不好啊?其实这都是很难回答的问题,毕竟我们无法评价一个不
存在的东西。所以当时立马拒绝讨论比特币,转头就推荐了英伟达的股票。现在来看,
我和这俩都是难兄难弟。
从这事我得到3个教训——第一,不要陪老婆聊比特币,容易被打;第二,不要给丈母
娘推荐股票,吃饭没有筷子也难受;第三,没事不要和家里人说投资的事,他们会觉得
你智商有问题。
1、眼看他宴宾客,眼看他楼塌了
不过一年前这两位明星都不是这光景。
去年开年,比特币进入疯涨阶段,直接从1000飙到20000美元,1年20倍,气势如虹,造
富速度赶得上北上广深拆迁。尤其是9到12月份,3个月8倍涨幅,疯狂至极。
要论泡沫增值速度,在比特币面前,10个中国楼市合一块也只是战斗力0.05的渣渣。
不过对于挖矿这事,我懂的不多,比特币价格的玄学走势更是不懂,所以只能避而远之
。但... 阅读全帖 |
|
kn 发帖数: 2446 | 46 我部分同意你的观点,即CUDA本身只是一种并行计算平台,和其他并行计算并无矛盾。
但是虽说CUDA本身只是一个软硬件平台,他代表的是一种GPGPU计算的可能性。
在CUDA出来之前,并没有一个方便的平台让人们进行这种并行信号处理,
不论是硬件还是软件开发环境。
但是CUDA就提供了一种可能性,使人可以花很少钱,就能拥有一套并行处理研究平台。
近期看到一些较新paper,讨论使用CUDA实现并行LDPC,Turbo Decoding,
也有使用CUDA做ralay或者detection的。
另外,因为CUDA本身基于通用GPU,
个人PC或者服务器上很可能已经安装了支持CUDA的显卡,
这些显卡平时大部分时候可能处于idle状态,也就是一种性能闲置和浪费的状态,
这样就提供了一些可能性,就是在GPU处于比较空闲的状态下,
可以分配一部分GPU资源协助进行信号处理,
无论是用来协助无线通信部件做detection或ralay,
或者进行其他一些computation-intensive的计算。
因为这部分硬件资源已经在那里了,不用也是一种浪费,
怎么发挥GPU的余热,榨干剩余的性能,
如何... 阅读全帖 |
|
z****e 发帖数: 54598 | 47
这么说吧
有个常识你知道下
一般系统优化呢
有个技巧,就是把层与层之间的io操作减少
尤其是你这里从网络上下载文件
这种io肯定最为耗时
所以前面说了用cache,如果你能够先下载到本地
再从本地读取,硬盘的io肯定速度要超过网络的io
io的速度,网络最慢,其次硬盘,然后是内存
这个差异都是数量级的差异,如果网络io需要100s的话
硬盘大概10s,内存可能1s都不到,再往下l2,l1 cache之类的
其次你启动多个threads的话,你的cpu数量(#)*每个cpu的core数量(#)
是你处理的上限,剩下的启动再多thread也不会有太大的提升
反而会因为你的程序在不同thread之间切换,导致额外的overhead
所以你应该爆多个nodes这样理论上限就是
node#*cpu#*core#
而且你这种是属于理论上可以完全并行的处理
所以如果你能爆60万个cores在不同的nodes上的话
你理论上可以并行,最后也就是平均过去一个xml获取+处理的时间
当然你要申请到60万个来做这事也挺麻烦的
所以建议600000/100=6000,差不多,3天,3*24*3600/100... 阅读全帖 |
|
j******n 发帖数: 108 | 48 你觉得在所有的 application 中,能并行的多,还是串行的多?
如果能并行的计算,特别是个人计算,真的那么普及的话
multi-core cpu 的前景显然更加明朗
所以我才说 cloud computing 目前的定位在于大规模数据分析的
这些分析多数都比较容易并行处理,比如 list intersection, aggregation
非要把字处理、视频解码移到 cloud 里,其实用的是存储,不是计算
这些计算在 cloud 里和个人电脑里没有什么区别 |
|
c******o 发帖数: 1277 | 49 这个没有detail很难说,只能说非常大致感觉是这样的。
先把各个“角色”抽象成为一个type,这个type包括了一个abstract trait, 和几个
extend的 case class,取决于model可能很复杂,里面可能包括了状态。
角色之间/和环境的互动抽象为function
对于可读性,我并不认为FP一定好
scala好玩的是可以用 主谓宾,定状补来写code,如果需要
对于并行处理
imperative:
player1.attack(player2)
player1, player2 内部状态改变
player1.hitByThunder()
player1 内部状态改变
两个动作无关的话也不好并行
FP:
attack(player1, player2) => (newplayer1, newplayer2)
hitByThunder(player1) => newplayer1
如果两个动作不相关, 它们都返回Future type, 可以直接
for (
a1 <- attack...
a2 <- hitByThunder...
) yield (... 阅读全帖 |
|
c******o 发帖数: 1277 | 50 这个没有detail很难说,只能说非常大致感觉是这样的。
先把各个“角色”抽象成为一个type,这个type包括了一个abstract trait, 和几个
extend的 case class,取决于model可能很复杂,里面可能包括了状态。
角色之间/和环境的互动抽象为function
对于可读性,我并不认为FP一定好
scala好玩的是可以用 主谓宾,定状补来写code,如果需要
对于并行处理
imperative:
player1.attack(player2)
player1, player2 内部状态改变
player1.hitByThunder()
player1 内部状态改变
两个动作无关的话也不好并行
FP:
attack(player1, player2) => (newplayer1, newplayer2)
hitByThunder(player1) => newplayer1
如果两个动作不相关, 它们都返回Future type, 可以直接
for (
a1 <- attack...
a2 <- hitByThunder...
) yield (... 阅读全帖 |
|