第7页 - 关于分布式计算的讨论汇总 - 话题女王

全部话题 - 话题: 分布式计算

w********m
发帖数: 1137

大数据就是门槛太高
首先大数据是分布式计算. 单机的简单算法搞到cluster上, 要考虑各个node之间的
shuffle开销. 就变得很麻烦. 学校教不了这些, 也没条件教. 所以面试的角度很难找
人, 以前的OO design现在都改到现在system design, 就是希望筛到一点人.
第二知识更新太快. 各大公司在hadoop上面开发了自己的一套, 没法对接spark. 相反
小公司有后发优势, 比如wdong的生物信息学平台.

N*n
发帖数: 456

来自主题: Programming版 - 老姜，我给你个summary

涉及分布式计算，总有特殊情况要考虑。
Acid mq 简单的话，你展开说说怎么实现？
性能很重要啊。

d******e
发帖数: 2265

来自主题: Programming版 - 请教一下，各位牛人觉得Rust语言怎么样？

Spark:
Java, C++ 没有repl,出局。
python性能差，出局。
底层分布式计算没有AKKA的出局。没有AKKA搞毛RDD
你还能上什么，scala唯一选则。
scala虽然烂也主要集成了java的下水。
你们这些老古董，不懂数据工程的需求，就死报java C++高电传统的东西得了。

Perl

d***a
发帖数: 13752

来自主题: Programming版 - 大家有讨论王垠新博文《未来计划》吗？

"由于这么多次的惨痛经历，我不再想为 startup 公司工作，除非是作为 founder。我
尊敬一些成熟低调的大公司，比如 IBM，Intel，AMD，微软，Oracle（Sun）…… 对
Google 和 Tesla 这样年轻浮躁的公司不感兴趣。我感兴趣的领域包括系统平台，数据
库，程序语言，编译器，运行时系统（比如 JVM），并行和分布式计算，硬件设备，以
及一切跟性能相关的问题。"
这是系统架构师的位置。不客气地说，要培养一个好的系统架构师，至少要好几年的时
间（genius除外）。王垠的背景主要在程序语言方面，和这些差得比较远啊。
他去Intel/AMD做什么呢？去微软还行，但别人不会给他一个架构师的位置，虽然他对
这感兴趣。去Oracle做Java相关的工作也不错。
他找工作的问题，是只看到自己的“天赋才能”，想的是自己的兴趣。却不想对方要什
么样的人，他能为对方做什么。

h*i
发帖数: 3446

来自主题: Programming版 - macro is evil

函数compose的方式是有限制的，两个函数通过传参数来compose。数据compose是没有
限制的，两个数据结构如何compose是完全任意的。
data oriented programming就是把程序的逻辑用数据结构表达。这其实在分布式计算
已经用得很多了，各种逻辑可以变成数据结构在节点间传来传去。而Clojure社区现在
意识到，其实单机程序也可以这样写。一个逻辑，能用数据机构表达的，就用数据结构
表达，这样更灵活。
这个关于data的地位的问题，Alan Kay（就是因为Smalltalk拿图灵奖那位）与Rich
Hickey（就是发明Clojure的那个民科）还在hackernews上有一个争论https://news.
ycombinator.com/item?id=11945722)。前者认为"Data is a bad idea", 因为data总
是需要一个interpreter。后者认为Data是客观存在的，是第一位的，如何interpret是
第二位的。搞计算机技术，要以第一位的东西为中心。
显然，我是同意Rich Hickey的观点的。因为其实最终的i... 阅读全帖

h*i
发帖数: 3446

来自主题: Programming版 - 面向数据的编程与面向对象的编程

面向数据的编程（data oriented programming）就是把程序的逻辑用数据结构表达。
这其实在分布式计算
已经用得很多了，各种逻辑可以变成数据结构在节点间传来传去。而Clojure社区现在
意识到，其实单机程序也可以这样写。一个逻辑，能用数据机构表达的，就用数据结构
表达，这样更灵活。
这个关于data的地位的问题，Alan Kay（就是因为Smalltalk拿图灵奖那位，面向对象
的编程的祖师爷）与Rich
Hickey（就是发明Clojure的那个民科）还在hackernews上有一个争论https://news.
ycombinator.com/item?id=11945722)。前者认为"Data is a bad idea", 因为data总
是需要一个interpreter。后者认为Data是客观存在的，是第一位的，如何interpret是
第二位的。搞计算机技术，要以第一位的东西为中心。
显然，我是同意Rich Hickey的观点的。因为其实最终的interpreter，是在人的脑子里
面。就算再多的type checking, proof, blah ... 阅读全帖

w***g
发帖数: 5958

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

发帖数: 1

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

有道理。
搞不好oracle又复活了，现在花大钱搞cloud就是瞎折腾

n******g
发帖数: 2201

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

大牛和我想法不谋而合！
[在 wdong (万事休) 的大作中提到：]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

w**z
发帖数: 8232

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

数据量大于单机的存储量，单机怎么搞？

：马上industry又要重新发现单机模式了.
：Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w***g
发帖数: 5958

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

现在服务器内存可以上3TB， CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB，甚至还有十几个TB的SSD，
做成raid，I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据，清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据，完了直接读入内存算。
一般公司能有多大数据要处理？

w********m
发帖数: 1137

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天，中间还可能断。
所以没办法才要分布。

w**z
发帖数: 8232

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

你让 ec2 帮着攒一个？现在基本没公司自己买服务器了。

：现在服务器内存可以上3TB， CPU 2x16 core是标配。
：SSD storage很容易插进去十几个TB，甚至还有十几个TB的SSD，

c******n
发帖数: 16666

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下当然ec2方便

g****t
发帖数: 31659

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降，沦为奴隶工人。

m******r
发帖数: 1033

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

那你们给说说，要是自己弄个机器，能跑kaggle比赛的，大概得什么配置，多少钱？
当然，配置低了，跑得时间长。配置高了，我也买不起。
所以我只需要知道个大概几百还是几千块？

g****t
发帖数: 31659

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

很难赢国内的年轻人。

d*******r
发帖数: 3299

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架，没有这种易启动易扩展的特性，还是竞争不过.

w**z
发帖数: 8232

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

单机的 HA 始终是个问题。当然你可以赌，机器五年不会坏。

：比较同意这个, 互联网公司堆廉价Linux机器,
：因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

d*******r
发帖数: 3299

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵

i*****9
发帖数: 3157

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

话说现在直接面向用户的网站，一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1，2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机？

：比较同意这个, 互联网公司堆廉价Linux机器,
：因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

w***g
发帖数: 5958

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

发帖数: 1

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

有道理。
搞不好oracle又复活了，现在花大钱搞cloud就是瞎折腾

n******g
发帖数: 2201

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

w**z
发帖数: 8232

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

数据量大于单机的存储量，单机怎么搞？

：马上industry又要重新发现单机模式了.
：Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w***g
发帖数: 5958

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

w********m
发帖数: 1137

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天，中间还可能断。
所以没办法才要分布。

w**z
发帖数: 8232

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

c******n
发帖数: 16666

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下当然ec2方便

g****t
发帖数: 31659

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

m******r
发帖数: 1033

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

g****t
发帖数: 31659

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

很难赢国内的年轻人。

d*******r
发帖数: 3299

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

w**z
发帖数: 8232

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

d*******r
发帖数: 3299

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵

i*****9
发帖数: 3157

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

g*********9
发帖数: 1285

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

"Hadoop spark 也不如 MPI"，LOL, 你只知道个皮毛.

h**********c
发帖数: 4120

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

狗家那种数据中心如果开始老化的话，PC服务器也就是3年的寿命，
成批量资产更新也要很大一笔钱，
optimistic planning是不考虑depreciation 问题的

n******g
发帖数: 2201

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

您的观点呢？
[在 groundhog09 (衰哥) 的大作中提到：]
:"Hadoop spark 也不如 MPI"，LOL, 你只知道个皮毛.
:***********************
:***********************

l******n
发帖数: 9344

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

你知道super computer多贵吗？使用维护有多花钱吗？更不要说软件开发了，周期长到
让人绝望。应用范围基本都是关系国家安全或者民生的大问题，商业公司除了银行等极
少数行业，基本不可能用。
现在是个小startup就可以用很少的资金，做到以前有钱都做不到的事情，这还不是进
步？

m*****n
发帖数: 3575

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

金融管它叫
garbage in, garbage out.

r***s
发帖数: 737

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

不是退步的问题，是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB，单机处理其实没有问题。非要嚷嚷着要上大数据，是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。

r***s
发帖数: 737

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

m*****n
发帖数: 3575

来自主题: Programming版 - 為什麼golang algernon比C nginx慢幾十倍？golang行嗎

是不是这样理解
goroutine只能做到支持单机多核
例如8核还好用，32核效率就一般，再多了就扯了
分布式计算必须得换map reduce?

cpp

发帖数: 1

来自主题: Programming版 - 【转帖】为什么说区块链也不是什么好东西

兄弟，你说的这个就是 proof of stake啊(我前面的帖子提到过的)，是从 proof of
work进化来的。你不能因为一个demo 就觉得这个是全新的东西。你得看到本质的东西。
（1）proof of work是真正去中心化的东西。但是代价太大。
（2）proof of stake其实是一个中心化的东西，尽管这里的中心不是一个单个个体，
而是一群。这个东西其实是个分布式计算。这个东西其实有更有效的解决方式：就用
公钥让一群固定小圈子里的人来互相认证，然后轮流说话(和更新数据)来得直接。
（3）区域块就是比特币搞起来的。在比特币之前有区域块吗？因为比特币成功了，
所以人就想复制到别的应用。结果发现玩不转。就改头换面来搞proof of stake。
所以说区域块是个鸡肋技术，一点都不过分。

O*O
发帖数: 2284

来自主题: Biology版 - 诺奖事件证明举国攻关是我国的唯一道路

完全可行
下达政治任务给腾讯
蛋白解析软件和QQ捆绑
全国网民的电脑
分布式计算

[发表自未名空间手机版 - m.mitbbs.com]

j******x
发帖数: 383

来自主题: EE版 - 再向前辈们问个方向的问题

看了关于CS前景的讨论的贴，小弟还有很多事情不甚明了，想继续请教各位大大
我现在在念BME的PHD，期间想辅修一个master
目前大概有这么几个感兴趣的方向：一个是Computer System Architecture。这个其实
目前我比
较感兴趣，而且感觉课程和CS的比较接近。而且有门分布式计算的课在这个方向里面。
那门课需要一门
prerequisite，也在这个方向。
另一个是信号处理，这个感觉比较数学点，或许以后有机会转去金融？而且感觉这个方
向不容易速成，
所以学成以后不会面对太大的竞争压力？
还有可能是修一个CS的master。我现在的research对写代码的要求非常高，所以感觉这
个会比较有
用。但是因为以前修过EE的几门课，所以要修cs的ms估计要比拿EE MS多修2门课
我现在的phd方向不是很好找工作，但是因为整天写代码，所以估计找码工的会容易些
。但是对算法之类
的没有研究，而且写的代码看起来很丑。修CS的课是否能磨练一下？
关于CS前景的讨论贴上说CS老了以后就没有前途了，EE的这几个方向老了以后会如何？
听同学说EE的工
程师如果不升成主管一样会悲剧？回... 阅读全帖

s*****V
发帖数: 21731

来自主题: Mathematics版 - 日本数学家望月新一宣称证明质数之间深层联系猜想——abc猜想 (转载)

abc猜想（abc conjecture）最先由Joseph Oesterlé及David Masser在1985年提出。
它说明对于任何ε>0，存在常数Cε> 0，并对于任何三个满足a+ b= c及a,b互质的正整
数a,b,c，有：

rad(n)在此表示n的质因数的积。[1]
截止2005年，此猜想仍未证明，却衍生一BOINC项目名为“ABC@Home”。
1996年，爱伦·贝克提出一个较为精确的猜想，将rad(abc)用

取代，在此ω是a,b,c的不同质因子的数目。[2]

2012年9月，日本京都大学数学家Shinichi Mochizuki(望月新一)公布了有关abc猜
想（abc conjecture）长达500页的证明。虽然尚未被证实整个证明过程是正确无误的
，但包括陶哲轩在内的一些著名数学家均对此给出了正面评价。
美国哥伦比亚大学数学家Dorian Goldfeld评价说：“abc猜想如果被证明，将一举
解决许多著名的Diophantine问题，包括费马大定理。如果Mochizuki的证明是正确的，
这将是21世纪最令人震惊的数学成就之一。”
abc猜想的证明... 阅读全帖

发帖数: 1

来自主题: Quant版 - 招聘帖-quant/developer看过来

国内顶级私募基金诚聘英才
本公司是一家专业从事低延迟程序化交易的私募，总部位于北京地标性建筑内。公
司核心成员均毕业于斯坦福、清华、北大、人大、科大等海内外著名大学数学或计算机
相关专业，并曾就职于Morgan Stanley、IMC等世界一流程序化交易机构。我们致力于
通过深度观察分析市场微观数据来研究市场规律，并利用数学、统计、机器学习等方法
开展程序化交易，涉猎期货、期权、股票等多个国内外市场。公司自成立以来，依靠团
队强大的研发平台和专业的开发能力取得了持续多年的优异业绩（主要策略Sharpe
Ratio高于30
公司以顶尖人才为第一生产力，坚持扁平化管理，遵循平等互助原则，使每位员工
在团队中均承担重要角色，并能在轻松有趣的工作氛围中尽情发挥个人才能。除了极富
竞争力的薪酬体系和标准的五险一金外，公司提供的福利如下：
- 免费三餐（聘请了专职的私厨）和snacks
- 地标建筑办公，环境舒适、风景宜人，自有健身房、娱乐休闲区
- 可升降办公桌，可以站着办公（非常重要！）
- 各种节日大餐和节日礼物（iPhone级别）
- 商业补充医疗 + 高端私立医院报销
-... 阅读全帖

发帖数: 1

来自主题: Quant版 - [招聘] 国内顶级私募招聘C++ developer

本公司是一家专业从事低延迟程序化交易的私募，总部位于北京地标性建筑内。公
司核心成员均毕业于斯坦福、清华、北大、人大、科大等海内外著名大学数学或计算机
相关专业，并曾就职于Morgan Stanley、IMC等世界一流程序化交易机构。我们致力于
通过深度观察分析市场微观数据来研究市场规律，并利用数学、统计、机器学习等方法
开展程序化交易，涉猎期货、期权、股票等多个国内外市场。公司自成立以来，依靠团
队强大的研发平台和专业的开发能力取得了持续多年的优异业绩：
Sharpe Ratio高于30
持续600天以上无日亏损记录
公司以顶尖人才为第一生产力，坚持扁平化管理，遵循平等互助原则，使每位员工
在团队中均承担重要角色，并能在轻松有趣的工作氛围中尽情发挥个人才能。除了极富
竞争力的薪酬体系和标准的五险一金外，公司提供的福利如下：
- 免费三餐（聘请了专职的私厨）和snacks
- 地标建筑办公，环境舒适、风景宜人，自有健身房、娱乐休闲区
- 可升降办公桌，可以站着办公（非常重要！）
- 各种节日大餐和节日礼物（iPhone级别）
- 商业补充... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天