二爷等牛人能给个学spark的建议不？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 二爷等牛人能给个学spark的建议不？

相关主题
● 我觉得在scala上浪费时间没意思	● akka/scala/jvm
● 有人上Spark用python API的么	● 有因为Spark而学习Scala的吗？
● L家不再用scala了。。	● 感觉要跳scala了
● 对分布式软件的Jepsen测试	● 大牛们给说说学习scala路径？
● AWS keeps marching forward	● 看了眼scala，觉得很杂
● 有人用过 BackBlaze 代替 AWS S3 吗?	● scala应该努力成为学术圈内的工具
● 很多东东要是我来设计，会很不一样	● scala大牛入
● Nosql is not for everyone.	● 大牛说说用scala自己能做啥project

相关话题的讨论汇总
话题: 机器话题: spark话题: scale话题: aws话题: out

进入Programming版参与讨论

(共1页)

B***n
发帖数: 84

目前情况，略懂scala, 利用别人提供的script把spark给配置好了，然后照的人家的
例子运行了几个例子，然后就没然后，后面就不太清楚如何进行下去了，
目前想的可能是第一步去熟悉 scala，但是觉得单单的去学一门语言比较无聊，想找些
项目例子边做边学的那种，
下次该干嘛？
求建议。谢谢

p*****2
发帖数: 21240

感觉写spark app对scala要求不高
所以想学spark还是要上项目

【在 B***n 的大作中提到】

: 目前情况，略懂scala, 利用别人提供的script把spark给配置好了，然后照的人家的
: 例子运行了几个例子，然后就没然后，后面就不太清楚如何进行下去了，
: 目前想的可能是第一步去熟悉 scala，但是觉得单单的去学一门语言比较无聊，想找些
: 项目例子边做边学的那种，
: 下次该干嘛？
: 求建议。谢谢

j****y
发帖数: 684

问题是没有大数据吧，若是自己搞。。。

【在 p*****2 的大作中提到】

: 感觉写spark app对scala要求不高
: 所以想学spark还是要上项目

p*****2
发帖数: 21240

我们有
没大数据没必要上考虑一下mongo

【在 j****y 的大作中提到】

: 问题是没有大数据吧，若是自己搞。。。

g*********e
发帖数: 14401

多大算大数据？

p*****2
发帖数: 21240

一台机器装不下或者处理不过来

【在 g*********e 的大作中提到】

: 多大算大数据？

p*****2
发帖数: 21240

今天玩了玩还是出现问题了
明天要发信问了
感觉还是要动手才能涨经验

【在 B***n 的大作中提到】

w***g
发帖数: 5958

业余标准：一台服务器内存存不下，也就是>100G
专业标准：一台服务器硬盘存不下，也就是>10T
一台机器可以搞定的在我看来都不能算大数据。

【在 g*********e 的大作中提到】

: 多大算大数据？

j****y
发帖数: 684

所以是不是说，非工作经验的spark使用（有大数据），都基本学不到啥

【在 w***g 的大作中提到】

: 业余标准：一台服务器内存存不下，也就是>100G
: 专业标准：一台服务器硬盘存不下，也就是>10T
: 一台机器可以搞定的在我看来都不能算大数据。

w***g
发帖数: 5958

大部分号称大数据的工作其实也不是大数据。我只是想说大数据是个概念或者说忽悠。
同样的东西十多年前叫数据挖掘。

【在 j****y 的大作中提到】

: 所以是不是说，非工作经验的spark使用（有大数据），都基本学不到啥

相关主题
● 有人用过 BackBlaze 代替 AWS S3 吗?	● akka/scala/jvm
● 很多东东要是我来设计，会很不一样	● 有因为Spark而学习Scala的吗？
● Nosql is not for everyone.	● 感觉要跳scala了
进入Programming版参与讨论

g*********e
发帖数: 14401

...

【在 p*****2 的大作中提到】

: 一台机器装不下或者处理不过来

g*********e
发帖数: 14401

this sounds tiny, sometimes log dump can be that much.
thought petabyte would qualify big data.

【在 w***g 的大作中提到】

: 业余标准：一台服务器内存存不下，也就是>100G
: 专业标准：一台服务器硬盘存不下，也就是>10T
: 一台机器可以搞定的在我看来都不能算大数据。

g*****g
发帖数: 34805

It's not about the sheer size, it's about the scale-out architecture and
tools that leverage computing power and storage on consumer hardware to do
analysis. You are trying to get an analysis out in reasonable timeframe. The
data may fit in one disk but the computing power on single machine can be
well below what's needed. e.g. Some dating sites rent thousands of AWS
instance every night to compute match for their 10s of millions users, which
may take months if you are equipped with the best IBM mainframe you can buy
. It's
hard to argue that's not big data.

【在 g*********e 的大作中提到】

:
: this sounds tiny, sometimes log dump can be that much.
: thought petabyte would qualify big data.

w***g
发帖数: 5958

我看也需要tens of thousands of AWS。因为matching algorithm本质上不是线性时间
算法，一上你所谓的scale-out轮子性能基本上就掉到了地上。稍微profile一下就会发
现时间都用来写网卡写磁盘了。不明就里的人一看往往被几千台机器吓到了。其实上一
台256G内存的机器全都load到内存中算未必会比几千台机器慢。IBM的main frame我没
用过。不过main frame是I/O牛B，运算性能未必强。
dating算法我没做过，但是根据我做K-NN图的经验(给定一个对象集合，为每一个对象
算出最接近的K个对象)，每个对象100多个维度，10 million个对象，64G内存的台式机
算K-NN图也就是不到半个小时的事情。我最多在一台80 core 512G内存的机器上算过
100 million对象的K-NN图，也就算了一个半钟头。Dating算法无非是要求输出再加上
个二部图约束，问题的本质是一样的。确实到1 billion我一台机器就搞不定了，但
你scale out的话机器从10 million到1 billion机器乘100备怕是不够的吧，谁来出这
个钱？
这年头会搞算法会写实现的人太少了，动不动就有人拿几千台机器出来吓人。当时
Yahoo就拿一个几千个node的Hadoop机群跟人拼排序，我看了都要笑死了。

The
which
buy

【在 g*****g 的大作中提到】

: It's not about the sheer size, it's about the scale-out architecture and
: tools that leverage computing power and storage on consumer hardware to do
: analysis. You are trying to get an analysis out in reasonable timeframe. The
: data may fit in one disk but the computing power on single machine can be
: well below what's needed. e.g. Some dating sites rent thousands of AWS
: instance every night to compute match for their 10s of millions users, which
: may take months if you are equipped with the best IBM mainframe you can buy
: . It's
: hard to argue that's not big data.

g*****g
发帖数: 34805

我不是算法专家，姑且不论最优的算法能不能几个小时算出来，假定可以好了。
像你这么放进内存做，不保存中间结果，一掉电，结果全没了，第二天没更新。或者网
站人气上来了，人翻了10倍，你怎么办？或者进一步细分，分析每次网站点击，一个用
户可能平均点击了几千次，你怎么办？
算法跟scale out并不是矛盾的，但你觉得单机算法能解决一切太native了。

【在 w***g 的大作中提到】

: 我看也需要tens of thousands of AWS。因为matching algorithm本质上不是线性时间
: 算法，一上你所谓的scale-out轮子性能基本上就掉到了地上。稍微profile一下就会发
: 现时间都用来写网卡写磁盘了。不明就里的人一看往往被几千台机器吓到了。其实上一
: 台256G内存的机器全都load到内存中算未必会比几千台机器慢。IBM的main frame我没
: 用过。不过main frame是I/O牛B，运算性能未必强。
: dating算法我没做过，但是根据我做K-NN图的经验(给定一个对象集合，为每一个对象
: 算出最接近的K个对象)，每个对象100多个维度，10 million个对象，64G内存的台式机
: 算K-NN图也就是不到半个小时的事情。我最多在一台80 core 512G内存的机器上算过
: 100 million对象的K-NN图，也就算了一个半钟头。Dating算法无非是要求输出再加上
: 个二部图约束，问题的本质是一样的。确实到1 billion我一台机器就搞不定了，但

w***g
发帖数: 5958

我就不重蹈魏老师的覆辙跟你没完没了地吵了。你说的断电啥的都有办法可以解决。实
际做系统的话一台机器肯定不够，10 million用户的话做一个系统也就数十台机器吧。
我肯定不会给出几千台机器的solution。AWS
100G内存的机器再配点SSD的话就算$2一小时，一千台机器算一天也是近5w美刀，这笔
钱我觉得还不是随便一个什么公司就能烧得起的。要是哪天用户涨了10倍，银行帐号怕
是要扛不住AWS的账单了吧。
goodbug你是做网站的专家，你给客观估计一下，如果不跑复杂算法，10 million用户
，服务外加日志分析什么的，就用现有的轮子大概需要几台服务器。我估计是10台到
100台之间都能做，区别主要看东家的口袋深度。你应该能比我估计得准，这样好歹大
家读了帖子有点收获。

【在 g*****g 的大作中提到】

: 我不是算法专家，姑且不论最优的算法能不能几个小时算出来，假定可以好了。
: 像你这么放进内存做，不保存中间结果，一掉电，结果全没了，第二天没更新。或者网
: 站人气上来了，人翻了10倍，你怎么办？或者进一步细分，分析每次网站点击，一个用
: 户可能平均点击了几千次，你怎么办？
: 算法跟scale out并不是矛盾的，但你觉得单机算法能解决一切太native了。

g*****g
发帖数: 34805

我就是举个例子一台机器放的下的东西，不等于就不是big data。一千台机器也好，10
台机器也好，不是本质的区别，一台机器和十台机器才是本质的区别。公司小的时候用
十台机器，大了用一千台的实在太多了。无论你用10台还是一千台，实践中就会遇到前
人碰到的问题，就会意识到前人写下的轮子的好处。轮子不是完美的，但认定别人用轮
子是算法不行就太搞笑了。Yahoo和hot startup雇不起算法好的人我是不信的。
就如我说的，算法和scale-out是不矛盾的。实践出真知，要嘲笑state-of-art，唯一
的证明是自己做一个beat state-of-art。在此之前都是放空炮而已。

【在 w***g 的大作中提到】

: 我就不重蹈魏老师的覆辙跟你没完没了地吵了。你说的断电啥的都有办法可以解决。实
: 际做系统的话一台机器肯定不够，10 million用户的话做一个系统也就数十台机器吧。
: 我肯定不会给出几千台机器的solution。AWS
: 100G内存的机器再配点SSD的话就算$2一小时，一千台机器算一天也是近5w美刀，这笔
: 钱我觉得还不是随便一个什么公司就能烧得起的。要是哪天用户涨了10倍，银行帐号怕
: 是要扛不住AWS的账单了吧。
: goodbug你是做网站的专家，你给客观估计一下，如果不跑复杂算法，10 million用户
: ，服务外加日志分析什么的，就用现有的轮子大概需要几台服务器。我估计是10台到
: 100台之间都能做，区别主要看东家的口袋深度。你应该能比我估计得准，这样好歹大
: 家读了帖子有点收获。

g*********e
发帖数: 14401

that's buz most of the applications are simple and easily parallelizable.
like sorting, image compression, summing, copying, etc. what a joke.

【在 w***g 的大作中提到】

w***g
发帖数: 5958

我没有嘲笑轮子的意思。但是我估计同一个轮子scale-out估计也就是10倍规模的样子。
到了100倍规模还不需要重新写系统的估计很少。我等做系统的自然都希望系统做出来
以后坐地收钱，不过一劳永逸我觉得还是个神话吧。你们要自己做过或者听说过谁做过
scale 100倍还不需要重写的希望给我举个例子，我吹牛的时候也好说个名字出来。

10

【在 g*****g 的大作中提到】

: 我就是举个例子一台机器放的下的东西，不等于就不是big data。一千台机器也好，10
: 台机器也好，不是本质的区别，一台机器和十台机器才是本质的区别。公司小的时候用
: 十台机器，大了用一千台的实在太多了。无论你用10台还是一千台，实践中就会遇到前
: 人碰到的问题，就会意识到前人写下的轮子的好处。轮子不是完美的，但认定别人用轮
: 子是算法不行就太搞笑了。Yahoo和hot startup雇不起算法好的人我是不信的。
: 就如我说的，算法和scale-out是不矛盾的。实践出真知，要嘲笑state-of-art，唯一
: 的证明是自己做一个beat state-of-art。在此之前都是放空炮而已。

g*****g
发帖数: 34805

改进跟重写是两码事情。事实上是每上10倍都需要改进。作为early startup，重写也
不是大事。但如果你有1000万用户，如果到1亿用户面临重写，那就是大问题了。scale
out的轮子当然就是scale out，扔多少倍的硬件上去就大约能scale out多少倍。

子。

【在 w***g 的大作中提到】

: 我没有嘲笑轮子的意思。但是我估计同一个轮子scale-out估计也就是10倍规模的样子。
: 到了100倍规模还不需要重新写系统的估计很少。我等做系统的自然都希望系统做出来
: 以后坐地收钱，不过一劳永逸我觉得还是个神话吧。你们要自己做过或者听说过谁做过
: scale 100倍还不需要重写的希望给我举个例子，我吹牛的时候也好说个名字出来。
:
: 10

相关主题
● 大牛们给说说学习scala路径？	● scala大牛入
● 看了眼scala，觉得很杂	● 大牛说说用scala自己能做啥project
● scala应该努力成为学术圈内的工具	● 学scala和spark需要什么pre req?
进入Programming版参与讨论

w***g
发帖数: 5958

澄清一下，我在这个主题下的回帖只针对以听说哪个公司用thousands of AWS server
然后拿来吓唬人的做法，而且有点过激。希望不要误导新人。Spark和别的轮子都有各
自的优点和limitation，需要学习和理性地加以使用。

【在 w***g 的大作中提到】

g*****g
发帖数: 34805

It's always easier said than done. Say if you have an SLA 99.9%, you have a
cluster to do sorting or whatever, and the rate of hardware failure is 0.01%
. With 10 nodes cluster, you have nothing to worry about, with 100 nodes,
all of sudden, your solution no longer works.
Don't overkill, if you are an early startup, don't worry what if you were
facebook. But let's not pretend problem can't arise midway there.

【在 g*********e 的大作中提到】

: that's buz most of the applications are simple and easily parallelizable.
: like sorting, image compression, summing, copying, etc. what a joke.

g*********e
发帖数: 14401

a
01%
it certainly has its challenge in its own way, like front end dev have to
worry about all-kinds of browser compatibility. just not intellectually
exciting.

【在 g*****g 的大作中提到】

: It's always easier said than done. Say if you have an SLA 99.9%, you have a
: cluster to do sorting or whatever, and the rate of hardware failure is 0.01%
: . With 10 nodes cluster, you have nothing to worry about, with 100 nodes,
: all of sudden, your solution no longer works.
: Don't overkill, if you are an early startup, don't worry what if you were
: facebook. But let's not pretend problem can't arise midway there.

l*********s
发帖数: 5409

lol, 买原子弹不如买茶叶蛋。能躺着就把钱挣了才是王道啊。

【在 g*********e 的大作中提到】

:
: a
: 01%
: it certainly has its challenge in its own way, like front end dev have to
: worry about all-kinds of browser compatibility. just not intellectually
: exciting.

g*****g
发帖数: 34805

What's intellectually exciting is a subjective matter. You are not gonna
cure the cancer as a programmer. In my personal experience scalability is a
very challenging topic.

【在 g*********e 的大作中提到】

:
: a
: 01%
: it certainly has its challenge in its own way, like front end dev have to
: worry about all-kinds of browser compatibility. just not intellectually
: exciting.

w**z
发帖数: 8232

一个网站可能比你想象的要复杂得多，有很多layer，就我接触到的就有 Apache,nginx
, MySQL, mq, memcached, Java services, real time chatting, Cassandra,
hadoop,
wordpress, photo
storage(mogilefs, s3), backup storage, 还有许多intergration point, 收钱的几
十个vendor，
Facebook， Twitter，发email ,SMS 等等。每个layer都要HA, 有问题要及时察觉。
确实相当复杂。10million user, 300-500台机器很正常。

实node

【在 w***g 的大作中提到】

(共1页)

进入Programming版参与讨论

相关主题
● 大牛说说用scala自己能做啥project	● AWS keeps marching forward
● 学scala和spark需要什么pre req?	● 有人用过 BackBlaze 代替 AWS S3 吗?
● 已经全上内存了，还要40多秒啊	● 很多东东要是我来设计，会很不一样
● Spark会干掉Storm吗？	● Nosql is not for everyone.
● 我觉得在scala上浪费时间没意思	● akka/scala/jvm
● 有人上Spark用python API的么	● 有因为Spark而学习Scala的吗？
● L家不再用scala了。。	● 感觉要跳scala了
● 对分布式软件的Jepsen测试	● 大牛们给说说学习scala路径？

相关话题的讨论汇总
话题: 机器话题: spark话题: scale话题: aws话题: out

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天