第10页 - 关于sparking的讨论汇总 - 话题女王

全部话题 - 话题: sparking

y******u
发帖数: 804

来自主题: Programming版 - 有人介绍一下storm/spark的不同么？

spark 基本上等于 in-memory hadoop，也包括realtime processing tools

c******3
发帖数: 296

来自主题: Programming版 - 有人介绍一下storm/spark的不同么？

Spark是不是比Storm火？T家还用Storm吗？

d*******r
发帖数: 3299

来自主题: Programming版 - 有人介绍一下storm/spark的不同么？

我知道有公司从 storm 转到 spark 的

n*****3
发帖数: 1584

来自主题: Programming版 - 有人介绍一下storm/spark的不同么？

感觉 spark 比较方便 ML， storm 只是设计成一个sreaming sulotion.

a

p*****2
发帖数: 21240

来自主题: Programming版 - 有谁玩过C* + Spark?

到底有没有人在玩Spark呀？

c******o
发帖数: 1277

来自主题: Programming版 - 有谁玩过C* + Spark?

我们的next gen BI 是spark/kinesis/yarn/aws/s3 based.
周一prototype demo.
不过不是我做的

j****y
发帖数: 684

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

搞spark之前是不是hadoop那套东西要搞懂，会用？

n*****3
发帖数: 1584

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

能说说为啥 python 不行？
performance or sth else?
我们这也要上 spark,
但没人有scala经验。
倒有一个cloujure 高手。

n*****3
发帖数: 1584

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

spark is just stable this year right? pretty new.

l*****t
发帖数: 2019

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

有呀。公司有几个data scientist因为spark去学scala的。我不是。

c******o
发帖数: 1277

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

spark api只有scala/python, 用java 也可以.但是隔靴挠痒，总是会有问题的。

c******o
发帖数: 1277

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

en, http://spark.apache.org/docs/1.0.2/api/java/index.html
是有java API, 我也说akka/play都有，这个怎么没有。
不过没用过，不知道，很多scala的pattern 可能没法用，

c******f
发帖数: 243

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

<---
用spark快一年了

h*******c
发帖数: 248

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

这个的关键在于项目管理上，不给低质量代码生存的机会。Gatekeeper要绝对严格。
Code Review 这一步不能少。团队宜精不宜大。不能先开发再修改。要先写design doc
，通过review之后再写代码。
你看看spark的代码，绝对都有严格的code review。

l*******m
发帖数: 1096

来自主题: Programming版 - spark 到底牛在什么地方？

RDD is a critical and fundamental part of spark.

z******g
发帖数: 271

来自主题: Programming版 - spark 到底牛在什么地方？

RDD can provide fault tolerance for in-memory intermediate result by only
storing very small amount of data on persistent storage. This is
particularly useful for iterative algorithms, since there is intermediate
result involved. Although in case there is not enough memory, Spark performs
exactly like Hadoop.

B***n
发帖数: 84

来自主题: Programming版 - 二爷等牛人能给个学spark的建议不？

目前情况，略懂scala, 利用别人提供的script把spark给配置好了，然后照的人家的
例子运行了几个例子，然后就没然后，后面就不太清楚如何进行下去了，
目前想的可能是第一步去熟悉 scala，但是觉得单单的去学一门语言比较无聊，想找些
项目例子边做边学的那种，
下次该干嘛？
求建议。谢谢

j****y
发帖数: 684

来自主题: Programming版 - 二爷等牛人能给个学spark的建议不？

所以是不是说，非工作经验的spark使用（有大数据），都基本学不到啥

w***g
发帖数: 5958

来自主题: Programming版 - 二爷等牛人能给个学spark的建议不？

澄清一下，我在这个主题下的回帖只针对以听说哪个公司用thousands of AWS server
然后拿来吓唬人的做法，而且有点过激。希望不要误导新人。Spark和别的轮子都有各
自的优点和limitation，需要学习和理性地加以使用。

a******n
发帖数: 5925

来自主题: Programming版 - 学scala和spark需要什么pre req?

仅会一些什么java, c, c++, objective c的码农
是不是还要补什么别的才能开始学scala, spark.

a******n
发帖数: 5925

来自主题: Programming版 - 学scala和spark需要什么pre req?

不是
LD公司上scala spark了
想想要不要跟着ld一起学习学习
以后换工作多一条路

z****e
发帖数: 54598

来自主题: Programming版 - 学scala和spark需要什么pre req?

不是，我这边叫兽们喜欢scala，学生主流java，非主流python
spark比较好地切入了这个需求，一拍即合

k*******n
发帖数: 190

来自主题: Programming版 - 试了下spark，不过如此啊

用1000台机器，5T的数据，就得出完全不同的结论了。
map reduce 需要一个小时的工作，spark 可以在亚秒级的时间内给出答案。

f******2
发帖数: 2455

来自主题: Programming版 - 试了下spark，不过如此啊

spark本身就是被过于神话了，热度应该在3年左右，参考hadoop

l*****t
发帖数: 2019

来自主题: Programming版 - 试了下spark，不过如此啊

可能是他的算法要反复比对同一数据，那倒是很和spark的。

w***g
发帖数: 5958

来自主题: Programming版 - 试了下spark，不过如此啊

平均一台机器处理5G数据，很了不起吗？用1/10的硬件性能得出的数据没有多大实际意
义。5T数据用100台机器，或者50T数据1000台机器，假设每台机器有128G内存，加上
overhead差不多能用掉百分之七八十的内存，这样的话得出的性能数据才比较靠谱。也
有可能
aws的硬件要打折扣，一台机器只能当1/10台用，那个我就不得而知了。
你说的1000台机器亚秒级给出答案我不是很信。即使啥东西不算，1000台机器同步一下
就得亚秒级吧。
我发这个帖子是因为有人号称即使从硬盘读spark也比hadoop快10倍。拿内存和硬盘比
快100倍没啥surprising的。
我目前帮忙做的一家，日志有几个T吧，但是处理干净了要送去跑ML算法的时候也就几
个G十几个G了。Hadoop和hive啥的都用来做数据清洗特征抽取了，都是线性复杂度过一
遍的事情。一大个cluster用来存日志和做豫处理，然后弄出来一点点干净的数据，在
一台机器上跑需要迭代的算法。你说的1000台机器处理5T数据，我只能做一下猜测：
1. 算法是CPU bound，内存都不是瓶颈。所以会出现平均一台机器只处理5G的情形。这... 阅读全帖

w***g
发帖数: 5958

来自主题: Programming版 - 试了下spark，不过如此啊

spark的市场好不好其实跟你我没太大关系。现在出来的东西一个比一个容易用，做大
数据的都烂大街了。想赚钱得看下一波的方向了。

z****e
发帖数: 54598

来自主题: Programming版 - 试了下spark，不过如此啊

当然有关系，有本事的去ml弄钱
没本事的堆点spark，混口饭吃，向boss多要点工资还是可以的

w***g
发帖数: 5958

来自主题: Programming版 - 试了下spark，不过如此啊

我的意思是说如果不愿意三天两头学个新东西玩玩的人其实不适合搞IT。像我这种特别
鄙视hadoop和spark的，好歹也要装上玩玩才行，一不小心解决了个实际问题那是赚了
，那叫技多不压身。有这功夫纠结学不学，文档都看完了。

z****e
发帖数: 54598

来自主题: Programming版 - 试了下spark，不过如此啊

java->j2ee->hadoop(big data/nosql)->spark(ml)
这是java程序员常见的自我增值的一个path

n******t
发帖数: 4406

来自主题: Programming版 - 试了下spark，不过如此啊

您给说说spark为什么会快？

interactive

c******o
发帖数: 1277

来自主题: Programming版 - 试了下spark，不过如此啊

原来刚出来的时候很前卫，大量利用内存缓存。
work set(不是一开始的data set)就可以在内存重复存取。现在已经比较普遍了。
我记得spark还大量利用了 scala的continuation 来对中间过程进行优化，可以在一定
情况skip 一些中间过程。

p*****2
发帖数: 21240

来自主题: Programming版 - Spark会干掉Storm吗？

昨天跟几个大牛聊system design，今天发现Spark可以完美解决
看来Storm凶多吉少呀

g*****g
发帖数: 34805

来自主题: Programming版 - Spark会干掉Storm吗？

Storm 是real time processing, Spark是batch processing. Use case不太一样吧。

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

嗯，storm可以接收来自其他server的stream
spark还是主要针对persistence，现在也只针对hdfs
cassandra的支持都还只是刚刚起步

p*****2
发帖数: 21240

来自主题: Programming版 - Spark会干掉Storm吗？

大牛说的是。感觉我的use case用spark实现会容易很多。准备玩玩。

p*****2
发帖数: 21240

来自主题: Programming版 - Spark会干掉Storm吗？

spark现在是一整套，stream也支持。

p*****2
发帖数: 21240

来自主题: Programming版 - Spark会干掉Storm吗？

前几天研究了一下语言，感觉除了coffee，还是clojure最好。不过看spark这个架势，
以后要大量scala了。

p*****g
发帖数: 7

来自主题: Programming版 - Spark会干掉Storm吗？

Spark's streaming support actually is called micro batch processing,
according to P Taylor Goetz's presentation.

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

spark现在的5个libs里面，sql和r就占了两个
看来是迫切需要让dba和统计学家都来搞
至于用来写web的脚本，那这个其实关系没那么大了
vert.x倒是支持得很快，vert.x对于主流web脚本语言都支持了
包括ruby，python，js，coffee，clojure，scala

p*****2
发帖数: 21240

来自主题: Programming版 - Spark会干掉Storm吗？

spark还远没有成熟，现在问题不少，很多时候需要看源码，不懂scala很难呀

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

一般来说，版本号上1.0俺就认为它成熟了
node.js现在版本号都不敢上1.0，spark都1.1了
那又有啥好怕的，这多半是杞人忧天
实在怕，那就等2.0再上了，vert.x都奔着3.0去了

N*****m
发帖数: 42603

来自主题: Programming版 - Spark会干掉Storm吗？

从我们组看，已经取代了
aws emr上开spark做stream太轻松了，比storm容易多了

c****e
发帖数: 1453

来自主题: Programming版 - Spark会干掉Storm吗？

Spark is micro batch. I heard a few friends using it talking that it is not
totally ready for prime time yet, not as mature as storm. But in the long
run, for many scenarios, it will eat storm's cake for sure.

f****3
发帖数: 77

来自主题: Programming版 - Spark会干掉Storm吗？

spark 的streaming还达不到storm一样的毫秒级别吧？而且现在还不稳定。不过我们公
司现在才刚用storm，感觉完全落后社区。。

w***g
发帖数: 5958

来自主题: Programming版 - Spark 1.1 released last week

不知道shark是个什么状态。我刚把spark从1.0.2 downgrade到0.9.1为了用shark。对
我说来能直接写SQL诱惑更大。

z****e
发帖数: 54598

来自主题: Programming版 - Spark 1.1 released last week

不是有个spark sql包么？

p*****2
发帖数: 21240

来自主题: Programming版 - 别扯没用的，有人用过Spark Streaming吗？

想用试了试本地spark跑不起来就先放一放了

p*****2
发帖数: 21240

来自主题: Programming版 - 以后真的是cassandra spark的天下了？

spark跟hdfs集成好恶心呀

p*****2
发帖数: 21240

来自主题: Programming版 - Spark PK Akka 完胜呀

Spark还是很猛的，就是还不太成熟。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天