y******u 发帖数: 804 | 1 spark 基本上等于 in-memory hadoop,也包括realtime processing tools |
|
c******3 发帖数: 296 | 2 Spark是不是比Storm火?T家还用Storm吗? |
|
d*******r 发帖数: 3299 | 3 我知道有公司从 storm 转到 spark 的 |
|
n*****3 发帖数: 1584 | 4 感觉 spark 比较方便 ML, storm 只是设计成 一个sreaming sulotion.
a |
|
|
c******o 发帖数: 1277 | 6 我们的next gen BI 是spark/kinesis/yarn/aws/s3 based.
周一prototype demo.
不过不是我做的 |
|
j****y 发帖数: 684 | 7 搞spark之前是不是hadoop那套东西要搞懂,会用? |
|
n*****3 发帖数: 1584 | 8 能说说 为啥 python 不行?
performance or sth else?
我们这也要上 spark,
但没人有scala经验。
倒有一个cloujure 高手。 |
|
n*****3 发帖数: 1584 | 9 spark is just stable this year right? pretty new. |
|
l*****t 发帖数: 2019 | 10 有呀。公司有几个data scientist因为spark去学scala的。我不是。 |
|
c******o 发帖数: 1277 | 11 spark api只有scala/python, 用java 也可以.但是隔靴挠痒,总是会有问题的。 |
|
|
|
h*******c 发帖数: 248 | 14 这个的关键在于项目管理上,不给低质量代码生存的机会。Gatekeeper要绝对严格。
Code Review 这一步不能少。团队宜精不宜大。不能先开发再修改。要先写design doc
,通过review之后再写代码。
你看看spark的代码,绝对都有严格的code review。 |
|
l*******m 发帖数: 1096 | 15 RDD is a critical and fundamental part of spark. |
|
z******g 发帖数: 271 | 16 RDD can provide fault tolerance for in-memory intermediate result by only
storing very small amount of data on persistent storage. This is
particularly useful for iterative algorithms, since there is intermediate
result involved. Although in case there is not enough memory, Spark performs
exactly like Hadoop. |
|
B***n 发帖数: 84 | 17 目前情况,略懂scala, 利用别人提供的script把spark给配置好了, 然后照的人家的
例子运行了几个例子,然后就没然后,后面就不太清楚如何进行下去了,
目前想的可能是第一步去熟悉 scala,但是觉得单单的去学一门语言比较无聊,想找些
项目例子边做边学的那种,
下次该干嘛?
求建议。谢谢 |
|
j****y 发帖数: 684 | 18 所以是不是说,非工作经验的spark使用(有大数据),都基本学不到啥 |
|
w***g 发帖数: 5958 | 19 澄清一下,我在这个主题下的回帖只针对以听说哪个公司用thousands of AWS server
然后拿来吓唬人的做法,而且有点过激。希望不要误导新人。Spark和别的轮子都有各
自的优点和limitation,需要学习和理性地加以使用。 |
|
a******n 发帖数: 5925 | 20 仅会一些什么java, c, c++, objective c的码农
是不是还要补什么别的才能开始学scala, spark. |
|
a******n 发帖数: 5925 | 21 不是
LD公司上scala spark了
想想要不要跟着ld一起学习学习
以后换工作多一条路 |
|
z****e 发帖数: 54598 | 22 不是,我这边叫兽们喜欢scala,学生主流java,非主流python
spark比较好地切入了这个需求,一拍即合 |
|
k*******n 发帖数: 190 | 23 用1000台机器,5T的数据,就得出完全不同的结论了。
map reduce 需要一个小时的工作,spark 可以在亚秒级的时间内给出答案。 |
|
f******2 发帖数: 2455 | 24 spark本身就是被过于神话了,热度应该在3年左右,参考hadoop |
|
l*****t 发帖数: 2019 | 25 可能是他的算法要反复比对同一数据,那倒是很和spark的。 |
|
w***g 发帖数: 5958 | 26 平均一台机器处理5G数据,很了不起吗?用1/10的硬件性能得出的数据没有多大实际意
义。5T数据用100台机器,或者50T数据1000台机器,假设每台机器有128G内存,加上
overhead差不多能用掉百分之七八十的内存,这样的话得出的性能数据才比较靠谱。也
有可能
aws的硬件要打折扣,一台机器只能当1/10台用,那个我就不得而知了。
你说的1000台机器亚秒级给出答案我不是很信。即使啥东西不算,1000台机器同步一下
就得亚秒级吧。
我发这个帖子是因为有人号称即使从硬盘读spark也比hadoop快10倍。拿内存和硬盘比
快100倍没啥surprising的。
我目前帮忙做的一家,日志有几个T吧,但是处理干净了要送去跑ML算法的时候也就几
个G十几个G了。Hadoop和hive啥的都用来做数据清洗特征抽取了,都是线性复杂度过一
遍的事情。一大个cluster用来存日志和做豫处理,然后弄出来一点点干净的数据,在
一台机器上跑需要迭代的算法。你说的1000台机器处理5T数据,我只能做一下猜测:
1. 算法是CPU bound,内存都不是瓶颈。所以会出现平均一台机器只处理5G的情形。这... 阅读全帖 |
|
w***g 发帖数: 5958 | 27 spark的市场好不好其实跟你我没太大关系。现在出来的东西一个比一个容易用,做大
数据的都烂大街了。想赚钱得看下一波的方向了。 |
|
z****e 发帖数: 54598 | 28 当然有关系,有本事的去ml弄钱
没本事的堆点spark,混口饭吃,向boss多要点工资还是可以的 |
|
w***g 发帖数: 5958 | 29 我的意思是说如果不愿意三天两头学个新东西玩玩的人其实不适合搞IT。像我这种特别
鄙视hadoop和spark的,好歹也要装上玩玩才行,一不小心解决了个实际问题那是赚了
,那叫技多不压身。有这功夫纠结学不学,文档都看完了。 |
|
z****e 发帖数: 54598 | 30 java->j2ee->hadoop(big data/nosql)->spark(ml)
这是java程序员常见的自我增值的一个path |
|
n******t 发帖数: 4406 | 31 您给说说spark为什么会快?
interactive |
|
c******o 发帖数: 1277 | 32 原来刚出来的时候很前卫, 大量利用内存缓存。
work set(不是一开始的data set)就可以在内存重复存取。现在已经比较普遍了。
我记得spark还大量利用了 scala的continuation 来对中间过程进行优化,可以在一定
情况skip 一些中间过程。 |
|
p*****2 发帖数: 21240 | 33 昨天跟几个大牛聊system design,今天发现Spark可以完美解决
看来Storm凶多吉少呀 |
|
g*****g 发帖数: 34805 | 34 Storm 是real time processing, Spark是batch processing. Use case不太一样吧。 |
|
z****e 发帖数: 54598 | 35 嗯,storm可以接收来自其他server的stream
spark还是主要针对persistence,现在也只针对hdfs
cassandra的支持都还只是刚刚起步 |
|
p*****2 发帖数: 21240 | 36
大牛说的是。感觉我的use case用spark实现会容易很多。准备玩玩。 |
|
p*****2 发帖数: 21240 | 37
spark现在是一整套,stream也支持。 |
|
p*****2 发帖数: 21240 | 38
前几天研究了一下语言,感觉除了coffee,还是clojure最好。不过看spark这个架势,
以后要大量scala了。 |
|
p*****g 发帖数: 7 | 39 Spark's streaming support actually is called micro batch processing,
according to P Taylor Goetz's presentation. |
|
z****e 发帖数: 54598 | 40 spark现在的5个libs里面,sql和r就占了两个
看来是迫切需要让dba和统计学家都来搞
至于用来写web的脚本,那这个其实关系没那么大了
vert.x倒是支持得很快,vert.x对于主流web脚本语言都支持了
包括ruby,python,js,coffee,clojure,scala |
|
p*****2 发帖数: 21240 | 41
spark还远没有成熟,现在问题不少,很多时候需要看源码,不懂scala很难呀 |
|
z****e 发帖数: 54598 | 42 一般来说,版本号上1.0俺就认为它成熟了
node.js现在版本号都不敢上1.0,spark都1.1了
那又有啥好怕的,这多半是杞人忧天
实在怕,那就等2.0再上了,vert.x都奔着3.0去了 |
|
N*****m 发帖数: 42603 | 43 从我们组看,已经取代了
aws emr上开spark做stream太轻松了,比storm容易多了 |
|
c****e 发帖数: 1453 | 44 Spark is micro batch. I heard a few friends using it talking that it is not
totally ready for prime time yet, not as mature as storm. But in the long
run, for many scenarios, it will eat storm's cake for sure. |
|
f****3 发帖数: 77 | 45 spark 的streaming还达不到storm一样的毫秒级别吧?而且现在还不稳定。不过我们公
司现在才刚用storm,感觉完全落后社区。。 |
|
w***g 发帖数: 5958 | 46 不知道shark是个什么状态。我刚把spark从1.0.2 downgrade到0.9.1为了用shark。对
我说来能直接写SQL诱惑更大。 |
|
|
p*****2 发帖数: 21240 | 48 想用 试了试本地spark跑不起来 就先放一放了 |
|
|
|