都用了spark了吗？ - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 都用了spark了吗？

相关主题
● 招数据科学家	● 新人求教一个ＨＡＤＯＯＰ的问题
● big data software engineer或者data scientist 工作机会推荐 (转载)	● 一般data scientist都是什么背景，一定要phd吗？
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● Big data是下一个大坑吗
● 妹纸物理phd转data science求建议	● 我觉得关于datascience最近看到的几个有价值的贴
● 请问大家有没有直接用java全程写mapreduce的程序的？	● Hadoop Spark 学习小结[2014版] (转载)
● 如何学习Hadoop?	● Hadoop Spark 学习小结[2014版] (转载)
● How to prepare for the DS interview?	● 跳过hadoop直接学spark可行么？
● Kafka, Spark Streaming, ElasticSearch for Business Intelli	● DS面试的重点是算法，还是ML和Stat的模型，还是Hadoop?

相关话题的讨论汇总
话题: spark话题: scala话题: hadoop话题: streaming话题: java

进入DataSciences版参与讨论

(共1页)

z****e
发帖数: 54598

1.0发布了
据说比hadoop的mapreduce快100多倍

w***g
发帖数: 5958

都存内存里快100多倍自然没啥。如果都存磁盘，比mapr上的hadoop还快100多倍的话，
我都要给他下跪了。

【在 z****e 的大作中提到】

: 1.0发布了
: 据说比hadoop的mapreduce快100多倍

z****e
发帖数: 54598

说是内存操作快100倍，硬盘上的操作快10倍

【在 w***g 的大作中提到】

: 都存内存里快100多倍自然没啥。如果都存磁盘，比mapr上的hadoop还快100多倍的话，
: 我都要给他下跪了。

l*******m
发帖数: 1096

公司有了个cluster. 如果要爽些，估计还是要写scala. 准备在家里装一个，下一个个
人项目用一下

【在 z****e 的大作中提到】

: 1.0发布了
: 据说比hadoop的mapreduce快100多倍

c******f
发帖数: 243

小组一直在用

B*****g
发帖数: 34098

用scala还是java？

【在 c******f 的大作中提到】

: 小组一直在用

h*****7
发帖数: 6781

主要是内存块，但是硬盘操作也快
综合快很多，cluster越大越明显
实现所需代码简单，没有太多附加冗余
安装简单，软件极轻
几乎每一样都是要害

【在 w***g 的大作中提到】

: 都存内存里快100多倍自然没啥。如果都存磁盘，比mapr上的hadoop还快100多倍的话，
: 我都要给他下跪了。

o****o
发帖数: 8077

下一个来玩玩

s******X
发帖数: 43

那个spark sql教程不详啊

e*******n
发帖数: 872

用hadoop+python的掩面走过。。。

相关主题
● 如何学习Hadoop?	● 新人求教一个ＨＡＤＯＯＰ的问题
● How to prepare for the DS interview?	● 一般data scientist都是什么背景，一定要phd吗？
● Kafka, Spark Streaming, ElasticSearch for Business Intelli	● Big data是下一个大坑吗
进入DataSciences版参与讨论

c***z
发帖数: 6348

大牛们有什么好的tutorial么
最近准备上spark了
多谢多谢！

j*******g
发帖数: 331

同胞写的最透彻
https://github.com/JerryLead/SparkInternals/tree/master/markdown

【在 c***z 的大作中提到】

: 大牛们有什么好的tutorial么
: 最近准备上spark了
: 多谢多谢！

n*****3
发帖数: 1584

very good, thanks man!

【在 j*******g 的大作中提到】

: 同胞写的最透彻
: https://github.com/JerryLead/SparkInternals/tree/master/markdown

B*****g
发帖数: 34098

ding

【在 j*******g 的大作中提到】

: 同胞写的最透彻
: https://github.com/JerryLead/SparkInternals/tree/master/markdown

z*******3
发帖数: 13709

嗯
那个
java其实可以不看文档直接盲狙的
用eclipse就可以找方法，然后那些方法名
你看了之后，应该就有点idea了

【在 c***z 的大作中提到】

: 大牛们有什么好的tutorial么
: 最近准备上spark了
: 多谢多谢！

S*******e
发帖数: 525

写的很棒。
我们小组（在很大的Telecom)现在才开始想用HADOOP，在实验室的40节点上做了一个
prototyp，我们可以在4分钟完成一天数据的处理。现在的Oracle code 需要4，5个
小时才处理7%的数据。
只是现在看SPRAK,Hadoop好像已过时了（我们还没开始呢）。看样子，Spark 可以做
near realtime了。我们的大头对STREAMING 特感兴趣，可他对具体技术一点不通（但
他有极强的分析能力和domain knowledge）。几天前我看了Hadoop's Streaming，似乎
根本不是通常意义上的streaming。 SPARK 的streaming 好像是我们需要的。

【在 j*******g 的大作中提到】

: 同胞写的最透彻
: https://github.com/JerryLead/SparkInternals/tree/master/markdown

n*****3
发帖数: 1584

spark streaming is the king to be.... I think for sure...
Our group will start to use it later this month, but
there are no scala expert in our group now; a conjure niuren though...

似乎

【在 S*******e 的大作中提到】

: 写的很棒。
: 我们小组（在很大的Telecom)现在才开始想用HADOOP，在实验室的40节点上做了一个
: prototyp，我们可以在4分钟完成一天数据的处理。现在的Oracle code 需要4，5个
: 小时才处理7%的数据。
: 只是现在看SPRAK,Hadoop好像已过时了（我们还没开始呢）。看样子，Spark 可以做
: near realtime了。我们的大头对STREAMING 特感兴趣，可他对具体技术一点不通（但
: 他有极强的分析能力和domain knowledge）。几天前我看了Hadoop's Streaming，似乎
: 根本不是通常意义上的streaming。 SPARK 的streaming 好像是我们需要的。

S*******e
发帖数: 525

好！希望有机会交流。用Java不也可以吗？是不是典型的应用是用scala？

【在 n*****3 的大作中提到】

: spark streaming is the king to be.... I think for sure...
: Our group will start to use it later this month, but
: there are no scala expert in our group now; a conjure niuren though...
:
: 似乎

c******f
发帖数: 243

我们组去年就开始用spark做batch processing了
我最近拿了个project，要design spark streaming
参考了lambda architecture把batch / real time结合了
很欢乐

n*****3
发帖数: 1584

spark is written in scala , so i think if u need the lstest features, scala
is the
best choice

【在 S*******e 的大作中提到】

: 好！希望有机会交流。用Java不也可以吗？是不是典型的应用是用scala？

相关主题
● 我觉得关于datascience最近看到的几个有价值的贴	● 跳过hadoop直接学spark可行么？
● Hadoop Spark 学习小结[2014版] (转载)	● DS面试的重点是算法，还是ML和Stat的模型，还是Hadoop?
● Hadoop Spark 学习小结[2014版] (转载)	● hadoop admin
进入DataSciences版参与讨论

z*******3
发帖数: 13709

无所谓
java和scala可以互相call
所有scala的东西都可以被java所用
反之亦然
都在同一个jvm上，都是byte code
机器可不管是java还是scala写的
而且从我们经验看，用java还更好
因为用scala会乱写，造成不必要的混乱
现在对scala几乎所有的抱怨都集中在代码书写的混乱上
权力太大不是好事，就象一个兵崽都能发射核弹一样

scala

【在 n*****3 的大作中提到】

: spark is written in scala , so i think if u need the lstest features, scala
: is the
: best choice

z*******3
发帖数: 13709

恭喜，oracle这种东西，就应该被淘汰
任何用license插管吸血的软件，都应该被市场干掉

似乎

【在 S*******e 的大作中提到】

c***z
发帖数: 6348

谢谢各位大牛！

(共1页)

进入DataSciences版参与讨论

相关主题
● DS面试的重点是算法，还是ML和Stat的模型，还是Hadoop?	● 请问大家有没有直接用java全程写mapreduce的程序的？
● hadoop admin	● 如何学习Hadoop?
● 如何提高Spark在Yarn上的内存使用率	● How to prepare for the DS interview?
● 学习spark是否需要懂scala？	● Kafka, Spark Streaming, ElasticSearch for Business Intelli
● 招数据科学家	● 新人求教一个ＨＡＤＯＯＰ的问题
● big data software engineer或者data scientist 工作机会推荐 (转载)	● 一般data scientist都是什么背景，一定要phd吗？
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● Big data是下一个大坑吗
● 妹纸物理phd转data science求建议	● 我觉得关于datascience最近看到的几个有价值的贴

相关话题的讨论汇总
话题: spark话题: scala话题: hadoop话题: streaming话题: java

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天