由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 都用了spark了吗?
相关主题
招数据科学家新人求教一个HADOOP的问题
big data software engineer或者data scientist 工作机会推荐 (转载)一般data scientist都是什么背景,一定要phd吗?
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?Big data是下一个大坑吗
妹纸物理phd转data science求建议我觉得关于datascience最近看到的几个有价值的贴
请问大家有没有直接用java全程写mapreduce的程序的?Hadoop Spark 学习小结[2014版] (转载)
如何学习Hadoop?Hadoop Spark 学习小结[2014版] (转载)
How to prepare for the DS interview?跳过hadoop直接学spark可行么?
Kafka, Spark Streaming, ElasticSearch for Business IntelliDS面试的重点是算法,还是ML和Stat的模型,还是Hadoop?
相关话题的讨论汇总
话题: spark话题: scala话题: hadoop话题: streaming话题: java
进入DataSciences版参与讨论
1 (共1页)
z****e
发帖数: 54598
1
1.0发布了
据说比hadoop的mapreduce快100多倍
w***g
发帖数: 5958
2
都存内存里快100多倍自然没啥。如果都存磁盘,比mapr上的hadoop还快100多倍的话,
我都要给他下跪了。

【在 z****e 的大作中提到】
: 1.0发布了
: 据说比hadoop的mapreduce快100多倍

z****e
发帖数: 54598
3
说是内存操作快100倍,硬盘上的操作快10倍

【在 w***g 的大作中提到】
: 都存内存里快100多倍自然没啥。如果都存磁盘,比mapr上的hadoop还快100多倍的话,
: 我都要给他下跪了。

l*******m
发帖数: 1096
4
公司有了个cluster. 如果要爽些,估计还是要写scala. 准备在家里装一个,下一个个
人项目用一下

【在 z****e 的大作中提到】
: 1.0发布了
: 据说比hadoop的mapreduce快100多倍

c******f
发帖数: 243
5
小组一直在用
B*****g
发帖数: 34098
6
用scala还是java?

【在 c******f 的大作中提到】
: 小组一直在用
h*****7
发帖数: 6781
7
主要是内存块,但是硬盘操作也快
综合快很多,cluster越大越明显
实现所需代码简单,没有太多附加冗余
安装简单,软件极轻
几乎每一样都是要害

【在 w***g 的大作中提到】
: 都存内存里快100多倍自然没啥。如果都存磁盘,比mapr上的hadoop还快100多倍的话,
: 我都要给他下跪了。

o****o
发帖数: 8077
8
下一个来玩玩
s******X
发帖数: 43
9
那个spark sql教程不详啊
e*******n
发帖数: 872
10
用hadoop+python的掩面走过。。。
相关主题
如何学习Hadoop?新人求教一个HADOOP的问题
How to prepare for the DS interview?一般data scientist都是什么背景,一定要phd吗?
Kafka, Spark Streaming, ElasticSearch for Business IntelliBig data是下一个大坑吗
进入DataSciences版参与讨论
c***z
发帖数: 6348
11
大牛们有什么好的tutorial么
最近准备上spark了
多谢多谢!
j*******g
发帖数: 331
12
同胞写的最透彻
https://github.com/JerryLead/SparkInternals/tree/master/markdown

【在 c***z 的大作中提到】
: 大牛们有什么好的tutorial么
: 最近准备上spark了
: 多谢多谢!

n*****3
发帖数: 1584
13
very good, thanks man!

【在 j*******g 的大作中提到】
: 同胞写的最透彻
: https://github.com/JerryLead/SparkInternals/tree/master/markdown

B*****g
发帖数: 34098
14
ding

【在 j*******g 的大作中提到】
: 同胞写的最透彻
: https://github.com/JerryLead/SparkInternals/tree/master/markdown

z*******3
发帖数: 13709
15

那个
java其实可以不看文档直接盲狙的
用eclipse就可以找方法,然后那些方法名
你看了之后,应该就有点idea了

【在 c***z 的大作中提到】
: 大牛们有什么好的tutorial么
: 最近准备上spark了
: 多谢多谢!

S*******e
发帖数: 525
16
写的很棒。
我们小组(在很大的Telecom)现在才开始想用HADOOP,在实验室的40节点上做了一个
prototyp, 我们可以在4分钟完成一天数据的处理。 现在的Oracle code 需要4,5个
小时才处理7%的数据。
只是现在看SPRAK,Hadoop好像已过时了(我们还没开始呢)。 看样子,Spark 可以做
near realtime了。我们的大头对STREAMING 特感兴趣,可他对具体技术一点不通(但
他有极强的分析能力和domain knowledge)。 几天前我看了Hadoop's Streaming, 似乎
根本不是通常意义上的streaming。 SPARK 的streaming 好像是我们需要的。

【在 j*******g 的大作中提到】
: 同胞写的最透彻
: https://github.com/JerryLead/SparkInternals/tree/master/markdown

n*****3
发帖数: 1584
17
spark streaming is the king to be.... I think for sure...
Our group will start to use it later this month, but
there are no scala expert in our group now; a conjure niuren though...

似乎

【在 S*******e 的大作中提到】
: 写的很棒。
: 我们小组(在很大的Telecom)现在才开始想用HADOOP,在实验室的40节点上做了一个
: prototyp, 我们可以在4分钟完成一天数据的处理。 现在的Oracle code 需要4,5个
: 小时才处理7%的数据。
: 只是现在看SPRAK,Hadoop好像已过时了(我们还没开始呢)。 看样子,Spark 可以做
: near realtime了。我们的大头对STREAMING 特感兴趣,可他对具体技术一点不通(但
: 他有极强的分析能力和domain knowledge)。 几天前我看了Hadoop's Streaming, 似乎
: 根本不是通常意义上的streaming。 SPARK 的streaming 好像是我们需要的。

S*******e
发帖数: 525
18
好! 希望有机会交流。 用Java不也可以吗? 是不是典型的应用是用scala?

【在 n*****3 的大作中提到】
: spark streaming is the king to be.... I think for sure...
: Our group will start to use it later this month, but
: there are no scala expert in our group now; a conjure niuren though...
:
: 似乎

c******f
发帖数: 243
19
我们组去年就开始用spark做batch processing了
我最近拿了个project,要design spark streaming
参考了lambda architecture把batch / real time结合了
很欢乐
n*****3
发帖数: 1584
20
spark is written in scala , so i think if u need the lstest features, scala
is the
best choice

【在 S*******e 的大作中提到】
: 好! 希望有机会交流。 用Java不也可以吗? 是不是典型的应用是用scala?
相关主题
我觉得关于datascience最近看到的几个有价值的贴跳过hadoop直接学spark可行么?
Hadoop Spark 学习小结[2014版] (转载)DS面试的重点是算法,还是ML和Stat的模型,还是Hadoop?
Hadoop Spark 学习小结[2014版] (转载)hadoop admin
进入DataSciences版参与讨论
z*******3
发帖数: 13709
21
无所谓
java和scala可以互相call
所有scala的东西都可以被java所用
反之亦然
都在同一个jvm上,都是byte code
机器可不管是java还是scala写的
而且从我们经验看,用java还更好
因为用scala会乱写,造成不必要的混乱
现在对scala几乎所有的抱怨都集中在代码书写的混乱上
权力太大不是好事,就象一个兵崽都能发射核弹一样

scala

【在 n*****3 的大作中提到】
: spark is written in scala , so i think if u need the lstest features, scala
: is the
: best choice

z*******3
发帖数: 13709
22
恭喜,oracle这种东西,就应该被淘汰
任何用license插管吸血的软件,都应该被市场干掉

似乎

【在 S*******e 的大作中提到】
: 写的很棒。
: 我们小组(在很大的Telecom)现在才开始想用HADOOP,在实验室的40节点上做了一个
: prototyp, 我们可以在4分钟完成一天数据的处理。 现在的Oracle code 需要4,5个
: 小时才处理7%的数据。
: 只是现在看SPRAK,Hadoop好像已过时了(我们还没开始呢)。 看样子,Spark 可以做
: near realtime了。我们的大头对STREAMING 特感兴趣,可他对具体技术一点不通(但
: 他有极强的分析能力和domain knowledge)。 几天前我看了Hadoop's Streaming, 似乎
: 根本不是通常意义上的streaming。 SPARK 的streaming 好像是我们需要的。

c***z
发帖数: 6348
23
谢谢各位大牛!
1 (共1页)
进入DataSciences版参与讨论
相关主题
DS面试的重点是算法,还是ML和Stat的模型,还是Hadoop?请问大家有没有直接用java全程写mapreduce的程序的?
hadoop admin如何学习Hadoop?
如何提高Spark在Yarn上的内存使用率How to prepare for the DS interview?
学习spark是否需要懂scala?Kafka, Spark Streaming, ElasticSearch for Business Intelli
招数据科学家新人求教一个HADOOP的问题
big data software engineer或者data scientist 工作机会推荐 (转载)一般data scientist都是什么背景,一定要phd吗?
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?Big data是下一个大坑吗
妹纸物理phd转data science求建议我觉得关于datascience最近看到的几个有价值的贴
相关话题的讨论汇总
话题: spark话题: scala话题: hadoop话题: streaming话题: java