z****e 发帖数: 54598 | 1 1.0发布了
据说比hadoop的mapreduce快100多倍 |
w***g 发帖数: 5958 | 2 都存内存里快100多倍自然没啥。如果都存磁盘,比mapr上的hadoop还快100多倍的话,
我都要给他下跪了。
【在 z****e 的大作中提到】 : 1.0发布了 : 据说比hadoop的mapreduce快100多倍
|
z****e 发帖数: 54598 | 3 说是内存操作快100倍,硬盘上的操作快10倍
【在 w***g 的大作中提到】 : 都存内存里快100多倍自然没啥。如果都存磁盘,比mapr上的hadoop还快100多倍的话, : 我都要给他下跪了。
|
l*******m 发帖数: 1096 | 4 公司有了个cluster. 如果要爽些,估计还是要写scala. 准备在家里装一个,下一个个
人项目用一下
【在 z****e 的大作中提到】 : 1.0发布了 : 据说比hadoop的mapreduce快100多倍
|
c******f 发帖数: 243 | |
B*****g 发帖数: 34098 | 6 用scala还是java?
【在 c******f 的大作中提到】 : 小组一直在用
|
h*****7 发帖数: 6781 | 7 主要是内存块,但是硬盘操作也快
综合快很多,cluster越大越明显
实现所需代码简单,没有太多附加冗余
安装简单,软件极轻
几乎每一样都是要害
【在 w***g 的大作中提到】 : 都存内存里快100多倍自然没啥。如果都存磁盘,比mapr上的hadoop还快100多倍的话, : 我都要给他下跪了。
|
o****o 发帖数: 8077 | |
s******X 发帖数: 43 | |
e*******n 发帖数: 872 | |
|
|
c***z 发帖数: 6348 | 11 大牛们有什么好的tutorial么
最近准备上spark了
多谢多谢! |
j*******g 发帖数: 331 | 12 同胞写的最透彻
https://github.com/JerryLead/SparkInternals/tree/master/markdown
【在 c***z 的大作中提到】 : 大牛们有什么好的tutorial么 : 最近准备上spark了 : 多谢多谢!
|
n*****3 发帖数: 1584 | |
B*****g 发帖数: 34098 | |
z*******3 发帖数: 13709 | 15 嗯
那个
java其实可以不看文档直接盲狙的
用eclipse就可以找方法,然后那些方法名
你看了之后,应该就有点idea了
【在 c***z 的大作中提到】 : 大牛们有什么好的tutorial么 : 最近准备上spark了 : 多谢多谢!
|
S*******e 发帖数: 525 | 16 写的很棒。
我们小组(在很大的Telecom)现在才开始想用HADOOP,在实验室的40节点上做了一个
prototyp, 我们可以在4分钟完成一天数据的处理。 现在的Oracle code 需要4,5个
小时才处理7%的数据。
只是现在看SPRAK,Hadoop好像已过时了(我们还没开始呢)。 看样子,Spark 可以做
near realtime了。我们的大头对STREAMING 特感兴趣,可他对具体技术一点不通(但
他有极强的分析能力和domain knowledge)。 几天前我看了Hadoop's Streaming, 似乎
根本不是通常意义上的streaming。 SPARK 的streaming 好像是我们需要的。
【在 j*******g 的大作中提到】 : 同胞写的最透彻 : https://github.com/JerryLead/SparkInternals/tree/master/markdown
|
n*****3 发帖数: 1584 | 17 spark streaming is the king to be.... I think for sure...
Our group will start to use it later this month, but
there are no scala expert in our group now; a conjure niuren though...
似乎
【在 S*******e 的大作中提到】 : 写的很棒。 : 我们小组(在很大的Telecom)现在才开始想用HADOOP,在实验室的40节点上做了一个 : prototyp, 我们可以在4分钟完成一天数据的处理。 现在的Oracle code 需要4,5个 : 小时才处理7%的数据。 : 只是现在看SPRAK,Hadoop好像已过时了(我们还没开始呢)。 看样子,Spark 可以做 : near realtime了。我们的大头对STREAMING 特感兴趣,可他对具体技术一点不通(但 : 他有极强的分析能力和domain knowledge)。 几天前我看了Hadoop's Streaming, 似乎 : 根本不是通常意义上的streaming。 SPARK 的streaming 好像是我们需要的。
|
S*******e 发帖数: 525 | 18 好! 希望有机会交流。 用Java不也可以吗? 是不是典型的应用是用scala?
【在 n*****3 的大作中提到】 : spark streaming is the king to be.... I think for sure... : Our group will start to use it later this month, but : there are no scala expert in our group now; a conjure niuren though... : : 似乎
|
c******f 发帖数: 243 | 19 我们组去年就开始用spark做batch processing了
我最近拿了个project,要design spark streaming
参考了lambda architecture把batch / real time结合了
很欢乐 |
n*****3 发帖数: 1584 | 20 spark is written in scala , so i think if u need the lstest features, scala
is the
best choice
【在 S*******e 的大作中提到】 : 好! 希望有机会交流。 用Java不也可以吗? 是不是典型的应用是用scala?
|
|
|
z*******3 发帖数: 13709 | 21 无所谓
java和scala可以互相call
所有scala的东西都可以被java所用
反之亦然
都在同一个jvm上,都是byte code
机器可不管是java还是scala写的
而且从我们经验看,用java还更好
因为用scala会乱写,造成不必要的混乱
现在对scala几乎所有的抱怨都集中在代码书写的混乱上
权力太大不是好事,就象一个兵崽都能发射核弹一样
scala
【在 n*****3 的大作中提到】 : spark is written in scala , so i think if u need the lstest features, scala : is the : best choice
|
z*******3 发帖数: 13709 | 22 恭喜,oracle这种东西,就应该被淘汰
任何用license插管吸血的软件,都应该被市场干掉
似乎
【在 S*******e 的大作中提到】 : 写的很棒。 : 我们小组(在很大的Telecom)现在才开始想用HADOOP,在实验室的40节点上做了一个 : prototyp, 我们可以在4分钟完成一天数据的处理。 现在的Oracle code 需要4,5个 : 小时才处理7%的数据。 : 只是现在看SPRAK,Hadoop好像已过时了(我们还没开始呢)。 看样子,Spark 可以做 : near realtime了。我们的大头对STREAMING 特感兴趣,可他对具体技术一点不通(但 : 他有极强的分析能力和domain knowledge)。 几天前我看了Hadoop's Streaming, 似乎 : 根本不是通常意义上的streaming。 SPARK 的streaming 好像是我们需要的。
|
c***z 发帖数: 6348 | |