l*****n 发帖数: 246 | 1 最近在学。觉得要替代Hadoop还是很难啊。
数据没有办法全部load到memory里面怎么办。。。最后还是变成了拼机器。。。 |
l***4 发帖数: 1788 | 2 分布式的精髓就是把问题转化为堆机器就能解决啊
【在 l*****n 的大作中提到】 : 最近在学。觉得要替代Hadoop还是很难啊。 : 数据没有办法全部load到memory里面怎么办。。。最后还是变成了拼机器。。。
|
x***i 发帖数: 585 | |
y**********a 发帖数: 824 | 4 能不能简明扼要地说说为啥 Spark 会比 MapReduce(Yarn) 好。 |
B*****g 发帖数: 34098 | 5 据说内存计算快100倍,硬盘计算快10倍
【在 y**********a 的大作中提到】 : 能不能简明扼要地说说为啥 Spark 会比 MapReduce(Yarn) 好。
|
l*****n 发帖数: 246 | 6 Spark提供了一系列的api,可以很容易的让你在做MapReduce的时候把一些数据存储到
内存里面, 这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io
,省了很多时间,只要内存足够大,速度上比Hadoop可以快很多很多倍。
举个最简单的例子吧,ML里面做K-means的时候,如果是传统Hadoop,每更新一次
cluster centers就要过一遍数据。但是如果用Spark,直接用cache()函数,把RDD数据
存到内存里面就行。如果你的K-means要做100次才收敛,Hadoop要去硬盘读取一百次数
据,但是Spark直接用内存里面的数据,这样就可以比Hadoop快一百倍。
恩,刚开始学两天,这是我得理解。
写Spark Java程序也不是很容易啊,完全不知道什么是Maven, Java 8也不熟, 什么
Lambda表达式都是现学。。不容易啊。。。
【在 y**********a 的大作中提到】 : 能不能简明扼要地说说为啥 Spark 会比 MapReduce(Yarn) 好。
|
j******c 发帖数: 294 | 7 好像也支持Python和scala
io
【在 l*****n 的大作中提到】 : Spark提供了一系列的api,可以很容易的让你在做MapReduce的时候把一些数据存储到 : 内存里面, 这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io : ,省了很多时间,只要内存足够大,速度上比Hadoop可以快很多很多倍。 : 举个最简单的例子吧,ML里面做K-means的时候,如果是传统Hadoop,每更新一次 : cluster centers就要过一遍数据。但是如果用Spark,直接用cache()函数,把RDD数据 : 存到内存里面就行。如果你的K-means要做100次才收敛,Hadoop要去硬盘读取一百次数 : 据,但是Spark直接用内存里面的数据,这样就可以比Hadoop快一百倍。 : 恩,刚开始学两天,这是我得理解。 : 写Spark Java程序也不是很容易啊,完全不知道什么是Maven, Java 8也不熟, 什么 : Lambda表达式都是现学。。不容易啊。。。
|
l*****n 发帖数: 246 | 8 是的,Java,Python 或者 Scala都可以。 不过我不会Python,也不会Scala。。。。
【在 j******c 的大作中提到】 : 好像也支持Python和scala : : io
|
w****r 发帖数: 15252 | |
n*******1 发帖数: 145 | 10 感觉在ml应用会比mapreduce好 例如svm 因为单一数据小 不适合hadoop的64Mb chunk |
|
|
p*****2 发帖数: 21240 | 11
io
上scala吧。
【在 l*****n 的大作中提到】 : Spark提供了一系列的api,可以很容易的让你在做MapReduce的时候把一些数据存储到 : 内存里面, 这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io : ,省了很多时间,只要内存足够大,速度上比Hadoop可以快很多很多倍。 : 举个最简单的例子吧,ML里面做K-means的时候,如果是传统Hadoop,每更新一次 : cluster centers就要过一遍数据。但是如果用Spark,直接用cache()函数,把RDD数据 : 存到内存里面就行。如果你的K-means要做100次才收敛,Hadoop要去硬盘读取一百次数 : 据,但是Spark直接用内存里面的数据,这样就可以比Hadoop快一百倍。 : 恩,刚开始学两天,这是我得理解。 : 写Spark Java程序也不是很容易啊,完全不知道什么是Maven, Java 8也不熟, 什么 : Lambda表达式都是现学。。不容易啊。。。
|
z****e 发帖数: 54598 | 12 展望未来嘛
将来内存越来越大是必然的
实在没办法,spark也支持mapreduce那种方式
【在 l*****n 的大作中提到】 : 最近在学。觉得要替代Hadoop还是很难啊。 : 数据没有办法全部load到memory里面怎么办。。。最后还是变成了拼机器。。。
|
C**********r 发帖数: 8189 | 13 O'Reilly 有个报表,做数据的人越来越扎堆Scala了。
【在 p*****2 的大作中提到】 : : io : 上scala吧。
|
s******6 发帖数: 57 | 14 没有用过hadoop,用的python版的spark,用起来很爽。。 |
p*****2 发帖数: 21240 | 15 上scala吧
【在 s******6 的大作中提到】 : 没有用过hadoop,用的python版的spark,用起来很爽。。
|
p*****2 发帖数: 21240 | 16 对 clojure也不错
【在 C**********r 的大作中提到】 : O'Reilly 有个报表,做数据的人越来越扎堆Scala了。
|
z****e 发帖数: 54598 | 17 大同小异了
scala跟java共荣的,不分彼此,类库工具都是共享的
maven这些都是java monkeys常用的工具
跟spring,eclipse这些一样
你用java也好,scala也罢,最后都会接触这些东西
不过现在用gradle了,maven比较繁琐
io
【在 l*****n 的大作中提到】 : Spark提供了一系列的api,可以很容易的让你在做MapReduce的时候把一些数据存储到 : 内存里面, 这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io : ,省了很多时间,只要内存足够大,速度上比Hadoop可以快很多很多倍。 : 举个最简单的例子吧,ML里面做K-means的时候,如果是传统Hadoop,每更新一次 : cluster centers就要过一遍数据。但是如果用Spark,直接用cache()函数,把RDD数据 : 存到内存里面就行。如果你的K-means要做100次才收敛,Hadoop要去硬盘读取一百次数 : 据,但是Spark直接用内存里面的数据,这样就可以比Hadoop快一百倍。 : 恩,刚开始学两天,这是我得理解。 : 写Spark Java程序也不是很容易啊,完全不知道什么是Maven, Java 8也不熟, 什么 : Lambda表达式都是现学。。不容易啊。。。
|
a*****s 发帖数: 1121 | 18 Hadoop 已经变成一个平台了,mapreduce也终将被DAG processing代替,这个DAG
processing就是spark或是TEZ。如果只是上层application开发,不涉及系统开发,
hadoop了解一下就是了。因为现在对于application接口已经越来越人性和传统(
support SQL)。 |