由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - Spark这个东西真的有很多公司在用吗。。?
相关主题
Pinterest Software Engineer position for Data/Hadoop招数据科学家 (转载)
Hadoop Spark 学习小结[2014版]2015年硅谷最火的高科技创业公司都有哪些?
Cloudera这个公司怎么样还有公司会在新项目选择mapReduce吗?
big data software engineer或者data scientist 工作机会推荐大家最近在学什么新技术呢
workday onsite面经,已挂Looking for Big Data Architect Candidate (转载)
想想马工真可粘,听说Hadoop 2.0转型以后大家的知识都陈旧了做Spark前途咋样啊?
现在去做hadoop的公司工作还有前途吗?【讲座信息】哪门语言最适合SPARK大数据 (转载)
招大数据机器学习系统工程师【内部推荐】苹果 Apple iTunes 组 Data Scientist
相关话题的讨论汇总
话题: spark话题: hadoop话题: scala话题: java话题: mapreduce
进入JobHunting版参与讨论
1 (共1页)
l*****n
发帖数: 246
1
最近在学。觉得要替代Hadoop还是很难啊。
数据没有办法全部load到memory里面怎么办。。。最后还是变成了拼机器。。。
l***4
发帖数: 1788
2
分布式的精髓就是把问题转化为堆机器就能解决啊

【在 l*****n 的大作中提到】
: 最近在学。觉得要替代Hadoop还是很难啊。
: 数据没有办法全部load到memory里面怎么办。。。最后还是变成了拼机器。。。

x***i
发帖数: 585
3
确切的说是 拼内存.
y**********a
发帖数: 824
4
能不能简明扼要地说说为啥 Spark 会比 MapReduce(Yarn) 好。
B*****g
发帖数: 34098
5
据说内存计算快100倍,硬盘计算快10倍

【在 y**********a 的大作中提到】
: 能不能简明扼要地说说为啥 Spark 会比 MapReduce(Yarn) 好。
l*****n
发帖数: 246
6
Spark提供了一系列的api,可以很容易的让你在做MapReduce的时候把一些数据存储到
内存里面, 这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io
,省了很多时间,只要内存足够大,速度上比Hadoop可以快很多很多倍。
举个最简单的例子吧,ML里面做K-means的时候,如果是传统Hadoop,每更新一次
cluster centers就要过一遍数据。但是如果用Spark,直接用cache()函数,把RDD数据
存到内存里面就行。如果你的K-means要做100次才收敛,Hadoop要去硬盘读取一百次数
据,但是Spark直接用内存里面的数据,这样就可以比Hadoop快一百倍。
恩,刚开始学两天,这是我得理解。
写Spark Java程序也不是很容易啊,完全不知道什么是Maven, Java 8也不熟, 什么
Lambda表达式都是现学。。不容易啊。。。

【在 y**********a 的大作中提到】
: 能不能简明扼要地说说为啥 Spark 会比 MapReduce(Yarn) 好。
j******c
发帖数: 294
7
好像也支持Python和scala

io

【在 l*****n 的大作中提到】
: Spark提供了一系列的api,可以很容易的让你在做MapReduce的时候把一些数据存储到
: 内存里面, 这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io
: ,省了很多时间,只要内存足够大,速度上比Hadoop可以快很多很多倍。
: 举个最简单的例子吧,ML里面做K-means的时候,如果是传统Hadoop,每更新一次
: cluster centers就要过一遍数据。但是如果用Spark,直接用cache()函数,把RDD数据
: 存到内存里面就行。如果你的K-means要做100次才收敛,Hadoop要去硬盘读取一百次数
: 据,但是Spark直接用内存里面的数据,这样就可以比Hadoop快一百倍。
: 恩,刚开始学两天,这是我得理解。
: 写Spark Java程序也不是很容易啊,完全不知道什么是Maven, Java 8也不熟, 什么
: Lambda表达式都是现学。。不容易啊。。。

l*****n
发帖数: 246
8
是的,Java,Python 或者 Scala都可以。 不过我不会Python,也不会Scala。。。。

【在 j******c 的大作中提到】
: 好像也支持Python和scala
:
: io

w****r
发帖数: 15252
9
我啥都不会,你们是牛人
n*******1
发帖数: 145
10
感觉在ml应用会比mapreduce好 例如svm 因为单一数据小 不适合hadoop的64Mb chunk
相关主题
想想马工真可粘,听说Hadoop 2.0转型以后大家的知识都陈旧了招数据科学家 (转载)
现在去做hadoop的公司工作还有前途吗?2015年硅谷最火的高科技创业公司都有哪些?
招大数据机器学习系统工程师还有公司会在新项目选择mapReduce吗?
进入JobHunting版参与讨论
p*****2
发帖数: 21240
11

io
上scala吧。

【在 l*****n 的大作中提到】
: Spark提供了一系列的api,可以很容易的让你在做MapReduce的时候把一些数据存储到
: 内存里面, 这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io
: ,省了很多时间,只要内存足够大,速度上比Hadoop可以快很多很多倍。
: 举个最简单的例子吧,ML里面做K-means的时候,如果是传统Hadoop,每更新一次
: cluster centers就要过一遍数据。但是如果用Spark,直接用cache()函数,把RDD数据
: 存到内存里面就行。如果你的K-means要做100次才收敛,Hadoop要去硬盘读取一百次数
: 据,但是Spark直接用内存里面的数据,这样就可以比Hadoop快一百倍。
: 恩,刚开始学两天,这是我得理解。
: 写Spark Java程序也不是很容易啊,完全不知道什么是Maven, Java 8也不熟, 什么
: Lambda表达式都是现学。。不容易啊。。。

z****e
发帖数: 54598
12
展望未来嘛
将来内存越来越大是必然的
实在没办法,spark也支持mapreduce那种方式

【在 l*****n 的大作中提到】
: 最近在学。觉得要替代Hadoop还是很难啊。
: 数据没有办法全部load到memory里面怎么办。。。最后还是变成了拼机器。。。

C**********r
发帖数: 8189
13
O'Reilly 有个报表,做数据的人越来越扎堆Scala了。

【在 p*****2 的大作中提到】
:
: io
: 上scala吧。

s******6
发帖数: 57
14
没有用过hadoop,用的python版的spark,用起来很爽。。
p*****2
发帖数: 21240
15
上scala吧

【在 s******6 的大作中提到】
: 没有用过hadoop,用的python版的spark,用起来很爽。。
p*****2
发帖数: 21240
16
对 clojure也不错

【在 C**********r 的大作中提到】
: O'Reilly 有个报表,做数据的人越来越扎堆Scala了。
z****e
发帖数: 54598
17
大同小异了
scala跟java共荣的,不分彼此,类库工具都是共享的
maven这些都是java monkeys常用的工具
跟spring,eclipse这些一样
你用java也好,scala也罢,最后都会接触这些东西
不过现在用gradle了,maven比较繁琐

io

【在 l*****n 的大作中提到】
: Spark提供了一系列的api,可以很容易的让你在做MapReduce的时候把一些数据存储到
: 内存里面, 这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io
: ,省了很多时间,只要内存足够大,速度上比Hadoop可以快很多很多倍。
: 举个最简单的例子吧,ML里面做K-means的时候,如果是传统Hadoop,每更新一次
: cluster centers就要过一遍数据。但是如果用Spark,直接用cache()函数,把RDD数据
: 存到内存里面就行。如果你的K-means要做100次才收敛,Hadoop要去硬盘读取一百次数
: 据,但是Spark直接用内存里面的数据,这样就可以比Hadoop快一百倍。
: 恩,刚开始学两天,这是我得理解。
: 写Spark Java程序也不是很容易啊,完全不知道什么是Maven, Java 8也不熟, 什么
: Lambda表达式都是现学。。不容易啊。。。

a*****s
发帖数: 1121
18
Hadoop 已经变成一个平台了,mapreduce也终将被DAG processing代替,这个DAG
processing就是spark或是TEZ。如果只是上层application开发,不涉及系统开发,
hadoop了解一下就是了。因为现在对于application接口已经越来越人性和传统(
support SQL)。
1 (共1页)
进入JobHunting版参与讨论
相关主题
【内部推荐】苹果 Apple iTunes 组 Data Scientistworkday onsite面经,已挂
求推荐一个big-data的开源 应用项目,作为学习研究用想想马工真可粘,听说Hadoop 2.0转型以后大家的知识都陈旧了
大家介绍一下当下比较流行的网页编程吧 (转载)现在去做hadoop的公司工作还有前途吗?
有大牛用Storm吗?招大数据机器学习系统工程师
Pinterest Software Engineer position for Data/Hadoop招数据科学家 (转载)
Hadoop Spark 学习小结[2014版]2015年硅谷最火的高科技创业公司都有哪些?
Cloudera这个公司怎么样还有公司会在新项目选择mapReduce吗?
big data software engineer或者data scientist 工作机会推荐大家最近在学什么新技术呢
相关话题的讨论汇总
话题: spark话题: hadoop话题: scala话题: java话题: mapreduce