板上有 spark 大牛么？ - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 板上有 spark 大牛么？

相关主题
● spark load数据速度	● 以后真的是cassandra spark的天下了？
● 如何提高Spark在Yarn上的内存使用率	● 谈谈为什么上scala
● Spark RDD	● coltzhao的公司还在用mongo吗？
● 关于big data	● python真是一个很恶心的语言。
● 学scala和spark需要什么pre req?	● 关于 SPARK, 问二爷peking2 和其他大牛一问题
● 试了下spark，不过如此啊	● 想写一个machine learning的平台
● 已经全上内存了，还要40多秒啊	● aws EMR能设置一个mapper吗？
● Spark会干掉Storm吗？	● spark is slower than java Mapreduce --scala big bulls pls advise

相关话题的讨论汇总
话题: 如何话题: exexutor话题: spark话题: offset话题: key

进入Programming版参与讨论

1

(共1页)

c*****e 发帖数: 3226	1 问个问题，reduce的时候，exexutor如何分配的使得它如何知道它应该去取比如 key =' b'的数据from remote block manager 换句话说就是如何分配executor 收集那个 key from buckets,特别是 sorted 的情况下
d*****n 发帖数: 754	2 牛二行不？ [在 capcase (gotmail) 的大作中提到：] 问个问题，reduce的时候，exexutor如何分配的使得它如何知道它应该去取比如 key=' 况下
d****n 发帖数: 12461	3 spark有node awareness和rack awareness，一般都是按照data locality来，一个 executor core一次处理一个hdfs block。问个问题，reduce的时候，exexutor如何分配的使得它如何知道它应该去取比如 key 况下【在 c*****e 的大作中提到】 : 问个问题，reduce的时候，exexutor如何分配的使得它如何知道它应该去取比如 key : =' : b'的数据from remote block manager : 换句话说就是如何分配executor 收集那个 key from buckets,特别是 sorted 的情况下
c*****e 发帖数: 3226	4 这个是完美答案： consolidateFiles采用的是一个reduce一个文件，它还记录了每个map的写入起始位置，所以查找的时候 1）先通过reduceId查找到哪个文件， 2）再通过mapId查找索引当中的起始位置offset，长度length=（mapId + 1）.offset -（mapId）.offset，这样就可以确定一个FileSegment(file, offset, length)。【在 d****n 的大作中提到】 : spark有node awareness和rack awareness，一般都是按照data locality来，一个 : executor core一次处理一个hdfs block。 : : 问个问题，reduce的时候，exexutor如何分配的使得它如何知道它应该去取比如 key : 况下
l**********0 发帖数: 150	5 如果有代码位置引用就好了 offset 【在 c*****e 的大作中提到】 : 这个是完美答案： : consolidateFiles采用的是一个reduce一个文件，它还记录了每个map的写入起始位置 : ，所以查找的时候 : 1）先通过reduceId查找到哪个文件， : 2）再通过mapId查找索引当中的起始位置offset，长度length=（mapId + 1）.offset : -（mapId）.offset，这样就可以确定一个FileSegment(file, offset, length)。
h**********c 发帖数: 4120	6 版上哪里有什么大牛，语无伦次的人很多，是吧？同意的举手，dumb up.

1

(共1页)

进入Programming版参与讨论

相关主题
● spark is slower than java Mapreduce --scala big bulls pls advise	● 学scala和spark需要什么pre req?
● 公司要做ML了，上来问问学习方向	● 试了下spark，不过如此啊
● Hadoop 和Python的数据分析包哪个更值得学习？	● 已经全上内存了，还要40多秒啊
● Flink Sparks Next Wave of Distributed Data Processing	● Spark会干掉Storm吗？
● spark load数据速度	● 以后真的是cassandra spark的天下了？
● 如何提高Spark在Yarn上的内存使用率	● 谈谈为什么上scala
● Spark RDD	● coltzhao的公司还在用mongo吗？
● 关于big data	● python真是一个很恶心的语言。

相关话题的讨论汇总
话题: 如何话题: exexutor话题: spark话题: offset话题: key

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)