由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 板上有 spark 大牛么?
相关主题
spark load数据速度以后真的是cassandra spark的天下了?
如何提高Spark在Yarn上的内存使用率谈谈为什么上scala
Spark RDDcoltzhao的公司还在用mongo吗?
关于big datapython真是一个很恶心的语言。
学scala和spark需要什么pre req?关于 SPARK, 问二爷peking2 和其他大牛一问题
试了下spark,不过如此啊想写一个machine learning的平台
已经全上内存了,还要40多秒啊aws EMR能设置一个mapper吗?
Spark会干掉Storm吗?spark is slower than java Mapreduce --scala big bulls pls advise
相关话题的讨论汇总
话题: 如何话题: exexutor话题: spark话题: offset话题: key
进入Programming版参与讨论
1 (共1页)
c*****e
发帖数: 3226
1
问个问题,reduce的时候,exexutor如何分配的使得它如何知道它应该去取比如 key
='
b'的数据from remote block manager
换句话说就是 如何分配executor 收集那个 key from buckets,特别是 sorted 的情况下
d*****n
发帖数: 754
2
牛二行不?
[在 capcase (gotmail) 的大作中提到:]
问个问题,reduce的时候,exexutor如何分配的使得它如何知道它应该去取比如
key='
况下
d****n
发帖数: 12461
3
spark有node awareness和rack awareness,一般都是按照data locality来,一个
executor core一次处理一个hdfs block。

问个问题,reduce的时候,exexutor如何分配的使得它如何知道它应该去取比如 key
况下

【在 c*****e 的大作中提到】
: 问个问题,reduce的时候,exexutor如何分配的使得它如何知道它应该去取比如 key
: ='
: b'的数据from remote block manager
: 换句话说就是 如何分配executor 收集那个 key from buckets,特别是 sorted 的情况下

c*****e
发帖数: 3226
4
这个是完美答案:
consolidateFiles采用的是一个reduce一个文件,它还记录了每个map的写入起始位置
,所以查找的时候
1)先通过reduceId查找到哪个文件,
2)再通过mapId查找索引当中的起始位置offset,长度length=(mapId + 1).offset
-(mapId).offset,这样就可以确定一个FileSegment(file, offset, length)。

【在 d****n 的大作中提到】
: spark有node awareness和rack awareness,一般都是按照data locality来,一个
: executor core一次处理一个hdfs block。
:
: 问个问题,reduce的时候,exexutor如何分配的使得它如何知道它应该去取比如 key
: 况下

l**********0
发帖数: 150
5
如果有代码位置引用就好了

offset

【在 c*****e 的大作中提到】
: 这个是完美答案:
: consolidateFiles采用的是一个reduce一个文件,它还记录了每个map的写入起始位置
: ,所以查找的时候
: 1)先通过reduceId查找到哪个文件,
: 2)再通过mapId查找索引当中的起始位置offset,长度length=(mapId + 1).offset
: -(mapId).offset,这样就可以确定一个FileSegment(file, offset, length)。

h**********c
发帖数: 4120
6
版上哪里有什么大牛,语无伦次的人很多,是吧?
同意的举手,dumb up.
1 (共1页)
进入Programming版参与讨论
相关主题
spark is slower than java Mapreduce --scala big bulls pls advise学scala和spark需要什么pre req?
公司要做ML了,上来问问学习方向试了下spark,不过如此啊
Hadoop 和Python的数据分析包哪个更值得学习?已经全上内存了,还要40多秒啊
Flink Sparks Next Wave of Distributed Data ProcessingSpark会干掉Storm吗?
spark load数据速度以后真的是cassandra spark的天下了?
如何提高Spark在Yarn上的内存使用率谈谈为什么上scala
Spark RDDcoltzhao的公司还在用mongo吗?
关于big datapython真是一个很恶心的语言。
相关话题的讨论汇总
话题: 如何话题: exexutor话题: spark话题: offset话题: key