由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 各位大牛,问个问题,怎么用 mapreduce 算平均数啊
相关主题
请教MapReduce怎么找median想想马工真可粘,听说Hadoop 2.0转型以后大家的知识都陈旧了
F家onsite面经不懂map reduce去面flg会怎样
请教可以在线练习 map reduce 的地方?分享一下面试题目
hadoop的combiner和partitioner的顺序是什么呢?求问一道用新语言写wordcount的题
mapreduce 初级问题,请各位大牛指点简单map reduce mean median, 傻逼回答
median of N^2 numbers across N machinesmap reduce word count
关于MAP REDUCEMapReduce的面试题
一道大数据题,求最优解。Apple 数据科学家面经
相关话题的讨论汇总
话题: mapreduce话题: 平均数话题: 问个问题话题: count话题: 大牛
进入JobHunting版参与讨论
1 (共1页)
D*****d
发帖数: 1307
1
直接相加除以 count 会溢出吧?
我觉得用 combiner 算
然后reducer 继续合并?
但这样会不会造成误差积累和误差分布不平均?
g*c
发帖数: 4510
2
用map task算partition total
用reduce task算total和average
datatype是double
可否?

【在 D*****d 的大作中提到】
: 直接相加除以 count 会溢出吧?
: 我觉得用 combiner 算
: 然后reducer 继续合并?
: 但这样会不会造成误差积累和误差分布不平均?

w****e
发帖数: 586
3
不明白你的限制和精度要求。如果就一般双精度浮点都能溢出的话,你算的是啥天文数
字。。
把所有数都归一化到10^200以下,你还能有10^100个数不成
如果要求超高精度,什么几十上百个有效数字,那就另说了
e*******o
发帖数: 2271
4
是正确解法。上Combiner。怕数值不稳定,就random shuffle一遍再
加。
g*c
发帖数: 4510
5
为啥不能是(count, total)?

【在 e*******o 的大作中提到】
: 是正确解法。上Combiner。怕数值不稳定,就random shuffle一遍再
: 加。

1 (共1页)
进入JobHunting版参与讨论
相关主题
Apple 数据科学家面经mapreduce 初级问题,请各位大牛指点
问个问题 (large-scale question)median of N^2 numbers across N machines
hadoop面试和学习总结关于MAP REDUCE
问个MapReduce面试题一道大数据题,求最优解。
请教MapReduce怎么找median想想马工真可粘,听说Hadoop 2.0转型以后大家的知识都陈旧了
F家onsite面经不懂map reduce去面flg会怎样
请教可以在线练习 map reduce 的地方?分享一下面试题目
hadoop的combiner和partitioner的顺序是什么呢?求问一道用新语言写wordcount的题
相关话题的讨论汇总
话题: mapreduce话题: 平均数话题: 问个问题话题: count话题: 大牛