由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 问个大数据处理的面试题
相关主题
问个google面试题请问如何准备data scientist工作面试?
问个amazon面试题那道求两大文件交集的G题
A家面试题求问一道MS面试题
T家一面发点面试题讨包子(cs)
external sorting 的问题贡献两个Amazon的电话面试题
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?G面试题求解
李健基础不扎实啊。揭晓名次的方式明明是归并排序,为啥说是冒问个MapReduce面试题
一个design题问个微软面试题
相关话题的讨论汇总
话题: hadoop话题: 10t话题: sort话题: mapreduce话题: 数据处理
进入JobHunting版参与讨论
1 (共1页)
l*****n
发帖数: 246
1
1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估算
时间
j**********3
发帖数: 3211
2
co ask
w*****t
发帖数: 485
3
分块, 然后归并排序吧.
nlogn.
"1PB数据排序", 后面还有个"10T数据",这个啥意思?
b******e
发帖数: 52
4
just bucket sort.
l*****n
发帖数: 246
5
分块,然后归并排序会不会太慢?
10T数据是指硬盘空间是10T
总共1PB也就是需要100台机器

【在 w*****t 的大作中提到】
: 分块, 然后归并排序吧.
: nlogn.
: "1PB数据排序", 后面还有个"10T数据",这个啥意思?

l*****n
发帖数: 246
6
bucket sort行不通,你看题目中数字范围是2^64
任何一个内存都放不下这个range的数字

【在 b******e 的大作中提到】
: just bucket sort.
l*****n
发帖数: 246
7
如果用 Hadoop 来 MapReduce 怎么做这题?
w*****t
发帖数: 485
8
这样的话就是并行处理了, 每台机器先将本机的数据排好序,最后再做多机的两两归
并。
如果预先知道重复元素比较多的话,可以考虑用{int64 value:int64 count}来节省内
存占用。

【在 l*****n 的大作中提到】
: 分块,然后归并排序会不会太慢?
: 10T数据是指硬盘空间是10T
: 总共1PB也就是需要100台机器

w*****d
发帖数: 105
9
mark
f******y
发帖数: 54
10
"如果用 Hadoop 来 MapReduce 怎么做这题?"
这个就太简单了,map生产以这个些数值为key的pair,
到reduce,其实啥都不做,直接输出这个值。当然有没有重复value要注意下。
因为“sort”过程被shuffle过程完成了(hadoop默认内存是quick sort,然后加上多
轮merge sort)。
你只要定义什么做key就行了。
1 (共1页)
进入JobHunting版参与讨论
相关主题
问个微软面试题external sorting 的问题
问个面试题还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?
median of N^2 numbers across N machines李健基础不扎实啊。揭晓名次的方式明明是归并排序,为啥说是冒
问个微软面试题一个design题
问个google面试题请问如何准备data scientist工作面试?
问个amazon面试题那道求两大文件交集的G题
A家面试题求问一道MS面试题
T家一面发点面试题讨包子(cs)
相关话题的讨论汇总
话题: hadoop话题: 10t话题: sort话题: mapreduce话题: 数据处理