问个大数据处理的面试题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 问个大数据处理的面试题

相关主题
● 问个google面试题	● 请问如何准备data scientist工作面试？
● 问个amazon面试题	● 那道求两大文件交集的G题
● A家面试题	● 求问一道MS面试题
● T家一面	● 发点面试题讨包子(cs)
● external sorting 的问题	● 贡献两个Amazon的电话面试题
● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？	● G面试题求解
● 李健基础不扎实啊。揭晓名次的方式明明是归并排序，为啥说是冒	● 问个MapReduce面试题
● 一个design题	● 问个微软面试题

相关话题的讨论汇总
话题: hadoop话题: 10t话题: sort话题: mapreduce话题: 数据处理

进入JobHunting版参与讨论

1

(共1页)

l*****n 发帖数: 246	1 1PB 数据排序，数值范围2^64, 每台机器16G内存，10T数据，普通硬盘，写算法，估算时间
j**********3 发帖数: 3211	2 co ask
w*****t 发帖数: 485	3 分块, 然后归并排序吧. nlogn. "1PB数据排序", 后面还有个"10T数据",这个啥意思?
b******e 发帖数: 52	4 just bucket sort.
l*****n 发帖数: 246	5 分块，然后归并排序会不会太慢？ 10T数据是指硬盘空间是10T 总共1PB也就是需要100台机器【在 w*****t 的大作中提到】 : 分块, 然后归并排序吧. : nlogn. : "1PB数据排序", 后面还有个"10T数据",这个啥意思?
l*****n 发帖数: 246	6 bucket sort行不通，你看题目中数字范围是2^64 任何一个内存都放不下这个range的数字【在 b******e 的大作中提到】 : just bucket sort.
l*****n 发帖数: 246	7 如果用 Hadoop 来 MapReduce 怎么做这题？
w*****t 发帖数: 485	8 这样的话就是并行处理了，每台机器先将本机的数据排好序，最后再做多机的两两归并。如果预先知道重复元素比较多的话，可以考虑用{int64 value:int64 count}来节省内存占用。【在 l*****n 的大作中提到】 : 分块，然后归并排序会不会太慢？ : 10T数据是指硬盘空间是10T : 总共1PB也就是需要100台机器
w*****d 发帖数: 105	9 mark
f******y 发帖数: 54	10 "如果用 Hadoop 来 MapReduce 怎么做这题？" 这个就太简单了，map生产以这个些数值为key的pair，到reduce，其实啥都不做，直接输出这个值。当然有没有重复value要注意下。因为“sort”过程被shuffle过程完成了（hadoop默认内存是quick sort，然后加上多轮merge sort）。你只要定义什么做key就行了。

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 问个微软面试题	● external sorting 的问题
● 问个面试题	● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？
● median of N^2 numbers across N machines	● 李健基础不扎实啊。揭晓名次的方式明明是归并排序，为啥说是冒
● 问个微软面试题	● 一个design题
● 问个google面试题	● 请问如何准备data scientist工作面试？
● 问个amazon面试题	● 那道求两大文件交集的G题
● A家面试题	● 求问一道MS面试题
● T家一面	● 发点面试题讨包子(cs)

相关话题的讨论汇总
话题: hadoop话题: 10t话题: sort话题: mapreduce话题: 数据处理

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)