由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 海量数据用什么排序方法好
相关主题
一个design题heap sort的缺点是什么?和quick sort比
n个排序链表,如何O(1) space合并成一个C++里如何将一个vector转换成priority_queue
G面试题求解变相的merge sort
shuffle card 算法b0x 面筋
算法题:min heap inplace变 BST面试中举例常见的高效排序算法, 为什么都举quicksort和mergesort, 很少说heapsort呢
问两道google面试题贡献两个面经吧
求一下这题解法。Ebay Skype 面经, 铁挂了,为以后攒人品吧
备考google onsite, 讨论堆排序的时间复杂度分享一道Yelp电面题
相关话题的讨论汇总
话题: 排序话题: 数据话题: 海量话题: 方法话题: terasort
进入JobHunting版参与讨论
1 (共1页)
Q****a
发帖数: 296
1
请问大牛们海量数据用什么排序方法好?我想的是把数据分成很多小文件,每个文件先
自己排序。然后再用一个heap做heapsort。然后面试官就问这个方法怎么improve
performance? 想听听大牛们的看法。考虑分布式的话怎么回答这个比较好呢?
l*n
发帖数: 529
2
如果数据分布均匀,可以考虑分区间,把0~x发给1, x+1~2x发给2,以此类推。
不均匀的话可以参考这个
http://stackoverflow.com/questions/1152732/how-does-the-mapredu

【在 Q****a 的大作中提到】
: 请问大牛们海量数据用什么排序方法好?我想的是把数据分成很多小文件,每个文件先
: 自己排序。然后再用一个heap做heapsort。然后面试官就问这个方法怎么improve
: performance? 想听听大牛们的看法。考虑分布式的话怎么回答这个比较好呢?

h**o
发帖数: 548
3
难道不是hash(数据)%server number 来Split?

【在 l*n 的大作中提到】
: 如果数据分布均匀,可以考虑分区间,把0~x发给1, x+1~2x发给2,以此类推。
: 不均匀的话可以参考这个
: http://stackoverflow.com/questions/1152732/how-does-the-mapredu

l*n
发帖数: 529
4
这种random shuffle,每个服务器都sort好了之后还需要merge,merge就只能发给
一个机器做,其他机器就闲置了。

【在 h**o 的大作中提到】
: 难道不是hash(数据)%server number 来Split?
a****a
发帖数: 37
5
有一个terasort的hadoop benchmark可以参考一下。http://www.slideshare.net/tungld/terasort
1 (共1页)
进入JobHunting版参与讨论
相关主题
分享一道Yelp电面题算法题:min heap inplace变 BST
一道面试题。问两道google面试题
贡献一个groupon的电面题求一下这题解法。
面试的时候如果用C,hash, heap什么的怎么办呀备考google onsite, 讨论堆排序的时间复杂度
一个design题heap sort的缺点是什么?和quick sort比
n个排序链表,如何O(1) space合并成一个C++里如何将一个vector转换成priority_queue
G面试题求解变相的merge sort
shuffle card 算法b0x 面筋
相关话题的讨论汇总
话题: 排序话题: 数据话题: 海量话题: 方法话题: terasort