海量数据用什么排序方法好 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 海量数据用什么排序方法好

相关主题
● 一个design题	● heap sort的缺点是什么？和quick sort比
● n个排序链表，如何O(1) space合并成一个	● C++里如何将一个vector转换成priority_queue
● G面试题求解	● 变相的merge sort
● shuffle card 算法	● b0x 面筋
● 算法题：min heap inplace变 BST	● 面试中举例常见的高效排序算法, 为什么都举quicksort和mergesort, 很少说heapsort呢
● 问两道google面试题	● 贡献两个面经吧
● 求一下这题解法。	● Ebay Skype 面经，铁挂了，为以后攒人品吧
● 备考google onsite, 讨论堆排序的时间复杂度	● 分享一道Yelp电面题

相关话题的讨论汇总
话题: 排序话题: 数据话题: 海量话题: 方法话题: terasort

进入JobHunting版参与讨论

1

(共1页)

Q****a 发帖数: 296	1 请问大牛们海量数据用什么排序方法好？我想的是把数据分成很多小文件，每个文件先自己排序。然后再用一个heap做heapsort。然后面试官就问这个方法怎么improve performance？想听听大牛们的看法。考虑分布式的话怎么回答这个比较好呢？
l*n 发帖数: 529	2 如果数据分布均匀，可以考虑分区间，把0~x发给1， x+1~2x发给2，以此类推。不均匀的话可以参考这个 http://stackoverflow.com/questions/1152732/how-does-the-mapredu 【在 Q****a 的大作中提到】 : 请问大牛们海量数据用什么排序方法好？我想的是把数据分成很多小文件，每个文件先 : 自己排序。然后再用一个heap做heapsort。然后面试官就问这个方法怎么improve : performance？想听听大牛们的看法。考虑分布式的话怎么回答这个比较好呢？
h**o 发帖数: 548	3 难道不是hash(数据)%server number 来Split？【在 l*n 的大作中提到】 : 如果数据分布均匀，可以考虑分区间，把0~x发给1， x+1~2x发给2，以此类推。 : 不均匀的话可以参考这个 : http://stackoverflow.com/questions/1152732/how-does-the-mapredu
l*n 发帖数: 529	4 这种random shuffle，每个服务器都sort好了之后还需要merge，merge就只能发给一个机器做，其他机器就闲置了。【在 h**o 的大作中提到】 : 难道不是hash(数据)%server number 来Split？
a****a 发帖数: 37	5 有一个terasort的hadoop benchmark可以参考一下。http://www.slideshare.net/tungld/terasort

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 分享一道Yelp电面题	● 算法题：min heap inplace变 BST
● 一道面试题。	● 问两道google面试题
● 贡献一个groupon的电面题	● 求一下这题解法。
● 面试的时候如果用C，hash, heap什么的怎么办呀	● 备考google onsite, 讨论堆排序的时间复杂度
● 一个design题	● heap sort的缺点是什么？和quick sort比
● n个排序链表，如何O(1) space合并成一个	● C++里如何将一个vector转换成priority_queue
● G面试题求解	● 变相的merge sort
● shuffle card 算法	● b0x 面筋

相关话题的讨论汇总
话题: 排序话题: 数据话题: 海量话题: 方法话题: terasort

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)