Q****a 发帖数: 296 | 1 请问大牛们海量数据用什么排序方法好?我想的是把数据分成很多小文件,每个文件先
自己排序。然后再用一个heap做heapsort。然后面试官就问这个方法怎么improve
performance? 想听听大牛们的看法。考虑分布式的话怎么回答这个比较好呢? |
l*n 发帖数: 529 | 2 如果数据分布均匀,可以考虑分区间,把0~x发给1, x+1~2x发给2,以此类推。
不均匀的话可以参考这个
http://stackoverflow.com/questions/1152732/how-does-the-mapredu
【在 Q****a 的大作中提到】 : 请问大牛们海量数据用什么排序方法好?我想的是把数据分成很多小文件,每个文件先 : 自己排序。然后再用一个heap做heapsort。然后面试官就问这个方法怎么improve : performance? 想听听大牛们的看法。考虑分布式的话怎么回答这个比较好呢?
|
h**o 发帖数: 548 | 3 难道不是hash(数据)%server number 来Split?
【在 l*n 的大作中提到】 : 如果数据分布均匀,可以考虑分区间,把0~x发给1, x+1~2x发给2,以此类推。 : 不均匀的话可以参考这个 : http://stackoverflow.com/questions/1152732/how-does-the-mapredu
|
l*n 发帖数: 529 | 4 这种random shuffle,每个服务器都sort好了之后还需要merge,merge就只能发给
一个机器做,其他机器就闲置了。
【在 h**o 的大作中提到】 : 难道不是hash(数据)%server number 来Split?
|
a****a 发帖数: 37 | |