h******r 发帖数: 201 | 1 记得以前有位贴过一个题目,一个file有10G大比如,要求median。
嘉定因为数据太大,无法用通常的办法,读入数据计算。有什么好办法吗? 如果分成
若干小数据分别求,然后如何合并呢?
多谢大牛指点 |
J*****n 发帖数: 4859 | |
h******r 发帖数: 201 | 3 谢谢大牛
我没说清楚,这个题目本意是因为数据过大,一般电脑无法一次性读入来运算。原题目
是求median的。请大牛指点
【在 J*****n 的大作中提到】 : Var = E(x^2) - E(x)^2.
|
p*********s 发帖数: 61 | 4 I will try this:
(1) Sampling
(2) Generate bucketing thresholds based on the samples
(3) One pass to assign data points into buckets, also keep the counts in
each bucket
(4) Work out the bucket that contains the median.
(4) Find median in "the" bucket |
L*******t 发帖数: 2385 | 5 这个问题和另一个求distribution的问题相关。
如果你能fit distribution,求Median就是小菜一碟了
【在 h******r 的大作中提到】 : 记得以前有位贴过一个题目,一个file有10G大比如,要求median。 : 嘉定因为数据太大,无法用通常的办法,读入数据计算。有什么好办法吗? 如果分成 : 若干小数据分别求,然后如何合并呢? : 多谢大牛指点
|
k*****n 发帖数: 117 | 6 distributed sort then distributed binary search |