由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Quant版 - 以前贴过一个题目:large data, get median
相关主题
one questions请问一道老题
问一道题。如果我有两个correlation为rho的norm distribution
嘉盛Trading 这个公司有谁了解How to test a sequence has negative binomial distribution
Bonus扣税提问一道老题目(C++)
log return distribution 选择[合集] interview question (programming)
问一个sampling from multivariate distribution 的问题求助,这样从c++输入窗口读入一连串的单词或数字呢?
median number的问题讨论几个 ihtw 大牛的题目
[合集] 请教一个概率题[合集] phone interview, a nice chinese guy
相关话题的讨论汇总
话题: median话题: bucket话题: var话题: 题目话题: 贴过
进入Quant版参与讨论
1 (共1页)
h******r
发帖数: 201
1
记得以前有位贴过一个题目,一个file有10G大比如,要求median。
嘉定因为数据太大,无法用通常的办法,读入数据计算。有什么好办法吗? 如果分成
若干小数据分别求,然后如何合并呢?
多谢大牛指点
J*****n
发帖数: 4859
2
Var = E(x^2) - E(x)^2.
h******r
发帖数: 201
3
谢谢大牛
我没说清楚,这个题目本意是因为数据过大,一般电脑无法一次性读入来运算。原题目
是求median的。请大牛指点

【在 J*****n 的大作中提到】
: Var = E(x^2) - E(x)^2.
p*********s
发帖数: 61
4
I will try this:
(1) Sampling
(2) Generate bucketing thresholds based on the samples
(3) One pass to assign data points into buckets, also keep the counts in
each bucket
(4) Work out the bucket that contains the median.
(4) Find median in "the" bucket
L*******t
发帖数: 2385
5
这个问题和另一个求distribution的问题相关。
如果你能fit distribution,求Median就是小菜一碟了

【在 h******r 的大作中提到】
: 记得以前有位贴过一个题目,一个file有10G大比如,要求median。
: 嘉定因为数据太大,无法用通常的办法,读入数据计算。有什么好办法吗? 如果分成
: 若干小数据分别求,然后如何合并呢?
: 多谢大牛指点

k*****n
发帖数: 117
6
distributed sort then distributed binary search
1 (共1页)
进入Quant版参与讨论
相关主题
[合集] phone interview, a nice chinese guylog return distribution 选择
[合集] 问个关于Extreme value thoery(EVT)的问题问一个sampling from multivariate distribution 的问题
算法面试题median number的问题
请教大牛们一个薪水问题[合集] 请教一个概率题
one questions请问一道老题
问一道题。如果我有两个correlation为rho的norm distribution
嘉盛Trading 这个公司有谁了解How to test a sequence has negative binomial distribution
Bonus扣税提问一道老题目(C++)
相关话题的讨论汇总
话题: median话题: bucket话题: var话题: 题目话题: 贴过