t***q 发帖数: 418 | 1 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
类的算一下),但是一万个website之间的correlation的关系,generally的怎么
evaluate?
盼回复。多谢! |
D******n 发帖数: 2836 | 2 clustering
【在 t***q 的大作中提到】 : 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每 : 一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得 : 到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之 : 类的算一下),但是一万个website之间的correlation的关系,generally的怎么 : evaluate? : 盼回复。多谢!
|
b*****n 发帖数: 685 | 3 这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
还差不多。 |
l******n 发帖数: 9344 | 4 感觉楼主是说10ksites计算量太大,cluster比如按照网站内容,关键字之类分类之后
,10k变成500,或者1可,这样计算量减少
这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
还差不多。
【在 b*****n 的大作中提到】 : 这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着 : 还差不多。
|
t***q 发帖数: 418 | 5 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
类的算一下),但是一万个website之间的correlation的关系,generally的怎么
evaluate?
盼回复。多谢! |
D******n 发帖数: 2836 | 6 clustering
【在 t***q 的大作中提到】 : 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每 : 一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得 : 到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之 : 类的算一下),但是一万个website之间的correlation的关系,generally的怎么 : evaluate? : 盼回复。多谢!
|
b*****n 发帖数: 685 | 7 这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
还差不多。 |
l******n 发帖数: 9344 | 8 感觉楼主是说10ksites计算量太大,cluster比如按照网站内容,关键字之类分类之后
,10k变成500,或者1可,这样计算量减少
这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
还差不多。
【在 b*****n 的大作中提到】 : 这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着 : 还差不多。
|
t*****2 发帖数: 94 | 9 您好,小弟是FRESH GRADATE, 最近在工作,在面试的时候很多时候被问到MISSING
VALUE的问题。我看到你经常在这里解答别人的问题,而且很专业。希望能得到您的答
案。
for example: how to deal with missing value so that it can be used as input
for model? what if 80% of the data are missing?
我就回答了: a)test the pattern of missing value (MCAR/MAR/MNAR)
test some assumptions (eg. normality, because some datasets
are assumed to be normally distributed)
b) Solution: Multiple Imputation, Propensity score method. etc
I am not sure about my answer, especially for the case when 80% of data are
missing.
然后他们说我的回答太academic.我的问题是: 一般在工作中,你们是怎样处理这个问
题呢? |
S*x 发帖数: 705 | 10 search for "missing" in this board
you will find many previous discussion and many of them
focuses on business sense more than academia practise
input
are
【在 t*****2 的大作中提到】 : 您好,小弟是FRESH GRADATE, 最近在工作,在面试的时候很多时候被问到MISSING : VALUE的问题。我看到你经常在这里解答别人的问题,而且很专业。希望能得到您的答 : 案。 : for example: how to deal with missing value so that it can be used as input : for model? what if 80% of the data are missing? : 我就回答了: a)test the pattern of missing value (MCAR/MAR/MNAR) : test some assumptions (eg. normality, because some datasets : : are assumed to be normally distributed) :
|
|
|
P****D 发帖数: 11146 | 11 面试的时候,不要对方问啥你答啥,不喜欢的问题就推回去,也能显示你的能力。
对于第一个问题,你就说:这个问题太大了。缺失数据的处理现在已经发展成统计的一
个分支方向,绝不是我几句话可以回答得来。要不你们给我一个具体情况,我来说说我
会如何处理。
这样也显得你考虑问题比较细致,能具体情况具体分析。而且这样具体的问题会容易回
答得多。
input
【在 t*****2 的大作中提到】 : 您好,小弟是FRESH GRADATE, 最近在工作,在面试的时候很多时候被问到MISSING : VALUE的问题。我看到你经常在这里解答别人的问题,而且很专业。希望能得到您的答 : 案。 : for example: how to deal with missing value so that it can be used as input : for model? what if 80% of the data are missing? : 我就回答了: a)test the pattern of missing value (MCAR/MAR/MNAR) : test some assumptions (eg. normality, because some datasets : : are assumed to be normally distributed) :
|
r*****d 发帖数: 346 | 12 应该要认为每个网站得到的是一串时间序列,然后建立一个hierarchical model:
\Alpha is the hyper prior which has pdf p(\Alpha), and then specify the
conditional distribution \Theta|\Alpha ~ f(\Theta|\Alpha), and next given \
Theta, Y_i's are independent and can be parametrized by \Theta.
Then calculate the joint posterior distribution of (\Theta, \Alpha) given
the observed data, and go from there.
只是初步的想法,不知道是否make sense.
【在 t***q 的大作中提到】 : 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每 : 一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得 : 到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之 : 类的算一下),但是一万个website之间的correlation的关系,generally的怎么 : evaluate? : 盼回复。多谢!
|
w*******9 发帖数: 1433 | 13 Can you even test the missing pattern? Mission impossible.
input
【在 t*****2 的大作中提到】 : 您好,小弟是FRESH GRADATE, 最近在工作,在面试的时候很多时候被问到MISSING : VALUE的问题。我看到你经常在这里解答别人的问题,而且很专业。希望能得到您的答 : 案。 : for example: how to deal with missing value so that it can be used as input : for model? what if 80% of the data are missing? : 我就回答了: a)test the pattern of missing value (MCAR/MAR/MNAR) : test some assumptions (eg. normality, because some datasets : : are assumed to be normally distributed) :
|
o****o 发帖数: 8077 | 14 牛啊
【在 P****D 的大作中提到】 : 面试的时候,不要对方问啥你答啥,不喜欢的问题就推回去,也能显示你的能力。 : 对于第一个问题,你就说:这个问题太大了。缺失数据的处理现在已经发展成统计的一 : 个分支方向,绝不是我几句话可以回答得来。要不你们给我一个具体情况,我来说说我 : 会如何处理。 : 这样也显得你考虑问题比较细致,能具体情况具体分析。而且这样具体的问题会容易回 : 答得多。 : : input : :
|
T*******I 发帖数: 5138 | 15 Could you please give a data table to show us how you organize your dataset?
Thanks.
【在 t***q 的大作中提到】 : 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每 : 一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得 : 到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之 : 类的算一下),但是一万个website之间的correlation的关系,generally的怎么 : evaluate? : 盼回复。多谢!
|
P****D 发帖数: 11146 | 16 Wrong a!
My strategy is a better-than-nothing workaround when people don't know how
to answer a certain question... Real big bulls won't need it.
【在 o****o 的大作中提到】 : 牛啊
|