工作中的一个correlation analysis的问题。 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 工作中的一个correlation analysis的问题。

相关主题
● missing data imputation	● 关于power analysis的应用（healthcare industry)
● 问一些关于mixed model的问题，包子悬赏,不胜感激。	● 问大家一个propensity score matching 的问题
● 请教做过Multiple Imputation 的牛牛们	● 对于Mixed Linear Model, 如何处理missing covariates?
● 如何处理这样的missing value？	● missing data questions
● missing data 如何处理？	● How to deal with the NULL value?
● [合集] 用SAS or SUDAAN处理人口统计数据的问题	● 请教怎么用PCA capture pairwise covariance (with missing va
● 求教：Cox PH 模型的cluster data处理	● 我问一个极其sb的问题。
● 请教高人	● SAS help needed, interpolating missing values

相关话题的讨论汇总
话题: website话题: theta话题: alpha话题: missing

进入Statistics版参与讨论

(共1页)

t***q
发帖数: 418

有一个工作中的一个correlation analysis的问题。有一万个website，每个website每
一天观测一个值，也许是user agent>1 的percentage之类的值，然后每个website就得
到以天为index的一个vector，每个vector之间有一个correlation（可以用pearson'之
类的算一下），但是一万个website之间的correlation的关系，generally的怎么
evaluate?
盼回复。多谢！

D******n
发帖数: 2836

clustering

【在 t***q 的大作中提到】

: 有一个工作中的一个correlation analysis的问题。有一万个website，每个website每
: 一天观测一个值，也许是user agent>1 的percentage之类的值，然后每个website就得
: 到以天为index的一个vector，每个vector之间有一个correlation（可以用pearson'之
: 类的算一下），但是一万个website之间的correlation的关系，generally的怎么
: evaluate?
: 盼回复。多谢！

b*****n
发帖数: 685

这应是典型的covariance matrix estimation问题，并不是clustering能解决的，反着
还差不多。

l******n
发帖数: 9344

感觉楼主是说10ksites计算量太大，cluster比如按照网站内容，关键字之类分类之后
，10k变成500，或者1可，这样计算量减少

这应是典型的covariance matrix estimation问题，并不是clustering能解决的，反着
还差不多。

【在 b*****n 的大作中提到】

: 这应是典型的covariance matrix estimation问题，并不是clustering能解决的，反着
: 还差不多。

t***q
发帖数: 418

D******n
发帖数: 2836

clustering

【在 t***q 的大作中提到】

b*****n
发帖数: 685

这应是典型的covariance matrix estimation问题，并不是clustering能解决的，反着
还差不多。

l******n
发帖数: 9344

: 这应是典型的covariance matrix estimation问题，并不是clustering能解决的，反着
: 还差不多。

t*****2
发帖数: 94

您好，小弟是FRESH GRADATE, 最近在工作，在面试的时候很多时候被问到MISSING
VALUE的问题。我看到你经常在这里解答别人的问题，而且很专业。希望能得到您的答
案。
for example: how to deal with missing value so that it can be used as input
for model? what if 80% of the data are missing?
我就回答了： a)test the pattern of missing value (MCAR/MAR/MNAR)
test some assumptions (eg. normality, because some datasets

are assumed to be normally distributed)

b) Solution: Multiple Imputation, Propensity score method. etc
I am not sure about my answer, especially for the case when 80% of data are
missing.
然后他们说我的回答太academic.我的问题是：一般在工作中，你们是怎样处理这个问
题呢？

S*x
发帖数: 705

search for "missing" in this board
you will find many previous discussion and many of them
focuses on business sense more than academia practise

input

are

【在 t*****2 的大作中提到】

: 您好，小弟是FRESH GRADATE, 最近在工作，在面试的时候很多时候被问到MISSING
: VALUE的问题。我看到你经常在这里解答别人的问题，而且很专业。希望能得到您的答
: 案。
: for example: how to deal with missing value so that it can be used as input
: for model? what if 80% of the data are missing?
: 我就回答了： a)test the pattern of missing value (MCAR/MAR/MNAR)
: test some assumptions (eg. normality, because some datasets
:
: are assumed to be normally distributed)
:

相关主题
● [合集] 用SAS or SUDAAN处理人口统计数据的问题	● 关于power analysis的应用（healthcare industry)
● 求教：Cox PH 模型的cluster data处理	● 问大家一个propensity score matching 的问题
● 请教高人	● 对于Mixed Linear Model, 如何处理missing covariates?
进入Statistics版参与讨论

P****D
发帖数: 11146

面试的时候，不要对方问啥你答啥，不喜欢的问题就推回去，也能显示你的能力。
对于第一个问题，你就说：这个问题太大了。缺失数据的处理现在已经发展成统计的一
个分支方向，绝不是我几句话可以回答得来。要不你们给我一个具体情况，我来说说我
会如何处理。
这样也显得你考虑问题比较细致，能具体情况具体分析。而且这样具体的问题会容易回
答得多。

input

【在 t*****2 的大作中提到】

r*****d
发帖数: 346

应该要认为每个网站得到的是一串时间序列,然后建立一个hierarchical model:
\Alpha is the hyper prior which has pdf p(\Alpha), and then specify the
conditional distribution \Theta|\Alpha ~ f(\Theta|\Alpha), and next given \
Theta, Y_i's are independent and can be parametrized by \Theta.
Then calculate the joint posterior distribution of (\Theta, \Alpha) given
the observed data, and go from there.
只是初步的想法，不知道是否make sense.

【在 t***q 的大作中提到】

w*******9
发帖数: 1433

Can you even test the missing pattern? Mission impossible.

input

【在 t*****2 的大作中提到】

o****o
发帖数: 8077

牛啊

【在 P****D 的大作中提到】

: 面试的时候，不要对方问啥你答啥，不喜欢的问题就推回去，也能显示你的能力。
: 对于第一个问题，你就说：这个问题太大了。缺失数据的处理现在已经发展成统计的一
: 个分支方向，绝不是我几句话可以回答得来。要不你们给我一个具体情况，我来说说我
: 会如何处理。
: 这样也显得你考虑问题比较细致，能具体情况具体分析。而且这样具体的问题会容易回
: 答得多。
:
: input
:
:

T*******I
发帖数: 5138

Could you please give a data table to show us how you organize your dataset?
Thanks.

【在 t***q 的大作中提到】

P****D
发帖数: 11146

Wrong a!
My strategy is a better-than-nothing workaround when people don't know how
to answer a certain question... Real big bulls won't need it.

【在 o****o 的大作中提到】

: 牛啊

(共1页)

进入Statistics版参与讨论

相关主题
● SAS help needed, interpolating missing values	● missing data 如何处理？
● 求推荐稍微advanced且又applied的 linear regression的书	● [合集] 用SAS or SUDAAN处理人口统计数据的问题
● 强烈呼唤牛人-question on analysis	● 求教：Cox PH 模型的cluster data处理
● 请教两个序列的比较问题	● 请教高人
● missing data imputation	● 关于power analysis的应用（healthcare industry)
● 问一些关于mixed model的问题，包子悬赏,不胜感激。	● 问大家一个propensity score matching 的问题
● 请教做过Multiple Imputation 的牛牛们	● 对于Mixed Linear Model, 如何处理missing covariates?
● 如何处理这样的missing value？	● missing data questions

相关话题的讨论汇总
话题: website话题: theta话题: alpha话题: missing

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天