由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 大家平时怎么处理missing data?
相关主题
question about multiple imputation of not normally distributed variable请教做过Multiple Imputation 的牛牛们
帮朋友post一个SAS问题,求高人指点。多谢各位了!请教几个logistic regression model的问题
missing data imputation[合集] 用SAS or SUDAAN处理人口统计数据的问题
missing values imputation如何计算imputed data set的mean的confidence interval
面试时关于如何处理missing data的回答关于time series的一个问题,请教大牛~
真心请教: data cleaning求解, 用SAS PROC MI 做 missing data imputation
How to get summary statistics from multiple imputed data sets[合集] Missing data
请教做过Multiple Imputation 的牛牛们proc logistic遇到missing value怎么处理
相关话题的讨论汇总
话题: missing话题: imputation话题: data话题: impute话题: 处理
进入Statistics版参与讨论
1 (共1页)
k*****u
发帖数: 1688
1
数据里面有一些变量有missing value,大家一般怎么处理?或者有没有什么经验,比
如多少obs是missing就把这个变量drop掉?
看到的几个办法:
impute:用mean median来impute效果不好
dummy var:if missing(var) then miss_var=1; else 0; 也没有什么提高
用regression,或者sas proc mi的mcmc,tree什么的impute
一般还有别的什么办法?
谢谢
还有什么处理missing问题的经验或者技巧么?
谢谢
h***x
发帖数: 586
2

Global mean/median does not work well. However you can try group mean/median
imputation if you can setup some criteria to segment your database.
This is a really good way. You don't think it is useful just because you
have never used/tried it. Sometimes missing value makes lots of business
sense. Why it is missing, does the missing tell us something ...
I really do not like regression imputation. Say you impute you data using
regression or mcmc and build a model on it. Then you need to apply the model
to another dataset. Does the new dataset have the same variable
distribution as the modeling base? What are the reasons/patterns for missing
? Ramdomly missing or others. If you do not know, how can you do imputation
on the new dataset? Use regression again? Sounds like ridiculous. I have
never seen any company used this method in real works. It is just from
academic. Maybe my knowledge/experience is too limited ... :-(
We do not use tree for imputation.

【在 k*****u 的大作中提到】
: 数据里面有一些变量有missing value,大家一般怎么处理?或者有没有什么经验,比
: 如多少obs是missing就把这个变量drop掉?
: 看到的几个办法:
: impute:用mean median来impute效果不好
: dummy var:if missing(var) then miss_var=1; else 0; 也没有什么提高
: 用regression,或者sas proc mi的mcmc,tree什么的impute
: 一般还有别的什么办法?
: 谢谢
: 还有什么处理missing问题的经验或者技巧么?
: 谢谢

k*****u
发帖数: 1688
3
谢谢谢谢
终于开始讨论了
实际当中大家一般怎么做的?
S*x
发帖数: 705
4
I use nearest neiborhood + missing value identifier

【在 k*****u 的大作中提到】
: 谢谢谢谢
: 终于开始讨论了
: 实际当中大家一般怎么做的?

m*******1
发帖数: 855
5
LS 的回复给了我很大的启发. 我只在ArcGIS里用过average nearest neighbor, 不知
道sas中这个怎么使用. 希望LS有时间来说说
A*******s
发帖数: 3942
6
missing data analysis is a huge topic and you can find tons of literature
discussing it. Before jumping to any fancy techniques on missing imputation,
i think the very first step is to ask two questions.
The first question is--are the data really missing, meaning there are indeed
true values but we just don't observe them, or, are they actually not
applicable, meaning there is no valid value at all?
If the answer is the latter, then you cannot well define a random variable
on those 'Not Applicable' values, not to mention any probability measure or
even statistical inference on them. Stratified analysis, missing indicators,
or floating categories in decision tree is the only way (at least
theoretically) to go.
The second question is the model's purpose. Are you trying to do pure
prediction, or make statistical inference on the interval estimates, or do
prediction but the variable selection could be affected by interval
estimates? Different answers lead to different preferences.

【在 k*****u 的大作中提到】
: 数据里面有一些变量有missing value,大家一般怎么处理?或者有没有什么经验,比
: 如多少obs是missing就把这个变量drop掉?
: 看到的几个办法:
: impute:用mean median来impute效果不好
: dummy var:if missing(var) then miss_var=1; else 0; 也没有什么提高
: 用regression,或者sas proc mi的mcmc,tree什么的impute
: 一般还有别的什么办法?
: 谢谢
: 还有什么处理missing问题的经验或者技巧么?
: 谢谢

a*****9
发帖数: 1315
7
这个讲的真不错,赞一个

imputation,
indeed
or
indicators,

【在 A*******s 的大作中提到】
: missing data analysis is a huge topic and you can find tons of literature
: discussing it. Before jumping to any fancy techniques on missing imputation,
: i think the very first step is to ask two questions.
: The first question is--are the data really missing, meaning there are indeed
: true values but we just don't observe them, or, are they actually not
: applicable, meaning there is no valid value at all?
: If the answer is the latter, then you cannot well define a random variable
: on those 'Not Applicable' values, not to mention any probability measure or
: even statistical inference on them. Stratified analysis, missing indicators,
: or floating categories in decision tree is the only way (at least

l********n
发帖数: 507
8
There is a famous missing data textbook by R Little and D Rubin.

【在 k*****u 的大作中提到】
: 数据里面有一些变量有missing value,大家一般怎么处理?或者有没有什么经验,比
: 如多少obs是missing就把这个变量drop掉?
: 看到的几个办法:
: impute:用mean median来impute效果不好
: dummy var:if missing(var) then miss_var=1; else 0; 也没有什么提高
: 用regression,或者sas proc mi的mcmc,tree什么的impute
: 一般还有别的什么办法?
: 谢谢
: 还有什么处理missing问题的经验或者技巧么?
: 谢谢

P****D
发帖数: 11146
9
首先你要搞明白为什么会missing,missing本身有什么意义,就像精算他们说的。
其次你要想清楚你是不是需要处理,处理的意义是什么。如果你的目的只是算一下
global mean,那么对处理的需求就小些。
然后才是方法。在我平时的工作中,非longitudual数据的话,missing超过20%(如果
是每个人都supposed应该有的值),一般我们就不去理这个variable了。但是有些情况
,客观上收集数据有这样那样的困难,可以再放松些。总之都是具体情况具体分析。
p*******e
发帖数: 746
10
Mark
h***x
发帖数: 586
11
俺从应用角度上瞎吹下,if I said something stupid,你们拍转就是。
基本上,如果你面试要准备此类问题,俺觉得可以先阐述常用的一些方法,然后提提对
missing数据的imputation在不同的公司,不同的领域很难有通用的方法,具体情况具
体分析,原因是数据来源不一样,造成missing的原因不一样,missing variables分布
的模式也不一样,continues和categorical variables 不一样。另外,从business的
角度看,有一些特定的变量需要特殊处理,如何处理,需要经验积攒,脱离变量的实际
意义而仅从data prospective来讨论missing imputation是没什么意义的。比方
sales方面的变量,销售额或订单数如果missing的话,肯定是要补0而不是mean/
meadian什么的了;income missing的话,用age 和real estate来做个回归也许是个比
较好的选择;年龄missing的话,看看有没有大学毕业时间之类的变量;性别missing的
话,看看有没有first name, 可以直接从名字猜出性别;demographic 变量missing,可
以看看能不能从ZIP9 level或用其他公司的数据(如Nilson的PRIZM data)来做
imputation。诸如此类的例子可以举出很多很多。

median
model
missing
imputation

【在 h***x 的大作中提到】
:
: Global mean/median does not work well. However you can try group mean/median
: imputation if you can setup some criteria to segment your database.
: This is a really good way. You don't think it is useful just because you
: have never used/tried it. Sometimes missing value makes lots of business
: sense. Why it is missing, does the missing tell us something ...
: I really do not like regression imputation. Say you impute you data using
: regression or mcmc and build a model on it. Then you need to apply the model
: to another dataset. Does the new dataset have the same variable
: distribution as the modeling base? What are the reasons/patterns for missing

T*******I
发帖数: 5138
12
你所说的大多数情况下的处理方式是很有效的,但有些不属于真正的missing data,例
如已知其first name但性别没有记录。而且,用这种方式处理大样本中的缺省值时,几
乎是困难重重。
我的一个基本观点是,缺省值属于样本中随机发生的现象。在数据建立过程中能尽可能
减少发生的情况下,无需过分担心它们的存在,也无需刻意用所谓的imputation或统计
估计值予以替换,因为一个真正的缺省值就是一个关于客观对象的未知,而一个真实的
未知不能用人为的假设去替换。

【在 h***x 的大作中提到】
: 俺从应用角度上瞎吹下,if I said something stupid,你们拍转就是。
: 基本上,如果你面试要准备此类问题,俺觉得可以先阐述常用的一些方法,然后提提对
: missing数据的imputation在不同的公司,不同的领域很难有通用的方法,具体情况具
: 体分析,原因是数据来源不一样,造成missing的原因不一样,missing variables分布
: 的模式也不一样,continues和categorical variables 不一样。另外,从business的
: 角度看,有一些特定的变量需要特殊处理,如何处理,需要经验积攒,脱离变量的实际
: 意义而仅从data prospective来讨论missing imputation是没什么意义的。比方
: sales方面的变量,销售额或订单数如果missing的话,肯定是要补0而不是mean/
: meadian什么的了;income missing的话,用age 和real estate来做个回归也许是个比
: 较好的选择;年龄missing的话,看看有没有大学毕业时间之类的变量;性别missing的

h***x
发帖数: 586
13
谢老陈指点。就这个name 和sex的例子,属不属于真正的missing data,俺不了解,:(
,但就实现而言,建立个lookup table,写个小macro,就算对大样本,也还是很快且方便
的。
俺其实想说的是,对这个问题,要从两个方面看,data prospective(很多学术文章都
是从这方面来讨论的)和business prospective (即变量本身的具体含义),割舍任何一
方面都是有问题的。当然,俺举的那些例子比较片面,没有完全反应projects中遇到的
情况。

【在 T*******I 的大作中提到】
: 你所说的大多数情况下的处理方式是很有效的,但有些不属于真正的missing data,例
: 如已知其first name但性别没有记录。而且,用这种方式处理大样本中的缺省值时,几
: 乎是困难重重。
: 我的一个基本观点是,缺省值属于样本中随机发生的现象。在数据建立过程中能尽可能
: 减少发生的情况下,无需过分担心它们的存在,也无需刻意用所谓的imputation或统计
: 估计值予以替换,因为一个真正的缺省值就是一个关于客观对象的未知,而一个真实的
: 未知不能用人为的假设去替换。

1 (共1页)
进入Statistics版参与讨论
相关主题
proc logistic遇到missing value怎么处理面试时关于如何处理missing data的回答
求 imputation 后 出来的iteration 的数据作用真心请教: data cleaning
问个missing data的问题,关于time series dataHow to get summary statistics from multiple imputed data sets
请教一个sas问题请教做过Multiple Imputation 的牛牛们
question about multiple imputation of not normally distributed variable请教做过Multiple Imputation 的牛牛们
帮朋友post一个SAS问题,求高人指点。多谢各位了!请教几个logistic regression model的问题
missing data imputation[合集] 用SAS or SUDAAN处理人口统计数据的问题
missing values imputation如何计算imputed data set的mean的confidence interval
相关话题的讨论汇总
话题: missing话题: imputation话题: data话题: impute话题: 处理