由买买提看人间百态

topics

全部话题 - 话题: imputation
1 2 3 4 5 6 7 8 9 下页 末页 (共9页)
u******e
发帖数: 60
1
I have a score with missing value. The score is on a 0-70 scale and measured
at 4 time points. The missing pattern is not monotonic. The score is not
normally distributed in the sample. it is right skewed with a lot of
subjects having score 0.
Subjects with disease A are likely to have high score. The distribution of
score is close to normal distribution when separating subjects with and
without disease A.
The purpose of the study is to assess relation between disease A and change
of score durin... 阅读全帖
c**********5
发帖数: 653
2
来自主题: Statistics版 - imputation question?thanks
Hi,Everyone,
I am new with this topic.Can anybody help me out?
in the pilot study there were around 100 sample size ,almost half of the
them carry missing value.
I would like to use the multiple imputation to deal with the missing data
problem.
The current model is :
Outcome1(post measurement1-premeasure1)=pre measurement1+group
Outcome2(post measurement2-premeasure2)=pre measurement2+group
…….
There are a lot outcomes We are interested.
I have the following question:
1. How c... 阅读全帖
h***m
发帖数: 85
3
来自主题: Statistics版 - 请教做过Multiple Imputation 的牛牛们
Context: two-level data, first-level nested within second-level
Goal:impute the missing values for some continuous variables at first-level
with second-level dummy variables included in imputation model.
Problem:Within the second-level(e.g. group) all the subjects have missing
values for these variables we would like to impute. How could we impute them
without deleting these subjects?
Please share your ideas or experience. Thanks!
h***m
发帖数: 85
4
来自主题: Statistics版 - 请教做过Multiple Imputation 的牛牛们
Context: two-level data, first-level nested within second-level
Goal:impute the missing values for some continuous variables at first-level
with second-level dummy variables included in imputation model.
Problem:Within the second-level(e.g. group) all the subjects have missing
values for these variables we would like to impute. How could we impute them
without deleting these subjects?
Please share your ideas or experience. Thanks!
y*********s
发帖数: 24
5
来自主题: Statistics版 - missing values imputation
我读了一些怎样IMPUTE MISSING VALUES 的材料,
根据 MAXIMUM LIKELIHOOD, 还有EM 之类 去IMPUTE,
麻烦的是 如果 MULTIPLE IMPUTATION,
是取 AVERAGE OF THE SAMPLINGS 代替 MISSING VALUES 吗, 然后再 MODEL?
在工业中, LARGE DATA SETS, 都用什么方法 IMPUTE 这些MISSING VALUES 呢?
求讲解!!!~~~
新年快乐!!
s******s
发帖数: 13035
6
来自主题: Biology版 - 一个GWAS genotype imputation的问题
我的理解是array-based的genotyping都没法直接出ATGC的genotype, 出来的都是
cluster的AA/AB/BB。这个要变成ATGC,只有用minor allele frequency去猜,但是
maf如果接近0.5,这玩意岂不是错误很多。
就算错了,做gwas估计问题不大。但是imputation的时候,一堆正确的genotype里面
有一堆相反的,用这个数据impute,岂不是错误百出?!还是我理解有问题?
想了一下,也许这些maf接近0.5的也比较集中,另外,就算相反,maf接近0.5的对
imputation提供的information也不多(比maf0.1的少的多了),是不是这个原因
大家都不care了?
H******r
发帖数: 2879
7
来自主题: Statistics版 - imputation question?thanks
Almost all existing imputation methods are based on MAR assumption - think
about whether this assumption is true in your problem.
Imputation model could be a "big" model, which includes all "useful"
predictors and some "useless" predictors. 10 multiply-imputed datasets
should be enough.
You may check IVEware for MI - it works for non-normal model and you can
specify bounds as well.
z**********i
发帖数: 12276
8
来自主题: Statistics版 - missing data imputation
想做点disparity的分析。
race在最初2年,很多missing,后来,好了很多.
有2篇文章介绍,geocoding和surname来填补missing,可能以后会试试。
basic imputation methods: case complete,locf,mean.
后来,有hot deck imputation, multiple imputation.
我也没有经验,具体在实际中该用什么,不太清楚。
T*******I
发帖数: 5138
9
在我看来, imputation在统计学里就是一个可笑的东西, 当然, 它在某些数学背景的人
士看来是个很有智慧的解决方案。
你要是不服气, 请告诉我们, 一个missing point measure in a sampling dataset是
什么意思, 而一个imputed point value又是什么意思。把这两个概念搞清楚了, 再来
谈imputation有何意义。
t**********s
发帖数: 589
10
来自主题: TAX版 - imputed income
Hi, could anybody give me an esay-to-understand explanation about imputed
income? How will an imputed income affect my tax filing?
Thanks very much!
h***b
发帖数: 1233
11
来自主题: TAX版 - imputed income
an example of imputed income is "value on group life ins in excess of IRS
allowed amt". e.g. company provides and pays for a $50k life ins for you at
work. you don't owe tax on it. if the amt is $90k, then imputed income
will apply on $40k, because it's over the $50k limit.
IRS offers a table that calculates the excess value--such amount is reported
on your W-2. because company already paid for it, this income is to be
backed out.
overall effect on your income is minimal--since the amt is us... 阅读全帖
d**y
发帖数: 32
12
有一篇稿件,题为“Similarity of Chemotherapy Histories based on Imputed
Values”
请有兴趣且方向相符的朋友站内联系,请附上个人简介,研究方向及email联系方式
Abstract. The comparison of time series of multivariate data is a long-
standing
problem in many applications in the clinical domain.We propose two
approaches
to retrieve from a hospital data warehouse the k patients P1; : : : ; Pn
with a
chemotherapy history that is most similar to patient Q: the first is based
on warping
distance, together with an initial alignment using imputed value... 阅读全帖
A****y
发帖数: 319
13
来自主题: NewJersey版 - 请问关于imputed income
在找房子准备搬家,一个landlord给我的邮件里提到,除了收入要求以外,还有下面的
内容。我
不大懂啥意思,版上哪位前辈给解释一下?这个对我好还是不好?查了wiki还是没搞明
白,貌似河
税有关。
Imputed Income: XXX (公寓的名字) will include in your annual income an
amount equal
to 6 % of your liquid assets. Liquid Assets are considered to be cash, IRAs,
401Ks,
mutual funds, and stocks and bonds. You must submit documentation in order
for this
additional Imputed Income to be considered as an addition to your base
income
多谢拉!
t*********e
发帖数: 313
14
Dear all,
I used PROC MI to impute missing values for some variables and created five
sets of data.
I am now struggling with how to get a valid final statistics (e.g., count,
percentage, mean, std., etc.) for those variables with five sets of imputed
values.
Any help would be highly appreciated.
Thanks
t*********e
发帖数: 313
15
Thank you for the tips. I also received some help from SAS technical
suppport. Proc mianalyze can be used to ge combined means and std err, not
std dev. At this point, neither SAS nor Stata can produced two-way tables
using all the imputed data sets. I was told I have to average across all the
imputed data sets to get sample size.
Thanks!
a***r
发帖数: 420
16
随着deep-sequencing的发展,
感觉haplotype phasing & genotype imputation的一整套都终将日落西山啊,
最大的问题变成如何把小片段assembly起来,
原来的找tagSNP啊,shared IBD啊,基本都用不上了
唉,为了一个genotype imputation的课题读paper,读出这么个结论,黯然神伤啊
大家给说说?
d******9
发帖数: 134
17
来自主题: Statistics版 - missing data imputation
lz这些data是做什么用的呢?
我最近做的一个project,用来match patients的若干covariates中有些也有missing
data. 我的advisor说用mean imputation既可,我有几个covariates有大约25%的
missing,他说这样的比例不能用imputation了。具体的threshold或者其他详细的
guideline我也不清楚,等其他人来解释吧。
c********d
发帖数: 253
18
来自主题: Statistics版 - missing data imputation
hot deck是multiple imputation的一种,当然你也可以用hot deck做single
imputation,不过不推荐。
z**********i
发帖数: 12276
19
来自主题: Statistics版 - missing data imputation
记得哪个地方比较hot deck 和 multiple imputation?
有的地方说hot deck multiple imputation.
把我搞糊涂拉.
多谢回复!
n******u
发帖数: 79
20
我有一个dataset里面有一些varibles含有missing value
我想用SAS 的proc MI 去impuate missing data。
我打算 用 statement “nimpute=5”来产生5 个 imputed datasets。
可是之后怎么将这5 个 imputed datsets combine 成一个 最终的 dataset 呢?
是要算平均值吗?
没有用过proc MI , 请大牛赐教。
w****f
发帖数: 22
21
1. 我也用MICE 做了最近面试的一个公司的case study,5000数据点,250个变量 (
numeric and categorical),也是存在严重的missing values 问题,每个变量大概5%
missing,complete cases 只有 36个。 MICE 默认输出的5个impute data可以
用来检查是不是imputation算法收敛了,如果最终做分析的话,未必要5个都用到,或
者你取均值好了。其实我只用了一个来建模,效果也不错。
2. categorical variables 之间的相关性强度,可以看 Phi coefficient and Cramé
r's V。
3. 如果不是response和predictors之间明显不是linear的话,我建议你试试MARS 或者
GAMs。

rate
categorical
t*****a
发帖数: 459
22
前辈其实你讨论的问题我大部分都看不懂。不过关于这个imputation的问题建议你看看
D. Rubin的一系列paper, 如果不想深入研究可以看看Xiaoli Meng的几个科普paper.
Xiaoli Meng的一个paper提到过,他18年前讨论的一个imputation的paper,就被编审
评论为胡搞,但是现在回头看,是编审在胡搞。

果。
T*******I
发帖数: 5138
23
No need. Things are too simple. You cannot transform an "unknown" to "known"
in this way.
Usually, you should not throw away the whole project, but you must throw
away those with missing status.
Of course you can do anyhow with imputation for your project, but you must
label your result with "with imputation" and the result is useless.
w****f
发帖数: 22
24
感觉你是无知者无畏啊,给你举个简单例子,临床实验中最典型的missing values 是
由于病人退出实验造成的。这种情况下如果不做imputation,分析结果会存在严重的
bias,因为很可能病人退出实验的原因在于药物作用不够好。FDA严格要求医药企业必
须有合理的imputation方案写进statistical analysis plan (SAP).
G***G
发帖数: 16778
25
where to download Mitochondrial reference for genotype imputation?
G***y
发帖数: 1082
26
来自主题: Biology版 - 一个GWAS genotype imputation的问题
microarray的probe上的allele都是有定义的。你说的这种A/B互换的情况只在allele是
A/T或者C/G的位点会出现。imputation时这种位点以前是会被排除在外的。
i*e
发帖数: 352
27
来自主题: Biology版 - 一个GWAS genotype imputation的问题
基本上做imputation的时候要strand flipping一下
l********s
发帖数: 430
28
来自主题: Statistics版 - 请教做过Multiple Imputation 的牛牛们
你的问题可能不是很清楚,比如说你的第二个level有3个group,如果完全没有group3
的信息,那么你impute这个group3只能不看group这个variable了。
我想可能的情况是你有一些covariate,或者group3里面还是有一些是没有missing的,
这样的可以用hot-deck或者用model。
H******r
发帖数: 2879
29
proc mianalyze.
or you can search Rubin "multiple imputation combining rules", it is kind of
intuitive.
h*******d
发帖数: 272
30
大家好 生手急求
我用SPSS 的IMPUTATION 功能填补我原始数据中的MISSING VALUE (SAS 也有这个功能
,但PROJECT 马上要交 没功夫折腾SAS 就偷懒用SPSS)
我学了半天还没明白 比如 SPSS中 iteration=5,那就会出来5组新数据 就是原始数据
+系统填补上的数据 (重复5次 每次不一样的填补数据)
然后我分析怎么办呢? 到底拿哪组数据呢 我试着5组都分析 发现结果还是有不同的
和原始数据的结果差的更大。 到底怎么把这5组数据 最后总结为我最终的模型呢?
肯请大家指点
w******a
发帖数: 25
31
来自主题: Statistics版 - imputation question?thanks
Here is an R example to impute one missing data in each record,half of the code is to make data sample, you probably only need second half,but including them here helps you understand what is going on:
The data will look like
col1 col2
x
x x
x
x x
x x
...
library(Rlab)
alp = 1
Prob_R1 = 0.5
Prob_R0 = 1 - Prob_R1
len_Y1 = 200
K_delta = 2
Y1 = rnorm(len_Y1,mean=0,sd=1)
R1 = rbinom(n=len_Y1, size=1, prob=Prob_R1)
Y2 = rnorm(n=len_Y1,... 阅读全帖
w******a
发帖数: 25
32
来自主题: Statistics版 - imputation question?thanks
Here is an R example to impute one or two missing data in each record:
The data will look like
col1 col2 col3
x
x x x
x x
x x
x x x
x
x x x
...
library(Rlab)
alp = 1
K_delta = 2
len_Y1 = 200
#Sample setting:
#Measurment N_
patient Percent
# 1 12
0.18
# 1 2 4
0.05... 阅读全帖
c**********5
发帖数: 653
33
来自主题: Statistics版 - imputation question?thanks
Hi,
Thanks.I have read it and it is my favorite web.不过还是好谢谢你。
我从来没有用过这个方法,读完一些资料以后,感觉是如果是任意missing模式,当
我们建立imputation model时,我们可以将所有与你感兴趣的变量放入这个model,不
管是dependent variable 还是indpendent variable。不知我理解的对不对。谢谢
q*****q
发帖数: 158
34
来自主题: Statistics版 - missing values imputation
你搜一下multiple imputation chained equations (MICE),算是最常用的方法了吧。
。。
s*****e
发帖数: 157
35
请教一下,对于一个imputation 5次后的data set,有三个group,group mean可以用
SAS 中的proc means 求,confidence interval 应该如何用sas算呢?谢谢
l****i
发帖数: 398
36
来自主题: Statistics版 - 问一个关于data imputation的问题
有两个study, wave1 wave2。在wave1有这样一个问题“在8:30-9:00你是否去过Store
or Mall”。
而在wave2里这个变量被分裂成2个独立的变量,所以问题变成,"在8:30-9:00你是否去
过store" 和 “在8:30-9:00你是否去过Mall"。
现在要把两个study combine在一起而且要让所以要把wave1里的“store or mall”分
裂成两个单独立的变量“store" and ”mall"
请问可以通过什么样的手段来实现这个目的的?可不可以通过spss自带的missing data
imputation来实现?
R*********i
发帖数: 7643
37
来自主题: Statistics版 - 问一个关于data imputation的问题
No. Imputation is not designed for these kind of purpose. If the information
is not collected I suggest you combining the two vars in Wave 2, instead of
making up data in Wave 1.
z**********i
发帖数: 12276
38
来自主题: Statistics版 - missing data imputation
医院level的race DATA,比如,white, 85%, no-white, 15%.
2004, race, 74% missing. 比如, 200个医院, only 52个医院有RACE的信息,其他148个医
院没有.
2005, race, 50% missing
2006, race, 14% missing
2007-2009, race, no missing
2004-2006的DATA是否可用,常用什么imputation method?
多谢回复!!
c********d
发帖数: 253
39
来自主题: Statistics版 - missing data imputation
Propensity score will create large bias when data is not monotone missing.So
I don't recommend that approach. A lot of methods can be used in your case
if you only have one missing variable, such as hot-deck, predictive mean
matching using a logistic model. You can also use multivariate probit model
for your case since race is nominal. By using multivariate probit model, it'
s easy to develop MCMC algorithm to do multiple imputation.
z**********i
发帖数: 12276
40
来自主题: Statistics版 - missing data imputation
多谢回复!
我看到有的用hot deck,hot deck multiple imputation.感觉,他们是不同的。
没坐果的,就是莫不着头脑。

So
case
model
it'
s***h
发帖数: 26
41
实在不好意思打扰了,我最近在做一个research遇到了以下几个问题,希望能够向版上
的前辈请教。虽然查过了版上的一些类似的帖子也尝试了一下,但还是决定问问:
1. 我的原始数据missing rate相当严重(总rate 50%,每个variable的 missing rate
大概在1%-20%左右)。我使用了R里面的MICE去fill进去这些missing value,但是它的
默认setting是5个sub imputation datasets,我想问问看有什么办法能够把它们合成
一个dataset?我读过了MICE的使用paper,看起来他们只能支持输出全五个datasets或
者直接在MICE的情况下run regression。我想问问看有没有使用过MICE的人有没有什么
好的方法?
2. 我的dataset原始variable数量很多(80+),其中90%是categorical变量,在R里面
有没有快速看变量之间correlation的方法(cor function应该是不适合看categorical
之间的关系的)
3. 如果我使用一些比较raw的方法删掉了一批变... 阅读全帖
s***h
发帖数: 26
42
实在不好意思打扰了,我最近在做一个research遇到了以下几个问题,希望能够向版上
的前辈请教。虽然查过了版上的一些类似的帖子也尝试了一下,但还是决定问问:
1. 我的原始数据missing rate相当严重(总rate 50%,每个variable的 missing rate
大概在1%-20%左右)。我使用了R里面的MICE去fill进去这些missing value,但是它的
默认setting是5个sub imputation datasets,我想问问看有什么办法能够把它们合成
一个dataset?我读过了MICE的使用paper,看起来他们只能支持输出全五个datasets或
者直接在MICE的情况下run regression。我想问问看有没有使用过MICE的人有没有什么
好的方法?
2. 我的dataset原始variable数量很多(80+),其中90%是categorical变量,在R里面
有没有快速看变量之间correlation的方法(cor function应该是不适合看categorical
之间的关系的)
3. 如果我使用一些比较raw的方法删掉了一批变... 阅读全帖
T*******I
发帖数: 5138
43
操, 统计被一帮玩数字游戏的家伙们操翻了!
统计不是这样搞的! Imputation根本就是借所谓的数学技能胡搞。说句不客气的话, 这
是在伪造数据或经验事实, 从而伪造认知结果。与其造假, 不如没有或仅有微弱的结果。
T*******I
发帖数: 5138
44
当人们不考虑样本数据本身的自然属性而仅仅把它们看成是一堆抽象的数字的时候, 当
他们遇到样本中的这些被missed掉的抽象的数字, 并且因为这些令人感到无奈而又讨厌
的空缺令他们束手无策时, 他们便可以爱怎么玩就怎么玩弄数字游戏, 只要最后能够得
到一个令他们满意or不满意的结果就行。
面对经验观察下的事实缺失, 没有什么数学魔术可以弥补。不知道就是不知道, 人们不
可能也不应该根据假设补充 "事实", 进而伪造结果。
Imputation说得好听一点是数字游戏, 说得不好听就是作弊和造假。当然, 任何人造假
都是会寻找逻辑和方法的。
如果一个医学实验员因为疏忽漏记了一个观察结果, 而事后用其它数据的平均值或任意
一个数字去弥补这个记录, 我想, 如果发生了这样的事情, 他/她将面临被解雇而失去
工作, 因为这是不能被容忍的行为。我真是无法想象人们怎么会接受和容忍这种大规模
的数据造假的理论和方法。
所以, 我想, 18年前批判Xiaoli Meng的是一个真正的统计学家, 而此后接受他的东西
的应该都是在统计学里还没被启蒙的数学家们。
w****f
发帖数: 22
45
我这是举个例子告诉你为什么要imputation,驳斥你的所谓“作弊”,“造假”,“数
字游戏”。。
你的那些概念我至少目前没兴趣理解,如果你觉得你的想法具有先进性,建议你投稿
JASA,Annals of Statistics, 目前而言,对你的任何没经过peer review的发现研究
,我不想浪费时间。
T*******I
发帖数: 5138
46
笑话, 那些peer-reviewer能够把无知说成已知?
哦,我忘了。他们确实做到了,要不,imputation是如何出笼的?
T*******I
发帖数: 5138
47
Ok,请把你支持imputation的核心论点放在这里,看看你能否说服我放弃我的上述基本
认知。你应该不会不知道,而且也应该如我一样,没几个字。如果你继续对此保持缄默
,就别tmd在这里装大神。
T*******I
发帖数: 5138
48
Are you sure that you guys really know the difference between Bias and
Random error? For the imputation declares that it is an attempt to avoid
bias caused be the missing data in sample.
I doubt you!
n********n
发帖数: 8336
49
来自主题: TrustInJesus版 - 亚米纽斯神学
对imputed sin的定义有争议,见下一种观点
----------------------
Question: "What is the definition of sin?"
Answer: Sin is described in the Bible as transgression of the law of God (1
John 3:4) and rebellion against God (Deuteronomy 9:7; Joshua 1:18). Sin had
its beginning with Lucifer, probably the most beautiful and powerful of the
angels. Not content with his position, he desired to be higher than God, and
that was his downfall, the beginning of sin (Isaiah 14:12-15). Renamed
Satan, he brought sin to the hum... 阅读全帖
n********n
发帖数: 8336
50
来自主题: TrustInJesus版 - 亚米纽斯神学
对imputed sin的定义有争议,见下一种观点
----------------------
Question: "What is the definition of sin?"
Answer: Sin is described in the Bible as transgression of the law of God (1
John 3:4) and rebellion against God (Deuteronomy 9:7; Joshua 1:18). Sin had
its beginning with Lucifer, probably the most beautiful and powerful of the
angels. Not content with his position, he desired to be higher than God, and
that was his downfall, the beginning of sin (Isaiah 14:12-15). Renamed
Satan, he brought sin to the hum... 阅读全帖
1 2 3 4 5 6 7 8 9 下页 末页 (共9页)