由买买提看人间百态

topics

全部话题 - 话题: unbalanced
首页 上页 1 2 3 4 5 6 7 8 9 下页 末页 (共9页)
h*******e
发帖数: 226
1
来自主题: Statistics版 - 请教一些基本统计分析的问题
有6组数据做比较,每组的sample size 不是相同的(ie,unbalanced)
想要比较他们的mean是不是不同,做anova 和posthoc
做anova要满足,normal distribution and homogeneity of variance
我要先测试这两个条件满不满足。
我的问题是
1) test normality的时候是对全部六组的数据一起做,还是单独的每一组数据来分别
test
2)homogeneity of variance 是比较这六组的各自的variance是不是相等么?
3)如果我一套数据里针对某一些变量是normal distributed and equal variance ,
但另一些不是,那么我在处理这一套数据的里面是不是要根据满不满足条件而选择
parametric或者nonparametric的方法进行处理?这样做对于一整套数据来说会不会有
问题呢?
f********n
发帖数: 161
2
来自主题: Statistics版 - 请教一个ANOVA的问题
请教一个ANOVA的问题:
正做一个three-way mixed-design ANOVA的数据分析,发现常规的ANOVA不适用,因为
Sample
size is extremely unbalanced,而且homogeneity of variance and covariance都不
成立。各
位大侠,有何建议?先谢过了。
D******n
发帖数: 2836
3
来自主题: Statistics版 - how do you deal with sparse data?
it is called skewed, unbalanced or imbalanced data. i guess

75
correct
that'
P******e
发帖数: 75
4
非常感谢你的建议。由于有三因素,作three-way的话,每个格子的数据点很少。作
interation好像太单薄了。可以只作 proc GLM, Model y1 y2=time region term可以
么?
sorry, 刚才不小心删了,重新发了。
D******n
发帖数: 2836
5
run一下不就行了嘛。
P******e
发帖数: 75
6
谢谢,我RUN了。
我直接用
PROC GLM
Model Y1 Y2 = time region term
不考虑interation没问题吧?
l*********s
发帖数: 5409
7
用文献的原始数据,有replicates可以测试interaction,
l*********s
发帖数: 5409
8
用文献的原始数据,有replicates可以测试interaction,
P******e
发帖数: 75
9
没有文献的具体原始数据,我们的数据是提取每篇文献的平均值,综合起来。按照三个
因素分组,每个因素有不同的level。每个因素大概有100个数据点。每个数据点是一篇
文章里的列出的平均数。
请大家看看上面列出的表格。每个格子有不平衡的数据点,有些还是missing data
points.
可以用 SAS的 proc GLM 吗?
W**********E
发帖数: 242
10
你得考虑到不同研究的VARIABILITY,所以你得放一个随机变量。你这个应该算是一种
META ANALYSIS,查查关于重复测量META 分析的文献。
P******e
发帖数: 75
11
考虑过meta-analysis了。但是我收集的数据都是observational,或者是实验的对照组
,不是试验组。换句话说,就是我们的数据不是random controlled experiment.
有别的办法么?
M*********t
发帖数: 250
12
我对meta analysis 不是很熟,但是没有说meta analysis 必须要用randomized
control
trial 把。。。很多correlational/observational studies照样用meta analysis阿,

觉要是总结literature,然后要得出一个overall effect size的结论用meta analysis
最好
P******e
发帖数: 75
13
用observational meta-analysis要筛选掉很多文献,似乎不能达到我们想要得目的。
我们想知道这三个因素对这些数据有没有significant 的影响。希望能test variance.
请问如果不能做proc GLM 的话,还有别的办法么?
A*******s
发帖数: 3942
14
来自主题: Statistics版 - 请教一个data fitting的问题
一般来说,Y值不能直接这么看吧,要是unbalanced design,Y值的分布必然是乱七八
糟的。

residual
i******n
发帖数: 839
15
来自主题: Statistics版 - 买了一套书,上来跟大伙念叨念叨
作者mixed linear model 开山鼻祖,是新西兰做动物育种的出身,本人也是此专业毕业,认个前辈也是正宗。
这两天看borders.com有个40%的coupon,终于下了决心,虽然有了其中两本的电子版。
到二手市场83 求了些卡,粗算大该半价吧。505刀折到260刀,还是硬皮的。
The Collected Works of Shayle R. Searle
Shayle R. Searle
Hardcover
SKU: 0470556064
About the book:
Description: This set features:Variance Components by Shayle R. Searle,
George Casella, Charles E. McCulloch (978-0-470-00959-8)Matrix Algebra for
Useful Statistics by Shayle R. Searle (978-0-470-00961-1)Linear Models for
Unbalanced Data by Shayle R. Sea
P****D
发帖数: 11146
16
很少真见谁这么干。
贱妾平时做的都是unbalanced,缺个observation啥的就直接忽略。
d*******o
发帖数: 493
17
Skewed interval outcome还可以做transformation. Unbalanced binary outcome好像
也没什么办法。我估计,楼主balance的后果是增加了positive outcome的权重。线性
模型估计影响很大,非线性模型影响还好。
我好奇楼主是怎么把”多次结果汇总的“。另外,楼主的AUC是validation时候的AUC吗?
g********r
发帖数: 8017
18
unbalanced就该改loss function了吧?就是false positive和false negative的惩罚
不一样。最后的结果就是像你做的specificity很高,sensitivity相对低。但看起来好
看点。

points
A*******s
发帖数: 3942
19
来自主题: Statistics版 - 海量SAS data的处理
funny...i am not 统计专才, just someone who happens to know stat 101.
leave alone interval estimates, which is highly affected by sample size.
just think about two cases for predictive modeling(point estimates only):
1. high dimensional data. decrease in sample size would increase the ratio P
/N drastically.
2. highly unbalanced data. a sub-sample may not have enough positive
observations.
o****o
发帖数: 8077
20
来自主题: Statistics版 - 统计作marketing方向的发展前途
you are very welcome
In case you are only interested in marginal effects, I think for balanced
panel data, GEE is good enough, trade very small loss in efficiency for
cheap computing
But if you have a highly unbalanced panel data, the gain in efficiency from
conditional model may justified.
p***r
发帖数: 920
21
as been suggested, this is just a one-way anova problem with unbalanced
sample size, the sample size at level a in x will decisively influence the
power of your test.

c
h***o
发帖数: 350
22
Since the design is unbalanced, will regression perform better than ANOVA?
w*****m
发帖数: 414
23
金融data:
id year v1 v2 v3 x1 x2 x3 x4
id1 2000 .. .. .. .. .. .. ..
id1 2001 .. .. .. .. .. .. ..
id1 2002
id2 2000
id2 2001
id3 2000
id3 2001
id3 2002
id3 2003
id3 2004
unbalanced data.
dependent variable is v; independent variable is x;
问题描述:
在2001, 公司管理部门采取一项措施,这个措施会持续几年,每个公司持续的时间不
一样。
由于这个措施,公司的结构会变化,用x1 x2 x3 来描述。
hypothesis: 公司采取措施的决定是由于v1 v2 v3的原因。如果2001年的v1 高于 2000
年的
v1, 那么在2001公司会采取措... 阅读全帖
j*******y
发帖数: 58
24
来自主题: Statistics版 - 请教Reapeated measure mixed model
are you sure? repeated 是specify一个covariance matrix,跟response是不是一样
没有关系吧?我觉得可能是因为这个data是unbalanced,每个id观察值个数不一样,所
以sas连这个covariance matrix的维数都确定不了。
A*******s
发帖数: 3942
25
来自主题: Statistics版 - 梦想公司onsite,壮烈牺牲.发面经
说说问题3。我不太懂fraud detection,但是这种binary classcification的问题,在
实践里普遍更关注的是rank ordering。所以ROC,AUC的概念是一定一定要提到的。
尤其是fraud这种rare event/highly unbalanced data,基于misclassification rate
来直接优化问题会很大,likelihood好像也不会很好,oversampling的手段虽然会有改
善,但是也有限。现在有不少研究是把AUC当优化目标的,据说效果要好不少。但是难
度很大,因为loss function不是连续的。
A*******s
发帖数: 3942
26
来自主题: Statistics版 - 弱问个categorical variable有关的问题
not necessary. if the sample size at some level is too small, which is not
unusual for unbalanced design even m is not large.
l******g
发帖数: 29
27
假如要用proc logisitc 分析3个group的不同,问题是3个group size差别很大。问
proc logistic 分析有问题吗?
l***a
发帖数: 12410
28
为啥不用glm
w*******e
发帖数: 182
29
observation是相同的,不会有unbalanced的问题
ANOVA能看出点不同effect的差别,不过问题是
我本来是打算用各个effect的值除以control的值,做个ratio value,然后做
regression的,现在有的ratio要大于1了,怎么办呢?
多谢,回复的都会发包子
i**z
发帖数: 194
30
来自主题: Statistics版 - 在glm中,如果lsmeans和means结果冲突
unbalanced design or missing data will make a difference in the two
procedures.
k*z
发帖数: 4704
31
举个例子。买彩票的行为规律分析。
有的人一直是一个星期10块钱,有的人是2两个星期20块钱,等等,开始的时间不定,
中间的间隔的时间也不定。有的人可能买买就不买了。中间呢,有人中了,有人没有中
,中的金额也不定。如果中奖算是Intervention的话。中了以后的购买行为有可能接着
一样的买,有可能不买了。还有可能买的跟多,更频繁了。
这种数据一般都怎么建模分析?
k*z
发帖数: 4704
32
来自主题: Statistics版 - 求助一个时间序列和干扰的问题
如果数据是unbalanced, 就是如果 T1-T10,不是每个个体在所有时间都有观测值,他们
的干扰事
件,也是随机的不一定相同。这个有办法解决么?谢谢。
举个例子,彩票
一个人买彩票的消费每周都可能有,可能有的时候那周也没有,这个金额和很多都有关
系了,例如收入,期望,等等,现在他有可能买了中奖,但是这个中间有可能连续几次
中,有可能一
次都不中,或者中了两次都很远,首先时间数据就不是balanced,其次intervention是
随机的,
如果要苹果他下次购买彩票的behavior change或者消费额,有什么好办法么?
我们应该怎么设计这个实验?
谢谢
w******8
发帖数: 59
33
来自主题: Statistics版 - What kind of study is this?
Features of the study:
1. Longitudinal measure of a biomark at different time points (unbalanced
design) starting from a surgery completion
2. Observations of bleeding events were made after the surgery
3. Based on the observations from 2, divide patients into two groups (
bleeding and non-bleeding)
4. Characterize the biomark trend over time for the two groups.
Since these two groups were decided after the surgery, this is different
from a study design where the group membership is decided befo... 阅读全帖
m*****x
发帖数: 10
34
来自主题: Statistics版 - Repeated Measures ANOVA求教
unbalanced模型的repeated measures ANOVA
除了SPSS和SAS,还有哪家可以实现?
R可以吗?有没有公开的算法可以找到?
c**d
发帖数: 104
35
Don't know why you called that unbalanced. It is your event rate and ~10% is
normal.
Do you want to re-sampling and afraid of your event rate too low in your
sample data?
x**********0
发帖数: 163
36
其实我也是这样想的,bagging多用于decision tree这样unstable的classifier,
那如果logistic regression有很严重的unbalanced data的话,都是怎么处理呢?
undersample,oversample?
s*********e
发帖数: 1051
37
first of all, do not misuse the term "unbalanced".
secondly, if the event rate is too low, then the logistic regression won't
work anyway regardless of bagging or not. but in your case, 1/8 is not bad
at all.
thirdly, in case of extremely rare event, you should consider non-parametric
models such as tree-based / rule-based / nnet either directly or indirectly
with a 2-stage approach.
x**********0
发帖数: 163
38
我大约也明白1:8也还算好,就是想说,如果真的有严重的unbalanced data,
bagging能否用于logistic regression, 我基本明白你们的意思,
就是说average 10000 bad prediction,得出的结果还是bad的
是吧,谢谢啦
c**d
发帖数: 104
39
Don't know why you called that unbalanced. It is your event rate and ~10% is
normal.
Do you want to re-sampling and afraid of your event rate too low in your
sample data?
x**********0
发帖数: 163
40
其实我也是这样想的,bagging多用于decision tree这样unstable的classifier,
那如果logistic regression有很严重的unbalanced data的话,都是怎么处理呢?
undersample,oversample?
s*********e
发帖数: 1051
41
first of all, do not misuse the term "unbalanced".
secondly, if the event rate is too low, then the logistic regression won't
work anyway regardless of bagging or not. but in your case, 1/8 is not bad
at all.
thirdly, in case of extremely rare event, you should consider non-parametric
models such as tree-based / rule-based / nnet either directly or indirectly
with a 2-stage approach.
x**********0
发帖数: 163
42
我大约也明白1:8也还算好,就是想说,如果真的有严重的unbalanced data,
bagging能否用于logistic regression, 我基本明白你们的意思,
就是说average 10000 bad prediction,得出的结果还是bad的
是吧,谢谢啦
A****1
发帖数: 33
43
来自主题: Statistics版 - 怎么解决这个sas macro的问题?
change the into operator to:
into :mentor_2 separated by '", "'
Be careful with IN operator: if var1 in ("A","B","C");

),
unbalanced
h***t
发帖数: 2540
44
来自主题: Statistics版 - rare events的modeling 问题
请问对于binary classification,如果positive observation很少,也就是整个数据非
常unbalanced, 有没有比较好的建模方法?
a********e
发帖数: 256
45
比如two factor experiment的话,没有missing cell, 只是少数cell里
面的reps比别的多,R用lm, SAS用proc mixed, 这种情况下R和SAS
的结果会差很多吗?
我的data 算出来,lsmeans是一样的,但是每个treatment level的t-value和p-value
不一样。
P*****r
发帖数: 554
46
差很多还搞个毛
我猜测R写的不是很完美?
a********e
发帖数: 256
47
我的data, lsmeans算出来一样,但是t-value 和p-value不一样。
P*****r
发帖数: 554
48
所以让你检查r code嘛
d******e
发帖数: 7844
49
我这是启发式发问... ...
我猜LZ的问题十有八九就是unbalanced的training问题,做一个weighted estimate应
该就OK了。
w******e
发帖数: 142
50
找任何一个好一点的大学的regression+data mining的课件好好学习一下就可以准备好
技术东西了。商业银行的无外乎就是各种regression(尤以logistic regression的东
西最重要)+classification(就是 tree啊那些的变种,SVM等).搞清楚了基本的原理
和实际应用(比如经常考的multi-collinearity,unbalanced response之类)应该技术
基础部分就差不多了。剩下的东西就看前人的面试贴来作为实战模拟。
金融的知识倒真心感觉考得不多,除非是去做投资和股票相关的。
首页 上页 1 2 3 4 5 6 7 8 9 下页 末页 (共9页)