由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 原来还有too much statistical power这么一说 (转载)
相关主题
A question about significance test for normal distribution菜鸟来问个t test问题。
[合集] what's the going on rate for consulting on StatisticalTime series data
[合集] 关于proc reg 一问, 急~~~~~~~在工业界,a/b testing vs multivariate testing分析有什么不一样呢?
请问个odds ratio 和 CI的问题Can I claim significance based on one-sided p-value?
probit 为什么给出的时 z statistic?统计专业问题请教,谢谢大家
anybody use minitab?关于categorical变量的 significance一个小问题
one math/statistics problem问个SAS 基本问题,请大家帮忙。
问个test的问题?[合集] 我是CS的,问一个很弱的关于comparison的东西
相关话题的讨论汇总
话题: power话题: 数据话题: comparison话题: much
进入Statistics版参与讨论
1 (共1页)
t*****w
发帖数: 254
1
【 以下文字转载自 Biology 讨论区 】
发信人: KeeVan (Kevin), 信区: Biology
标 题: 原来还有too much statistical power这么一说
发信站: BBS 未名空间站 (Fri May 24 20:42:58 2013, 美东)
以前苦逼做生物实验,都是苦恼为啥不significantly different,算statistical
power的时候都是感叹,靠,还要多做那么多个实验才能出结果。
最近被逼研究啥big data,泥马随机搞点儿数据就significantly different,从公式
角度倒是很好理解,但是还是觉得奇怪,搜索了一下,原来也是有人苦恼数据太多的。
真是天上地下啊。
t*****w
发帖数: 254
2
从我实际数据分析来看, too much statistical power来自, 1,数据没有经过data
cleaning. 主要发现的是outlier effect. 没有什么生物医学和药物意义。2, data
inappropriate normalization. some normalization method just put a cap on the
large observed values. This basically reduces the variance drastically,
which leads to large t scores.3,multiple comparison 也是一个重要原因。现在
的生物试验样品其实不多,只有十几个,或上百个, 但是每个样品的变量是30
thousand to 20 million variables.There would be some small p values over 1
million comparison even if the multiple comparison adjustment is applied.

【在 t*****w 的大作中提到】
: 【 以下文字转载自 Biology 讨论区 】
: 发信人: KeeVan (Kevin), 信区: Biology
: 标 题: 原来还有too much statistical power这么一说
: 发信站: BBS 未名空间站 (Fri May 24 20:42:58 2013, 美东)
: 以前苦逼做生物实验,都是苦恼为啥不significantly different,算statistical
: power的时候都是感叹,靠,还要多做那么多个实验才能出结果。
: 最近被逼研究啥big data,泥马随机搞点儿数据就significantly different,从公式
: 角度倒是很好理解,但是还是觉得奇怪,搜索了一下,原来也是有人苦恼数据太多的。
: 真是天上地下啊。

s***h
发帖数: 357
3
是原帖中的原因,数据太多,difference即使magnitude很小也会statistically
significant。但因为difference magnitude 太小,这个difference not
scientifically meaningful。
outlier和non-normal大部分时候只是锦上添花,不起决定性作用
t*****w
发帖数: 254
4
数据太多是事实。 但请你详细说说“数据太多”是指sample size N太大了呢,还是太
多的comparison test for small samples? 如能举例说明那就更好了。若sample size
N是上百万的, 当然outlier就不重要了。

【在 s***h 的大作中提到】
: 是原帖中的原因,数据太多,difference即使magnitude很小也会statistically
: significant。但因为difference magnitude 太小,这个difference not
: scientifically meaningful。
: outlier和non-normal大部分时候只是锦上添花,不起决定性作用

s***h
发帖数: 357
5
我是指sample size N太大。80%,90%是比较正常的power。有时候sample
size有power之外的考虑,end up with e.g. 99%power,called over power,这时候
就很容易significant。你说的第三点multiplicity也很重要,不过一般不会归到power
范畴

【在 t*****w 的大作中提到】
: 数据太多是事实。 但请你详细说说“数据太多”是指sample size N太大了呢,还是太
: 多的comparison test for small samples? 如能举例说明那就更好了。若sample size
: N是上百万的, 当然outlier就不重要了。

A*******s
发帖数: 3942
6
俺记得上统计推断的第一节课老师就说了
statistical significance ^= practical significance
不过有时候老板就是不想见到significance...
那就只能扔多点covariates进model咯
希望能conditioned out那个讨人嫌的variable
没办法,搞统计的就是这么苦逼...

【在 t*****w 的大作中提到】
: 数据太多是事实。 但请你详细说说“数据太多”是指sample size N太大了呢,还是太
: 多的comparison test for small samples? 如能举例说明那就更好了。若sample size
: N是上百万的, 当然outlier就不重要了。

1 (共1页)
进入Statistics版参与讨论
相关主题
[合集] 我是CS的,问一个很弱的关于comparison的东西probit 为什么给出的时 z statistic?
求答案, 多谢!anybody use minitab?
问两个一直含糊不清的marketing analysis 的问题one math/statistics problem
[合集] 问大牛们一个弱智统计问题问个test的问题?
A question about significance test for normal distribution菜鸟来问个t test问题。
[合集] what's the going on rate for consulting on StatisticalTime series data
[合集] 关于proc reg 一问, 急~~~~~~~在工业界,a/b testing vs multivariate testing分析有什么不一样呢?
请问个odds ratio 和 CI的问题Can I claim significance based on one-sided p-value?
相关话题的讨论汇总
话题: power话题: 数据话题: comparison话题: much