l****p 发帖数: 27354 | 1 从一个正态分布里面每次随机取200个数字,均分为2组,每组 100个数字。两组做t
test, 看 p value。
这样连续取10000次,得到1万个p values.
请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个? |
d********m 发帖数: 3662 | 2 随机取200再随机分两组和随机取两次100有啥区别? |
d********m 发帖数: 3662 | 3 当然是指sample with no replacement
【在 d********m 的大作中提到】 : 随机取200再随机分两组和随机取两次100有啥区别?
|
l****p 发帖数: 27354 | 4 一样,貌似我感觉这样叙述更易懂。或许我这是错觉。请大拿指点迷津。
【在 d********m 的大作中提到】 : 随机取200再随机分两组和随机取两次100有啥区别?
|
d****o 发帖数: 32610 | 5 Multiple comparison需要correction是常识吧
【在 l****p 的大作中提到】 : 从一个正态分布里面每次随机取200个数字,均分为2组,每组 100个数字。两组做t : test, 看 p value。 : 这样连续取10000次,得到1万个p values. : 请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?
|
l****p 发帖数: 27354 | 6 是啊,其实这个分布里面有无穷多的数,而不是一个有限总体,是不是有replacement
没有实质影响。但概念上说,应该是replace回去的。
【在 d********m 的大作中提到】 : 当然是指sample with no replacement
|
d********m 发帖数: 3662 | 7 取200分两组不会有重复,重复取两次100有可能会有重复
唯一可能的差别
【在 l****p 的大作中提到】 : 一样,貌似我感觉这样叙述更易懂。或许我这是错觉。请大拿指点迷津。
|
d********m 发帖数: 3662 | |
|
l****p 发帖数: 27354 | 9 是。需要眼下流行的FDR进行correction。但我这次讲课,需要讲清correction之前的
这个试验,是个什么情况。你是IT大牛,能出主意也欢迎。
【在 d****o 的大作中提到】 : Multiple comparison需要correction是常识吧
|
g******t 发帖数: 11249 | 10 with or without replacement
【在 l****p 的大作中提到】 : 从一个正态分布里面每次随机取200个数字,均分为2组,每组 100个数字。两组做t : test, 看 p value。 : 这样连续取10000次,得到1万个p values. : 请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?
|
|
|
l****p 发帖数: 27354 | 11 好吧,但我感觉,这个结果,很可能导致对一片文章的一个说法的纠正。所以,我估计
你得至少3个情况,甚至更多。因为p value的分布类型虽然可能和sample size无关,
但小于0.05的 p values 的百分比肯定和sample size 有关。sample size越大,这个
百分比越小。
为了简便,我建议您假定分布是 N (0,1),除非您有更好的idea. 先谢谢!
【在 d********m 的大作中提到】 : 我蹲完坑回去去跑个simulation
|
d********m 发帖数: 3662 | 12 vec <- c()
for(i in 1:10000){
a <- t.test(matrix(sample(rnorm(10000), 200, rep = FALSE), 100, 2))
vec[i] <- a$p.value
}
有没有异议?
【在 l****p 的大作中提到】 : 好吧,但我感觉,这个结果,很可能导致对一片文章的一个说法的纠正。所以,我估计 : 你得至少3个情况,甚至更多。因为p value的分布类型虽然可能和sample size无关, : 但小于0.05的 p values 的百分比肯定和sample size 有关。sample size越大,这个 : 百分比越小。 : 为了简便,我建议您假定分布是 N (0,1),除非您有更好的idea. 先谢谢!
|
l****p 发帖数: 27354 | 13 gut feeling是没有区别,分布是理论分布,无限多个个体形成的总体。with
replacement更自然合理。
【在 g******t 的大作中提到】 : with or without replacement
|
l****p 发帖数: 27354 | 14 哈哈,我不会编程,看不懂。要我做的话,顶多是VB Macro.
【在 d********m 的大作中提到】 : vec <- c() : for(i in 1:10000){ : : a <- t.test(matrix(sample(rnorm(10000), 200, rep = FALSE), 100, 2)) : vec[i] <- a$p.value : } : 有没有异议?
|
d********m 发帖数: 3662 | 15 sum(vec < .05)
467个p-value小于.05
【在 l****p 的大作中提到】 : 哈哈,我不会编程,看不懂。要我做的话,顶多是VB Macro.
|
d********m 发帖数: 3662 | 16 感觉分布应该是U[0,1],懒得做任何test statistics。
有什么问题大牛指教了 |
l****p 发帖数: 27354 | 17 真快啊。谢谢!能把sample size 换成500试试吗?我想不明白,为啥p values不会因
为sample size 增大而总体增大。
【在 d********m 的大作中提到】 : 感觉分布应该是U[0,1],懒得做任何test statistics。 : 有什么问题大牛指教了
|
d********m 发帖数: 3662 | 18 请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value?
【在 l****p 的大作中提到】 : 真快啊。谢谢!能把sample size 换成500试试吗?我想不明白,为啥p values不会因 : 为sample size 增大而总体增大。
|
g******t 发帖数: 11249 | 19 IID?
【在 d********m 的大作中提到】 : 请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value?
|
l****p 发帖数: 27354 | 20 等于是每次抽1000个数,500个一组,两组做 t test.
【在 d********m 的大作中提到】 : 请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value?
|
|
|
v*******e 发帖数: 11604 | 21 "这样连续取10000次,得到1万个p values.
请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?"
Do you understand what is "p-value"?
P-value, by definition, in your experiment, is the probability that the
first group's mean minus that from the second is as you observed.
so *by definition*, it's distribution is uniform, 小于0.05的p values 有(
expected, not actual)
1万*0.05=500个. |
l****p 发帖数: 27354 | 22 对
【在 g******t 的大作中提到】 : IID?
|
d********m 发帖数: 3662 | 23 结论和上面一样
【在 l****p 的大作中提到】 : 等于是每次抽1000个数,500个一组,两组做 t test.
|
l****p 发帖数: 27354 | 24 你的定义不严谨,但你懒得打字太多。我了解。只是不了解为啥 p value 的分布一定
是uniform.
我题目改改,你看看是不是p values 呈 uniform 分布?
从两个分布中,每次各取100个数,做t-test 。第一个分布是 U(1,2),第二个分布是
U(4,5)。
这样的p values, 得到1万个,每个都是 0.
compares
actual)
【在 v*******e 的大作中提到】 : "这样连续取10000次,得到1万个p values. : 请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?" : Do you understand what is "p-value"? : P-value, by definition, in your experiment, is the probability that the : first group's mean minus that from the second is as you observed. : so *by definition*, it's distribution is uniform, 小于0.05的p values 有( : expected, not actual) : 1万*0.05=500个.
|
l****p 发帖数: 27354 | 25 好吧,太感谢了。我好好想想,需要想通。
【在 d********m 的大作中提到】 : 结论和上面一样
|
d********m 发帖数: 3662 | 26 你要看sample with replacement和我说一下就行。
但是光看图可能就不能区分两者了,也许得做下之类的Klolmogorov test
【在 l****p 的大作中提到】 : 好吧,太感谢了。我好好想想,需要想通。
|
l****p 发帖数: 27354 | 27 换句话说,如果一个干预措施没有效果,就是干预前和干预后分布不变,则你无论把样
本增加到多大,都无法减少假阳性的概率?想不通啊。
难道如果是有限总体,结果会不同?那样的话,如果总体N=10000, 我每次取9995,应
该无论如何很难得到小p value的。
【在 d********m 的大作中提到】 : 你要看sample with replacement和我说一下就行。 : 但是光看图可能就不能区分两者了,也许得做下之类的Klolmogorov test
|
v*******e 发帖数: 11604 | 28
是
if your p values, 得到1万个,每个都是 0, you test is wrong, you can not use
t-test to test difference of two means from U(1,2) and from U(4,5). Note
that your p-value MUST be uniform because it is the DEFINITION of p-value
UNDER NULL HYPOTHESIS.
【在 l****p 的大作中提到】 : 你的定义不严谨,但你懒得打字太多。我了解。只是不了解为啥 p value 的分布一定 : 是uniform. : 我题目改改,你看看是不是p values 呈 uniform 分布? : 从两个分布中,每次各取100个数,做t-test 。第一个分布是 U(1,2),第二个分布是 : U(4,5)。 : 这样的p values, 得到1万个,每个都是 0. : : compares : actual)
|
j****i 发帖数: 68152 | 29 当然是平均分布。多个01分布叠加,是多项式分布。多项式分布的极限,是正态分布。
你这种取法,不管初始是什么分布,最后都是平均分布 |
l****p 发帖数: 27354 | 30 不明觉历,请大拿给我一个链接吧。
use
【在 v*******e 的大作中提到】 : : 是 : if your p values, 得到1万个,每个都是 0, you test is wrong, you can not use : t-test to test difference of two means from U(1,2) and from U(4,5). Note : that your p-value MUST be uniform because it is the DEFINITION of p-value : UNDER NULL HYPOTHESIS.
|
|
|
v*******e 发帖数: 11604 | 31
search the following terms:
why p value is uniform
you get millions of hits. read the first bunch of them.
【在 l****p 的大作中提到】 : 不明觉历,请大拿给我一个链接吧。 : : use
|
l****p 发帖数: 27354 | 32 谢谢!
【在 v*******e 的大作中提到】 : : search the following terms: : why p value is uniform : you get millions of hits. read the first bunch of them.
|
d********m 发帖数: 3662 | 33 赞。
【在 v*******e 的大作中提到】 : : search the following terms: : why p value is uniform : you get millions of hits. read the first bunch of them.
|
d********m 发帖数: 3662 | 34 我又仔细想了想。p value就是1 - cdf,连续cdf是uniform的,1 - cdf必然是uniform
,所以和sample size一点关系都没有。 |
p******x 发帖数: 441 | 35 大哥你从任意一个分布里面随机抽2k个数字,均分成2组,每组k个。
1. two group t-test的时候的t statistic is asymptotic standard normal as k
goes larger.
2. 算pvalue的时候默认用one sided,就是pvalue=P(standard normal>t)=1-Phi(t),
where Phi() this the cumulative distribution function(CDF) of standard
normal.
3. 用定理:let X be a random variable with monotonic CDF F(), then F(X)
follows U[0,1]. 所以Phi(t) and 1- Phi(t) are both U[0,1]. |
l****p 发帖数: 27354 | 36 好吧,到了理论高度了。谢谢!
【在 p******x 的大作中提到】 : 大哥你从任意一个分布里面随机抽2k个数字,均分成2组,每组k个。 : 1. two group t-test的时候的t statistic is asymptotic standard normal as k : goes larger. : 2. 算pvalue的时候默认用one sided,就是pvalue=P(standard normal>t)=1-Phi(t), : where Phi() this the cumulative distribution function(CDF) of standard : normal. : 3. 用定理:let X be a random variable with monotonic CDF F(), then F(X) : follows U[0,1]. 所以Phi(t) and 1- Phi(t) are both U[0,1].
|
l****p 发帖数: 27354 | 37 厉害,升华了,理论化了。
uniform
【在 d********m 的大作中提到】 : 我又仔细想了想。p value就是1 - cdf,连续cdf是uniform的,1 - cdf必然是uniform : ,所以和sample size一点关系都没有。
|
k**********4 发帖数: 16092 | 38 p value默认用2 sided
【在 p******x 的大作中提到】 : 大哥你从任意一个分布里面随机抽2k个数字,均分成2组,每组k个。 : 1. two group t-test的时候的t statistic is asymptotic standard normal as k : goes larger. : 2. 算pvalue的时候默认用one sided,就是pvalue=P(standard normal>t)=1-Phi(t), : where Phi() this the cumulative distribution function(CDF) of standard : normal. : 3. 用定理:let X be a random variable with monotonic CDF F(), then F(X) : follows U[0,1]. 所以Phi(t) and 1- Phi(t) are both U[0,1].
|
l****p 发帖数: 27354 | 39 改改条件,如果每次抽样都来自一个不同的分布,分布间互相独立。其他条件不变的话
, <0.05的 p values 比例也是5%吗?
【在 k**********4 的大作中提到】 : p value默认用2 sided
|
v*******e 发帖数: 11604 | 40
如果是under null hypothesis,就是5%。否则就是test错了。
【在 l****p 的大作中提到】 : 改改条件,如果每次抽样都来自一个不同的分布,分布间互相独立。其他条件不变的话 : , <0.05的 p values 比例也是5%吗?
|
|
|
l****p 发帖数: 27354 | 41 谢谢,很有帮助。
【在 v*******e 的大作中提到】 : : 如果是under null hypothesis,就是5%。否则就是test错了。
|