boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 从一个正态分布里面每次随机取200个数字
相关主题
我操,小86的那个题,你们能不能不要胡证啊?
《建党伟业》在IMDB上评分分布很有趣
诺奖我最佩服的还是物理学奖
人人平等否定了自然界正态分布的存在,只有uniform distribution
是开始马上就抢, 还是中间
美国中小学生穿校服吗?
菌斑可不可以发个id集合贴
删我贴的那个版主请你站出来
小86你的问题想出来了吗?
武汉“最飙列车”时速300公里 4小时到广州
相关话题的讨论汇总
话题: 分布话题: value话题: values话题: test话题: uniform
进入Military版参与讨论
1 (共1页)
l****p
发帖数: 27354
1
从一个正态分布里面每次随机取200个数字,均分为2组,每组 100个数字。两组做t
test, 看 p value。
这样连续取10000次,得到1万个p values.
请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?
d********m
发帖数: 3662
2
随机取200再随机分两组和随机取两次100有啥区别?
d********m
发帖数: 3662
3
当然是指sample with no replacement

【在 d********m 的大作中提到】
: 随机取200再随机分两组和随机取两次100有啥区别?
l****p
发帖数: 27354
4
一样,貌似我感觉这样叙述更易懂。或许我这是错觉。请大拿指点迷津。

【在 d********m 的大作中提到】
: 随机取200再随机分两组和随机取两次100有啥区别?
d****o
发帖数: 32610
5
Multiple comparison需要correction是常识吧

【在 l****p 的大作中提到】
: 从一个正态分布里面每次随机取200个数字,均分为2组,每组 100个数字。两组做t
: test, 看 p value。
: 这样连续取10000次,得到1万个p values.
: 请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?

l****p
发帖数: 27354
6
是啊,其实这个分布里面有无穷多的数,而不是一个有限总体,是不是有replacement
没有实质影响。但概念上说,应该是replace回去的。

【在 d********m 的大作中提到】
: 当然是指sample with no replacement
d********m
发帖数: 3662
7
取200分两组不会有重复,重复取两次100有可能会有重复
唯一可能的差别

【在 l****p 的大作中提到】
: 一样,貌似我感觉这样叙述更易懂。或许我这是错觉。请大拿指点迷津。
d********m
发帖数: 3662
8
我蹲完坑回去去跑个simulation
l****p
发帖数: 27354
9
是。需要眼下流行的FDR进行correction。但我这次讲课,需要讲清correction之前的
这个试验,是个什么情况。你是IT大牛,能出主意也欢迎。

【在 d****o 的大作中提到】
: Multiple comparison需要correction是常识吧
g******t
发帖数: 11249
10
with or without replacement

【在 l****p 的大作中提到】
: 从一个正态分布里面每次随机取200个数字,均分为2组,每组 100个数字。两组做t
: test, 看 p value。
: 这样连续取10000次,得到1万个p values.
: 请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?

相关主题
人人平等否定了自然界正态分布的存在,只有uniform distribution
是开始马上就抢, 还是中间
美国中小学生穿校服吗?
菌斑可不可以发个id集合贴
进入Military版参与讨论
l****p
发帖数: 27354
11
好吧,但我感觉,这个结果,很可能导致对一片文章的一个说法的纠正。所以,我估计
你得至少3个情况,甚至更多。因为p value的分布类型虽然可能和sample size无关,
但小于0.05的 p values 的百分比肯定和sample size 有关。sample size越大,这个
百分比越小。
为了简便,我建议您假定分布是 N (0,1),除非您有更好的idea. 先谢谢!

【在 d********m 的大作中提到】
: 我蹲完坑回去去跑个simulation
d********m
发帖数: 3662
12
vec <- c()
for(i in 1:10000){

a <- t.test(matrix(sample(rnorm(10000), 200, rep = FALSE), 100, 2))
vec[i] <- a$p.value
}
有没有异议?

【在 l****p 的大作中提到】
: 好吧,但我感觉,这个结果,很可能导致对一片文章的一个说法的纠正。所以,我估计
: 你得至少3个情况,甚至更多。因为p value的分布类型虽然可能和sample size无关,
: 但小于0.05的 p values 的百分比肯定和sample size 有关。sample size越大,这个
: 百分比越小。
: 为了简便,我建议您假定分布是 N (0,1),除非您有更好的idea. 先谢谢!

l****p
发帖数: 27354
13
gut feeling是没有区别,分布是理论分布,无限多个个体形成的总体。with
replacement更自然合理。

【在 g******t 的大作中提到】
: with or without replacement
l****p
发帖数: 27354
14
哈哈,我不会编程,看不懂。要我做的话,顶多是VB Macro.

【在 d********m 的大作中提到】
: vec <- c()
: for(i in 1:10000){
:
: a <- t.test(matrix(sample(rnorm(10000), 200, rep = FALSE), 100, 2))
: vec[i] <- a$p.value
: }
: 有没有异议?

d********m
发帖数: 3662
15
sum(vec < .05)
467个p-value小于.05

【在 l****p 的大作中提到】
: 哈哈,我不会编程,看不懂。要我做的话,顶多是VB Macro.
d********m
发帖数: 3662
16
感觉分布应该是U[0,1],懒得做任何test statistics。
有什么问题大牛指教了
l****p
发帖数: 27354
17
真快啊。谢谢!能把sample size 换成500试试吗?我想不明白,为啥p values不会因
为sample size 增大而总体增大。

【在 d********m 的大作中提到】
: 感觉分布应该是U[0,1],懒得做任何test statistics。
: 有什么问题大牛指教了

d********m
发帖数: 3662
18
请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value?

【在 l****p 的大作中提到】
: 真快啊。谢谢!能把sample size 换成500试试吗?我想不明白,为啥p values不会因
: 为sample size 增大而总体增大。

g******t
发帖数: 11249
19
IID?

【在 d********m 的大作中提到】
: 请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value?
l****p
发帖数: 27354
20
等于是每次抽1000个数,500个一组,两组做 t test.

【在 d********m 的大作中提到】
: 请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value?
相关主题
删我贴的那个版主请你站出来
小86你的问题想出来了吗?
武汉“最飙列车”时速300公里 4小时到广州
奥地利实验研究发现 转基因玉米降低老鼠生育力
进入Military版参与讨论
v*******e
发帖数: 11604
21
"这样连续取10000次,得到1万个p values.
请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?"
Do you understand what is "p-value"?
P-value, by definition, in your experiment, is the probability that the
first group's mean minus that from the second is as you observed.
so *by definition*, it's distribution is uniform, 小于0.05的p values 有(
expected, not actual)
1万*0.05=500个.
l****p
发帖数: 27354
22


【在 g******t 的大作中提到】
: IID?
d********m
发帖数: 3662
23
结论和上面一样

【在 l****p 的大作中提到】
: 等于是每次抽1000个数,500个一组,两组做 t test.
l****p
发帖数: 27354
24
你的定义不严谨,但你懒得打字太多。我了解。只是不了解为啥 p value 的分布一定
是uniform.
我题目改改,你看看是不是p values 呈 uniform 分布?
从两个分布中,每次各取100个数,做t-test 。第一个分布是 U(1,2),第二个分布是
U(4,5)。
这样的p values, 得到1万个,每个都是 0.

compares
actual)

【在 v*******e 的大作中提到】
: "这样连续取10000次,得到1万个p values.
: 请问,这1万个 p value 是什么分布?小于0.05的p values 有多少个?"
: Do you understand what is "p-value"?
: P-value, by definition, in your experiment, is the probability that the
: first group's mean minus that from the second is as you observed.
: so *by definition*, it's distribution is uniform, 小于0.05的p values 有(
: expected, not actual)
: 1万*0.05=500个.

l****p
发帖数: 27354
25
好吧,太感谢了。我好好想想,需要想通。

【在 d********m 的大作中提到】
: 结论和上面一样
d********m
发帖数: 3662
26
你要看sample with replacement和我说一下就行。
但是光看图可能就不能区分两者了,也许得做下之类的Klolmogorov test

【在 l****p 的大作中提到】
: 好吧,太感谢了。我好好想想,需要想通。
l****p
发帖数: 27354
27
换句话说,如果一个干预措施没有效果,就是干预前和干预后分布不变,则你无论把样
本增加到多大,都无法减少假阳性的概率?想不通啊。
难道如果是有限总体,结果会不同?那样的话,如果总体N=10000, 我每次取9995,应
该无论如何很难得到小p value的。

【在 d********m 的大作中提到】
: 你要看sample with replacement和我说一下就行。
: 但是光看图可能就不能区分两者了,也许得做下之类的Klolmogorov test

v*******e
发帖数: 11604
28


if your p values, 得到1万个,每个都是 0, you test is wrong, you can not use
t-test to test difference of two means from U(1,2) and from U(4,5). Note
that your p-value MUST be uniform because it is the DEFINITION of p-value
UNDER NULL HYPOTHESIS.

【在 l****p 的大作中提到】
: 你的定义不严谨,但你懒得打字太多。我了解。只是不了解为啥 p value 的分布一定
: 是uniform.
: 我题目改改,你看看是不是p values 呈 uniform 分布?
: 从两个分布中,每次各取100个数,做t-test 。第一个分布是 U(1,2),第二个分布是
: U(4,5)。
: 这样的p values, 得到1万个,每个都是 0.
:
: compares
: actual)

j****i
发帖数: 68152
29
当然是平均分布。多个01分布叠加,是多项式分布。多项式分布的极限,是正态分布。
你这种取法,不管初始是什么分布,最后都是平均分布
l****p
发帖数: 27354
30
不明觉历,请大拿给我一个链接吧。

use

【在 v*******e 的大作中提到】
:
: 是
: if your p values, 得到1万个,每个都是 0, you test is wrong, you can not use
: t-test to test difference of two means from U(1,2) and from U(4,5). Note
: that your p-value MUST be uniform because it is the DEFINITION of p-value
: UNDER NULL HYPOTHESIS.

相关主题
美国女兵明年将打破禁令首次登上潜艇服役
我走以前计划在CUNY的CSSA做个资助计划
智子来了:美国费米实验室发现疑似新粒子
歼10B坠机飞行员殉职
进入Military版参与讨论
v*******e
发帖数: 11604
31

search the following terms:
why p value is uniform
you get millions of hits. read the first bunch of them.

【在 l****p 的大作中提到】
: 不明觉历,请大拿给我一个链接吧。
:
: use

l****p
发帖数: 27354
32
谢谢!

【在 v*******e 的大作中提到】
:
: search the following terms:
: why p value is uniform
: you get millions of hits. read the first bunch of them.

d********m
发帖数: 3662
33
赞。

【在 v*******e 的大作中提到】
:
: search the following terms:
: why p value is uniform
: you get millions of hits. read the first bunch of them.

d********m
发帖数: 3662
34
我又仔细想了想。p value就是1 - cdf,连续cdf是uniform的,1 - cdf必然是uniform
,所以和sample size一点关系都没有。
p******x
发帖数: 441
35
大哥你从任意一个分布里面随机抽2k个数字,均分成2组,每组k个。
1. two group t-test的时候的t statistic is asymptotic standard normal as k
goes larger.
2. 算pvalue的时候默认用one sided,就是pvalue=P(standard normal>t)=1-Phi(t),
where Phi() this the cumulative distribution function(CDF) of standard
normal.
3. 用定理:let X be a random variable with monotonic CDF F(), then F(X)
follows U[0,1]. 所以Phi(t) and 1- Phi(t) are both U[0,1].
l****p
发帖数: 27354
36
好吧,到了理论高度了。谢谢!

【在 p******x 的大作中提到】
: 大哥你从任意一个分布里面随机抽2k个数字,均分成2组,每组k个。
: 1. two group t-test的时候的t statistic is asymptotic standard normal as k
: goes larger.
: 2. 算pvalue的时候默认用one sided,就是pvalue=P(standard normal>t)=1-Phi(t),
: where Phi() this the cumulative distribution function(CDF) of standard
: normal.
: 3. 用定理:let X be a random variable with monotonic CDF F(), then F(X)
: follows U[0,1]. 所以Phi(t) and 1- Phi(t) are both U[0,1].

l****p
发帖数: 27354
37
厉害,升华了,理论化了。

uniform

【在 d********m 的大作中提到】
: 我又仔细想了想。p value就是1 - cdf,连续cdf是uniform的,1 - cdf必然是uniform
: ,所以和sample size一点关系都没有。

k**********4
发帖数: 16092
38
p value默认用2 sided

【在 p******x 的大作中提到】
: 大哥你从任意一个分布里面随机抽2k个数字,均分成2组,每组k个。
: 1. two group t-test的时候的t statistic is asymptotic standard normal as k
: goes larger.
: 2. 算pvalue的时候默认用one sided,就是pvalue=P(standard normal>t)=1-Phi(t),
: where Phi() this the cumulative distribution function(CDF) of standard
: normal.
: 3. 用定理:let X be a random variable with monotonic CDF F(), then F(X)
: follows U[0,1]. 所以Phi(t) and 1- Phi(t) are both U[0,1].

l****p
发帖数: 27354
39
改改条件,如果每次抽样都来自一个不同的分布,分布间互相独立。其他条件不变的话
, <0.05的 p values 比例也是5%吗?

【在 k**********4 的大作中提到】
: p value默认用2 sided
v*******e
发帖数: 11604
40

如果是under null hypothesis,就是5%。否则就是test错了。

【在 l****p 的大作中提到】
: 改改条件,如果每次抽样都来自一个不同的分布,分布间互相独立。其他条件不变的话
: , <0.05的 p values 比例也是5%吗?

相关主题
云南白药和H1N1特效制剂都有熊胆成分
中国科技大学迁河南流产的真实原因(转)
这两组照片很有意思
李云迪同天公开25岁女友照 疑“叫板”王力宏
进入Military版参与讨论
l****p
发帖数: 27354
41
谢谢,很有帮助。

【在 v*******e 的大作中提到】
:
: 如果是under null hypothesis,就是5%。否则就是test错了。

1 (共1页)
进入Military版参与讨论
相关主题
武汉“最飙列车”时速300公里 4小时到广州
奥地利实验研究发现 转基因玉米降低老鼠生育力
美国女兵明年将打破禁令首次登上潜艇服役
我走以前计划在CUNY的CSSA做个资助计划
智子来了:美国费米实验室发现疑似新粒子
歼10B坠机飞行员殉职
云南白药和H1N1特效制剂都有熊胆成分
中国科技大学迁河南流产的真实原因(转)
这两组照片很有意思
李云迪同天公开25岁女友照 疑“叫板”王力宏
相关话题的讨论汇总
话题: 分布话题: value话题: values话题: test话题: uniform