从一个正态分布里面每次随机取200个数字 - Military版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Military版 - 从一个正态分布里面每次随机取200个数字

相关主题
● 我操，小86的那个题，你们能不能不要胡证啊？
● 《建党伟业》在IMDB上评分分布很有趣
● 诺奖我最佩服的还是物理学奖
● 人人平等否定了自然界正态分布的存在，只有uniform distribution
● 是开始马上就抢，还是中间
● 美国中小学生穿校服吗？
● 菌斑可不可以发个id集合贴
● 删我贴的那个版主请你站出来
● 小86你的问题想出来了吗？
● 武汉“最飙列车”时速300公里 4小时到广州

相关话题的讨论汇总
话题: 分布话题: value话题: values话题: test话题: uniform

进入Military版参与讨论

(共1页)

l****p
发帖数: 27354

从一个正态分布里面每次随机取200个数字，均分为2组，每组 100个数字。两组做t
test, 看 p value。
这样连续取10000次，得到1万个p values.
请问，这1万个 p value 是什么分布？小于0.05的p values 有多少个？

d********m
发帖数: 3662

随机取200再随机分两组和随机取两次100有啥区别？

d********m
发帖数: 3662

当然是指sample with no replacement

【在 d********m 的大作中提到】

: 随机取200再随机分两组和随机取两次100有啥区别？

l****p
发帖数: 27354

一样，貌似我感觉这样叙述更易懂。或许我这是错觉。请大拿指点迷津。

【在 d********m 的大作中提到】

: 随机取200再随机分两组和随机取两次100有啥区别？

d****o
发帖数: 32610

Multiple comparison需要correction是常识吧

【在 l****p 的大作中提到】

: 从一个正态分布里面每次随机取200个数字，均分为2组，每组 100个数字。两组做t
: test, 看 p value。
: 这样连续取10000次，得到1万个p values.
: 请问，这1万个 p value 是什么分布？小于0.05的p values 有多少个？

l****p
发帖数: 27354

是啊，其实这个分布里面有无穷多的数，而不是一个有限总体，是不是有replacement
没有实质影响。但概念上说，应该是replace回去的。

【在 d********m 的大作中提到】

: 当然是指sample with no replacement

d********m
发帖数: 3662

取200分两组不会有重复，重复取两次100有可能会有重复
唯一可能的差别

【在 l****p 的大作中提到】

: 一样，貌似我感觉这样叙述更易懂。或许我这是错觉。请大拿指点迷津。

d********m
发帖数: 3662

我蹲完坑回去去跑个simulation

l****p
发帖数: 27354

是。需要眼下流行的FDR进行correction。但我这次讲课，需要讲清correction之前的
这个试验，是个什么情况。你是IT大牛，能出主意也欢迎。

【在 d****o 的大作中提到】

: Multiple comparison需要correction是常识吧

g******t
发帖数: 11249

with or without replacement

【在 l****p 的大作中提到】

相关主题
● 人人平等否定了自然界正态分布的存在，只有uniform distribution
● 是开始马上就抢，还是中间
● 美国中小学生穿校服吗？
● 菌斑可不可以发个id集合贴
进入Military版参与讨论

l****p
发帖数: 27354

好吧，但我感觉，这个结果，很可能导致对一片文章的一个说法的纠正。所以，我估计
你得至少3个情况，甚至更多。因为p value的分布类型虽然可能和sample size无关，
但小于0.05的 p values 的百分比肯定和sample size 有关。sample size越大，这个
百分比越小。
为了简便，我建议您假定分布是 N (0,1),除非您有更好的idea. 先谢谢！

【在 d********m 的大作中提到】

: 我蹲完坑回去去跑个simulation

d********m
发帖数: 3662

vec <- c()
for(i in 1:10000){

a <- t.test(matrix(sample(rnorm(10000), 200, rep = FALSE), 100, 2))
vec[i] <- a$p.value
}
有没有异议？

【在 l****p 的大作中提到】

: 好吧，但我感觉，这个结果，很可能导致对一片文章的一个说法的纠正。所以，我估计
: 你得至少3个情况，甚至更多。因为p value的分布类型虽然可能和sample size无关，
: 但小于0.05的 p values 的百分比肯定和sample size 有关。sample size越大，这个
: 百分比越小。
: 为了简便，我建议您假定分布是 N (0,1),除非您有更好的idea. 先谢谢！

l****p
发帖数: 27354

gut feeling是没有区别，分布是理论分布，无限多个个体形成的总体。with
replacement更自然合理。

【在 g******t 的大作中提到】

: with or without replacement

l****p
发帖数: 27354

哈哈，我不会编程，看不懂。要我做的话，顶多是VB Macro.

【在 d********m 的大作中提到】

: vec <- c()
: for(i in 1:10000){
:
: a <- t.test(matrix(sample(rnorm(10000), 200, rep = FALSE), 100, 2))
: vec[i] <- a$p.value
: }
: 有没有异议？

d********m
发帖数: 3662

sum(vec < .05)
467个p-value小于.05

【在 l****p 的大作中提到】

: 哈哈，我不会编程，看不懂。要我做的话，顶多是VB Macro.

d********m
发帖数: 3662

感觉分布应该是U[0,1]，懒得做任何test statistics。
有什么问题大牛指教了

l****p
发帖数: 27354

真快啊。谢谢！能把sample size 换成500试试吗？我想不明白，为啥p values不会因
为sample size 增大而总体增大。

【在 d********m 的大作中提到】

: 感觉分布应该是U[0,1]，懒得做任何test statistics。
: 有什么问题大牛指教了

d********m
发帖数: 3662

请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value？

【在 l****p 的大作中提到】

: 真快啊。谢谢！能把sample size 换成500试试吗？我想不明白，为啥p values不会因
: 为sample size 增大而总体增大。

g******t
发帖数: 11249

IID？

【在 d********m 的大作中提到】

: 请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value？

l****p
发帖数: 27354

等于是每次抽1000个数，500个一组，两组做 t test.

【在 d********m 的大作中提到】

: 请问500是指每次从N(0,1)选500个随机数还是重复算500个p-value？

相关主题
● 删我贴的那个版主请你站出来
● 小86你的问题想出来了吗？
● 武汉“最飙列车”时速300公里 4小时到广州
● 奥地利实验研究发现转基因玉米降低老鼠生育力
进入Military版参与讨论

v*******e
发帖数: 11604

"这样连续取10000次，得到1万个p values.
请问，这1万个 p value 是什么分布？小于0.05的p values 有多少个？"
Do you understand what is "p-value"?
P-value, by definition, in your experiment, is the probability that the
first group's mean minus that from the second is as you observed.
so *by definition*, it's distribution is uniform, 小于0.05的p values 有(
expected, not actual)
1万*0.05=500个.

l****p
发帖数: 27354

对

【在 g******t 的大作中提到】

: IID？

d********m
发帖数: 3662

结论和上面一样

【在 l****p 的大作中提到】

: 等于是每次抽1000个数，500个一组，两组做 t test.

l****p
发帖数: 27354

你的定义不严谨，但你懒得打字太多。我了解。只是不了解为啥 p value 的分布一定
是uniform.
我题目改改，你看看是不是p values 呈 uniform 分布？
从两个分布中，每次各取100个数，做t-test 。第一个分布是 U(1,2)，第二个分布是
U(4,5)。
这样的p values, 得到1万个，每个都是 0.

compares
actual)

【在 v*******e 的大作中提到】

: "这样连续取10000次，得到1万个p values.
: 请问，这1万个 p value 是什么分布？小于0.05的p values 有多少个？"
: Do you understand what is "p-value"?
: P-value, by definition, in your experiment, is the probability that the
: first group's mean minus that from the second is as you observed.
: so *by definition*, it's distribution is uniform, 小于0.05的p values 有(
: expected, not actual)
: 1万*0.05=500个.

l****p
发帖数: 27354

好吧，太感谢了。我好好想想，需要想通。

【在 d********m 的大作中提到】

: 结论和上面一样

d********m
发帖数: 3662

你要看sample with replacement和我说一下就行。
但是光看图可能就不能区分两者了，也许得做下之类的Klolmogorov test

【在 l****p 的大作中提到】

: 好吧，太感谢了。我好好想想，需要想通。

l****p
发帖数: 27354

换句话说，如果一个干预措施没有效果，就是干预前和干预后分布不变，则你无论把样
本增加到多大，都无法减少假阳性的概率？想不通啊。
难道如果是有限总体，结果会不同？那样的话，如果总体N=10000, 我每次取9995，应
该无论如何很难得到小p value的。

【在 d********m 的大作中提到】

: 你要看sample with replacement和我说一下就行。
: 但是光看图可能就不能区分两者了，也许得做下之类的Klolmogorov test

v*******e
发帖数: 11604

是
if your p values, 得到1万个，每个都是 0, you test is wrong, you can not use
t-test to test difference of two means from U(1,2) and from U(4,5). Note
that your p-value MUST be uniform because it is the DEFINITION of p-value
UNDER NULL HYPOTHESIS.

【在 l****p 的大作中提到】

: 你的定义不严谨，但你懒得打字太多。我了解。只是不了解为啥 p value 的分布一定
: 是uniform.
: 我题目改改，你看看是不是p values 呈 uniform 分布？
: 从两个分布中，每次各取100个数，做t-test 。第一个分布是 U(1,2)，第二个分布是
: U(4,5)。
: 这样的p values, 得到1万个，每个都是 0.
:
: compares
: actual)

j****i
发帖数: 68152

当然是平均分布。多个01分布叠加，是多项式分布。多项式分布的极限，是正态分布。
你这种取法，不管初始是什么分布，最后都是平均分布

l****p
发帖数: 27354

不明觉历，请大拿给我一个链接吧。

use

【在 v*******e 的大作中提到】

:
: 是
: if your p values, 得到1万个，每个都是 0, you test is wrong, you can not use
: t-test to test difference of two means from U(1,2) and from U(4,5). Note
: that your p-value MUST be uniform because it is the DEFINITION of p-value
: UNDER NULL HYPOTHESIS.

相关主题
● 美国女兵明年将打破禁令首次登上潜艇服役
● 我走以前计划在CUNY的CSSA做个资助计划
● 智子来了：美国费米实验室发现疑似新粒子
● 歼10B坠机飞行员殉职
进入Military版参与讨论

v*******e
发帖数: 11604

search the following terms:
why p value is uniform
you get millions of hits. read the first bunch of them.

【在 l****p 的大作中提到】

: 不明觉历，请大拿给我一个链接吧。
:
: use

l****p
发帖数: 27354

谢谢！

【在 v*******e 的大作中提到】

:
: search the following terms:
: why p value is uniform
: you get millions of hits. read the first bunch of them.

d********m
发帖数: 3662

赞。

【在 v*******e 的大作中提到】

:
: search the following terms:
: why p value is uniform
: you get millions of hits. read the first bunch of them.

d********m
发帖数: 3662

我又仔细想了想。p value就是1 - cdf，连续cdf是uniform的，1 - cdf必然是uniform
，所以和sample size一点关系都没有。

p******x
发帖数: 441

大哥你从任意一个分布里面随机抽2k个数字，均分成2组，每组k个。
1. two group t-test的时候的t statistic is asymptotic standard normal as k
goes larger.
2. 算pvalue的时候默认用one sided，就是pvalue=P(standard normal>t)=1-Phi(t),
where Phi() this the cumulative distribution function(CDF) of standard
normal.
3. 用定理：let X be a random variable with monotonic CDF F(), then F(X)
follows U[0,1]. 所以Phi(t) and 1- Phi(t) are both U[0,1].

l****p
发帖数: 27354

好吧，到了理论高度了。谢谢！

【在 p******x 的大作中提到】

: 大哥你从任意一个分布里面随机抽2k个数字，均分成2组，每组k个。
: 1. two group t-test的时候的t statistic is asymptotic standard normal as k
: goes larger.
: 2. 算pvalue的时候默认用one sided，就是pvalue=P(standard normal>t)=1-Phi(t),
: where Phi() this the cumulative distribution function(CDF) of standard
: normal.
: 3. 用定理：let X be a random variable with monotonic CDF F(), then F(X)
: follows U[0,1]. 所以Phi(t) and 1- Phi(t) are both U[0,1].

l****p
发帖数: 27354

厉害，升华了，理论化了。

uniform

【在 d********m 的大作中提到】

: 我又仔细想了想。p value就是1 - cdf，连续cdf是uniform的，1 - cdf必然是uniform
: ，所以和sample size一点关系都没有。

k**********4
发帖数: 16092

p value默认用2 sided

【在 p******x 的大作中提到】

l****p
发帖数: 27354

改改条件，如果每次抽样都来自一个不同的分布，分布间互相独立。其他条件不变的话
， <0.05的 p values 比例也是5%吗？

【在 k**********4 的大作中提到】

: p value默认用2 sided

v*******e
发帖数: 11604

如果是under null hypothesis，就是5%。否则就是test错了。

【在 l****p 的大作中提到】

: 改改条件，如果每次抽样都来自一个不同的分布，分布间互相独立。其他条件不变的话
: ， <0.05的 p values 比例也是5%吗？

相关主题
● 云南白药和H1N1特效制剂都有熊胆成分
● 中国科技大学迁河南流产的真实原因(转)
● 这两组照片很有意思
● 李云迪同天公开25岁女友照疑“叫板”王力宏
进入Military版参与讨论

l****p
发帖数: 27354

谢谢，很有帮助。

【在 v*******e 的大作中提到】

:
: 如果是under null hypothesis，就是5%。否则就是test错了。

(共1页)

进入Military版参与讨论

相关主题
● 武汉“最飙列车”时速300公里 4小时到广州
● 奥地利实验研究发现转基因玉米降低老鼠生育力
● 美国女兵明年将打破禁令首次登上潜艇服役
● 我走以前计划在CUNY的CSSA做个资助计划
● 智子来了：美国费米实验室发现疑似新粒子
● 歼10B坠机飞行员殉职
● 云南白药和H1N1特效制剂都有熊胆成分
● 中国科技大学迁河南流产的真实原因(转)
● 这两组照片很有意思
● 李云迪同天公开25岁女友照疑“叫板”王力宏

相关话题的讨论汇总
话题: 分布话题: value话题: values话题: test话题: uniform

boards