r********n 发帖数: 6979 | 1 对于几乎任何statistical tests
两组不同的方法
相同的test
得到两个p-value
一个是0.00001
一个是0.000001
都是highly significantly
我(有多大把握)能不能把这个p-value作为选择方法2的依据呢?
因为方法2的p-value更小
举个例子
假设我有1000个samples
用分类方法一把这1000个sample分成两个组
做一个t-test
得到p1=0.00001
用另一个分类方法也分成两个组
做一个t-test
得到p2=0.000001
能不能说明方法2要更好? |
A****t 发帖数: 141 | 2 p value比较小在一定程度上可以说明power比较高,不过也要看相应的type I error
rate是不是也很高 |
r********n 发帖数: 6979 | 3 当pvalue这么小的时候
type I error不可能很高啊
【在 A****t 的大作中提到】 : p value比较小在一定程度上可以说明power比较高,不过也要看相应的type I error : rate是不是也很高
|
r********n 发帖数: 6979 | 4 当pvalue这么小的时候
type I error不可能很高啊
【在 A****t 的大作中提到】 : p value比较小在一定程度上可以说明power比较高,不过也要看相应的type I error : rate是不是也很高
|
t*******t 发帖数: 633 | 5 这是什么逻辑,如果大部分test p value都显著的特别小,那就是可能type I error
rate会是很高的啊。
【在 r********n 的大作中提到】 : 当pvalue这么小的时候 : type I error不可能很高啊
|
t****r 发帖数: 702 | 6 1000个samples? 那为什么只有1个p-value?
还是你的sample包括1000个样本?如果是这样,一个样本是不能决定一个test的好坏的。
【在 r********n 的大作中提到】 : 对于几乎任何statistical tests : 两组不同的方法 : 相同的test : 得到两个p-value : 一个是0.00001 : 一个是0.000001 : 都是highly significantly : 我(有多大把握)能不能把这个p-value作为选择方法2的依据呢? : 因为方法2的p-value更小 : 举个例子
|
r********n 发帖数: 6979 | 7 1000个sample分成两组做unpaired ttest当然就一个pvalue了
你这个样本是什么意思? 难道不是sample?
的。
【在 t****r 的大作中提到】 : 1000个samples? 那为什么只有1个p-value? : 还是你的sample包括1000个样本?如果是这样,一个样本是不能决定一个test的好坏的。
|
r********n 发帖数: 6979 | 8 我知道你和后面一个人说的什么意思了
可能是我原帖里面没有说清楚
你们说的是这个test本身可能type I error比较高(一个pvalue没法说明这个test的好
坏)
这些我都同意
问题是我关心的不是test本身的好坏(当然这个是个问题, 只是不是我现在关心的问
题)
假设test本身的assumption都成立
我关心的是两种分类方法的好坏
t-test只是用来分辨的一种方法而已(也可以用别的statistical test)
用分类方法一把1000个sample分成两类: 假设一类有400个sample, 一类有600个
sample
然后可以在这两组之间做一个unpaired ttest
得到第一个pvalue=0.00001
用分类方法而把1000个sample分成另外两类:假设一类有250个sample, 一类有750个
sample
再做一个unpaired ttest
得到第二个pvalue=0.000001
我的问题是
因为第二个pvalue比第一个pvalue小(虽然两个pvalue本身都已经highly significant)
也就是说第二种分类方法分出来的两类更加不可能有相同的mean
那我能不能说第二种分类方法更好呢?
【在 t*******t 的大作中提到】 : 这是什么逻辑,如果大部分test p value都显著的特别小,那就是可能type I error : rate会是很高的啊。
|
A****t 发帖数: 141 | 9 你的1000sample指的是sample size对吧?
type I error是指在null hypothesis成立的情况下,你的方法给出了一个<0.05的p
value.而不是根据你的p value去推断null hypothesis是否为真。
如果你分析的这些是real data的话,这么test是看不出type I error rate的,因为根
本不知道那两组数据是不是真的有显著差异。如果你的方法type I error rate很高的
话,尽管两组之间没有差异,也会给出一个很小的p值。
一般分析empirical power或者type I error rate都是用模拟产生的数据,因为
simulation的时候你可以设定两组数据是否有差异,模拟n个replicates然后用你的方
法去test,就能知道多少是对的,多少是错的。
【在 r********n 的大作中提到】 : 我知道你和后面一个人说的什么意思了 : 可能是我原帖里面没有说清楚 : 你们说的是这个test本身可能type I error比较高(一个pvalue没法说明这个test的好 : 坏) : 这些我都同意 : 问题是我关心的不是test本身的好坏(当然这个是个问题, 只是不是我现在关心的问 : 题) : 假设test本身的assumption都成立 : 我关心的是两种分类方法的好坏 : t-test只是用来分辨的一种方法而已(也可以用别的statistical test)
|
r********n 发帖数: 6979 | 10 这个1000个sample是sample size
也是真实的数据
我没法simulate这些数据
我的理解是
pvalue是指在null hypothesis成立的情况下,观测到这样一组数据的可能性
如果pvalue非常小(<0.05)
那就是说数据说明null hypothesis不大可能成立(反之, pvalue不太小的话, 则只
能说明, 数据没法说明null hypothesis是不是成立)
如果test的assumption都成立的话(对ttest来说的话, gaussian, equal variance)
那么type I error rate(false positive rate)应该和pvalue是一样的
我的问题不是关于这个test的!
我假设test本身没有问题
关心的是采用不同分类方法以及相同的test
得出来的pvlue能不能用来评价不同的分类方法(而不是评价test本身)
这里null hypothesis=两组数据有一样的mean
因为pvalue都非常小
说明两种分类方法都能把这1000个sample分成有不同mean的两组(换句话说, 两种分
类方法都能把这1000个sample很好的分成两组相互区别的数据)
我的问题是
能不能因为第二个分类方法的pvalue更小
就说第二种方法分的更好呢?
【在 A****t 的大作中提到】 : 你的1000sample指的是sample size对吧? : type I error是指在null hypothesis成立的情况下,你的方法给出了一个<0.05的p : value.而不是根据你的p value去推断null hypothesis是否为真。 : 如果你分析的这些是real data的话,这么test是看不出type I error rate的,因为根 : 本不知道那两组数据是不是真的有显著差异。如果你的方法type I error rate很高的 : 话,尽管两组之间没有差异,也会给出一个很小的p值。 : 一般分析empirical power或者type I error rate都是用模拟产生的数据,因为 : simulation的时候你可以设定两组数据是否有差异,模拟n个replicates然后用你的方 : 法去test,就能知道多少是对的,多少是错的。
|
|
|
C*******I 发帖数: 339 | 11 所谓的pvalue是当null hypothesis 为真时,得到当前sample的概率 P(sample | p_0)
,描述的是sample的性质。
而type I error是指如果这个sample的确来自于null hypothesis 给出的distribution
的话,被拒绝的概率 P(reject | p_0),一定程度上描述了test的性质。
是这么个意思么?我还从来没仔细想过这个问题呢。。。惭愧惭愧
【在 A****t 的大作中提到】 : 你的1000sample指的是sample size对吧? : type I error是指在null hypothesis成立的情况下,你的方法给出了一个<0.05的p : value.而不是根据你的p value去推断null hypothesis是否为真。 : 如果你分析的这些是real data的话,这么test是看不出type I error rate的,因为根 : 本不知道那两组数据是不是真的有显著差异。如果你的方法type I error rate很高的 : 话,尽管两组之间没有差异,也会给出一个很小的p值。 : 一般分析empirical power或者type I error rate都是用模拟产生的数据,因为 : simulation的时候你可以设定两组数据是否有差异,模拟n个replicates然后用你的方 : 法去test,就能知道多少是对的,多少是错的。
|
C*******I 发帖数: 339 | 12 我明白楼主的意思,但是我个人觉得0。000001 和0。0000001的区别真的不足以说明这
两个方法有区别,你能确定这个pvalue的精度么?很多时候小数点后面好几位的数字都
是没有意义的。
variance)
【在 r********n 的大作中提到】 : 这个1000个sample是sample size : 也是真实的数据 : 我没法simulate这些数据 : 我的理解是 : pvalue是指在null hypothesis成立的情况下,观测到这样一组数据的可能性 : 如果pvalue非常小(<0.05) : 那就是说数据说明null hypothesis不大可能成立(反之, pvalue不太小的话, 则只 : 能说明, 数据没法说明null hypothesis是不是成立) : 如果test的assumption都成立的话(对ttest来说的话, gaussian, equal variance) : 那么type I error rate(false positive rate)应该和pvalue是一样的
|
A****t 发帖数: 141 | 13 再说一点我的看法(不一定对),一般情况下,比较几种方法会涉及到model,
computational algorithm,test statistic.....,因为这些都有可能影响到power,
type I error rate. 如果你只用t test(而不是自己提出来的新的test statistic)
,发现两组有显著差异,那可以说明被分组以后的两组数据有差异。但你不是在比较你
的两种分组方法吗?举个很极端的例子,产生一组随机数据,然后随机平分成两组,如
果sample size比较大的话,一般test不会有显著差异,但是如果把数据rank一下,top
quartile作为一组,bottom quartile为另一组,再做t test就很可能得到很小的p
value,而且随便一组数据都能得到显著差异。你的第二种方法给出更小的p value,但
是这样做是否合理,差异是不是真的有那么显著?
variance)
【在 r********n 的大作中提到】 : 这个1000个sample是sample size : 也是真实的数据 : 我没法simulate这些数据 : 我的理解是 : pvalue是指在null hypothesis成立的情况下,观测到这样一组数据的可能性 : 如果pvalue非常小(<0.05) : 那就是说数据说明null hypothesis不大可能成立(反之, pvalue不太小的话, 则只 : 能说明, 数据没法说明null hypothesis是不是成立) : 如果test的assumption都成立的话(对ttest来说的话, gaussian, equal variance) : 那么type I error rate(false positive rate)应该和pvalue是一样的
|
b*****n 发帖数: 685 | 14 还不是要比较两个test。如何比?看type-I error rate和power。通常只能用
simulation来评价。只靠real data的一个p-val说明不了任何问题。 |
r********n 发帖数: 6979 | 15 就像你说的
如果我有一种分类方法
可以把top quantile和bottom quantile分离出来
那这个分类方法就是一个好的分类方法
当然实际上
分类的方法当然不是象你说的用rank这么简单
因为这个给的这组数据其实相当于ground truth
分类方法本身是看不到的
分类方法用的是别的数据得到这个分类的
我又想这个问题
基本上是在test这么一个hypothesis
当p<<0.05的时候, 两个不同的pvalue实际上有多大区别
如果可以设计这么一个对应的statistics
那基本就是看pvalue of pvalues是不是significant
看起来好像没有这么一个test。。。
不过实际上
当pvalue这么小的时候
可能像你说的
test本身的性质可能更重要了
要是test本身的一些assumption没有满足的话
导致的区别可能要比pvalue从0.000001变到0.00001的影响要大的多
top
【在 A****t 的大作中提到】 : 再说一点我的看法(不一定对),一般情况下,比较几种方法会涉及到model, : computational algorithm,test statistic.....,因为这些都有可能影响到power, : type I error rate. 如果你只用t test(而不是自己提出来的新的test statistic) : ,发现两组有显著差异,那可以说明被分组以后的两组数据有差异。但你不是在比较你 : 的两种分组方法吗?举个很极端的例子,产生一组随机数据,然后随机平分成两组,如 : 果sample size比较大的话,一般test不会有显著差异,但是如果把数据rank一下,top : quartile作为一组,bottom quartile为另一组,再做t test就很可能得到很小的p : value,而且随便一组数据都能得到显著差异。你的第二种方法给出更小的p value,但 : 是这样做是否合理,差异是不是真的有那么显著? :
|
y***n 发帖数: 51 | 16 我老师说,p-value 小于0.0001,一概用<0.0001,再小的无须specify。 |