请教Nature上一篇关于pValue的短文 - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 请教Nature上一篇关于pValue的短文

相关主题
● p< 0.05 与 p< 0.01	● 求推荐一个做microarray比较好的公司！
● [转载] 解析DNA结构（转）	● 生物转行或回国的一些出路
● Re: question about QuantRTPCR	● 为什么one step RTPCR 一般都是用gene specific primer 而不是random oligomers
● Re: 检测基因表达变化时，RT-PCR和Northern blot首选哪个？	● 关于northern blotting 探针长度问题，
● 遗传学的薄厚出路何在	● 哪家的抗体好啊
● Anyone working with adult stem cell come in, please~	● 信号通路，调控网络感觉是个超级大坑啊
● 请问关于RNA array的问题	● real data and shuffle data
● 碰到分子生物学难题，求教---mRNA 的起始点怎么得到，怎么能知道哪个ATG是蛋白的翻译起始位点	● 大家在实践中是如何决定用t-test还是non-parametrical test呢？

相关话题的讨论汇总
话题: pvalue话题: hypothesis话题: odds话题: h0话题: 结果

进入Biology版参与讨论

(共1页)

y***i
发帖数: 11639

http://www.nature.com/news/scientific-method-statistical-errors
看得我晕头转向，实在不能理解那个唯一的一张图讲什么。谁能帮帮我。我发了一个
评论：
Can anyone help me understand the "probable cause" picture of the paper? I
admit that I am lost. 1. What is the meaning of "odds of hypothesis"? A
hypothesis can be Right, or wrong. What is odds of it mean? If we know the
odds, do we still need to know pValue? 2. How can I get the number in the
picture: 【with 1 to 19 odds of hypothesis】 + 【pValue = 0.05】 --> odds
become 11%vs. 89%. Thanks.

f**********e
发帖数: 1994

http://www.stat.duke.edu/courses/Spring10/sta122/Labs/Lab6.pdf

D*a
发帖数: 6830

不知道详细计算过程，我是这么理解的。
假如你之前有一些数据认为你可能有一个effect，然后你做了补充实验发现p=0.05
这个时候并不是说effect就是真的，而只是说，如果你之前有50%的把握这个effect是
真的，现在你的把握变成了71%而已，还有29%的可能性是数据的随机性让你蒙上了。如
果你之前已经有90%的把握说这个effect是真的，那么现在的把握变成了96%。
其实你的把握并没有提高多少。
错了的话请指正。

r******g
发帖数: 600

你的null hypothesis和你实际上计算pvalue的算法必须是一样的啊
文章里面那个图：
根据之前的hypothesis，某个实验是 A结果比 B结果大概 1：19ratio 的情况
比如一个组，重复了实验100遍，最后结果是 11：89, expectation是1：19，算出来的
pvalue 是0.05！如果100次实验如果结果更加 strong 是 30：70， Pvalue就更低 0.
01.
因为在一个sampling distribution of 这个 statistic 的情况里，出现这种30：70的
概率自然比 11：89 更低了！
但是如果是tossing coin这种1：1概率的事情，你的nullhypothesis就变了，于是，当
你撒100次，得到11：89的情况时，你的P value就会变的非常非常significant P<0.01
我文章没读完，但是，我估计作者可能是这个意思吧～统计真是高深的学问撒，学了
真的好有意思

y***i
发帖数: 11639

expectation是1：19，结果是11：89，这个pValue = 0.05 是什么意思？1:19的
hypothesis更成立了还是更不成立了？觉得你这个不对啊。。。

0.
01

【在 r******g 的大作中提到】

: 你的null hypothesis和你实际上计算pvalue的算法必须是一样的啊
: 文章里面那个图：
: 根据之前的hypothesis，某个实验是 A结果比 B结果大概 1：19ratio 的情况
: 比如一个组，重复了实验100遍，最后结果是 11：89, expectation是1：19，算出来的
: pvalue 是0.05！如果100次实验如果结果更加 strong 是 30：70， Pvalue就更低 0.
: 01.
: 因为在一个sampling distribution of 这个 statistic 的情况里，出现这种30：70的
: 概率自然比 11：89 更低了！
: 但是如果是tossing coin这种1：1概率的事情，你的nullhypothesis就变了，于是，当
: 你撒100次，得到11：89的情况时，你的P value就会变的非常非常significant P<0.01

y***i
发帖数: 11639

呃。。。。为啥 0.5的把握-->29%的随机性。为啥主观性的把握，能影响随机性的比
例？

【在 D*a 的大作中提到】

: 不知道详细计算过程，我是这么理解的。
: 假如你之前有一些数据认为你可能有一个effect，然后你做了补充实验发现p=0.05
: 这个时候并不是说effect就是真的，而只是说，如果你之前有50%的把握这个effect是
: 真的，现在你的把握变成了71%而已，还有29%的可能性是数据的随机性让你蒙上了。如
: 果你之前已经有90%的把握说这个effect是真的，那么现在的把握变成了96%。
: 其实你的把握并没有提高多少。
: 错了的话请指正。

y***i
发帖数: 11639

多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
下。

【在 f**********e 的大作中提到】

: http://www.stat.duke.edu/courses/Spring10/sta122/Labs/Lab6.pdf

D*a
发帖数: 6830

不是主观性的把握，是有一定的证据推理得到的一个把握
算数咋算的，就不要问我了......

【在 y***i 的大作中提到】

: 多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
: 下。

r******g
发帖数: 600

没有问题啊
Null Hypothesis 是 1：19啊
（通俗的解释啊）
你的结果是11：89，P value＝0.05的意思是，在null hypothesis基础上只有5%的概率
得到比11：89的情况更extreme的结果啊！所以，你的实验结果是阳性啊啊，换句话说
，你的实验结果跟1：19不一样！
所以，在1：19的背景下，想得到11：89的结果已经是难上加难了，如果想得到30：70
就更难了，只有1%可能得到比30：70更extreme的结果！所以，非常非常不可能，也就
是说，原来1：19的null hypothesis被你的数据推翻了，于是，你的结果是阳性的！
比如，你做一个 RTPCR，control RQ value是 1，1.2, 1.3
实验组结果是 89, 90, 100.
做这个rtpcr之前，你是不知道结果的，所以你的null hypothesis是，control=
experimtal
显然，你这个结果情况下P value会很低了，因为，基于你的null hypothesis 出现89.
90，100的概率太低了，所以，你的Pvalue很低，你的结果很阳性～
我也是个统计新手，希望高手来指点啊～其实实验中，有好多地方都不大清楚怎么进
行统计运算，统计真是高深的科学撒～

【在 y***i 的大作中提到】

: 多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
: 下。

a******k
发帖数: 1190

没明白pvalue的计算怎么可以和把握（odds？likelihood？）有关系
我理解的pvalue只是检验你一个hypothesis的可能性
在你这个例子里，只能说明你的effect有5%的可能性是假的（也就是no，这是一个yes
or no的问题）
和50％的把握，71%的把握有什么关系？
如果你要检验这个effect是不是有50%的概率，你应该做一个test
看最后得到结果的分步是不是接近50%，这同样是一个yes or no的问题
并不能把你估计修正成71%

【在 D*a 的大作中提到】

相关主题
● Anyone working with adult stem cell come in, please~	● 求推荐一个做microarray比较好的公司！
● 请问关于RNA array的问题	● 生物转行或回国的一些出路
● 碰到分子生物学难题，求教---mRNA 的起始点怎么得到，怎么能知道哪个ATG是蛋白的翻译起始位点	● 为什么one step RTPCR 一般都是用gene specific primer 而不是random oligomers
进入Biology版参与讨论

a******k
发帖数: 1190

我和你的理解一样
没有明白那张图

I

【在 y***i 的大作中提到】

: http://www.nature.com/news/scientific-method-statistical-errors
: 看得我晕头转向，实在不能理解那个唯一的一张图讲什么。谁能帮帮我。我发了一个
: 评论：
: Can anyone help me understand the "probable cause" picture of the paper? I
: admit that I am lost. 1. What is the meaning of "odds of hypothesis"? A
: hypothesis can be Right, or wrong. What is odds of it mean? If we know the
: odds, do we still need to know pValue? 2. How can I get the number in the
: picture: 【with 1 to 19 odds of hypothesis】 + 【pValue = 0.05】 --> odds
: become 11%vs. 89%. Thanks.

r******g
发帖数: 600

实在不好意思，我觉得我误导到你了
我不应该说expectation，因为那个是chi test
完全就跟p value反过来了，不好意思
我认为，那个nature 文章里面的1：19是null hypothesis
不好意思啊

【在 y***i 的大作中提到】

: 多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
: 下。

D*a
发帖数: 6830

是它的可能性，不是主观的“把握”。
但是他的可能性是通过前期实验得到的，也就是还是你前期实验的出来的可能性，“
the odds ... can be estimated from previous experiments, ... and other
knowledge” 其实那不就是你的把握吗。就是你看了一堆paper拿了老鼠来倒腾了一下
打算写proposal的时候那个“把握”。
你看他第一句话，左上角。“你的中心问题‘到底我的假设是不是对的？’这个问题不
光跟p value有关，还跟你的假设真的对不对有关。“
这其实是个绕圈的话，用数学严密的表现出来了。
也就是说这个图就是说你的假设"KO降低某蛋白"对的可能性越大,你测量完蛋白含量发
现mean KO < mean WT ，然后统计完得到p=0.05的时候越可能表明KO真的降低某蛋白。
当然鉴于你这次实验确实得到了mean KO < mean WT 的结论，那么它把你的假设的可能
性又提高了那么一点。当然了实验里面永远不可能真的得到mean KO = mean WT，我猜p
value是在这里引入能够让人得出结论的。
从他引的那篇题目上看也跟贝叶斯有关，就是你预期的结果毎多发生一次那么你的预期
正确的可能性就大一点。但是看不到全文。说实话看了我估计我也看不懂。。。
以上全部为本统计盲猜想... 说错了概不负责。

yes

【在 a******k 的大作中提到】

: 没明白pvalue的计算怎么可以和把握（odds？likelihood？）有关系
: 我理解的pvalue只是检验你一个hypothesis的可能性
: 在你这个例子里，只能说明你的effect有5%的可能性是假的（也就是no，这是一个yes
: or no的问题）
: 和50％的把握，71%的把握有什么关系？
: 如果你要检验这个effect是不是有50%的概率，你应该做一个test
: 看最后得到结果的分步是不是接近50%，这同样是一个yes or no的问题
: 并不能把你估计修正成71%

f**********e
发帖数: 1994

p value 包含的信息就是 H0 成立时，发生比观测事件更不可能的事件的机率。这个其
实并没有包含 H1 的信息。这篇文章在第三节假设了一个 Beta 的 H1 分布，用来估算
type 1 error （也就是 H0 其实还成立，但是 H0 在 H1 的存在下被 p value 误杀
的机率）。也就是 equation （3）的 alpha（p）。那张图里的的 p＝0.05 对应到
0.29 的 no－effect 就是这个估计的 type 1 error －其实还是没效果（H0），但是
被 p value 干掉了。

y***i
发帖数: 11639

多谢！大体明白了！多谢ferdinandshe大侠和其他大侠侠女！
我现在的初步理解这个5%：95% + 【pVlue = 0.05】 -->30% vs. 70%的意思大概是
这样的，大家看看对不对：
两盘细胞，一个有treatment，一个没有treatment，我们得到了结果pValue = 0.05,
是不是说明这个treatment就有显著的效果呢？不一定。
比如想象做实验的人很sloppy，两盘细胞过了他的手，就有95%的可能性不一样了。他
得到的数据是 pValue = 0.05，其实只有11%的可能性是treatment有显著效果，89%的
可能性是这不是real effect.

到

【在 f**********e 的大作中提到】

: p value 包含的信息就是 H0 成立时，发生比观测事件更不可能的事件的机率。这个其
: 实并没有包含 H1 的信息。这篇文章在第三节假设了一个 Beta 的 H1 分布，用来估算
: type 1 error （也就是 H0 其实还成立，但是 H0 在 H1 的存在下被 p value 误杀
: 的机率）。也就是 equation （3）的 alpha（p）。那张图里的的 p＝0.05 对应到
: 0.29 的 no－effect 就是这个估计的 type 1 error －其实还是没效果（H0），但是
: 被 p value 干掉了。

y***i
发帖数: 11639

有点类似。这个5% vs. 95%的“把握”是指，之前的实验，发现了什么结果，事后会
发现
5%是真的，95%是假的。
然后这一次，我们得到了pValue = 0.05，那么11%的可能性是真的。

【在 D*a 的大作中提到】

: 是它的可能性，不是主观的“把握”。
: 但是他的可能性是通过前期实验得到的，也就是还是你前期实验的出来的可能性，“
: the odds ... can be estimated from previous experiments, ... and other
: knowledge” 其实那不就是你的把握吗。就是你看了一堆paper拿了老鼠来倒腾了一下
: 打算写proposal的时候那个“把握”。
: 你看他第一句话，左上角。“你的中心问题‘到底我的假设是不是对的？’这个问题不
: 光跟p value有关，还跟你的假设真的对不对有关。“
: 这其实是个绕圈的话，用数学严密的表现出来了。
: 也就是说这个图就是说你的假设"KO降低某蛋白"对的可能性越大,你测量完蛋白含量发
: 现mean KO < mean WT ，然后统计完得到p=0.05的时候越可能表明KO真的降低某蛋白。

u*h
发帖数: 397

我感觉作者算错了
1/19 and p<0.05 mean odds 51%.

I

【在 y***i 的大作中提到】

r******g
发帖数: 600

理论上说，感觉是不可以这么理解的～因为，涉及到2sided 和 1sided的问题～当然
，如果这样解释方便你自己理解的话，也没什么问题

【在 y***i 的大作中提到】

: 有点类似。这个5% vs. 95%的“把握”是指，之前的实验，发现了什么结果，事后会
: 发现
: 5%是真的，95%是假的。
: 然后这一次，我们得到了pValue = 0.05，那么11%的可能性是真的。

a***e
发帖数: 1010

这篇文章说的是对 p 值得理解取决于实验前的先验假设. 如果假设是中性, 那么单次
实验拿到的显著性 p<0.05对你的假设的支持只是从 50% 增加到 71%, 你可能还需要重
复 3-4 轮才能把对假设的支持增加到 > 90%.
文献上经常看到 10-20%的差异, 除非是宏观的或者个体生理水平上的数据, 分子细胞
生化上如果只有 10-20%的变化, 这些结果就算是 p< 0.0001, 也最好多留个心眼. 另
外有些人计算 p 的时候是用单次生物学样品做 rt-pcr 或 wb, 而不是用多份独立的生
物学样品,这个时候的p 更容易做到 < 0.01.我最喜欢变化在 100 倍以上的东西, 这样多
半都不会错.

s******s
发帖数: 13035

Berger是统计巨牛，他说的不用理解，大家背下来就行了，哈哈
他的意思是，你们用p value的太原始人了，还是跟我混bayesian
吧。看你们可怜，我给你们算一下兼容freq的stat看看吧，就知道
你们多不靠谱了

样多

【在 a***e 的大作中提到】

: 这篇文章说的是对 p 值得理解取决于实验前的先验假设. 如果假设是中性, 那么单次
: 实验拿到的显著性 p<0.05对你的假设的支持只是从 50% 增加到 71%, 你可能还需要重
: 复 3-4 轮才能把对假设的支持增加到 > 90%.
: 文献上经常看到 10-20%的差异, 除非是宏观的或者个体生理水平上的数据, 分子细胞
: 生化上如果只有 10-20%的变化, 这些结果就算是 p< 0.0001, 也最好多留个心眼. 另
: 外有些人计算 p 的时候是用单次生物学样品做 rt-pcr 或 wb, 而不是用多份独立的生
: 物学样品,这个时候的p 更容易做到 < 0.01.我最喜欢变化在 100 倍以上的东西, 这样多
: 半都不会错.

相关主题
● 关于northern blotting 探针长度问题，	● real data and shuffle data
● 哪家的抗体好啊	● 大家在实践中是如何决定用t-test还是non-parametrical test呢？
● 信号通路，调控网络感觉是个超级大坑啊	● 求助--基因之间表达量回归分析软件
进入Biology版参与讨论

i***l
发帖数: 1656

p 值得理解取决于实验前的先验假设---agree
my 2 cents:
t test assumes that variances of the populations from which different
samples are drawn are equal.
but, how can you know it's equal??----you do not know.
therefore, you need to decide if it's equal first, with Levene's test
in short, two ways to choose from:
1) non parametric assays instead of t test which has too many assumptions
2)do levene's test first, if qualified for t test,then go ahead for t test
if not qualified,,,,,, i forgot which assay should use, hehe, you can google
it anyway

样多

【在 a***e 的大作中提到】

D*a
发帖数: 6830

作者并没有算，而是直接用的文献5的结果

【在 u*h 的大作中提到】

: 我感觉作者算错了
: 1/19 and p<0.05 mean odds 51%.
:
: I

s*****j
发帖数: 6435

我老婆前几天问我. 说二项分布的方差公式是不是 Npq.
我说是. 她又问 pq 什么时候最大? 我说 p=0.5, q=0.5 时候最大.
她就说了, 所以 N 一样的时候, p 越靠中间 (0.5) 方差越大. 如果假设是 50% 就
比较倒霉.要做好多N, 假设是 5% 的话, 就划的着, 不用做那么多N了.
我沉默了.

样多

【在 a***e 的大作中提到】

f**********e
发帖数: 1994

還有：勞資不只會 bayesian 喔，我還給出 frequentist 的推導喔。

【在 s******s 的大作中提到】

: Berger是统计巨牛，他说的不用理解，大家背下来就行了，哈哈
: 他的意思是，你们用p value的太原始人了，还是跟我混bayesian
: 吧。看你们可怜，我给你们算一下兼容freq的stat看看吧，就知道
: 你们多不靠谱了
:
: 样多

y***i
发帖数: 11639

理论上是这样，但我的经验上是这么做得到的结果不会有多大的差异。费力不少，提
高不了很多精度。

google

【在 i***l 的大作中提到】

: p 值得理解取决于实验前的先验假设---agree
: my 2 cents:
: t test assumes that variances of the populations from which different
: samples are drawn are equal.
: but, how can you know it's equal??----you do not know.
: therefore, you need to decide if it's equal first, with Levene's test
: in short, two ways to choose from:
: 1) non parametric assays instead of t test which has too many assumptions
: 2)do levene's test first, if qualified for t test,then go ahead for t test
: if not qualified,,,,,, i forgot which assay should use, hehe, you can google

r******g
发帖数: 600

Wilcoxon T test

google

【在 i***l 的大作中提到】

a****c
发帖数: 339

经验是，实验结果究竟稳不稳定，做实验的人自己心里最清楚，需要算数才知道有没有
差异，不过自己骗自己罢了。

【在 y***i 的大作中提到】

: 理论上是这样，但我的经验上是这么做得到的结果不会有多大的差异。费力不少，提
: 高不了很多精度。
:
: google

k*******3
发帖数: 3113

读个paper这么认真?告诉你，图里的信息不全是不可能算出那几个数字的。原来的文献
里肯定有细节。这个图在这里就是个示意图而已。

I

【在 y***i 的大作中提到】

y***i
发帖数: 11639

f**********e
发帖数: 1994

http://www.stat.duke.edu/courses/Spring10/sta122/Labs/Lab6.pdf

相关主题
● 统计问题，同样是两组数据比较，anova和t-test的p value不一样	● [转载] 解析DNA结构（转）
● false discovery rate	● Re: question about QuantRTPCR
● p< 0.05 与 p< 0.01	● Re: 检测基因表达变化时，RT-PCR和Northern blot首选哪个？
进入Biology版参与讨论

D*a
发帖数: 6830

r******g
发帖数: 600

y***i
发帖数: 11639

呃。。。。为啥 0.5的把握-->29%的随机性。为啥主观性的把握，能影响随机性的比
例？

【在 D*a 的大作中提到】

y***i
发帖数: 11639

多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
下。

【在 f**********e 的大作中提到】

: http://www.stat.duke.edu/courses/Spring10/sta122/Labs/Lab6.pdf

D*a
发帖数: 6830

不是主观性的把握，是有一定的证据推理得到的一个把握
算数咋算的，就不要问我了......

【在 y***i 的大作中提到】

: 多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
: 下。

r******g
发帖数: 600

: 多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
: 下。

a******k
发帖数: 1190

我和你的理解一样
没有明白那张图

I

【在 y***i 的大作中提到】

r******g
发帖数: 600

: 多谢。硬着头皮看。要是哪位大侠已经看懂了下面这篇文章，愿意的话请好心解说一
: 下。

相关主题
● Re: 检测基因表达变化时，RT-PCR和Northern blot首选哪个？	● 请问关于RNA array的问题
● 遗传学的薄厚出路何在	● 碰到分子生物学难题，求教---mRNA 的起始点怎么得到，怎么能知道哪个ATG是蛋白的翻译起始位点
● Anyone working with adult stem cell come in, please~	● 求推荐一个做microarray比较好的公司！
进入Biology版参与讨论

D*a
发帖数: 6830

f**********e
发帖数: 1994

y***i
发帖数: 11639

u*h
发帖数: 397

我感觉作者算错了
1/19 and p<0.05 mean odds 51%.

I

【在 y***i 的大作中提到】

r******g
发帖数: 600

a***e
发帖数: 1010

s******s
发帖数: 13035

i***l
发帖数: 1656

D*a
发帖数: 6830

作者并没有算，而是直接用的文献5的结果

【在 u*h 的大作中提到】

: 我感觉作者算错了
: 1/19 and p<0.05 mean odds 51%.
:
: I

相关主题
● 生物转行或回国的一些出路	● 哪家的抗体好啊
● 为什么one step RTPCR 一般都是用gene specific primer 而不是random oligomers	● 信号通路，调控网络感觉是个超级大坑啊
● 关于northern blotting 探针长度问题，	● real data and shuffle data
进入Biology版参与讨论

s*****j
发帖数: 6435

f**********e
发帖数: 1994

還有：勞資不只會 bayesian 喔，我還給出 frequentist 的推導喔。

【在 s******s 的大作中提到】

y***i
发帖数: 11639

理论上是这样，但我的经验上是这么做得到的结果不会有多大的差异。费力不少，提
高不了很多精度。

google

【在 i***l 的大作中提到】

r******g
发帖数: 600

Wilcoxon T test

google

【在 i***l 的大作中提到】

a****c
发帖数: 339

经验是，实验结果究竟稳不稳定，做实验的人自己心里最清楚，需要算数才知道有没有
差异，不过自己骗自己罢了。

【在 y***i 的大作中提到】

: 理论上是这样，但我的经验上是这么做得到的结果不会有多大的差异。费力不少，提
: 高不了很多精度。
:
: google

k*******3
发帖数: 3113

s******s
发帖数: 13035

总结一下。
p-value是啥？
p-value描述的是 P( Data | H0 )
但是学术界经常把它理解成 P( H0 | Data )
但凡学过prob 101都知道这两个没啥关系，要有关系，
也就是 P( H0 | Data ) = pvalue * P(H0) / P(Data)
所以，要算figure 1上的数，至少要知道先验的P(H0)是多少，
另外，P(Data)更难求，那么可以用
P(Data) = P(Data|H0)*P(H0) + P(Data|HA)*P(HA)等来求，
那么HA也变得重要。估计Berger后面做了一系列关于P(H0)和
P（Data)的假设才算出来那几个数字，理解意思就好，不用强求

I

【在 y***i 的大作中提到】

f**********e
发帖数: 1994

解釋得很好。原 paper 的問題就是要處理有 H0 和 H1 的情形，其實還做了一些假設
。（你怎麼知道 H1 的 p 值分布是 beta？）不需要太糾結那些數字。
到最後，所有的生物學家都還是會想盡辦法讓 N=3，p=0.00001，不管套什麼公式。

【在 s******s 的大作中提到】

: 总结一下。
: p-value是啥？
: p-value描述的是 P( Data | H0 )
: 但是学术界经常把它理解成 P( H0 | Data )
: 但凡学过prob 101都知道这两个没啥关系，要有关系，
: 也就是 P( H0 | Data ) = pvalue * P(H0) / P(Data)
: 所以，要算figure 1上的数，至少要知道先验的P(H0)是多少，
: 另外，P(Data)更难求，那么可以用
: P(Data) = P(Data|H0)*P(H0) + P(Data|HA)*P(HA)等来求，
: 那么HA也变得重要。估计Berger后面做了一系列关于P(H0)和

y***i
发帖数: 11639

多谢多谢，这个说得清楚。

【在 s******s 的大作中提到】

y***i
发帖数: 11639

仔细想了想，我觉得这篇文章是典型的fuss about nothing。
他说的坏的一种情况就是：H1其实是错的（或者是几率很小的），但结果好死不死得
到了一个高的 pValue，这种情况下，其实null hypthosis成立的几率比H1成立的几率
大。这时候做出reject null hypothosis的推断是错的。
但这种情况有多少？在生物学研究里会不会造成严重危害？
首先，这种情况是小几率事件随机发生，本身机会不大。当然夜路走多了总会遇见鬼
，这个就是说的遇见鬼的情况。（文章里说的pVlue = 0.05, false alarm = 0.29，但
这种情况下还得到pValue = 0.05的结果其实是小几率撞到了。）
注：文章开始的那个例子就是典型夜路撞鬼的倒霉蛋，第一次得到了pValue = 0.01
，第二次没了pValue = 0.5。要不是数据收集的问题，就是倒了一次霉而已。但文章完
全不提他其实是中了奖，说的给人的感觉好像每个pValue = 0.01的结果，都很有可能
下一次得到pValue = 0.5
其次，这种情况，因为其随机小几率特性，简单的做个repeat就能排除了（当然不绝
对排除连续见鬼的中大奖事件）。而生物学研究的基本习惯就是做几次repeat，所以他
说的这种情况在实际生物学研究里并没有真实危害。
然后，生物学研究通常的hypothesis是有比较强的生物学理由的，不是那种很sloppy
的假设。
所以这篇文章根本是危言耸听 --- 的确，学生物的不是在绝对的pValue的数学定义
的范围内使用pValue，但就是目前这个用法，他说的这些危害，也根本不会是什么常
见的事情。不值得大号字体“THE PVALUE WAS NEVER MEANT TO BE USED THE WAY
IT ’S USED TODAY.”这么危言耸听。这哥们完全是娱记风格。难怪文章里还八卦
Fisher怎么和对手互掐。
前面有的网友说很多人 N=3 pValue = 0.0001，当然这个错得很，但这是连本能的
统计常识都不尊重了，这属于个人科学态度问题。和本文说的“根本性”问题不是一
回事。

相关主题
● 大家在实践中是如何决定用t-test还是non-parametrical test呢？	● false discovery rate
● 求助--基因之间表达量回归分析软件	● p< 0.05 与 p< 0.01
● 统计问题，同样是两组数据比较，anova和t-test的p value不一样	● [转载] 解析DNA结构（转）
进入Biology版参与讨论

y***i
发帖数: 11639

另外，这个是我的想法，大侠们看看有没有什么错：
当我们提出一个null hypothesis，那么现实中，这个null hypothesis就要么对，要
么错,不可能在中间。
所以我想不出来“the odds of the hypothesis is true”，或者假设H0/1有个数学
分布，有什么数学假设以外的真实意义。现实的 null hypothesis 一旦提出来，就是对
或者错，怎么能有什么分布呢。这么搞是把一个“哲学高度的统计学思考”，投射到不
成立的具体生物学研究的现实中。
大侠们看看这么说有无问题？

01

【在 y***i 的大作中提到】

: 仔细想了想，我觉得这篇文章是典型的fuss about nothing。
: 他说的坏的一种情况就是：H1其实是错的（或者是几率很小的），但结果好死不死得
: 到了一个高的 pValue，这种情况下，其实null hypthosis成立的几率比H1成立的几率
: 大。这时候做出reject null hypothosis的推断是错的。
: 但这种情况有多少？在生物学研究里会不会造成严重危害？
: 首先，这种情况是小几率事件随机发生，本身机会不大。当然夜路走多了总会遇见鬼
: ，这个就是说的遇见鬼的情况。（文章里说的pVlue = 0.05, false alarm = 0.29，但
: 这种情况下还得到pValue = 0.05的结果其实是小几率撞到了。）
: 注：文章开始的那个例子就是典型夜路撞鬼的倒霉蛋，第一次得到了pValue = 0.01
: ，第二次没了pValue = 0.5。要不是数据收集的问题，就是倒了一次霉而已。但文章完

D*a
发帖数: 6830

小几率事件always happen.
这就是为什么大数据的cut off 0.000000000...1
或者说你拿20只KO，20只WT，测它们的各种数据，by chance就会有一两个significant
p value 0.05 就是说H0成立的时候有5%的机会你能得到KO和WT不同的结果，这还不高？
关键是楼上说得好，你自己的data什么样自己心里有数，其实不用什么统计学。但是
paper都是精挑细选的data，给别人看的，别人判断起来，不知道你notebook记了些什
么鬼画符，只能看p value。

01

【在 y***i 的大作中提到】

: 另外，这个是我的想法，大侠们看看有没有什么错：
: 当我们提出一个null hypothesis，那么现实中，这个null hypothesis就要么对，要
: 么错,不可能在中间。
: 所以我想不出来“the odds of the hypothesis is true”，或者假设H0/1有个数学
: 分布，有什么数学假设以外的真实意义。现实的 null hypothesis 一旦提出来，就是对
: 或者错，怎么能有什么分布呢。这么搞是把一个“哲学高度的统计学思考”，投射到不
: 成立的具体生物学研究的现实中。
: 大侠们看看这么说有无问题？
:
: 01

f**********e
发帖数: 1994

我拿现在最热的话题：马航事件来做例子。如果 null hypothesis H0 是：飞机没有被
劫持，那 p value 就是在没有被劫持的飞机上，有两个人还是超过两个人用假护照的
机率。现在我们知道这机率不是很大，例如说，0.05. 那我们是不是可以说这飞机被劫
持了？答案是不行。因为说不定我们对所有被劫持的班机（H1）一算，有两个人还是
超过两个人用假护照的机率也是 0.05. 这种时候 H0／H1 的推论需要用 Bayes factor
做。

是对

【在 y***i 的大作中提到】

s******s
发帖数: 13035

这种想法是不对的。比如gwass, 实际上H1基本都是错的

01

【在 y***i 的大作中提到】

s******s
发帖数: 13035

你这个是frequentist的哲学。Berger是bayesian大牛，bayesian里面当然可以。
我觉得bayesian其实更加简洁明了，而且其实是更加古朴的思想，只不过几百年
前没有计算机，bayesian没法好好应用而已

是对

【在 y***i 的大作中提到】

k*******3
发帖数: 3113

只看一个null hypothesis 没有意义。你可以想像，全世界的科学家一共提出了10000
个null hypothesis 这里面就有一个对错的比例问题了。

是对

【在 y***i 的大作中提到】

y***i
发帖数: 11639

问题是文章掩饰了这是小几率事件。而且可以通过repeat轻易矫正。这我是翻来覆去
才想明白的。说实话，除了我怀疑有多少人能看文章，然后象我一样认真想明白的。没
想明白的，心里面肯定都是留下了作者恐吓pValue现在用法如何错误的映象。看文章后
面那些的欢呼的评论就知道。
【在 Dua (Dua) 的大作中提到: 】
significant
高？
对你是很常见是吧？所以你知道这原因是什么，出了这种情况，再重复一次。这对我
们是常识，这种情况，根本是nothing.
但你看看文章前面用多大的篇幅详细写一个博士生碰到了这么个情况，纯洁的心灵受
到了极大的震撼，年轻的美梦随风而去。
“For a brief moment in 2010, Matt Motyl was on the brink of scientific
glory: he had discovered that extremists quite literally see the world in
black and white.
The results were “plain as day”, recalls Motyl, a psychology PhD student
at the University of Virginia in Charlottesville. Data from a study of
nearly 2,000 people seemed to show that political moderates saw shades of
grey more accurately than did either left-wing or right-wing extremists. “
The hypothesis was sexy,” he says, “and the data provided clear support.”
The P value, a common index for the strength of evidence, was 0.01 —
usually interpreted as 'very significant'. Publication in a high-impact
journal seemed within Motyl's grasp.
But then reality intervened. Sensitive to controversies over reproducibility
, Motyl and his adviser, Brian Nosek, decided to replicate the study. With
extra data, the P value came out as 0.59 — not even close to the
conventional level of significance, 0.05. The effect had disappeared, and
with it, Motyl's dreams of youthful fame1.”
然后全文都是这种恐吓性的基调。我的理解，这就是 fuss about nothing.

y***i
发帖数: 11639

你得说得更详细些，我才能理解你的意思。不过我猜想你是错了 :D

【在 s******s 的大作中提到】

: 这种想法是不对的。比如gwass, 实际上H1基本都是错的
:
: 01

y***i
发帖数: 11639

是。但对具体的任何一个问题，都没有这个比例。所以对任何一个具体问题，他算出
来的那些“false alarming ratio”都没有任何指导意义。你不能指着任何一个问题，
说它pValue = 0.05 的false alarming ratio 是 0.29。而这正是文章中做的。你看原
文 “ a P value of 0.05 raises that chance to at least 29%. So Motyl's
finding had a greater than one in ten chance of being a false alarm.
Likewise, the probability of replicating his original result was not 99%, as
most would assume, but something closer to 73% — or only 50%, if he wanted
another 'very significant' result”

这是错的。 Motyl的结论是错的，那他不能重复的机会就接近 100% ---- 这是一件好
事，不是一件坏事。这说明重复就能消除小几率的错误。
但文章的腔调好像这是一件很悲惨的事件，而事件的起源在于pValue的错误用法这么
根深蒂固的东西，而且这个问题简直没法解决。

10000
，要
数学
到不

【在 k*******3 的大作中提到】

: 只看一个null hypothesis 没有意义。你可以想像，全世界的科学家一共提出了10000
: 个null hypothesis 这里面就有一个对错的比例问题了。
:
: 是对

D*a
发帖数: 6830

这是一件很悲惨的事件,正是源于大部分人不重复呀，看到0.05就认为自己的假设是正
确的，因此继续往下做了。这就悲惨了嘛。

as
wanted

【在 y***i 的大作中提到】

: 是。但对具体的任何一个问题，都没有这个比例。所以对任何一个具体问题，他算出
: 来的那些“false alarming ratio”都没有任何指导意义。你不能指着任何一个问题，
: 说它pValue = 0.05 的false alarming ratio 是 0.29。而这正是文章中做的。你看原
: 文 “ a P value of 0.05 raises that chance to at least 29%. So Motyl's
: finding had a greater than one in ten chance of being a false alarm.
: Likewise, the probability of replicating his original result was not 99%, as
: most would assume, but something closer to 73% — or only 50%, if he wanted
: another 'very significant' result”
:
: 这是错的。 Motyl的结论是错的，那他不能重复的机会就接近 100% ---- 这是一件好

相关主题
● [转载] 解析DNA结构（转）	● 遗传学的薄厚出路何在
● Re: question about QuantRTPCR	● Anyone working with adult stem cell come in, please~
● Re: 检测基因表达变化时，RT-PCR和Northern blot首选哪个？	● 请问关于RNA array的问题
进入Biology版参与讨论

k*******3
发帖数: 3113

你可以仔细思考一下下面的问题有没有意义。
在黑屋子里有1000个球，100个红的，900个黑的。你进来抓了一个。在我们都没看见你
抓的球的时候，我说你抓的球是红的的概率是10%。
按你的逻辑你要吗抓的是红的，要末是黑的，完全没有概率。这显然太狭隘了。

as
wanted

【在 y***i 的大作中提到】

y***i
发帖数: 11639

你这个观点是对的。但另一方面，这个false alarming ratio 和 the ratio of
hypotheis is true 有关（见原图）。而后者，我认为对一个具体的hypothesis的对错
的指导意义不大。很难说对一个具体的hypothesis，他的对的ratio是 30%而不是50%。

【在 k*******3 的大作中提到】

: 你可以仔细思考一下下面的问题有没有意义。
: 在黑屋子里有1000个球，100个红的，900个黑的。你进来抓了一个。在我们都没看见你
: 抓的球的时候，我说你抓的球是红的的概率是10%。
: 按你的逻辑你要吗抓的是红的，要末是黑的，完全没有概率。这显然太狭隘了。
:
: as
: wanted

D*a
发帖数: 6830

这里有篇比较通俗的讲贝叶斯的
看来我蒙对了...
http://www.guokr.com/question/547339/

【在 y***i 的大作中提到】

: 你这个观点是对的。但另一方面，这个false alarming ratio 和 the ratio of
: hypotheis is true 有关（见原图）。而后者，我认为对一个具体的hypothesis的对错
: 的指导意义不大。很难说对一个具体的hypothesis，他的对的ratio是 30%而不是50%。

l**********1
发帖数: 5204

plus
Coursera one recent online Course:
Computational Molecular Evolution
which using Bayesian approach too.
>{https://www.coursera.org/course/molevol/}

【在 D*a 的大作中提到】

: 这里有篇比较通俗的讲贝叶斯的
: 看来我蒙对了...
: http://www.guokr.com/question/547339/

(共1页)

进入Biology版参与讨论

相关主题
● 大家在实践中是如何决定用t-test还是non-parametrical test呢？	● 遗传学的薄厚出路何在
● 求助--基因之间表达量回归分析软件	● Anyone working with adult stem cell come in, please~
● 统计问题，同样是两组数据比较，anova和t-test的p value不一样	● 请问关于RNA array的问题
● false discovery rate	● 碰到分子生物学难题，求教---mRNA 的起始点怎么得到，怎么能知道哪个ATG是蛋白的翻译起始位点
● p< 0.05 与 p< 0.01	● 求推荐一个做microarray比较好的公司！
● [转载] 解析DNA结构（转）	● 生物转行或回国的一些出路
● Re: question about QuantRTPCR	● 为什么one step RTPCR 一般都是用gene specific primer 而不是random oligomers
● Re: 检测基因表达变化时，RT-PCR和Northern blot首选哪个？	● 关于northern blotting 探针长度问题，

相关话题的讨论汇总
话题: pvalue话题: hypothesis话题: odds话题: h0话题: 结果

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天