K****n 发帖数: 5970 | 1 以前苦逼做生物实验,都是苦恼为啥不significantly different,算statistical
power的时候都是感叹,靠,还要多做那么多个实验才能出结果。
最近被逼研究啥big data,泥马随机搞点儿数据就significantly different,从公式
角度倒是很好理解,但是还是觉得奇怪,搜索了一下,原来也是有人苦恼数据太多的。
真是天上地下啊。 |
s*****j 发帖数: 6435 | 2 你现在倒底是苦恼还是不苦恼?
【在 K****n 的大作中提到】 : 以前苦逼做生物实验,都是苦恼为啥不significantly different,算statistical : power的时候都是感叹,靠,还要多做那么多个实验才能出结果。 : 最近被逼研究啥big data,泥马随机搞点儿数据就significantly different,从公式 : 角度倒是很好理解,但是还是觉得奇怪,搜索了一下,原来也是有人苦恼数据太多的。 : 真是天上地下啊。
|
K****n 发帖数: 5970 | 3 对啊,我现在到底是苦恼还是不哭闹呢,想significant就significant,好像是一件值
得庆祝的事啊?
大家坦白地说,是不是都很羡慕我?大牛们给评评?
【在 s*****j 的大作中提到】 : 你现在倒底是苦恼还是不苦恼?
|
w*****r 发帖数: 2061 | 4 外行看那些bioinfo的p-value,有的实在受不了,举例 p < 10^-23
【在 K****n 的大作中提到】 : 以前苦逼做生物实验,都是苦恼为啥不significantly different,算statistical : power的时候都是感叹,靠,还要多做那么多个实验才能出结果。 : 最近被逼研究啥big data,泥马随机搞点儿数据就significantly different,从公式 : 角度倒是很好理解,但是还是觉得奇怪,搜索了一下,原来也是有人苦恼数据太多的。 : 真是天上地下啊。
|
q******g 发帖数: 3858 | 5 无论多么significant,也要用其他方法验证吧。 |
K****n 发帖数: 5970 | 6 bioinfo太过分了!想当年 p<0.1我就高兴得睡不着了
【在 w*****r 的大作中提到】 : 外行看那些bioinfo的p-value,有的实在受不了,举例 p < 10^-23
|
K****n 发帖数: 5970 | 7 除了统计,还有啥方法?
【在 q******g 的大作中提到】 : 无论多么significant,也要用其他方法验证吧。
|
W***o 发帖数: 6519 | 8 反正我是羡慕嫉妒恨
【在 K****n 的大作中提到】 : 对啊,我现在到底是苦恼还是不哭闹呢,想significant就significant,好像是一件值 : 得庆祝的事啊? : 大家坦白地说,是不是都很羡慕我?大牛们给评评?
|
l**********1 发帖数: 5204 | 9 quantum computing hard and soft both infrastructure
【在 K****n 的大作中提到】 : 除了统计,还有啥方法?
|
s*****j 发帖数: 6435 | 10 忘记谁说得了. 只要能 fit your story, 是一件值得庆祝的事
【在 K****n 的大作中提到】 : 对啊,我现在到底是苦恼还是不哭闹呢,想significant就significant,好像是一件值 : 得庆祝的事啊? : 大家坦白地说,是不是都很羡慕我?大牛们给评评?
|
|
|
e*******o 发帖数: 4654 | 11 lz 黑生物的吗。
分类上有时候看一个虫子就命名新种了。当时我刚学过统计觉得不可思议。 |
K****n 发帖数: 5970 | 12 没关系没关系,每个人的生活都有自己的亮点
【在 W***o 的大作中提到】 : 反正我是羡慕嫉妒恨
|
K****n 发帖数: 5970 | 13 靠不太懂
【在 l**********1 的大作中提到】 : quantum computing hard and soft both infrastructure
|
K****n 发帖数: 5970 | 14 是不是施一工老师说的
【在 s*****j 的大作中提到】 : 忘记谁说得了. 只要能 fit your story, 是一件值得庆祝的事
|
K****n 发帖数: 5970 | 15 您这个说法这才是黑生物吧。俺生是生物的人,死是生物的死人
【在 e*******o 的大作中提到】 : lz 黑生物的吗。 : 分类上有时候看一个虫子就命名新种了。当时我刚学过统计觉得不可思议。
|
b*******n 发帖数: 8420 | 16 人家处理GB TB级别的数据也不容易是吧
【在 K****n 的大作中提到】 : bioinfo太过分了!想当年 p<0.1我就高兴得睡不着了
|
c*****n 发帖数: 46 | 17 significance level 和 p value 对应的是type I error,也就是 incorrect
rejection when null hypothesis is true. 如果样本数很大的话,是很容易得到非常
小的 p value. 原因很简单, 你们的 null hypothesis 太强了。 两组样本完全一致
? 即使参考组控制的再好,这也是不可能的。大样本下,不考虑测量误差和模型误差
,p value 基本没有意义。
另外,statistical power 对应的是type II error, failure in rejecting false
null hypothesis 吧? 同样的样本数做测试,significance level 取的越小, type
I error 的概率变小,但是 type II error 的概率会同时变大。两者之间是要权衡一
下的。
我有认识的实验室做生物的,看他们用统计用的,很无语啊。 |
c*****n 发帖数: 46 | 18 做统计的时候大致有三种误差 sample uncertainty, model uncertainty and
measurement uncertainty. 如果模型和测量没什么大问题,小样本一般就是sample
uncertainty dominates. 但是到了 TB 级的数据,sample uncertainty 显然很小了。
这时候后两者无论如何就不能忽略了。
type
【在 c*****n 的大作中提到】 : significance level 和 p value 对应的是type I error,也就是 incorrect : rejection when null hypothesis is true. 如果样本数很大的话,是很容易得到非常 : 小的 p value. 原因很简单, 你们的 null hypothesis 太强了。 两组样本完全一致 : ? 即使参考组控制的再好,这也是不可能的。大样本下,不考虑测量误差和模型误差 : ,p value 基本没有意义。 : 另外,statistical power 对应的是type II error, failure in rejecting false : null hypothesis 吧? 同样的样本数做测试,significance level 取的越小, type : I error 的概率变小,但是 type II error 的概率会同时变大。两者之间是要权衡一 : 下的。 : 我有认识的实验室做生物的,看他们用统计用的,很无语啊。
|
e*******o 发帖数: 4654 | 19 高人!measurement uncertainty 最近分析自己数据,怀疑过这个问题,不过没接触过
相关的概念,哪本书讲这些?谢谢。
【在 c*****n 的大作中提到】 : 做统计的时候大致有三种误差 sample uncertainty, model uncertainty and : measurement uncertainty. 如果模型和测量没什么大问题,小样本一般就是sample : uncertainty dominates. 但是到了 TB 级的数据,sample uncertainty 显然很小了。 : 这时候后两者无论如何就不能忽略了。 : : type
|
e*******o 发帖数: 4654 | 20 理想的状况是,生物的搞生物,统计的搞统计。主要是一般的实验室请不起,
Statistician, 生物的只好两者都搞。
【在 c*****n 的大作中提到】 : 做统计的时候大致有三种误差 sample uncertainty, model uncertainty and : measurement uncertainty. 如果模型和测量没什么大问题,小样本一般就是sample : uncertainty dominates. 但是到了 TB 级的数据,sample uncertainty 显然很小了。 : 这时候后两者无论如何就不能忽略了。 : : type
|
|
|
c*****n 发帖数: 46 | 21 Carroll 的那本 measurement error in nonlinear models 就挺好。Fuller 那本有点
老了,而且我觉得讲的过于偏重方法本身了。
【在 e*******o 的大作中提到】 : 高人!measurement uncertainty 最近分析自己数据,怀疑过这个问题,不过没接触过 : 相关的概念,哪本书讲这些?谢谢。
|
e*******o 发帖数: 4654 | 22 这个太专了。估计统计的硕士都学不那么深。
我说的有些不清楚。
我需要的是那种提纲挈领,能建立框架的。比如你说的
做统计的时候大致有三种误差 sample uncertainty, model uncertainty and
measurement uncertainty. 如果模型和测量没什么大问题,小样本一般就是sample
uncertainty dominates. 但是到了 TB 级的数据,sample uncertainty 显然很小了。
这时候后两者无论如何就不能忽略了。
看了之后,一下子明白,以前没考虑那些东西了。
【在 c*****n 的大作中提到】 : Carroll 的那本 measurement error in nonlinear models 就挺好。Fuller 那本有点 : 老了,而且我觉得讲的过于偏重方法本身了。
|
b*****n 发帖数: 685 | 23 很多是因为multiple comparison没有做adjustment而已,不奇怪。
【在 w*****r 的大作中提到】 : 外行看那些bioinfo的p-value,有的实在受不了,举例 p < 10^-23
|
K****n 发帖数: 5970 | 24 哇这个指导真是高屋建瓴啊。那么在实际生活中,model uncertainty和measurement
uncertainty应当咋样解决呢?
【在 c*****n 的大作中提到】 : 做统计的时候大致有三种误差 sample uncertainty, model uncertainty and : measurement uncertainty. 如果模型和测量没什么大问题,小样本一般就是sample : uncertainty dominates. 但是到了 TB 级的数据,sample uncertainty 显然很小了。 : 这时候后两者无论如何就不能忽略了。 : : type
|
K****n 发帖数: 5970 | 25 我这一辈子还是头一回过“null hypothesis太强了”的日子呢,“参数组控制的再好
”,也能查出来不同这个事情对我来说真是有点儿shock,我以前的直觉是,从10亿只
果蝇里,随机取1亿只果蝇,随机再取1亿只果蝇,这两组的翅膀长度肯定不是
statistically different的。大家真诚滴说,上帝也不会发现这个model uncertainty
吧。如今真是毁三观啊。
statistical power这个我总算明白了。
如果样本很大的情况,有没有null hypothesis不强的选法?
type
【在 c*****n 的大作中提到】 : significance level 和 p value 对应的是type I error,也就是 incorrect : rejection when null hypothesis is true. 如果样本数很大的话,是很容易得到非常 : 小的 p value. 原因很简单, 你们的 null hypothesis 太强了。 两组样本完全一致 : ? 即使参考组控制的再好,这也是不可能的。大样本下,不考虑测量误差和模型误差 : ,p value 基本没有意义。 : 另外,statistical power 对应的是type II error, failure in rejecting false : null hypothesis 吧? 同样的样本数做测试,significance level 取的越小, type : I error 的概率变小,但是 type II error 的概率会同时变大。两者之间是要权衡一 : 下的。 : 我有认识的实验室做生物的,看他们用统计用的,很无语啊。
|
c*****n 发帖数: 46 | 26 挨个建模呗, 很大的工作量也要很多$$.我做的的方向因为测量误差很大,有时能到一
两个COV, 所以这方面考虑比较多。大多数地方可能随便估估就凑活了吧,educated
guess.
【在 K****n 的大作中提到】 : 哇这个指导真是高屋建瓴啊。那么在实际生活中,model uncertainty和measurement : uncertainty应当咋样解决呢?
|
c*****n 发帖数: 46 | 27 随便举个例子吧。测试两个单位方差的正态分布是否均值一致, 各取 1e4 个 sample,
sample mean 的差别大概 0.06 左右就p value 就 0.05 了吧。假设现在有一边的测
量值有个很小的 0.1的 bias 你没考虑,那你算 p value有什么意义?
当 sample 数只有 25 个, 同样的 p value 大概对应 sample mean difference 1.1,
这时候 0.1 的测量误差就无所谓了。数字可能记得不对,意思在那儿。
说到底,hypothesis testing 就是个 decision making process under
uncertainties, 看你需要的是什么了。
我其实觉得这种 H0: x = x_0 的 null hypothesis 很不靠谱, 也就是我之前说的太
强了。 我们一般用 |x-x_0|
confidence level 的选择不是统计上的考虑,而是实际的需求了, 譬如系统就是这么
设计的,超出了就要做 maintenance 就要花钱。 生物上的具体考虑我就不清楚了。
uncertainty
【在 K****n 的大作中提到】 : 我这一辈子还是头一回过“null hypothesis太强了”的日子呢,“参数组控制的再好 : ”,也能查出来不同这个事情对我来说真是有点儿shock,我以前的直觉是,从10亿只 : 果蝇里,随机取1亿只果蝇,随机再取1亿只果蝇,这两组的翅膀长度肯定不是 : statistically different的。大家真诚滴说,上帝也不会发现这个model uncertainty : 吧。如今真是毁三观啊。 : statistical power这个我总算明白了。 : 如果样本很大的情况,有没有null hypothesis不强的选法? : : type
|
c*****n 发帖数: 46 | 28 还是你的例子,假设所有十亿果蝇翅膀长度独立同分布,选取也是绝对随机。当测量的
个数到一亿只这个数量级的时候,影响你判断结果的绝对是测量的稳定性了。前面一亿
只你测的, 后面一亿只你同事测的, significance level 取 0.05 的话,结果基本
上就会是 significantly different。但是这不是果蝇翅膀长度的有差别,是你和你同事
之间的差别。
uncertainty
【在 K****n 的大作中提到】 : 我这一辈子还是头一回过“null hypothesis太强了”的日子呢,“参数组控制的再好 : ”,也能查出来不同这个事情对我来说真是有点儿shock,我以前的直觉是,从10亿只 : 果蝇里,随机取1亿只果蝇,随机再取1亿只果蝇,这两组的翅膀长度肯定不是 : statistically different的。大家真诚滴说,上帝也不会发现这个model uncertainty : 吧。如今真是毁三观啊。 : statistical power这个我总算明白了。 : 如果样本很大的情况,有没有null hypothesis不强的选法? : : type
|
n******7 发帖数: 12463 | 29 原来你也是做实验的人啊
我觉得随机背景的设置很关键,绝大部分时候,都不是很完美,所以pv小很正常
另外,effect size也很重要,类似于differential expression分析,pv再小,fold
change很小也没啥意义
【在 K****n 的大作中提到】 : 以前苦逼做生物实验,都是苦恼为啥不significantly different,算statistical : power的时候都是感叹,靠,还要多做那么多个实验才能出结果。 : 最近被逼研究啥big data,泥马随机搞点儿数据就significantly different,从公式 : 角度倒是很好理解,但是还是觉得奇怪,搜索了一下,原来也是有人苦恼数据太多的。 : 真是天上地下啊。
|
n******7 发帖数: 12463 | 30 很明白的例子,thanks
感觉这个e的选择,就根据measurement uncertainty 来就好?
sample,
1,
【在 c*****n 的大作中提到】 : 随便举个例子吧。测试两个单位方差的正态分布是否均值一致, 各取 1e4 个 sample, : sample mean 的差别大概 0.06 左右就p value 就 0.05 了吧。假设现在有一边的测 : 量值有个很小的 0.1的 bias 你没考虑,那你算 p value有什么意义? : 当 sample 数只有 25 个, 同样的 p value 大概对应 sample mean difference 1.1, : 这时候 0.1 的测量误差就无所谓了。数字可能记得不对,意思在那儿。 : 说到底,hypothesis testing 就是个 decision making process under : uncertainties, 看你需要的是什么了。 : 我其实觉得这种 H0: x = x_0 的 null hypothesis 很不靠谱, 也就是我之前说的太 : 强了。 我们一般用 |x-x_0|: confidence level 的选择不是统计上的考虑,而是实际的需求了, 譬如系统就是这么
|
|
|
l***y 发帖数: 4671 | 31 赞一个。
另外,statistical significance 并不意味着真正的生物意义上的重要性。这只是在
做结论时的一个必要条件而已。
type
【在 c*****n 的大作中提到】 : significance level 和 p value 对应的是type I error,也就是 incorrect : rejection when null hypothesis is true. 如果样本数很大的话,是很容易得到非常 : 小的 p value. 原因很简单, 你们的 null hypothesis 太强了。 两组样本完全一致 : ? 即使参考组控制的再好,这也是不可能的。大样本下,不考虑测量误差和模型误差 : ,p value 基本没有意义。 : 另外,statistical power 对应的是type II error, failure in rejecting false : null hypothesis 吧? 同样的样本数做测试,significance level 取的越小, type : I error 的概率变小,但是 type II error 的概率会同时变大。两者之间是要权衡一 : 下的。 : 我有认识的实验室做生物的,看他们用统计用的,很无语啊。
|
l***y 发帖数: 4671 | 32 理想的情况是,统计是做任何 research 的基础,必须人人过关。
还见到很多专门学统计学的人,对如何搞证明听清楚的,却不知道该如何正确使用统计
工具。统计学和统计真是两码事啊。
真心觉得统计课应当作为各学校的必修课啊。
【在 e*******o 的大作中提到】 : 理想的状况是,生物的搞生物,统计的搞统计。主要是一般的实验室请不起, : Statistician, 生物的只好两者都搞。
|
M*P 发帖数: 6456 | 33 你确定你说的这个跟一般的confident interval 有区别?
sample,
1,
★ 发自iPhone App: ChineseWeb 7.8
【在 c*****n 的大作中提到】 : 随便举个例子吧。测试两个单位方差的正态分布是否均值一致, 各取 1e4 个 sample, : sample mean 的差别大概 0.06 左右就p value 就 0.05 了吧。假设现在有一边的测 : 量值有个很小的 0.1的 bias 你没考虑,那你算 p value有什么意义? : 当 sample 数只有 25 个, 同样的 p value 大概对应 sample mean difference 1.1, : 这时候 0.1 的测量误差就无所谓了。数字可能记得不对,意思在那儿。 : 说到底,hypothesis testing 就是个 decision making process under : uncertainties, 看你需要的是什么了。 : 我其实觉得这种 H0: x = x_0 的 null hypothesis 很不靠谱, 也就是我之前说的太 : 强了。 我们一般用 |x-x_0|: confidence level 的选择不是统计上的考虑,而是实际的需求了, 譬如系统就是这么
|
e*******o 发帖数: 4654 | 34 我那个说法有为生物的推脱的嫌疑。
我自己也是这么做的。统计貌似是必修课,不过学了,我也是一团浆糊。只会几个方法。
生物的PHD 应该强制修个统计,或者CS 的master,有了master 才给qualify。这样从
业者的水准会提高,那些不想搞下去的也有些活路。
【在 l***y 的大作中提到】 : 理想的情况是,统计是做任何 research 的基础,必须人人过关。 : 还见到很多专门学统计学的人,对如何搞证明听清楚的,却不知道该如何正确使用统计 : 工具。统计学和统计真是两码事啊。 : 真心觉得统计课应当作为各学校的必修课啊。
|
e*******o 发帖数: 4654 | 35 一样的。H0: x = x_0 的 null hypothesis,有双边和单边之分。双边就是你说的|x-x
_0|
有时候双边对我们没意义,比如我们测某种药,我们需要证明他的效果比control 好。
我们要的是 |x-x_0|> e with confidence xx%。恰好想反。如果没区别,实验有时候
基本白做了。 |
c*****n 发帖数: 46 | 36 对啊,p value 和 confidence level 本来就是可以互相转换的。主要是计算他们的值
的时候,各种uncertainties 是否考虑周全了。 个人偏向于用 confidence interval,
也就是相当与弱一点的null hypothesis, 觉得解释起来方便一点,而且也方便于和
Bayesian 的那一堆结果比较。
-x
【在 e*******o 的大作中提到】 : 一样的。H0: x = x_0 的 null hypothesis,有双边和单边之分。双边就是你说的|x-x : _0|: 有时候双边对我们没意义,比如我们测某种药,我们需要证明他的效果比control 好。 : 我们要的是 |x-x_0|> e with confidence xx%。恰好想反。如果没区别,实验有时候 : 基本白做了。
|
K****n 发帖数: 5970 | 37 |x-x_0|
xx_0-e
我昨天还在想怎么算联合分布
interval,
【在 c*****n 的大作中提到】 : 对啊,p value 和 confidence level 本来就是可以互相转换的。主要是计算他们的值 : 的时候,各种uncertainties 是否考虑周全了。 个人偏向于用 confidence interval, : 也就是相当与弱一点的null hypothesis, 觉得解释起来方便一点,而且也方便于和 : Bayesian 的那一堆结果比较。 : : -x
|
K****n 发帖数: 5970 | 38 review了一番effect size,ms大多是看standard deviation不看standard error,这
实在是甚和我意。
【在 n******7 的大作中提到】 : 原来你也是做实验的人啊 : 我觉得随机背景的设置很关键,绝大部分时候,都不是很完美,所以pv小很正常 : 另外,effect size也很重要,类似于differential expression分析,pv再小,fold : change很小也没啥意义
|
K****n 发帖数: 5970 | 39 生物phd将来自己做波士研发新药,专治,疑难杂症。手下一个女秘书,两个
statistician,三个coder。
法。
【在 e*******o 的大作中提到】 : 我那个说法有为生物的推脱的嫌疑。 : 我自己也是这么做的。统计貌似是必修课,不过学了,我也是一团浆糊。只会几个方法。 : 生物的PHD 应该强制修个统计,或者CS 的master,有了master 才给qualify。这样从 : 业者的水准会提高,那些不想搞下去的也有些活路。
|
K****n 发帖数: 5970 | 40 o phark, 我brain farting了
这和confidence interval是一样的
【在 K****n 的大作中提到】 : |x-x_0|: xx_0-e : 我昨天还在想怎么算联合分布 : : interval,
|
|
|
e*******o 发帖数: 4654 | 41 Frequency 的方法 和 Bayesian 的方法的差别能归到 model uncertainty 里去?
interval,
【在 c*****n 的大作中提到】 : 对啊,p value 和 confidence level 本来就是可以互相转换的。主要是计算他们的值 : 的时候,各种uncertainties 是否考虑周全了。 个人偏向于用 confidence interval, : 也就是相当与弱一点的null hypothesis, 觉得解释起来方便一点,而且也方便于和 : Bayesian 的那一堆结果比较。 : : -x
|
e*******o 发帖数: 4654 | 42 一个女秘书就好了,其它的都好说。
-wsn
【在 K****n 的大作中提到】 : 生物phd将来自己做波士研发新药,专治,疑难杂症。手下一个女秘书,两个 : statistician,三个coder。 : : 法。
|
b******3 发帖数: 377 | 43 听君一席话,胜读十年书啊!
type
【在 c*****n 的大作中提到】 : significance level 和 p value 对应的是type I error,也就是 incorrect : rejection when null hypothesis is true. 如果样本数很大的话,是很容易得到非常 : 小的 p value. 原因很简单, 你们的 null hypothesis 太强了。 两组样本完全一致 : ? 即使参考组控制的再好,这也是不可能的。大样本下,不考虑测量误差和模型误差 : ,p value 基本没有意义。 : 另外,statistical power 对应的是type II error, failure in rejecting false : null hypothesis 吧? 同样的样本数做测试,significance level 取的越小, type : I error 的概率变小,但是 type II error 的概率会同时变大。两者之间是要权衡一 : 下的。 : 我有认识的实验室做生物的,看他们用统计用的,很无语啊。
|