问题请教: 如果样本数量是3, 怎么做test? - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 问题请教: 如果样本数量是3, 怎么做test?

相关主题
● 弱问一个概念	● 几个面试问题
● 恭请luckyjet (tejykcul)回答二个问题	● 有没有可根据已采样本结果动态地调整样本量的方法
● longitudinal的data，missing data 一般都怎么处理？	● 请问如何处理RCBD 中 missing data.小样本
● 请问：bootstrap的应用范围	● [合集] SAS里如何实现LOCF(LAST OBS CARRIED FORWARD)?
● 弱问，为啥取了log之后得到相反结论	● LOCF怎么念呀？
● "Missing data" "intent-to-treat" "repeated measure"	● CRO SAS Interview questions
● missing data imputation	● 在 pharma 做编程的一点点小总结
● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子	● SAS QUESTION:how to capture the last nonmissing observation?

相关话题的讨论汇总
话题: auc话题: 样本话题: missing话题: test话题: animal

进入Statistics版参与讨论

(共1页)

j*******g
发帖数: 2140

3个animal,两组treatment,veh and compound, 第一天每个animal上都分别放了veh,
第二天是wash time; 第3天每个animal上放compound. 然后有每隔两个小时测的数据.
其中还有不少是missing的. 现在要看,veh 和 compound表现同不同.
问题时,只有3个animal阿..
请大家看看该怎么做..多谢.

h****s
发帖数: 16779

可以用t test比一下AUC

T*******I
发帖数: 5138

仅有三个观察对象，用什么方法都很难给出有效的检验结果，即使AUC也不行，
因为我们很难从如此小的样本量得出变异的统计规律。当然，如果你将三个对象的
AUC之间的差异看成是确定性的，那就另当别论了。
这样说不是说就不可给出一个统计结论。对于如此小的样本，直接陈述观察结
果就可以了，无需检验。如果你非要检验不可，尽管在检验的数学计算上没有困难，
但在统计学的逻辑解释上几乎没有意义，因为你的检验结论将直接被你的过小样本量
所怀疑或否定而不是得到证实。

【在 j*******g 的大作中提到】

: 3个animal,两组treatment,veh and compound, 第一天每个animal上都分别放了veh,
: 第二天是wash time; 第3天每个animal上放compound. 然后有每隔两个小时测的数据.
: 其中还有不少是missing的. 现在要看,veh 和 compound表现同不同.
: 问题时,只有3个animal阿..
: 请大家看看该怎么做..多谢.

j*******g
发帖数: 2140

关键是，正是因为样本少，由观察得到的结果就不是很可信。
好的地方是，VEH和COMPOUND差得实在很多。
还有一些地方有MISSING，我在想能不能估计出来。

【在 T*******I 的大作中提到】

: 仅有三个观察对象，用什么方法都很难给出有效的检验结果，即使AUC也不行，
: 因为我们很难从如此小的样本量得出变异的统计规律。当然，如果你将三个对象的
: AUC之间的差异看成是确定性的，那就另当别论了。
: 这样说不是说就不可给出一个统计结论。对于如此小的样本，直接陈述观察结
: 果就可以了，无需检验。如果你非要检验不可，尽管在检验的数学计算上没有困难，
: 但在统计学的逻辑解释上几乎没有意义，因为你的检验结论将直接被你的过小样本量
: 所怀疑或否定而不是得到证实。

s*****r
发帖数: 790

You have three animals but for each animal you have multiple observations, w
hich means your estimates can be improved with multiple observations. The qu
estion is the generalizability. Your conclusion may not be generalized to a
broader population.

【在 j*******g 的大作中提到】

: 关键是，正是因为样本少，由观察得到的结果就不是很可信。
: 好的地方是，VEH和COMPOUND差得实在很多。
: 还有一些地方有MISSING，我在想能不能估计出来。

T*******I
发帖数: 5138

样本量如此小，还有missing values，一切都完了。只能说你的这个实验在统计上
完全失败。已经没有什么可做的了。
当然，你如果想靠自己的数学知识来估计并填补missing values，这就只能说你多
少有点神性了。建议你还是放弃吧。
我就不明白，对仅有的三个实验动物在不同时间点上的观察和测量怎么会有missing
values产生？是仪器出了问题？还是你错过了时间？或是根本就测不到结果？

【在 j*******g 的大作中提到】

j*******g
发帖数: 2140

这些scientists自己设计,自己测量,自己运算分析. 如果发现有问题了,再来找我们.
我知道怎么去给他们说了.
不管怎样,多谢讨论.

missing

【在 T*******I 的大作中提到】

: 样本量如此小，还有missing values，一切都完了。只能说你的这个实验在统计上
: 完全失败。已经没有什么可做的了。
: 当然，你如果想靠自己的数学知识来估计并填补missing values，这就只能说你多
: 少有点神性了。建议你还是放弃吧。
: 我就不明白，对仅有的三个实验动物在不同时间点上的观察和测量怎么会有missing
: values产生？是仪器出了问题？还是你错过了时间？或是根本就测不到结果？

j*******g
发帖数: 2140

我刚开始也是这么想的,后来觉得虽然无法估计(因为他测量的东西不是血压,等等),但
是前后数据其实可以相互解释.
多谢.

w
qu
a

【在 s*****r 的大作中提到】

: You have three animals but for each animal you have multiple observations, w
: hich means your estimates can be improved with multiple observations. The qu
: estion is the generalizability. Your conclusion may not be generalized to a
: broader population.

z**k
发帖数: 378

sigh，虽然不想这么说，不过统计用在这样的dataset上基本就是招摇撞骗。。。

【在 j*******g 的大作中提到】

: 我刚开始也是这么想的,后来觉得虽然无法估计(因为他测量的东西不是血压,等等),但
: 是前后数据其实可以相互解释.
: 多谢.
:
: w
: qu
: a

D******n
发帖数: 2836

just plot the data, i guess it really depends how the trend looks like.

【在 z**k 的大作中提到】

: sigh，虽然不想这么说，不过统计用在这样的dataset上基本就是招摇撞骗。。。

相关主题
● "Missing data" "intent-to-treat" "repeated measure"	● 几个面试问题
● missing data imputation	● 有没有可根据已采样本结果动态地调整样本量的方法
● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子	● 请问如何处理RCBD 中 missing data.小样本
进入Statistics版参与讨论

s*r
发帖数: 2757

people did microarray experiments with 3 replications all the time.

h****s
发帖数: 16779

这也没办法，做实验的也知道做300个好，可是太贵了啊，3个怕都over budget了
见过一个三只羊的实验，养一只一年的花费是5万美元，做这个实验得半年。

【在 z**k 的大作中提到】

: sigh，虽然不想这么说，不过统计用在这样的dataset上基本就是招摇撞骗。。。

P****D
发帖数: 11146

How strongly are his 前后数据 correlated?

【在 j*******g 的大作中提到】

: 我刚开始也是这么想的,后来觉得虽然无法估计(因为他测量的东西不是血压,等等),但
: 是前后数据其实可以相互解释.
: 多谢.
:
: w
: qu
: a

h******e
发帖数: 10

你可以试一下 linear mixed effect model.

【在 j*******g 的大作中提到】

s*****r
发帖数: 790

in this case, you may be able to get something more if you can model with
the correlation.

【在 j*******g 的大作中提到】

: 我刚开始也是这么想的,后来觉得虽然无法估计(因为他测量的东西不是血压,等等),但
: 是前后数据其实可以相互解释.
: 多谢.
:
: w
: qu
: a

z**k
发帖数: 378

其实我会更愿意写一个essay

【在 h****s 的大作中提到】

: 这也没办法，做实验的也知道做300个好，可是太贵了啊，3个怕都over budget了
: 见过一个三只羊的实验，养一只一年的花费是5万美元，做这个实验得半年。

h****s
发帖数: 16779

LMM with sample size 3 may not be a good option.

【在 h******e 的大作中提到】

: 你可以试一下 linear mixed effect model.

w***e
发帖数: 269

I am a biologist, not a statistician. What biology people would do in this
situation is pairwise t-test using the data from the timepoints where both
groups (vhe and drug) are available. T-test of AUC is another option.
Statisticians may not approve this, but if this paper is going to be
published in a biology journal, you know what they say, when in Rome, do as
the Romans do.

P****D
发帖数: 11146

Unfortunately, "biology journal" reviewers now know more and more about
statistics. Last time someone came to my boss and myself with some data from
a completely-fucked-up experiment and asked us to analyze them, because her
reviewers were not satisfied with those t-test results she reported in her
manuscript. Big headache...

【在 w***e 的大作中提到】

: I am a biologist, not a statistician. What biology people would do in this
: situation is pairwise t-test using the data from the timepoints where both
: groups (vhe and drug) are available. T-test of AUC is another option.
: Statisticians may not approve this, but if this paper is going to be
: published in a biology journal, you know what they say, when in Rome, do as
: the Romans do.

T*******I
发帖数: 5138

无论你在那个领域，统计的基本原则和方法是一致的和严谨的。
本LZ提出的问题可以说在统计学上无解。

both
as

【在 w***e 的大作中提到】

相关主题
● [合集] SAS里如何实现LOCF(LAST OBS CARRIED FORWARD)?	● 在 pharma 做编程的一点点小总结
● LOCF怎么念呀？	● SAS QUESTION:how to capture the last nonmissing observation?
● CRO SAS Interview questions	● 急，ENTRY LEVEL SAS PROGRAMER明天On-site，需要注意什么啊
进入Statistics版参与讨论

j*******g
发帖数: 2140

我发现他的数据,在某个时间点上,的确是非常显著. 后来我用他的mean, std, 和 size
=3, 去估计power, 得到90%. 这个难道不是说明,在这样一个小样本情况下, 还是能拿
到比较显著的差异?

【在 T*******I 的大作中提到】

: 无论你在那个领域，统计的基本原则和方法是一致的和严谨的。
: 本LZ提出的问题可以说在统计学上无解。
:
: both
: as

T*******I
发帖数: 5138

你这样的说法无疑表明你将每个样品的两种处理之间的差异看成是确定性的了。
我已经说过了，对如此小的样本量做检验没有意义，无论你的实际数据给了你怎样的结
果（诸如power，P value, etc.）。须知，统计检验的基础是在充分大量的样本观察的
基础上对变异性导致的随机误差发生可能性的检验。仅有三个样本，你怎么能得到充分
的变异性观察？没有这样的观察，怎么能判断随机误差发生的可能性？几乎不可能。

size

【在 j*******g 的大作中提到】

: 我发现他的数据,在某个时间点上,的确是非常显著. 后来我用他的mean, std, 和 size
: =3, 去估计power, 得到90%. 这个难道不是说明,在这样一个小样本情况下, 还是能拿
: 到比较显著的差异?

j*******g
发帖数: 2140

是啊。话是这么说。但是很多时候，做实验的就只有3条狗，3个猴子。。
最少要多大样本？5个？6个？

【在 T*******I 的大作中提到】

: 你这样的说法无疑表明你将每个样品的两种处理之间的差异看成是确定性的了。
: 我已经说过了，对如此小的样本量做检验没有意义，无论你的实际数据给了你怎样的结
: 果（诸如power，P value, etc.）。须知，统计检验的基础是在充分大量的样本观察的
: 基础上对变异性导致的随机误差发生可能性的检验。仅有三个样本，你怎么能得到充分
: 的变异性观察？没有这样的观察，怎么能判断随机误差发生的可能性？几乎不可能。
:
: size

T*******I
发帖数: 5138

如果实验条件控制得很好，试验动物的种属、出生时间、喂养方式、成长环境等非实
验因素可以得到一致性保证，那么，在一个预试验中5~8例应该是最低要求了。

【在 j*******g 的大作中提到】

: 是啊。话是这么说。但是很多时候，做实验的就只有3条狗，3个猴子。。
: 最少要多大样本？5个？6个？

c**********e
发帖数: 2007

I am surprised to see that so many people think they know statistics, but
they can not do a statistics test in a real world problem.
There are several tests can be done. One is to use 2-way anova, which is
equivalent to pairwised t-test of the difference. Proc mixed can be used as
well.
The variable can be an AUC, or a half-life, 30%-life, or a fixed time
measurements, such as observations at 12 hour.
Missing values will not cause big problems. You can use LOCF for fixed time
value, and linear i

T*******I
发帖数: 5138

I don't agree with you.
The missing values are a big problem for such a small sample, because the
missing values means you don't know them. If you try to use a mathematical
technique to estimate them, it means you take a certain assumption to fix
the problem, which will cause a bigger problem in your result.

time

【在 c**********e 的大作中提到】

: I am surprised to see that so many people think they know statistics, but
: they can not do a statistics test in a real world problem.
: There are several tests can be done. One is to use 2-way anova, which is
: equivalent to pairwised t-test of the difference. Proc mixed can be used as
: well.
: The variable can be an AUC, or a half-life, 30%-life, or a fixed time
: measurements, such as observations at 12 hour.
: Missing values will not cause big problems. You can use LOCF for fixed time
: value, and linear i

l*********s
发帖数: 5409

Your view is too dogmatic.

【在 T*******I 的大作中提到】

: I don't agree with you.
: The missing values are a big problem for such a small sample, because the
: missing values means you don't know them. If you try to use a mathematical
: technique to estimate them, it means you take a certain assumption to fix
: the problem, which will cause a bigger problem in your result.
:
: time

T*******I
发帖数: 5138

可否请你说明你的理由？
我的观点的统计学基础是：三个观察对象，每个时点上只有三个观察值，任何一个或两
个缺省了，你将没有任何基础来估计它们。而所谓的估计也就是一个数学的函数转换关
系，而任何数学的函数转换就是试图用一个确定性的假设来估计一个非确定性的随机事
件！这种行为本身从认识论的逻辑来说是荒谬的。
我知道在很多流行的统计算法甚至成熟的统计软件中都有对missing values的估计和填
补以便尽可能地使用全部观察对象。我对这种做法持审慎的态度。除非样本量足够大，
且缺省值的个数占总数的比例尽可能地小，例如小于5%，否则，不能滥用估计法。例如
LZ提到的样本，三个样本中任意缺少一个，缺省值的比例将高达33%以上。
另外，为了阐明你的理由，请你顺便谈谈你对missing value的理解。

【在 l*********s 的大作中提到】

: Your view is too dogmatic.

j*******g
发帖数: 2140

thanks. Several People mentione AUC here? Why using AUC? what is the
advantage of using AUC for this type of problem?

as
time

【在 c**********e 的大作中提到】

M******C
发帖数: 623

现在还没有开始学统计
我以前的实验发生过类似的现象：不过我都取同一生长条件下，外部因素一致，反正就
是让样本的控制条件都一样，只取3个样本（没办法样本多了，累死我）来记录反应。
好像目前都没有人质疑，不过不懂太多统计知识，就感觉样本越多越完善。

相关主题
● 求助一个SAS的问题	● 恭请luckyjet (tejykcul)回答二个问题
● 再来请教，在SAS中如何得到下面的结果？	● longitudinal的data，missing data 一般都怎么处理？
● 弱问一个概念	● 请问：bootstrap的应用范围
进入Statistics版参与讨论

o***o
发帖数: 43

Missing value是可以用数据之间相关性来估计的。这种貌似时间序列的数据应该会有
比较强的
trend,用interpolation来填空未尝不可。何况如果是用来估计AUC，本身就已经是个近
似，就像曲线
积分一样。
我的观点，只要是数据，不管数量多少，就会含有信息量。The important thing is
how to
appropriately make inference based on the data. 楼主的这个问题，如果
frequentist的
方法不够信服，或许可以考虑Bayesian的方法。
理论和应用总是有差别的。比如，样本未必是越多越好。对于假设检验来说, 如果样本
太多，即使两个
总体没差别也能得到显著的结果。对样本量的需要，一个很大的原因是很多检验是基于
正态分布，只有当
样本足够大的时候，统计量（比如sample mean）才近似正态。从逻辑上讲，这并非是
说小样本的数据
就不能做假设检验。这只是说明，如果你的数据很不normal而且样本量很小，那么t-
test的power会
很小。

【在 T*******I 的大作中提到】

: 可否请你说明你的理由？
: 我的观点的统计学基础是：三个观察对象，每个时点上只有三个观察值，任何一个或两
: 个缺省了，你将没有任何基础来估计它们。而所谓的估计也就是一个数学的函数转换关
: 系，而任何数学的函数转换就是试图用一个确定性的假设来估计一个非确定性的随机事
: 件！这种行为本身从认识论的逻辑来说是荒谬的。
: 我知道在很多流行的统计算法甚至成熟的统计软件中都有对missing values的估计和填
: 补以便尽可能地使用全部观察对象。我对这种做法持审慎的态度。除非样本量足够大，
: 且缺省值的个数占总数的比例尽可能地小，例如小于5%，否则，不能滥用估计法。例如
: LZ提到的样本，三个样本中任意缺少一个，缺省值的比例将高达33%以上。
: 另外，为了阐明你的理由，请你顺便谈谈你对missing value的理解。

T*******I
发帖数: 5138

你的观点中渗透着深刻的数学理性原则。然而很遗憾，统计学从一开始就不是从肯定和
接受已有的数学理性原则为基础的；恰恰相反，它是从怀疑数学理性开始的。它的基础
是对客观现实的经验观察，以便将一切知识建立在这种经验观察之上而非既有的数学理
性之上！如果数学的理性可以为统计学所用，那么，对任何总体的观察需且只需两例即
可，因为按照数学理性，两点可确立一条直线，由这条直线便可以得到该总体中的一切
点的估计，因此，三个样本量已经过多了，会带来令数学家们烦恼不已的“noise = 噪
声”。
这无疑是荒唐的！
用样本来描述总体的分布特征是统计学的唯一使命，而总体的无限性、可测性和随机可
变性等将令一切现有的数学理性原则顿失光芒，由此人类对随机世界的认识将进入无法
穷尽的可能性而变得终极困惑。为了超越这种终极的困惑，人们想出了统计学的逻辑与
方法。这是迄今为止人类认知理性能够达到的终极高度。
Bayesian方法从本质上来说是一种先验理性的方法，但不是经验理性的方法。先验理性
方法存在着一个根本缺陷，即最终结果中含有“主观”的假定前提，而这个主观的假定
前提没有任何经验事实为依据。
人类认识世界的两个

【在 o***o 的大作中提到】

: Missing value是可以用数据之间相关性来估计的。这种貌似时间序列的数据应该会有
: 比较强的
: trend,用interpolation来填空未尝不可。何况如果是用来估计AUC，本身就已经是个近
: 似，就像曲线
: 积分一样。
: 我的观点，只要是数据，不管数量多少，就会含有信息量。The important thing is
: how to
: appropriately make inference based on the data. 楼主的这个问题，如果
: frequentist的
: 方法不够信服，或许可以考虑Bayesian的方法。

o***o
发帖数: 43

不知所云。如果数学理性是你所描述的那样，数学家都要吐血了。两点能决定一条直线
，前提是你知道那
是一条直线。哪个数学家会测两点就决定两个变量之间是一个确定的直线关系？如果真
是个直线，搞个
linear regression可以啊，点少点没太大关系，只要你除了point estimates同时提供
confidence interval就行了。关键是怎样make inference.
有个物理学家曾经说过，If your experiment needs statistics, you ought to have
done
a better experiment。这个观点好像和楼主有点相似之处。可是，恰恰是因为现实中
实验条件不允
许，取样不够多，种种制约因素，才有了统计的用武之地。大样本当然好，有了大样本
一个CLT就搞定
了,可是这现实吗。就我理解，statistics is about how to identify and summarize
certainty of uncertainty。小样本一样可以有inference, 你只要别忘了报告你结果
中的不确定
性就行了。楼

【在 T*******I 的大作中提到】

: 你的观点中渗透着深刻的数学理性原则。然而很遗憾，统计学从一开始就不是从肯定和
: 接受已有的数学理性原则为基础的；恰恰相反，它是从怀疑数学理性开始的。它的基础
: 是对客观现实的经验观察，以便将一切知识建立在这种经验观察之上而非既有的数学理
: 性之上！如果数学的理性可以为统计学所用，那么，对任何总体的观察需且只需两例即
: 可，因为按照数学理性，两点可确立一条直线，由这条直线便可以得到该总体中的一切
: 点的估计，因此，三个样本量已经过多了，会带来令数学家们烦恼不已的“noise = 噪
: 声”。
: 这无疑是荒唐的！
: 用样本来描述总体的分布特征是统计学的唯一使命，而总体的无限性、可测性和随机可
: 变性等将令一切现有的数学理性原则顿失光芒，由此人类对随机世界的认识将进入无法

(共1页)

进入Statistics版参与讨论

相关主题
● SAS QUESTION:how to capture the last nonmissing observation?	● 弱问，为啥取了log之后得到相反结论
● 急，ENTRY LEVEL SAS PROGRAMER明天On-site，需要注意什么啊	● "Missing data" "intent-to-treat" "repeated measure"
● 求助一个SAS的问题	● missing data imputation
● 再来请教，在SAS中如何得到下面的结果？	● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子
● 弱问一个概念	● 几个面试问题
● 恭请luckyjet (tejykcul)回答二个问题	● 有没有可根据已采样本结果动态地调整样本量的方法
● longitudinal的data，missing data 一般都怎么处理？	● 请问如何处理RCBD 中 missing data.小样本
● 请问：bootstrap的应用范围	● [合集] SAS里如何实现LOCF(LAST OBS CARRIED FORWARD)?

相关话题的讨论汇总
话题: auc话题: 样本话题: missing话题: test话题: animal

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天