求助！多少个data point就足够了？ - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 求助！多少个data point就足够了？

相关主题
● 统计问题请教(spurious correlation)	● 一个统计学的问题，请大家指教
● 有没有可根据已采样本结果动态地调整样本量的方法	● 问个用SAS做Random Sample的问题
● 用什么样的统计方法合适！	● 统计分析问题请教, Baozi question!
● 统计学历史上一个可能的黑白笑话	● 麻烦问高手们一个弱智问题
● [合集] 请教关于ANOVA中df=0的问题	● 有人用过proc power中的logistic statement吗？
● 请问一个生物统计的问题，小样本量的统计检验	● 请教高手 gaussian统计知识一问
● [合集] 问大家一个问题哈	● 讨论一下一个统计问题
● 关于correlate coefficience	● 这样还能算Randomized sample吗

相关话题的讨论汇总
话题: 采样话题: 浓度话题: 污染物话题: 个点话题: sample

进入Statistics版参与讨论

(共1页)

b********i
发帖数: 1252

大家好，
想问这里的高人们一个问题
有一个湖，
需要采几个样来求出湖中一种污染物的浓度
假设是这个湖里面的污染物浓度分布均匀
所以把采的样平均一下就得到湖的浓度
我的问题是需要采多少个样才能足够reliable?
有没有什么guide line?
多谢了

s*****r
发帖数: 790

one is enough since you assume it is even in the entire lake. the accuracy?
if you mean measurement error, you make need to measure several times
depending on your error. If you can measure it accurately, one is enough.
just like I give your a box of sugar bags and tell you they all weight the
same. how many bags do you have to measure to know the weight of each bag?

【在 b********i 的大作中提到】

: 大家好，
: 想问这里的高人们一个问题
: 有一个湖，
: 需要采几个样来求出湖中一种污染物的浓度
: 假设是这个湖里面的污染物浓度分布均匀
: 所以把采的样平均一下就得到湖的浓度
: 我的问题是需要采多少个样才能足够reliable?
: 有没有什么guide line?
: 多谢了

b********i
发帖数: 1252

多谢回复
假如是我已经取了4个点，
我把这4个点的值平均一下，
是不是就可以说这个湖的值是平均值了？
我又什么办法可以证明这4个点太少
所以用平均值代表真个湖不reliable?
现在就是想说4个点不能代表
因为平均值和我的模型结果对不上。。。

?

【在 s*****r 的大作中提到】

: one is enough since you assume it is even in the entire lake. the accuracy?
: if you mean measurement error, you make need to measure several times
: depending on your error. If you can measure it accurately, one is enough.
: just like I give your a box of sugar bags and tell you they all weight the
: same. how many bags do you have to measure to know the weight of each bag?

q*****q
发帖数: 158

这可能就涉及到假设的问题了。你希望得到某些结论，想去论证，你就得考虑power的
问题，用power去确定你的样本量。如果只是要估计一个东西，就没那么复杂了。但是
一般，4个样本的reliability还是太低了吧。你有没有历史数据阿？或者有些其他的
information？

【在 b********i 的大作中提到】

: 多谢回复
: 假如是我已经取了4个点，
: 我把这4个点的值平均一下，
: 是不是就可以说这个湖的值是平均值了？
: 我又什么办法可以证明这4个点太少
: 所以用平均值代表真个湖不reliable?
: 现在就是想说4个点不能代表
: 因为平均值和我的模型结果对不上。。。
:
: ?

s*****r
发帖数: 790

It really depends on your assumption.
I guess you meant to control the accuracy of the estimated mean, 4 points
give you a wide confidence interval. if you want a narrower ci, you can
calculate a suitable sample size. for normal data, the estimate of the mean
and corresponding ci is:
xbar +- Z(1-alpha/2)*sd/sqrt(n)
where xbar is the sample average, Z(1-alpha/2) is the 1-alpha/2 quantile of
standard normal, sd is the standard deviation, and n is the sample size.

【在 b********i 的大作中提到】

b********i
发帖数: 1252

多谢回答
我用10年前的数据（也是平均值）来做模型的初始值
动态模拟水中浓度变化
以前的数据都至少8个点呢
我用现在这4个点的平均值validate这个model
发现模拟的比实测大
我就想忽略这4个点
理由呢就是样本量太少。
请问有什么方法呢
没有其它的信息了

【在 q*****q 的大作中提到】

: 这可能就涉及到假设的问题了。你希望得到某些结论，想去论证，你就得考虑power的
: 问题，用power去确定你的样本量。如果只是要估计一个东西，就没那么复杂了。但是
: 一般，4个样本的reliability还是太低了吧。你有没有历史数据阿？或者有些其他的
: information？

q*****q
发帖数: 158

你的问题大概相当于在test：
H_0: \mu = \mu_0 (这个就是你模型给出的预测)
H_0: \mu != \mu_0
你可以通过power来说明sample size不够。当然其中会涉及到你的underlying
assumptions这类的。
或许对你有点帮助。。。

【在 b********i 的大作中提到】

: 多谢回答
: 我用10年前的数据（也是平均值）来做模型的初始值
: 动态模拟水中浓度变化
: 以前的数据都至少8个点呢
: 我用现在这4个点的平均值validate这个model
: 发现模拟的比实测大
: 我就想忽略这4个点
: 理由呢就是样本量太少。
: 请问有什么方法呢
: 没有其它的信息了

q*****q
发帖数: 158

另外刚才shinder提到那个Confidence interval是基于normal的。一般样本太少，用基
于t distribution的confidence interval, 因为样本少，对于s.d.的估计会比较差。
不过你有历史数据，可以用比较多的历史数据去估计s.d.，仍旧用基于normal的理论。
。。

【在 b********i 的大作中提到】

T*******I
发帖数: 5138

看了你和shinder以及qiqicrq等的讨论。我觉得或许我的思想可以给你一点建议。
如果你的问题集中在测量当前湖中的污染物浓度的准确性（这显然是你最大的目的，至
于历史数据和以往的模型都已成为过去了），那么，你需要从采样、测量和统计分析的
角度来作出估计，而不是从以往的历史数据推出现在的真实情况。因此，解决你的问题
的首要工作是决定采样的方法和sample size。
为此，我们不能事先假定水中的污染物浓度在水体的任何地方都是均匀的，否则，你在
任何一个地方采一次样（一杯水）就足够了。正是由于水体各处的浓度不一致，且随着
水流、新污染物的进入、各处污染物的沉降速度不同，才导致了水体各处的浓度不一致
。因此，你需要一个严谨的采样方法并取得足够数量的sample size。
如果我是你，我会到湖区走一遭，测量一下湖体的面积、周长、不同水区的水深，然后
画出一张草图，以便在这个草图上选定抽样点及其数量（即sample size）。显然，你
不能只在水边采样。一般而言，最低采样数应该不能少于8~10个点，当然，depends on
湖的大小。如果湖面很大，8~10个点是远远不够的。根据随机理论，各采样点的设置应
该均匀地布满湖面并依据各处的水深调整取样深度。
有些人就知道假设假设还是假设，以为现实都是按照他们的假设行事。

【在 b********i 的大作中提到】

q*****q
发帖数: 158

你确定你弄明白我们这里说的假设的意思？
你确定你明白lz的意图了？
你确定你看过上面的讨论？
非常无语！

【在 T*******I 的大作中提到】

: 看了你和shinder以及qiqicrq等的讨论。我觉得或许我的思想可以给你一点建议。
: 如果你的问题集中在测量当前湖中的污染物浓度的准确性（这显然是你最大的目的，至
: 于历史数据和以往的模型都已成为过去了），那么，你需要从采样、测量和统计分析的
: 角度来作出估计，而不是从以往的历史数据推出现在的真实情况。因此，解决你的问题
: 的首要工作是决定采样的方法和sample size。
: 为此，我们不能事先假定水中的污染物浓度在水体的任何地方都是均匀的，否则，你在
: 任何一个地方采一次样（一杯水）就足够了。正是由于水体各处的浓度不一致，且随着
: 水流、新污染物的进入、各处污染物的沉降速度不同，才导致了水体各处的浓度不一致
: 。因此，你需要一个严谨的采样方法并取得足够数量的sample size。
: 如果我是你，我会到湖区走一遭，测量一下湖体的面积、周长、不同水区的水深，然后

相关主题
● 请问一个生物统计的问题，小样本量的统计检验	● 一个统计学的问题，请大家指教
● [合集] 问大家一个问题哈	● 问个用SAS做Random Sample的问题
● 关于correlate coefficience	● 统计分析问题请教, Baozi question!
进入Statistics版参与讨论

T*******I
发帖数: 5138

首先，LZ的第一个假设就不成立：湖水中的浓度是均匀的。
LZ的首要意图是搞清楚湖水中的浓度，至于采样结果的reliability，那是事后才发生
的事情，属于一个伴生问题，而非首要意图。
作为一个搞统计的，任何时候首先要告诉非统计人员的是如何获得有效的样本，然后才
能讨论其它。
我想顺便问问你，你有过亲自的现场调查经历吗？还是一辈子坐在自己的办公室里空想
统计？

【在 q*****q 的大作中提到】

: 你确定你弄明白我们这里说的假设的意思？
: 你确定你明白lz的意图了？
: 你确定你看过上面的讨论？
: 非常无语！

d*******e
发帖数: 1649

wow
已经走火入魔了，求大家放他一马吧。

【在 T*******I 的大作中提到】

: 首先，LZ的第一个假设就不成立：湖水中的浓度是均匀的。
: LZ的首要意图是搞清楚湖水中的浓度，至于采样结果的reliability，那是事后才发生
: 的事情，属于一个伴生问题，而非首要意图。
: 作为一个搞统计的，任何时候首先要告诉非统计人员的是如何获得有效的样本，然后才
: 能讨论其它。
: 我想顺便问问你，你有过亲自的现场调查经历吗？还是一辈子坐在自己的办公室里空想
: 统计？

q*****q
发帖数: 158

不好意思，我还真有现场调查经历。你连人家的需求以及大家的建议这么简简单单的几
个帖子都调查不出来，还这么好为人师，真是有失大师在银河系统计学界的地位。。。
不说了，我没大家那么有耐心。

【在 T*******I 的大作中提到】

T*******I
发帖数: 5138

既然你有过现场调查的经历，你不觉得LZ问的reliability与一个优良的抽样方法有关
吗？难道仅仅与sample size有关？因为她/他问了是否有Guide line。

【在 q*****q 的大作中提到】

: 不好意思，我还真有现场调查经历。你连人家的需求以及大家的建议这么简简单单的几
: 个帖子都调查不出来，还这么好为人师，真是有失大师在银河系统计学界的地位。。。
: 不说了，我没大家那么有耐心。

A*******s
发帖数: 3942

老陈在版上的最大危害就是好为人师。不仅是统计，我记得很久之前老陈还很积极回答
sas问题。有次有人问了一个有点tricky的data merge，老陈给出的答案是读入dataset
A，然后一行一行地用if then condition手动输入dataset B。太叹为观止了...

【在 q*****q 的大作中提到】

s*****r
发帖数: 790

这是划时代的SASer。

dataset

【在 A*******s 的大作中提到】

: 老陈在版上的最大危害就是好为人师。不仅是统计，我记得很久之前老陈还很积极回答
: sas问题。有次有人问了一个有点tricky的data merge，老陈给出的答案是读入dataset
: A，然后一行一行地用if then condition手动输入dataset B。太叹为观止了...

q*****q
发帖数: 158

建议你再看一遍lz想要做什么！

【在 T*******I 的大作中提到】

: 既然你有过现场调查的经历，你不觉得LZ问的reliability与一个优良的抽样方法有关
: 吗？难道仅仅与sample size有关？因为她/他问了是否有Guide line。

q*****q
发帖数: 158

哈哈哈哈，大家得理解大师，大师能够看懂的问题不太多，那还不得在看得懂的问题上
好歹给个答案。。。

dataset

【在 A*******s 的大作中提到】

T*******I
发帖数: 5138

我想我看了。请允许我将原文简单重组一下：
假设这个湖里面的污染物浓度是均匀分布的，然后采几个样来求出湖中一种污染物的浓
度（注：这个假设与多点采样是矛盾的），方法是把采的样平均一下就得到所要的湖水
污染物的浓度。他的问题是需要采多少个样才能足够reliable? 有没有什么guide line?
你用power回答他/她是有道理的，但也是片面的。我建议他首先了解现场并由此设计一
个优良的采样方案，这样可以最大限度地减少样本量。这也没错啊。采样方法不好，也
就是随机性处理的不够好。而要想保证power，必须首先保证采样的随机性足够的好，
从而采样的方法才能达到足够好。在此情况下，power才能帮助决定sample size。
在湖水这样的环境里采样与在人群里采样是两个不同的概念，需要不同的随机化采样设
计。

q*****q
发帖数: 158

好吧，你说的的确是原帖。不过lz的实际问题其实是在6楼！

line?

【在 T*******I 的大作中提到】

: 我想我看了。请允许我将原文简单重组一下：
: 假设这个湖里面的污染物浓度是均匀分布的，然后采几个样来求出湖中一种污染物的浓
: 度（注：这个假设与多点采样是矛盾的），方法是把采的样平均一下就得到所要的湖水
: 污染物的浓度。他的问题是需要采多少个样才能足够reliable? 有没有什么guide line?
: 你用power回答他/她是有道理的，但也是片面的。我建议他首先了解现场并由此设计一
: 个优良的采样方案，这样可以最大限度地减少样本量。这也没错啊。采样方法不好，也
: 就是随机性处理的不够好。而要想保证power，必须首先保证采样的随机性足够的好，
: 从而采样的方法才能达到足够好。在此情况下，power才能帮助决定sample size。
: 在湖水这样的环境里采样与在人群里采样是两个不同的概念，需要不同的随机化采样设
: 计。

T*******I
发帖数: 5138

我做事可能比较较真，因为是搞统计的（当然，搞统计的人也可以很马虎，我也常常这
样）。以下是LZ在第6楼的回帖内容：
“多谢回答。我用10年前的数据（也是平均值）来做模型的初始值，动态模拟水
中浓度变化，以前的数据都至少8个点呢。
我用现在这4个点的平均值validate这个model，发现模拟的比实测大，我就想忽
略这4个点，理由呢就是样本量太少。
请问有什么方法呢。没有其它的信息了。”
从以上内容看，我们可以归纳出他/她所面对的问题：1）可能是模型偏差大？2）可能
是历史数据不好？拟或是3）现在的4点样本不好？那么，有什么办法来达到他/她的目
的呢？
显然，建模型的原始历史数据已经不可能更改，除非他/她能找到另一个更好的模型结
构，那么，或许可以改善validation的结果（但不一定）。因此，他/她的有效解法是
1）仔细评估当前的4点样本的采样设计，完全随机化地增加采样点。但这样做
只能带给她/他一次准确的当前浓度估计。却无法保证此次结果与历史结果的测量一致
性。
2）如果他/她要想保证采样测量的历史一致性，他/她还需要了解以前的采样设
计，最好是采取与以前的采样设计方案，即采样季节的选择、采样点的设定以及样本量
等都要一致，因为湖的物理形态在一定历史时期内是基本不变的，并且水位以及污染物
的进入都有季节性变化的可能。
3）如果评估发现当前4点样本随机性还可以，但用它validate由历史数据构件
的模型时出现较大的偏差，那么，也许是当今污染物的进入确实较以往增大了。如果没
有了进一步的数据信息，就只能报告如此的结果，而完全抛弃当前数据是不恰当的。但
是，如果发现当前采样的随机性很差（与历史采样设计相比照），那么，就给出关于此
点的相关报告。而不能简单地说是由于样本太少的缘故。

【在 q*****q 的大作中提到】

: 好吧，你说的的确是原帖。不过lz的实际问题其实是在6楼！
:
: line?

(共1页)

进入Statistics版参与讨论

相关主题
● 这样还能算Randomized sample吗	● [合集] 请教关于ANOVA中df=0的问题
● 有什么Trend test 可以用在这组数据上呢？	● 请问一个生物统计的问题，小样本量的统计检验
● 菜鸟问个算样本量的问题	● [合集] 问大家一个问题哈
● 请教各位大大	● 关于correlate coefficience
● 统计问题请教(spurious correlation)	● 一个统计学的问题，请大家指教
● 有没有可根据已采样本结果动态地调整样本量的方法	● 问个用SAS做Random Sample的问题
● 用什么样的统计方法合适！	● 统计分析问题请教, Baozi question!
● 统计学历史上一个可能的黑白笑话	● 麻烦问高手们一个弱智问题

相关话题的讨论汇总
话题: 采样话题: 浓度话题: 污染物话题: 个点话题: sample

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天