由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请教一下混合样本分布的问题?(追问一个beta分布的问题)
相关主题
sample distribution的理解讨论个问题,classification 的label 非常不平均
A question on Binomial Distribution一道概率题
how to determine data fit some distribution? thanks知道random process (X+Y) 和 X 的distribution, 如何得到 Y? (转载)
一道概率问题.what is the distribution of a CDF of a random variable which has standard normal distribution?
test count data distribution in SAS一下子脑子转不过来了 (转载)
请教:合并几组bernoulli trial,不同p不同trial number面试题请教?
weighted sum of independent bernoulli关于beta 分布的 conjugate prior
How to test a sample is negative binomial distributionKolmogorov-Smirnov test for discrete distributions
相关话题的讨论汇总
话题: beta话题: 药丸话题: bernoulli话题: 分布
进入Statistics版参与讨论
1 (共1页)
n******7
发帖数: 12463
1
追加了一个beta分布混合的问题,在3楼
谢谢
-------
我不知道用专业语言要怎么说
但是不是mixture distribution
用binomial分布来举个列子
有红蓝两种药丸,有不同的治愈率
我们每次取人数相同的一组病人来测试
如果每组病人按照一定几率随机选择红色或者蓝色药丸,然后所有这组的病人都服用这
种药丸,那么统计数组病人的治愈人数,将是一个mixture distribution
我的问题,如果我把红蓝药丸按照一定比率混合在一起,然后每组中的每个病人随机选
择呢?我感觉最后的结果也是一个binomial distribution,而且参数p是红蓝药丸的各
自的p按照比率加起来的和。不知道对不对?
这个问题有没有一个专门的名字?我觉得这种混合对normal/Bernoulli 这样的
distribution就是mixed normal/Bernoulli distribution,但是对binomial/beta这样
的就不是了。区别在于一类是原始sample测量的distribution,一类是sample set的测
量的distribution。这在统计上有什么专业说法吗?
谢谢
h***i
发帖数: 3844
2
对每个病人,抽药丸是Bernoulli, conditional on 抽到的药丸,还是bernoulli,
X_{i}~bernoulli(p), Y_{i}|X_{i}~Bernoulli(f(X_{i})),
f(X=blue) = p1,
f(X=red) = p2,
你现在要得到的是SUM(Y_{i})
你就把Y的marginal 弄出来,然后sum起来

【在 n******7 的大作中提到】
: 追加了一个beta分布混合的问题,在3楼
: 谢谢
: -------
: 我不知道用专业语言要怎么说
: 但是不是mixture distribution
: 用binomial分布来举个列子
: 有红蓝两种药丸,有不同的治愈率
: 我们每次取人数相同的一组病人来测试
: 如果每组病人按照一定几率随机选择红色或者蓝色药丸,然后所有这组的病人都服用这
: 种药丸,那么统计数组病人的治愈人数,将是一个mixture distribution

n******7
发帖数: 12463
3
谢谢,自学统计,这种推理总是搞不好。
这样的话,最终binomial的p就是p1和p2的weighted sum。而我实际要处理的是个beta
distribution。我统计太差,对参数alpha和beta没有这里的p这样直观的感觉,琢磨不
明白。问题可以描述成这样:
两个药厂分别生产红蓝两种药丸,各自有一定比率的次品。假设红药丸的合格率服从一
个Beta(a_1,b_1)的分布,蓝色药丸合格率服从一个Beta(a_2,b_2)的分布。如果把
两种药丸混合,其中红色占p,那么混合在一起的药丸的合格率如何分布?
我头疼的是这里参数a和b的意义。我看到的都是基于prior probability 来定义的。比
如如果prior是uniform distribution,那就是Beta(1,1),然后测试了一些药丸,发现
有m个有效,n个无效,那么 posterior probability 分布就是Beta(1+m,1+n)。按照这
个prior的话,红药丸测试中有a_1-1个有效,b_1-1个无效;蓝色药丸有a_2-1个有效,
b_2-1个无效。
但是这对混合结果的影响我想不明白。如果只考虑expect value,即红药丸有效率a_1/
(a_1+b_1),蓝药丸有效率a_2/(a_2+b_2),取出任意N个混合后的药丸,有效的有a_mix =
N*(p*a_1/(a_1+b_1) + (1-p)*a_2/(a_2+b_2)),b_mix = N*(p*b_1/(a_1+b_1) +
(1-p)*b_2/(a_2+b_2)),分布就是beta(a_mix,b_mix)
我困惑的是
1. 这样的话,a_1 b_1的具体数值就不必要了,把两个参数同时缩放对结果没影响
2. 最终参数跟N有关,这可以是任意数
我感觉混合后的参数应该是a_mix = p*a_1+(1-p)*a_2, b_mix=p*b_1 + (1-p)*b_2,但
是不知道怎么推倒
哪位大牛指点一下?

【在 h***i 的大作中提到】
: 对每个病人,抽药丸是Bernoulli, conditional on 抽到的药丸,还是bernoulli,
: X_{i}~bernoulli(p), Y_{i}|X_{i}~Bernoulli(f(X_{i})),
: f(X=blue) = p1,
: f(X=red) = p2,
: 你现在要得到的是SUM(Y_{i})
: 你就把Y的marginal 弄出来,然后sum起来

h***i
发帖数: 3844
4
X|T=0 ~ beta(a1, b1)
X|T=1 ~ beta(a2, b2)
P(T=0) = p
P(X <= x) = P(X <= x| T = 0) * P(T = 0) + P(X <= x | T = 1) * P(T = 1)
= CDF_{beta1}(x) * p + CDF_{beta2}(x)(1-p)
so, pdf_{X}(x) = pdf_{beta1}(x) * p + pdf_{beta2}(x)(1-p)

这个最后是beta?

beta

【在 n******7 的大作中提到】
: 谢谢,自学统计,这种推理总是搞不好。
: 这样的话,最终binomial的p就是p1和p2的weighted sum。而我实际要处理的是个beta
: distribution。我统计太差,对参数alpha和beta没有这里的p这样直观的感觉,琢磨不
: 明白。问题可以描述成这样:
: 两个药厂分别生产红蓝两种药丸,各自有一定比率的次品。假设红药丸的合格率服从一
: 个Beta(a_1,b_1)的分布,蓝色药丸合格率服从一个Beta(a_2,b_2)的分布。如果把
: 两种药丸混合,其中红色占p,那么混合在一起的药丸的合格率如何分布?
: 我头疼的是这里参数a和b的意义。我看到的都是基于prior probability 来定义的。比
: 如如果prior是uniform distribution,那就是Beta(1,1),然后测试了一些药丸,发现
: 有m个有效,n个无效,那么 posterior probability 分布就是Beta(1+m,1+n)。按照这

n******7
发帖数: 12463
5
再次感谢。其实一开始我也是这么想的 (不过我直接得到这个pdf关系,不知道是不是
不严谨)这其实就是一个两个beta distribution 的 mixture distribution
后来我觉得这个模型不符合这个问题
我主贴用比较容易理解的binomial distribution也是想说明这个区别
我们把beta distribution看做probability的distribution的话,按照这个mixture的
模型,混就是从不同distribution来的probability,或者说set of trails。但是我们
直接混的是trail本身。我认为是不一样的
举个极端的例子,红药丸合格率服从beta(1000,1),几乎全部合格,蓝药丸合格率服
从beta(1,1000),几乎全部不合格。等比混合之后,我们可以预期混合组的合格率为
一峰值在0.5左右的分布,大概是beta(500,500)这样子的
而按照mixture distribution的模型,这会是一个bimodal的分布,两个峰分别在0和1
附近...

【在 h***i 的大作中提到】
: X|T=0 ~ beta(a1, b1)
: X|T=1 ~ beta(a2, b2)
: P(T=0) = p
: P(X <= x) = P(X <= x| T = 0) * P(T = 0) + P(X <= x | T = 1) * P(T = 1)
: = CDF_{beta1}(x) * p + CDF_{beta2}(x)(1-p)
: so, pdf_{X}(x) = pdf_{beta1}(x) * p + pdf_{beta2}(x)(1-p)
:
: 这个最后是beta?
:
: beta

n******7
发帖数: 12463
6
顶一下,把我的疑问全放到主贴了
求解惑
thanks!
n******7
发帖数: 12463
7
我大致想明白了
这个问题不是mix distribution
而是sum up two random variable
简单的说,两个beta变量的和不再是beta分布,而是个很复杂的东西
1 (共1页)
进入Statistics版参与讨论
相关主题
Kolmogorov-Smirnov test for discrete distributionstest count data distribution in SAS
Binomial distribution: what's p exactly?请教:合并几组bernoulli trial,不同p不同trial number
multinomial distribution: how to derive the covariance of different variableweighted sum of independent bernoulli
大伙儿捧个人场吧How to test a sample is negative binomial distribution
sample distribution的理解讨论个问题,classification 的label 非常不平均
A question on Binomial Distribution一道概率题
how to determine data fit some distribution? thanks知道random process (X+Y) 和 X 的distribution, 如何得到 Y? (转载)
一道概率问题.what is the distribution of a CDF of a random variable which has standard normal distribution?
相关话题的讨论汇总
话题: beta话题: 药丸话题: bernoulli话题: 分布