n******7 发帖数: 12463 | 1 追加了一个beta分布混合的问题,在3楼
谢谢
-------
我不知道用专业语言要怎么说
但是不是mixture distribution
用binomial分布来举个列子
有红蓝两种药丸,有不同的治愈率
我们每次取人数相同的一组病人来测试
如果每组病人按照一定几率随机选择红色或者蓝色药丸,然后所有这组的病人都服用这
种药丸,那么统计数组病人的治愈人数,将是一个mixture distribution
我的问题,如果我把红蓝药丸按照一定比率混合在一起,然后每组中的每个病人随机选
择呢?我感觉最后的结果也是一个binomial distribution,而且参数p是红蓝药丸的各
自的p按照比率加起来的和。不知道对不对?
这个问题有没有一个专门的名字?我觉得这种混合对normal/Bernoulli 这样的
distribution就是mixed normal/Bernoulli distribution,但是对binomial/beta这样
的就不是了。区别在于一类是原始sample测量的distribution,一类是sample set的测
量的distribution。这在统计上有什么专业说法吗?
谢谢 | h***i 发帖数: 3844 | 2 对每个病人,抽药丸是Bernoulli, conditional on 抽到的药丸,还是bernoulli,
X_{i}~bernoulli(p), Y_{i}|X_{i}~Bernoulli(f(X_{i})),
f(X=blue) = p1,
f(X=red) = p2,
你现在要得到的是SUM(Y_{i})
你就把Y的marginal 弄出来,然后sum起来
【在 n******7 的大作中提到】 : 追加了一个beta分布混合的问题,在3楼 : 谢谢 : ------- : 我不知道用专业语言要怎么说 : 但是不是mixture distribution : 用binomial分布来举个列子 : 有红蓝两种药丸,有不同的治愈率 : 我们每次取人数相同的一组病人来测试 : 如果每组病人按照一定几率随机选择红色或者蓝色药丸,然后所有这组的病人都服用这 : 种药丸,那么统计数组病人的治愈人数,将是一个mixture distribution
| n******7 发帖数: 12463 | 3 谢谢,自学统计,这种推理总是搞不好。
这样的话,最终binomial的p就是p1和p2的weighted sum。而我实际要处理的是个beta
distribution。我统计太差,对参数alpha和beta没有这里的p这样直观的感觉,琢磨不
明白。问题可以描述成这样:
两个药厂分别生产红蓝两种药丸,各自有一定比率的次品。假设红药丸的合格率服从一
个Beta(a_1,b_1)的分布,蓝色药丸合格率服从一个Beta(a_2,b_2)的分布。如果把
两种药丸混合,其中红色占p,那么混合在一起的药丸的合格率如何分布?
我头疼的是这里参数a和b的意义。我看到的都是基于prior probability 来定义的。比
如如果prior是uniform distribution,那就是Beta(1,1),然后测试了一些药丸,发现
有m个有效,n个无效,那么 posterior probability 分布就是Beta(1+m,1+n)。按照这
个prior的话,红药丸测试中有a_1-1个有效,b_1-1个无效;蓝色药丸有a_2-1个有效,
b_2-1个无效。
但是这对混合结果的影响我想不明白。如果只考虑expect value,即红药丸有效率a_1/
(a_1+b_1),蓝药丸有效率a_2/(a_2+b_2),取出任意N个混合后的药丸,有效的有a_mix =
N*(p*a_1/(a_1+b_1) + (1-p)*a_2/(a_2+b_2)),b_mix = N*(p*b_1/(a_1+b_1) +
(1-p)*b_2/(a_2+b_2)),分布就是beta(a_mix,b_mix)
我困惑的是
1. 这样的话,a_1 b_1的具体数值就不必要了,把两个参数同时缩放对结果没影响
2. 最终参数跟N有关,这可以是任意数
我感觉混合后的参数应该是a_mix = p*a_1+(1-p)*a_2, b_mix=p*b_1 + (1-p)*b_2,但
是不知道怎么推倒
哪位大牛指点一下?
【在 h***i 的大作中提到】 : 对每个病人,抽药丸是Bernoulli, conditional on 抽到的药丸,还是bernoulli, : X_{i}~bernoulli(p), Y_{i}|X_{i}~Bernoulli(f(X_{i})), : f(X=blue) = p1, : f(X=red) = p2, : 你现在要得到的是SUM(Y_{i}) : 你就把Y的marginal 弄出来,然后sum起来
| h***i 发帖数: 3844 | 4 X|T=0 ~ beta(a1, b1)
X|T=1 ~ beta(a2, b2)
P(T=0) = p
P(X <= x) = P(X <= x| T = 0) * P(T = 0) + P(X <= x | T = 1) * P(T = 1)
= CDF_{beta1}(x) * p + CDF_{beta2}(x)(1-p)
so, pdf_{X}(x) = pdf_{beta1}(x) * p + pdf_{beta2}(x)(1-p)
这个最后是beta?
beta
【在 n******7 的大作中提到】 : 谢谢,自学统计,这种推理总是搞不好。 : 这样的话,最终binomial的p就是p1和p2的weighted sum。而我实际要处理的是个beta : distribution。我统计太差,对参数alpha和beta没有这里的p这样直观的感觉,琢磨不 : 明白。问题可以描述成这样: : 两个药厂分别生产红蓝两种药丸,各自有一定比率的次品。假设红药丸的合格率服从一 : 个Beta(a_1,b_1)的分布,蓝色药丸合格率服从一个Beta(a_2,b_2)的分布。如果把 : 两种药丸混合,其中红色占p,那么混合在一起的药丸的合格率如何分布? : 我头疼的是这里参数a和b的意义。我看到的都是基于prior probability 来定义的。比 : 如如果prior是uniform distribution,那就是Beta(1,1),然后测试了一些药丸,发现 : 有m个有效,n个无效,那么 posterior probability 分布就是Beta(1+m,1+n)。按照这
| n******7 发帖数: 12463 | 5 再次感谢。其实一开始我也是这么想的 (不过我直接得到这个pdf关系,不知道是不是
不严谨)这其实就是一个两个beta distribution 的 mixture distribution
后来我觉得这个模型不符合这个问题
我主贴用比较容易理解的binomial distribution也是想说明这个区别
我们把beta distribution看做probability的distribution的话,按照这个mixture的
模型,混就是从不同distribution来的probability,或者说set of trails。但是我们
直接混的是trail本身。我认为是不一样的
举个极端的例子,红药丸合格率服从beta(1000,1),几乎全部合格,蓝药丸合格率服
从beta(1,1000),几乎全部不合格。等比混合之后,我们可以预期混合组的合格率为
一峰值在0.5左右的分布,大概是beta(500,500)这样子的
而按照mixture distribution的模型,这会是一个bimodal的分布,两个峰分别在0和1
附近...
【在 h***i 的大作中提到】 : X|T=0 ~ beta(a1, b1) : X|T=1 ~ beta(a2, b2) : P(T=0) = p : P(X <= x) = P(X <= x| T = 0) * P(T = 0) + P(X <= x | T = 1) * P(T = 1) : = CDF_{beta1}(x) * p + CDF_{beta2}(x)(1-p) : so, pdf_{X}(x) = pdf_{beta1}(x) * p + pdf_{beta2}(x)(1-p) : : 这个最后是beta? : : beta
| n******7 发帖数: 12463 | 6 顶一下,把我的疑问全放到主贴了
求解惑
thanks! | n******7 发帖数: 12463 | 7 我大致想明白了
这个问题不是mix distribution
而是sum up two random variable
简单的说,两个beta变量的和不再是beta分布,而是个很复杂的东西 |
|