请教一下混合样本分布的问题？（追问一个beta分布的问题） - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 请教一下混合样本分布的问题？（追问一个beta分布的问题）

相关主题
● sample distribution的理解	● 讨论个问题，classification 的label 非常不平均
● A question on Binomial Distribution	● 一道概率题
● how to determine data fit some distribution? thanks	● 知道random process (X+Y) 和 X 的distribution, 如何得到 Y? (转载)
● 一道概率问题.	● what is the distribution of a CDF of a random variable which has standard normal distribution?
● test count data distribution in SAS	● 一下子脑子转不过来了 (转载)
● 请教：合并几组bernoulli trial，不同p不同trial number	● 面试题请教？
● weighted sum of independent bernoulli	● 关于beta 分布的 conjugate prior
● How to test a sample is negative binomial distribution	● Kolmogorov-Smirnov test for discrete distributions

相关话题的讨论汇总
话题: beta话题: 药丸话题: bernoulli话题: 分布

进入Statistics版参与讨论

1

(共1页)

n******7 发帖数: 12463	1 追加了一个beta分布混合的问题，在3楼谢谢 ------- 我不知道用专业语言要怎么说但是不是mixture distribution 用binomial分布来举个列子有红蓝两种药丸，有不同的治愈率我们每次取人数相同的一组病人来测试如果每组病人按照一定几率随机选择红色或者蓝色药丸，然后所有这组的病人都服用这种药丸，那么统计数组病人的治愈人数，将是一个mixture distribution 我的问题，如果我把红蓝药丸按照一定比率混合在一起，然后每组中的每个病人随机选择呢？我感觉最后的结果也是一个binomial distribution，而且参数p是红蓝药丸的各自的p按照比率加起来的和。不知道对不对？这个问题有没有一个专门的名字？我觉得这种混合对normal/Bernoulli 这样的 distribution就是mixed normal/Bernoulli distribution,但是对binomial/beta这样的就不是了。区别在于一类是原始sample测量的distribution，一类是sample set的测量的distribution。这在统计上有什么专业说法吗？谢谢
h***i 发帖数: 3844	2 对每个病人，抽药丸是Bernoulli， conditional on 抽到的药丸，还是bernoulli， X_{i}～bernoulli（p）， Y_{i}｜X_{i}～Bernoulli（f（X_{i}））， f（X＝blue）＝ p１， f（X＝red）＝ p２，你现在要得到的是SUM（Y_{i}) 你就把Y的marginal 弄出来，然后sum起来【在 n******7 的大作中提到】 : 追加了一个beta分布混合的问题，在3楼 : 谢谢 : ------- : 我不知道用专业语言要怎么说 : 但是不是mixture distribution : 用binomial分布来举个列子 : 有红蓝两种药丸，有不同的治愈率 : 我们每次取人数相同的一组病人来测试 : 如果每组病人按照一定几率随机选择红色或者蓝色药丸，然后所有这组的病人都服用这 : 种药丸，那么统计数组病人的治愈人数，将是一个mixture distribution
n******7 发帖数: 12463	3 谢谢，自学统计，这种推理总是搞不好。这样的话，最终binomial的p就是p1和p2的weighted sum。而我实际要处理的是个beta distribution。我统计太差，对参数alpha和beta没有这里的p这样直观的感觉，琢磨不明白。问题可以描述成这样：两个药厂分别生产红蓝两种药丸，各自有一定比率的次品。假设红药丸的合格率服从一个Beta（a_1,b_1）的分布，蓝色药丸合格率服从一个Beta（a_2,b_2)的分布。如果把两种药丸混合，其中红色占p，那么混合在一起的药丸的合格率如何分布？我头疼的是这里参数a和b的意义。我看到的都是基于prior probability 来定义的。比如如果prior是uniform distribution，那就是Beta(1,1),然后测试了一些药丸，发现有m个有效，n个无效，那么 posterior probability 分布就是Beta(1+m,1+n)。按照这个prior的话，红药丸测试中有a_1-1个有效，b_1-1个无效；蓝色药丸有a_2-1个有效， b_2-1个无效。但是这对混合结果的影响我想不明白。如果只考虑expect value，即红药丸有效率a_1/ (a_1+b_1),蓝药丸有效率a_2/(a_2+b_2),取出任意N个混合后的药丸，有效的有a_mix = N（pa_1/(a_1+b_1) + （1-p)a_2/(a_2+b_2)）,b_mix = N（pb_1/(a_1+b_1) + （1-p)b_2/(a_2+b_2)）,分布就是beta(a_mix,b_mix) 我困惑的是 1. 这样的话，a_1 b_1的具体数值就不必要了，把两个参数同时缩放对结果没影响 2. 最终参数跟N有关，这可以是任意数我感觉混合后的参数应该是a_mix = pa_1+(1-p)a_2, b_mix=pb_1 + (1-p)b_2，但是不知道怎么推倒哪位大牛指点一下？【在 h***i 的大作中提到】 : 对每个病人，抽药丸是Bernoulli， conditional on 抽到的药丸，还是bernoulli， : X_{i}～bernoulli（p）， Y_{i}｜X_{i}～Bernoulli（f（X_{i}））， : f（X＝blue）＝ p１， : f（X＝red）＝ p２， : 你现在要得到的是SUM（Y_{i}) : 你就把Y的marginal 弄出来，然后sum起来
h***i 发帖数: 3844	4 X\|T=0 ~ beta(a1, b1) X\|T=1 ~ beta(a2, b2) P(T=0) = p P(X <= x) = P(X <= x\| T = 0) * P(T = 0) + P(X <= x \| T = 1) * P(T = 1) = CDF_{beta1}(x) * p + CDF_{beta2}(x)(1-p) so, pdf_{X}(x) = pdf_{beta1}(x) * p + pdf_{beta2}(x)(1-p) 这个最后是beta？ beta 【在 n******7 的大作中提到】 : 谢谢，自学统计，这种推理总是搞不好。 : 这样的话，最终binomial的p就是p1和p2的weighted sum。而我实际要处理的是个beta : distribution。我统计太差，对参数alpha和beta没有这里的p这样直观的感觉，琢磨不 : 明白。问题可以描述成这样： : 两个药厂分别生产红蓝两种药丸，各自有一定比率的次品。假设红药丸的合格率服从一 : 个Beta（a_1,b_1）的分布，蓝色药丸合格率服从一个Beta（a_2,b_2)的分布。如果把 : 两种药丸混合，其中红色占p，那么混合在一起的药丸的合格率如何分布？ : 我头疼的是这里参数a和b的意义。我看到的都是基于prior probability 来定义的。比 : 如如果prior是uniform distribution，那就是Beta(1,1),然后测试了一些药丸，发现 : 有m个有效，n个无效，那么 posterior probability 分布就是Beta(1+m,1+n)。按照这
n******7 发帖数: 12463	5 再次感谢。其实一开始我也是这么想的（不过我直接得到这个pdf关系，不知道是不是不严谨）这其实就是一个两个beta distribution 的 mixture distribution 后来我觉得这个模型不符合这个问题我主贴用比较容易理解的binomial distribution也是想说明这个区别我们把beta distribution看做probability的distribution的话，按照这个mixture的模型，混就是从不同distribution来的probability，或者说set of trails。但是我们直接混的是trail本身。我认为是不一样的举个极端的例子，红药丸合格率服从beta（1000,1），几乎全部合格，蓝药丸合格率服从beta（1,1000），几乎全部不合格。等比混合之后，我们可以预期混合组的合格率为一峰值在0.5左右的分布，大概是beta（500,500）这样子的而按照mixture distribution的模型，这会是一个bimodal的分布，两个峰分别在0和1 附近... 【在 h**i 的大作中提到】 : X\|T=0 ~ beta(a1, b1) : X\|T=1 ~ beta(a2, b2) : P(T=0) = p : P(X <= x) = P(X <= x\| T = 0) P(T = 0) + P(X <= x \| T = 1) * P(T = 1) : = CDF_{beta1}(x) * p + CDF_{beta2}(x)(1-p) : so, pdf_{X}(x) = pdf_{beta1}(x) * p + pdf_{beta2}(x)(1-p) : : 这个最后是beta？ : : beta
n******7 发帖数: 12463	6 顶一下，把我的疑问全放到主贴了求解惑 thanks！
n******7 发帖数: 12463	7 我大致想明白了这个问题不是mix distribution 而是sum up two random variable 简单的说，两个beta变量的和不再是beta分布，而是个很复杂的东西

1

(共1页)

进入Statistics版参与讨论

相关主题
● Kolmogorov-Smirnov test for discrete distributions	● test count data distribution in SAS
● Binomial distribution: what's p exactly?	● 请教：合并几组bernoulli trial，不同p不同trial number
● multinomial distribution: how to derive the covariance of different variable	● weighted sum of independent bernoulli
● 大伙儿捧个人场吧	● How to test a sample is negative binomial distribution
● sample distribution的理解	● 讨论个问题，classification 的label 非常不平均
● A question on Binomial Distribution	● 一道概率题
● how to determine data fit some distribution? thanks	● 知道random process (X+Y) 和 X 的distribution, 如何得到 Y? (转载)
● 一道概率问题.	● what is the distribution of a CDF of a random variable which has standard normal distribution?

相关话题的讨论汇总
话题: beta话题: 药丸话题: bernoulli话题: 分布

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)