贝叶斯公式有着广泛的应用。最近重新拿起上学时的教科书——浙大《概率论与数理统计(第三版)》,复习了一遍全概率公式与贝叶斯公式,算是捡起了一些记忆。
本文从条件概率出发,推导出全概率公式以及贝叶斯公式,并以例子说明贝叶斯公式的应用。
条件概率
条件概率研究如何计算事件 A 已发生的条件下事件 B 发生的概率。
例如,将一枚硬币抛掷两次,观察其出现正反面的情况,设事件 A 为“至少一次为正面”,事件 B 为“两次掷出同一面”。求已知事件 A 已经发生的条件下事件 B 发生的概率。
我们以 H 表示硬币掷出正面, T 表示硬币掷出反面,则上述随机试验的样本空间为 S={HH,HT,TH,TT},A={HH,HT,TH},B={HH,TT}。由于已知事件 A 已经发生,即已知试验所有可能结果所组成的集合就是 A,A 中共有 3 个元素,其中只有 HH∈B。因此,在 A 发生的条件下 B 发生的概率(记为 P(B∣A))为
P(B∣A)=31
另外,我们易知
P(A)=43,P(AB)=41,P(B∣A)=31=3/41/4
其中,P(AB) 为事件 A 与事件 B 同时发生的概率。
一般地,
P(B∣A)=P(A)P(AB)
乘法定理
由条件概率的计算公式,可以得到
P(AB)=P(A)P(B∣A)
上式可以推广到多个事件的积事件,即
P(ABC)=P(AB)P(C∣AB)=P(A)P(B∣A)P(C∣AB)
例如,设某光学仪器厂制造的透镜,第一次落下时打破的概率为 1/2,若第一次落下未打破,第二次落下打破的概率为 7/10,若前两次落下未打破,第三次落下打破的概率为 9/10,试求透镜落下三次而未打破的概率。
以 Ai(i=1,2,3) 表示事件“透镜第 i 次落下打破”,以 B 表示事件“透镜落下三次而未打破”。因为 B=A1 A2 A3,故有
P(B)=P(A1 A2 A3)=P(A1)P(A2∣A1)P(A3∣A1 A2)=(1−21)(1−107)(1−109)=2003
全概率公式
定义 设 S 为试验 E 的样本空间,B1,B2,...,Bn 为 E 的一组事件,若
(i)BiBj=∅,i=j,i,j=1,2,...,n;
(ii)B1∪B2∪...∪Bn=S
则称 B1,B2,...,Bn 为样本空间 S 的一个划分。
即如果 B1,B2,...,Bn 是样本空间的一个划分,那么,对每次试验,事件 B1,B2,...,Bn 中必有一个且仅有一个发生。
例如,设试验 E 为“掷一颗骰子观察其点数”。它的样本空间为 S={1,2,3,4,5,6}。E 的一组事件 B1={1,2,3},B2={4,5},B3={6} 是 S 的一个划分,而事件组 C1={1,2,3},C2={3,4},C3={5,6} 不是 S 的划分。
定理 设试验 E 的样本空间为 S,A 为 E 的事件,B1,B2,...,Bn 为 S 的一个划分,且 P(Bi)>0(i=1,2,...,n),则
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)
该式子称为 全概率公式。
证明 因为
A=AS=A(B1∪B2∪...∪Bn)=AB1∪AB2∪...∪ABn,由假设 P(Bi)>0,且 (ABi)(ABj)=∅,得到
P(A)=P(AB1)+P(AB2)+...+P(ABn)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)
贝叶斯公式
设试验 E 的样本空间为 S,A 为 E 的事件,B1,B2,...,Bn 为 S 的一个划分,且 P(A)>0,P(Bi)>0(i=1,2,...,n),则
P(Bi∣A)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi),i=1,2,...,n
该式称为 贝叶斯公式。
证明 由条件概率的定义和全概率公式,有
P(Bi∣A)=P(A)P(BiA)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi),i=1,2,...,n
特别地,当 n=2 时,将 B1 记为 B,则 B2 就是 B,全概率公式为
P(A)=P(A∣B)P(B)+P(A∣B)P(B)
贝叶斯公式为
P(B∣A)=P(A)P(AB)=P(A∣B)P(B)+P(A∣B)P(B)P(A∣B)P(B)
例子
例1 某电子设备厂所用的元件由三家元件制造厂提供,根据以往的记录有以下数据:
| 元件制造厂 | 次品率 | 提供元件的份额 |
|---|
| 1 | 0.02 | 0.15 |
| 2 | 0.01 | 0.80 |
| 3 | 0.03 | 0.05 |
设这三家工厂的产品在仓库中是均匀混合的,且无区别的标志。
(1)在仓库中随机取一只元件,求它是次品的概率;
(2)在仓库中随机地取一只元件,若已知取到的是次品,为分析次品出自何厂,需求出此次品由三家工厂生产的概率分别是多少。
解 设 A 表示“取到的是一只次品”,Bi(i=1,2,3) 表示“所取到的产品是由第 i 家工厂提供的”。B1,B2,B3 是样本空间 S 的一个划分,且有 P(B1)=0.15,P(B2)=0.80,P(B3)=0.05,P(A∣B1)=0.02,P(A∣B2)=0.01,P(A∣B3)=0.03。
(1)由全概率公式
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+P(A∣B3)P(B3)=0.0125
(2)由贝叶斯公式
P(B1∣A)=P(A)P(A∣B1)P(B1)=0.1250.02×0.15=0.24
P(B2∣A)=0.64,P(B3∣A)=0.12
即这只次品来自第 2 家工厂可能性最大。
例2 对以往数据分析结果表明,当机器调整得良好时,产品的合格率为 98%,而当机器发生某种故障时,其合格率为 55%。每天早上机器开动时,机器调整良好的概率为 95%。试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?
解 设 A 为事件 “产品合格”,B 为事件 “机器调整良好”,已知 P(A∣B)=0.98,P(A∣B)=0.55,P(B)=0.95,P(B)=0.05,所求概率为 P(B∣A),由贝叶斯公式
P(B∣A)=P(A∣B)P(B)+P(A∣B)P(B)P(A∣B)P(B)=0.98×0.95+0.55×0.050.98×0.95=0.97
这就是说,当第一件产品是合格品时,机器调整良好的概率为 0.97。这里,P(B)=0.95 是由以往的数据分析得到的,叫做 先验概率,而得到信息之后再重新加以修正的概率(0.97)叫做 后验概率。有了后验概率,我们对机器情况有了进一步了解。
参考资料
- 概率论与数理统计,第三版,浙江大学,盛骤,谢式千,潘承毅