百科 > 经济 > 经济学术语 > 统计 > 统计术语

二项分布

二项分布（Binomial distribution）

　　二项分布是一种具有广泛用途的离散型随机变量的概率分布，它是由贝努里始创的，所以又叫贝努里分布。

　　二项分布是指统计变量中只有性质不同的两项群体的概率分布。所谓两项群体是按两种不同性质划分的统计变量，是二项试验的结果。即各个变量都可归为两个不同性质中的一个，两个观测值是对立的。因而两项分布又可说是两个对立事件的概率分布。

二项分布的解析

　　二项分布用符号b(x．n．p)，表示在n次试验中有x次成功，成功的概率为p。

　　二项分布的概率函数可写作：

　　b(x．n．p)=

　　式中x＝0、1、2、3．．．．．n为正整数

　　两项分布中含有两个参数n与p，当它们的值已知时，便可计算出分布列中各概率的值。

　　例1 掷硬币试验。有10个硬币掷一次，或1个硬币掷十次。问五次正面向上的概率是多少?

　　解：根据题意n＝10，p＝q＝1/2，x＝5

　　b(5、l0、1/2) = C₁0²p⁵q^{10 − 5}

　　= 0．24609

　　所以五次正面向上的概率为0．24609

　　此题若问五次及五次以上正面向上的概率是多少?

　　解：此题要求出五次及五次以上正面向上的概率之和。正面有五次、六次、七次、八次、九次、十次。依公式5—9应为：

　　C₁0⁵p⁵q^{10 − 5} + C₁0⁶p⁶q^{10 − 4} + C₁0⁷p⁷q³ + C₁0⁸p⁸q² + C₁0⁹p⁹q¹ + C₁0¹0p¹0q⁰

　　= 252/1024+210/1024+120/1024+45/1024+10/1024+1/1024

　　= 638/1024

　　= 0．623

　　五次及五次以上正面向上的概率为0．623

　　此题各项展开式的系数，若用杨辉三角计算也十分方便。读者：前面的杨辉三角写到(p + q)¹0。试比较五次及五次以—LK面向；的各项系数是否为252、210、120、45、10、1。

二项分布的性质

　　(一)二项分布是离散型分布，概率直方图是跃阶式的。因为x为不连续变量，用概率条图表示更合适，用直方图表示只是为了更形象些。

　　1．当p＝q时图形是对称的

　　例2 (p + q)⁶，p=q＝1/2，各项的概率可写作：

　　p⁶ + 6p⁵q + 15p⁴q² + 20p³q³ + 15p²q⁴ + 6p^lq⁵ + q⁶

　　= 1/64+6/64+15/64+20/64+15/64+6/64+1/64

　　= 1

　　2．当p≠q时，直方图呈偏态，p<q与p>q的偏斜方向相反。如果n很大，即使p≠q，偏态逐渐降低，最终成正态分布，二项分布的极限分布为正态分布。故当n很大时，二项分布的概率可用正态分布的概率作为近似值。何谓n很大呢?一般规定：当p<q且np≥5，或p>q且nq≥5，这时的n就被认为很大，可以用正态分布的概率作为近似值了。

　　(二)二项分布的平均数与标准差

　　如果二项分布满足p<q，np≥5，(或p>q，np≥5)时，二项分布接近正态分布。这时，也仅仅在这时，二项分布的x变量(即成功的次数)具有如下性质：

　　μ = np (5—10a)

　　 (5—10b)

　　即x变量具有μ = np , 的正态分布。

　　式中n为独立试验的次数，

　　p为成功事件的概率，q＝1- p。由于n很大时二项分布逼近正态分布，其平均数，标准差是根据理论推导而来的，故用μ和σ而不用X和S表示。它们的含意是指在二项试验中，成功的次数的平均数μ = np ，成功次数的分散程。例如一个掷10枚硬币的试验，出现正面向上的平均次数为5次(μ= np＝)，正面向上的散布程度为10×（1/2）×（1/2）＝ 1．58(次)，这是根据理论的计算，而在实际试验中，有的人可得10个正面向上，有人得9个、8个……，人数越多，正面向上的平均数越接近5，分散程度越接近1．58。

二项分布的应用条件

　　1．各观察单位只能具有相互对立的一种结果，如阳性或阴性，生存或死亡等，属于两分类资料。

　　2．已知发生某一结果（阳性）的概率为π，其对立结果的概率为1-π，实际工作中要求π是从大量观察中获得比较稳定的数值。

　　3．n次试验在相同条件下进行，且各个观察单位的观察结果相互独立，即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等。

二项分布的应用

　　项分布在心理与教育研究中，主要用于解决含有机遇性质的问题。所谓机遇问题，即指在实验或调查中，实验结果可能是由 ?猜测而造成的。比如，选择题目的回答，划对划错，可能完全由猜测造成。凡此类问题，欲区分由猜测而造成的结果与真实的结果之间的界限，就要应用二项分布来解决。

　　例3有正误题10题，问答题者答对几题才能认为他是真会，或者说答对几题，才能认为不是出于猜测因素?

　　此题p＝q=1/2，即猜对猜错的概率各为0．5。np≥5，故此二项分布接近正态分布：

　　＝5

　　根据正态分布概率，当Z=1.645时，该点以下包含了全体的95％。如果用原分数表示，则为

　　=7.6≈8

　　它的意义是，完全凭猜测，10题中猜对8题以下的可能性为95％，猜对8、9、10题的概率只5％。因此可以推论说，答对8题以上者不是凭猜测，而是会答。但应该明确：作此结论，也仍然有犯错误的可能，即那些完全靠猜测的人也有5％的可能性答对8、9、10道题。

　　此题的概率值，还可用二项分布函数直接计算，亦得与正态分布近似的结果：

　　b(8 10 0.5)＝C₁0²p⁸q² ＝＝ 45/1024

　　b(9 10 0.5)＝C₁0¹p⁹q¹ ＝＝ 10/1024

　　b(10 10 0.5) ＝C₁0⁰p¹0＝ 1/1024

　　根据概率加法，答对8题及其以上的总概率为：45/1024+10/1024+1/1024＝56/1024 = 0．0547 同理，可计算8题以下的概率为 95％。(近似)．

　　例4有10道多重选择题，每题有5个答案，其中只有一个是正确的。问答对几题才能说不是猜的结果?

　　此题n＝10，p＝1/5 = 0．2，q = 0．8，np<5，故此题不接近正态分布，不能用正态分布计算概率，而应直接用二项分布函数计算猜时各题数的概率：

　　b(10、10、0.2)＝＝＝0.000000102

　　b(9、10、0.2)=＝＝0.000004096

　　b(8、10、0.2)= ＝＝0.000073728

　　b(7、10、0.2)＝＝＝0.000786432

　　b(6、10、0.2)＝＝＝0.00550524

　　b(5、10、0.2)＝＝＝0.026424115

　　b(4、10、0.2)＝＝＝0.088080384

　　根据以上所计算的猜对各题数的概率，可用概率加法求得猜对5题及5题以上的概率为0．03279，不足5％，故可推论说答对5题以上者可算真会，作此结论仍有3．3％犯错误的可能。

　　若上例中题数增加到30题，则np>5，就可用正态分布的概率计算：

　　解：＝6

　　 =2.191

　　X＝μ+1.645×σ=6 +1.645×2.191＝9.6

　　因此可得结论，答对10题或10题以上，才能被认为是真会。作此结论犯错误的概率为5％。

　　如果想使推论犯错误的概率降为1％，则根据正态分布可求得此时的z＝2.33，使用相同的计算方法，只将2.33代替1.645，可求得临界的分数(或答对的题数)。

阅读数：725

二项分布

目录

二项分布的解析

二项分布的性质

二项分布的应用条件

二项分布的应用