个人概率

个人概率(Personal probability)

目录

  • 1 个人概率简介
  • 2 贝叶斯定理与个人概率[1]
  • 3 参考文献

个人概率简介

  个人概率的意思自从17世纪贝努里一开始研究概率时就已经产生了。实际上,概率probability)这个英文字创造的初衷,就是用来处理主观不确定性 的。

  L·J·萨维奇布鲁诺·德费奈蒂在20世纪60年代和70年代,推导出了个人概率背后的许多数学模式。在20世纪60年代末期在北卡罗来纳大学举办了一场统计学会议,会 上萨维奇在演讲中曾阐述他的一部分想法。萨维奇认为,世界上并没有“已被证明的科学事实”这样的事情。有的只是一些陈述,而那些自认为是科学家的人对这些陈述持有很高的赞成概率。他举例说,在场听他演讲的人对“地球是圆的”这项陈述一定持有很高的认同概率,但若我们有机会对全世界的人做一次普查,则我们很可能发现在中国中部的许多农民对上述陈述持有很低的概率。讲到这里的时候,萨维奇不得不被迫停下来,因为校园里一群学生正在会堂外游行通过。他们还高喊着口号“停止上课!罢课!罢课!停止上课!”这些学生在要求全校的学生罢课,以抗议越南战争。等到他们走,四周又恢复平静,萨维奇才看看窗外,然后说:“看来,我们可能是认为地球是圆的人中的最后一代。”

  个人概率有许多不同的版本。其中一个极端是萨维奇-德费奈蒂的方法,该方法认为每个人都有其自己独特的一套概率。而另一个极端则是凯恩斯的观点,他认为概率是一种信仰程度(the degree of belief),这种信仰是一个在特定的文化环境中一个有教养的人可能期望持有的信念。按照凯恩斯的观点,一个特定文化环境中的所有人(萨维奇所说的科学家或中国中部的农民)对某一特定的陈述,会持有一个一般的概率水平。由于这个概率水平取决于文化和时间,因此从某种绝对的意义上为说,很有可能这个适当的概率水平是错的。

  萨维奇和德费奈蒂则主张每个人都有自己特定的一套个人概率,他们还描述怎样运用一种叫做“标准赌博”(standard gamble)的技巧把这种个人概率求出来。为了让整个文化中的人能共享既定的一套概率,凯恩斯不得不弱化相关的数学定义,概率不再是一个精确的数字(例如67%),而是一种将想法排序的方法(例如,明天可能下雨的概率大于 可能下雪的概率)。

贝叶斯定理与个人概率

  不管个人概率的概念是如何被准确定义的,贝叶斯定理在个人概率中的应用方式,看上去与大多数的想法相吻合。贝叶斯方法一开始是假设在一个人的头脑中有一组先验概率(a prior set of probabilities),接下来这个人经过观测或实验产生了数据,然后再拿这组数据来修正先验概率prior probability),生成一组后验概率(a posterior set of probabilities):

  先验概率 → 数据 → 后验概率

  假设这个人想确定是否所有的大乌鸦都是黑的。她首先存有一些关于“这个陈述是真的”概率的先验知识。例如,起初她可能对大乌鸦一无所知,对“所有大乌鸦都是黑的”这句话半信半疑,相信比例是50:50。数据则包括她对大乌鸦的观测。假如她看到了一只大乌鸦,而且这只大乌鸦是黑色的,她的后验概率就会增加。因此下一次她再观测大乌鸦时,她的新的先验概率(也就是上一次的后验概率)就会大于50%,如果她继续观测大乌鸦而且都是黑的,这个概率还会继续上升。

  另一方面,一个人也有可能在进行观测之前就已经带着非常强的事前主见,其程度非常强,需要有很大量的数据才能改变这个事前主见。在20世纪80年代,美国宾夕法尼亚州的三里岛核电厂发生了近乎是灾难性的事故。反应炉的操作员面对一个很大的操作盘,通过上面的各种仪表和指示灯来了解反应炉的运转情况。这些指示灯当中有一些是警告灯,其中有的出过问题,以前曾经发出过假的警告。当时操作员有个事先的成见,当他们看见任何一个新的警告灯亮时,总是认为它是假的信号。结果,即使当警告灯的型态及相关的指示器都一致显示反应炉的水位过低时,他们仍然置之不理。他们的先验概率太强了,以至于新的数据也无法使后验概率产生多大的改变。

  假定只有两种可能性,就像前面署名有争议的联邦主义论文的例子:它不是麦迪逊写的就是汉密尔顿写的。于是,在应用了贝叶斯定理之后,就会得到了一个先验胜率prior odds)与后验胜率posterior odds)之间的简单关系,这里的数据可以归纳成一种称为“贝叶斯因子”(Bayes factor)的东西。这是一种根本不用参考先验胜率来刻画数据的一种数学计算。有了这个计算工具,分析家就可以告诉读者,插入任何他想要的先验胜率,乘以计算出来的贝叶斯因子,再计算后验胜率。莫斯特勒与华莱士对12篇署名有争议的文章,每篇都是这样处理的。

  此外,他们对文章里的那些无特定含义的字出现的频率,还进行了两种非贝叶斯分析。

  这样他们有了四种方法来判断有争议文章的作者:层次贝叶斯模型,计算的贝叶斯因子,以及两个非贝叶斯分析方法。结果如何呢?所有12篇文章都压倒性地指向麦迪逊。

  实际上,如果使用计算的贝叶斯因子,那么对某几篇文章来说,读者认为是汉密尔顿写的先验胜率可能要大于100000:1才有办法让后验胜率为50:50。

参考文献

  1. 萨尔斯伯格.《女士品茶—20世纪统计怎样变革了科学》
阅读数:515