The Lady Tasting Tea
How Statistics
Revolutionized Science
in the Twentieth Century
David Salsburg
作者序
进入 19 世纪时,科学界奉行着一种固化的哲学观,即机械式宇宙
观(clockwork universe)。这种哲学观认为,为数不多的几个数学公式,
像牛顿的运动定律(Newton’s laws of motion )和玻意耳的气体定律
(Boyle’s laws of gases),可以用来描述现实世界的一切,并能预测未来
即将发生的事件。而对这种预测,所需要的不过是一套完整的公式,以
及一组具有足够精确度的相关数据。然而,对于一般大众来说,整整花
了 40 年时间,他们的思想才跟上这种科学观念。
这种思想上的落差,典型地体现在 19 世纪早年拿破仑皇帝(Emperor
Napoléon)与皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)的一次对话
中。拉普拉斯写了一本历史性的权威著作,论述如何根据地球上少数观
察数据来计算行星和彗星的未来位置。据说拿破仑问道:“拉普拉斯先生,
我发现你的论述中没有提到上帝啊!”拉普拉斯的回答则是:“我不需要
这个假设条件。”
机械式宇宙观认为,宇宙如同一个庞大的时钟机器,所有的物体都
按照一定的规律运动,宇宙永续运转而不需要神的介入;所有将来发生
的事件都决定于过去的事件。许多人对这种无神论的思想感到恐慌,从
某种意义上说,19 世纪浪漫主义运动的兴起,正是对这种精确应用推理
的冷冰冰的哲学观的回应。然而,19 世纪 40 年代出现了对新科学的证
明,这叫一般人难以想象:牛顿的数学定律被用来预测另一颗行星的存
在,而海王星(the planet Neptune)正是在这些定律所预测的位置被发现
的。于是,几乎所有对机械宇宙观的反抗都被粉碎了,这一哲学立场很
快成为大众文化的基本部分。
不过,就算拉普拉斯在他的公式中不需要上帝,他还是需要一种被
他称为误差函数(error function)的东西。从地球上对行星和彗星的观察,
与用公式所预测的位置并不绝对吻合,拉普拉斯和他的科学家同伴将这
归结于观察中的误差,有时是由于地球大气层中的扰动,有时则是人为
的。拉普拉斯把所有这些误差都放在一个附加项(误差函数)里,从而
将之纳入他的数据描述。这个误差函数吸收了所有的误差,剩下的只是
用来预测宇宙星体实际位置的绝对运动定律。当时科学家相信,随着越
来越精确的测试,对误差函数的需求将逐渐消失。由于有误差函数来表
示预测值与观察值之间的微小差异,19 世纪早期的科学可以说是受到了
哲学上决定论(determinism)的掌控,即相信所发生的任何事情都预先
地决定于两点:(1)宇宙的初始条件;(2)描绘其运动的数学公式。
到了 19 世纪末,误差并没有消失,反倒是增加了。当测试越来越
精确,误差也越来越多。机械宇宙观处于动摇之中,试图发现生物学定
律和社会学定律的努力也失败了。在物理和化学等传统科学中,牛顿和
拉普拉斯所用的那些定律,逐渐地被证明只是粗略的逼近。这样,科学
便渐渐开始在新的范式(paradigm)下运作,这新范式就是现实世界的
统计模型。到 20 世纪末期,几乎所有科学都转而运用统计模型了。
大众文化还是没有跟上这种科学革命,尽管一些含混的观念和表
述,像相关(correlation)、胜率(odds)和风险(risk)等等,已经渗入
了大众的词汇,并且多数人意识到了不确定性问题,这是与诸如医学和
经济学等学科领域相联系的。但就已经发生的哲学观的深层转变而言,
学界之外没有人能够对此有什么理解。这些统计模型是什么?它们是怎
么来的?在现实生活中它们意味着什么?它们是现实的真实描述吗?本
书正是试图来回答这些问题,其中我们也想介绍一些先生和女士的生平
故事,这些人曾涉身于这场革命之中。
在 处 理 这 些 问 题 时 , 必 须 把 三 个 数 学 概 念 区 分 开 : 随 机
(randomness)、概率(probability)和统计(statistics)。对大多数人而言,
随机只是不可预测性(unpredictability )的另一个说法。犹太教法典
(Talmud)中的一则格言,传达了这种通常的看法:“不应该去探寻宝藏,
因为宝藏的发现是随机的;按照定义,没有人能够寻找只会被随机发现
的东西。”但是,对现代科学家来说,随机性有许多不同的类型。概率分
布(probability distribution,这将在第 2 章中讨论)的概念允许我们对随
机性加以限制,并赋予我们有限的能力去预测未来的随机事件。因此,
对现代科学家而言,随机事件并不是杂乱的、不可预期的和不可预测的,
它们有一个可以用数学来描述的结构。
概率是一个非常古老概念的现代用语,它曾出现在亚里士多德
(Aristotle)的著作中。这位先哲声称:“不可能事件将会发生,这正是
概率的特性。”起初,概率只是涉及到个人对什么事件即将发生的预测,
在 17 和 18 世纪,一批数学家,其中包括贝努里(Bernoullis)父子、费
尔马(Fermat)、棣莫弗(de Moivre)、帕斯卡(Pascal)都在以机会博弈
(games of chance)为起点去研究概率的数学理论。他们发明一些非常高
级的方法,用来计算等可能事件,棣莫弗设法在这些技术中加进微积分
的方法,贝努里则可以领悟出非常基础的定理,叫大数定律(Laws of large
numbers)。到了 19 世纪末期,数理概率主要由一些非常高级的技巧构成,
但还缺少坚实的理论基础。
尽管不够完善,还是可以证明概率理论对发展统计分布(statistics
distribution)观念的作用。当我们考虑一个特殊的科学问题时,就会产生
一个统计分布。例如,在 1971 年,哈佛公共卫生学院所做的一项研究发
表在英国的医学期刊《柳叶刀》(Lancet)上,这项研究旨在检验喝咖啡
是否与下泌尿道癌有关。研究的报告以一级病人为对象。其中一些人患
有下泌尿道癌,另一些人则患有其它疾病。报告的作者还搜集了这组病
人的其它资料,如年龄、性别和家族的癌症病史等。结果证明,并不是
每个喝咖啡的人都会得泌尿道癌,也不是每个得泌尿道癌的人都喝咖啡,
所以存在着与他们的假设相矛盾的事件。然而,25%的此类癌症患者习
惯每天喝 4 杯以上咖啡,只有 10%的非癌症患者是这种咖啡嗜好者,因
而,似乎有一些证据支持这种假设。
这种资料的搜集给研究者提供了一个统计的分布。运用数理概率的
工具,他们为这个分布建造了一个理论公式,称之为概率分布函数
( probability distribution function ), 或 简 称 分 布 函 数 (distribution
function),以此来检验所研究的问题。它与拉普拉斯的误差函数相似,
但却复杂许多。运用概率论来建造理论分布函数,而这个函数用来描述
从未来数据中所能得到的预期结果,这些数据是以随机方式从同一总体
的人群中提取的。
我不想使本书成为一本关于概率和概率论的书,那是抽象的数据概
念。本书涉及的一些概率定理在科学问题上的应用,涉及统计分布和分
布函数的世界。概率论本身不足以说明统计方法,有时甚至会出现这样
的情形:科学中所用的统计方法违背了概率的定理。读者会发现本书中
概率时隐时现,需要时被用到,不需要时则被忽略。
由于现实世界的统计模型都是数学化的,充分理解它们只能用数学
公式或符号的方式。本书是一种野心不那么大的尝试,我打算描述发生
在 20 世纪科学界的统计革命,而手法是通过介绍一些参加过这场革命的
人物(其中不少人至今还健在)。我只是涉猎他们创造性的工作,试图让
读者从中体会他们的个别发现是如何适应整个统计革命的。
仅就本书而言,读者并不会学到对科学数据进行统计分析所需要的
足够知识,那需要几年的循序渐进的学习。但我希望读者看过本书后,
能够对科学的统计观所代表的基本哲学的重大变革有所理解。那么,不
懂数学的人要理解这场科学革命,应该从哪里开始呢?我以为,一个不
错的选择是与女士一道品茶。
目录
第 1 章 女士品茶(The Lady Tasting Tea) .................................................. 9
第 2 章 偏斜分布(The Skew Distribution) ............................................... 15
第 3 章 可爱的戈塞特先生(That Dear Mr. Gosset)................................ 27
第 4 章 在“垃圾堆”中寻觅(Raking Over the Muck Heap) .................... 34
第 5 章 收成变动研究(“Studies in Crop Variation”)................................ 41
第 6 章 “百年不遇的洪水”(“The Hundred-Year Flood”)........................ 50
第 7 章 费歇尔获胜(Fisher Triumphant).................................................. 56
第 8 章 致死的剂量(The Dose That Kills) ............................................... 65
第 9 章 钟形曲线(The Bell-Shaped Curve)........................................... 73
第 10 章 拟合优度检验(Testing the Goodness of Fit)........................... 82
第 11 章 假设检验(Hypothesis Testing)................................................... 93
第 12 章 置信诡计(The Confidence Trick) ............................................ 102
第 13 章 贝叶斯异论(The Bayesian Heresy)........................................ 109
第 14 章 数学界的莫扎特(The Mozart of Mathematics)...................... 118
第 15 章 “小人物”之见解(The Worm’s-Eye View)............................... 129
第 16 章 非参数方法(Doing Away With Parameters) .......................... 135
第 17 章 当部分优于总体时(When Part is Better than the Whole).... 142
第 18 章 吸烟会致癌吗?(Does Smoking Cause Cancer).................. 152
第 19 章 如果您需要最佳人选(If You Want the Best Person)............. 164
第 20 章 朴实的德克萨斯农家小伙(Just A Plain Texas Farm Boy).... 173
第 21 章 家庭中的天才(A Genius in the Family) .................................. 181
第 22 章 统计学界的毕加索(The Pieasso of Statistics)....................... 190
第 23 章 处理有瑕疵的数据(Dealing with Contamination).................. 197
第 24 章 重塑产业的人(The Man Who Remade Industry).................. 205
第 25 章 来自黑衣女士的忠告(Advice From the Lady in Black) ........ 213
第 26 章 鞅的发展(The March of the Martingales) .............................. 220
第 27 章 意向治疗法(The Intent to Treat) ............................................. 225
第 28 章 电脑随心所欲(The Computer Turns Upon Itself).................. 233
第 29 章 “泥菩萨”(The Idol With Feet of Clay).................................... 240
作者后记.................................................................................................... 253
大事年表.................................................................................................... 255