logo资料库

女士品茶--统计学经典.pdf

第1页 / 共287页
第2页 / 共287页
第3页 / 共287页
第4页 / 共287页
第5页 / 共287页
第6页 / 共287页
第7页 / 共287页
第8页 / 共287页
资料共287页,剩余部分请下载后查看
The Lady Tasting Tea How Statistics Revolutionized Science in the Twentieth Century
作者序 进入 19 世纪时,科学界奉行着一种固化的哲学观,即机 械式宇宙观(clockwork universe)。这种哲学观认为,为数不 多的几个数学公式,像牛顿的运动定律(Newton’s laws of motion)和玻意耳的气体定律(Boyle’s laws of gases),可以用 来描述现实世界的一切,并能预测未来即将发生的事件。而对 这种预测,所需要的不过是一套完整的公式,以及一组具有足 够精确度的相关数据。然而,对于一般大众来说,整整花了 40 年时间,他们的思想才跟上这种科学观念。 这种思想上的落差,典型地体现在 19 世纪早年拿破仑皇 帝(Emperor Napoléon)与皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)的一次对话中。拉普拉斯写了一本历史性的 权威著作,论述如何根据地球上少数观察数据来计算行星和彗 星的未来位置。据说拿破仑问道:“拉普拉斯先生,我发现你 的论述中没有提到上帝啊!”拉普拉斯的回答则是:“我不需要 这个假设条件。” 机械式宇宙观认为,宇宙如同一个庞大的时钟机器,所有 的物体都按照一定的规律运动,宇宙永续运转而不需要神的介 入;所有将来发生的事件都决定于过去的事件。许多人对这种 无神论的思想感到恐慌,从某种意义上说,19 世纪浪漫主义 运动的兴起,正是对这种精确应用推理的冷冰冰的哲学观的回 应。然而,19 世纪 40 年代出现了对新科学的证明,这叫一般 人难以想象:牛顿的数学定律被用来预测另一颗行星的存在, 而海王星(the planet Neptune)正是在这些定律所预测的位 置被发现的。于是,几乎所有对机械宇宙观的反抗都被粉碎了, 这一哲学立场很快成为大众文化的基本部分。 不过,就算拉普拉斯在他的公式中不需要上帝,他还是需
要一种被他称为误差函数(error function)的东西。从地球 上对行星和彗星的观察,与用公式所预测的位置并不绝对吻 合,拉普拉斯和他的科学家同伴将这归结于观察中的误差,有 时是由于地球大气层中的扰动,有时则是人为的。拉普拉斯把 所有这些误差都放在一个附加项(误差函数)里,从而将之纳 入他的数据描述。这个误差函数吸收了所有的误差,剩下的只 是用来预测宇宙星体实际位置的绝对运动定律。当时科学家相 信,随着越来越精确的测试,对误差函数的需求将逐渐消失。 由于有误差函数来表示预测值与观察值之间的微小差异,19 世纪早期的科学可以说是受到了哲学上决定论(determinism) 的掌控,即相信所发生的任何事情都预先地决定于两点:(1) 宇宙的初始条件;(2)描绘其运动的数学公式。 到了 19 世纪末,误差并没有消失,反倒是增加了。当测 试越来越精确,误差也越来越多。机械宇宙观处于动摇之中, 试图发现生物学定律和社会学定律的努力也失败了。在物理和 化学等传统科学中,牛顿和拉普拉斯所用的那些定律,逐渐地 被证明只是粗略的逼近。这样,科学便渐渐开始在新的范式 (paradigm)下运作,这新范式就是现实世界的统计模型。到 20 世纪末期,几乎所有科学都转而运用统计模型了。 大众文化还是没有跟上这种科学革命,尽管一些含混的观 念和表述,像相关(correlation)、胜率(odds)和风险(risk) 等等,已经渗入了大众的词汇,并且多数人意识到了不确定性 问题,这是与诸如医学和经济学等学科领域相联系的。但就已 经发生的哲学观的深层转变而言,学界之外没有人能够对此有 什么理解。这些统计模型是什么?它们是怎么来的?在现实生 活中它们意味着什么?它们是现实的真实描述吗?本书正是 试图来回答这些问题,其中我们也想介绍一些先生和女士的生 平故事,这些人曾涉身于这场革命之中。
在处理这些问题时,必须把三个数学概念区分开:随机 (randomness)、概率(probability)和统计(statistics)。 对大多数人而言,随机只是不可预测性(unpredictability) 的另一个说法。犹太教法典(Talmud)中的一则格言,传达了 这种通常的看法:“不应该去探寻宝藏,因为宝藏的发现是随 机的;按照定义,没有人能够寻找只会被随机发现的东西。” 但是,对现代科学家来说,随机性有许多不同的类型。概率分 布(probability distribution,这将在第 2 章中讨论)的概 念允许我们对随机性加以限制,并赋予我们有限的能力去预测 未来的随机事件。因此,对现代科学家而言,随机事件并不是 杂乱的、不可预期的和不可预测的,它们有一个可以用数学来 描述的结构。 概率是一个非常古老概念的现代用语,它曾出现在亚里士 多德(Aristotle)的著作中。这位先哲声称:“不可能事件将 会发生,这正是概率的特性。”起初,概率只是涉及到个人对 什么事件即将发生的预测,在 17 和 18 世纪,一批数学家,其 中包括贝努里(Bernoullis)父子、费尔马(Fermat)、棣莫 弗(de Moivre)、帕斯卡(Pascal)都在以机会博弈(games of chance)为起点去研究概率的数学理论。他们发明一些非常高 级的方法,用来计算等可能事件,棣莫弗设法在这些技术中加 进微积分的方法,贝努里则可以领悟出非常基础的定理,叫大 数定律(Laws of large numbers)。到了 19 世纪末期,数理 概率主要由一些非常高级的技巧构成,但还缺少坚实的理论基 础。 尽管不够完善,还是可以证明概率理论对发展统计分布 (statistics distribution)观念的作用。当我们考虑一个 特殊的科学问题时,就会产生一个统计分布。例如,在 1971 年,哈佛公共卫生学院所做的一项研究发表在英国的医学期刊
《柳叶刀》(Lancet)上,这项研究旨在检验喝咖啡是否与下 泌尿道癌有关。研究的报告以一级病人为对象。其中一些人患 有下泌尿道癌,另一些人则患有其它疾病。报告的作者还搜集 了这组病人的其它资料,如年龄、性别和家族的癌症病史等。 结果证明,并不是每个喝咖啡的人都会得泌尿道癌,也不是每 个得泌尿道癌的人都圆角咖啡,所以存在着与他们的假设相矛 盾的事件。然而,25%的此类癌症患者习惯每天喝 4 杯以上咖 啡,只有 10%的非癌症患者是这种咖啡嗜好者,因而,似乎有 一些证据支持这种假设。 这种资料的搜集给研究者提供了一个统计的分布。运用数 理概率的工具,他们为这个分布建造了一个理论公式,称之为 概率分布函数(probability distribution function),或简 称分布函数(distribution function),以此来检验所研究的 问题。它与拉普拉斯的误差函数相似,但却复杂许多。运用概 率论来建造理论分布函数,而这个函数用来描述从未来数据中 所能得到的预期结果,这些数据是以随机方式从同一总体的人 群中提取的。 我不想使本书成为一本关于概率和概率论的书,那是抽象 的数据概念。本书涉及的一些概率定理在科学问题上的应用, 涉及统计分布和分布函数的世界。概率论本身不足以说明统计 方法,有时甚至会出现这样的情形:科学中所用的统计方法违 背了概率的定理。读者会发现本书中概率时隐时现,需要时被 用到,不需要时则被忽略。 由于现实世界的统计模型都是数学化的,充分理解它们只 能用数学公式或符号的方式。本书是一种野心不那么大的尝 试,我打算描述发生在 20 世纪科学界的统计革命,而手法是 通过介绍一些参加过这场革命的人物(其中不少人至今还健 在)。我只是涉猎他们创造性的工作,试图让读者从中体会他
们的个别发现是如何适应整个统计革命的。 仅就本书而言,读者并不会学到对科学数据进行统计分析 所需要的足够知识,那需要几年的循序渐进的学习。但我希望 读者看过本书后,能够对科学的统计观所代表的基本哲学的重 大变革有所理解。那么,不懂数学的人要理解这场科学革命, 应该从哪里开始呢?我以为,一个不错的选择是与女士一道品 茶。
目录 第1章 女士品茶 第2章 偏斜分布 第3章 可爱的戈塞特先生 第4章 在“垃圾堆”中寻觅 第5章 收成变动研究 第6章 “百年不遇的洪水” 第7章 费歇尔获胜 第8章 致命的剂量 第9章 钟形曲线 第10章 拟合优度检验 第11章 假设检验 第12章 置信诡计 第13章 贝叶斯异论 第14章 数学界的莫扎特 第15章 “小人物”之见解 第16章 非参数方法 第17章 当部分优于总体时 第18章 吸烟会致癌吗? 第19章 如果您需要最佳人选 第20章 朴实的德克萨斯农家小伙 第21章 家庭中的天才 第22章 统计界的毕加索 第23章 处理有瑕疵的数据 第24章 重塑产业的人 第25章 来自黑衣女士的忠告 第26章 鞅的发展 第27章 意向治疗法 第28章 电脑随心所欲 第29章 “泥菩萨” 附:作者后记 大事年表 参考书目
分享到:
收藏