数据科学与工程技术丛书
统计学习导论
基于 R 应用
An Introduction to Statistical Learning
with Applications in R
[美]
力口雷斯·詹姆斯( Gareth J ames )
丹妮才主·成滕 (Daniela Witten) 非
特雷弗·哈斯帖 (Trevor Hastie) 叫
罗伯特·提布施瓦尼( Robert Tibshirani)
王星等译
〈P 在盯且iM£
图书在版编目 (CIP) 数据
基于 R 应用/ (美)詹姆斯 (James , G.) 等著;王星等译. 北京:机械
统计学习导论
工业出版社, 2015.6
(数据科学与工程技术丛书)
书名原文: An 1ntroduction to Statistical Learning: with Applications in R
1SBN 978-7-111-49771-4
1.统… 11.①詹… ②王… II1.统计学一研究 1V. C8
中国版本图书馆 C1P 数据核字( 2015) 第 059665 号
本书版权登记号:图字: 01-2013-7855
Translation from English language edition: An lntroduction to Statistical Learning by Gareth
]ames , Daniela Witten , Trevor Hastie and Robert Tibshirani
Copyright ( 2013 Springer_ Verlag New York , Inc
Springer is a part of Springer Science+ Business Media
All rights Reserved
本书中文简体字版由 Springer Science+ Business Media 授权机械工业出版社独家出版。未经
出版者书面许可,不得以任何方式复制或抄袭本书内容。
本书是一本统计学习方法的概要书,提供了理解大数据和复杂数据必不可少的工具,数据来自近
20 年来生物学、金融学、市场营销学和天体物理学等领域。书中介绍了一些重要的建模方法和预测技
术以及它们的相关应用。内容涉及线性回归、分类、再抽样方法、压缩方法、树方法、聚类、支持向
量机等。书中使用大量案例来阐释相关方法,每章都有如何在 R 中实现所述方法的指导实验。
本书读者对象是那些希望运用统计学习前沿技术分析数据的人士,既包括统计学专业的师生,也包
括非统计学专业的从业者。
出版发行:机械工业出版社(北京市西城区百万庄大街 22 号邮政编码 100037 )
责任编辑:明永玲
责任校对:董纪丽
刷:
印
开本 185mm x 260mm 1/16
书号 ISBN 978-7-111-49771-4
版
印
次 2015 年 5 月第 1 版第 1 次印刷
张 20.25 (含l. 5 印张彩插)
定价 79.00 元
几购本书,如有缺页、 1f'J 页、脱页,由本社发行部调换
客股热线: (010) 88378991 88361066
购书热线: (010) 68326294 88379649 68995259
投稿热线: (010) 88379604
读者信箱 hzjsj@hzbook.com
版权所有·侵权必究
封底无防伪标均为盗版
本书法律顾问:北京大成律师事务所 韩光/邹晓东
中文版序
When we wrote An Introduction to Stα tisticα 1 Leα rning , we had a single goal: to make key
concepts in statistical machine learning accessible to a very broad audience. We are thrilled that
Professor Xing Wang has taken the time to translate our book into Chinese , so that these concepts
will be made accessible to an even broader audience. We hope that the readers of this Chinese
translation will find our book to be a useful and informative introduction to a very exciting and im-
portant research area.
Sincerely!
回想当初在编写《统计学习导论》这本书的时候,我们 4 位作者心中只有一个梦
想:让更多的读者能够聆听到统计机器学习里的基本概念。中国人民大学的王星教授
花了很多时间将这本书翻译成中文,这令我们十分欣慰,相信会有更多的朋友可以通
过这本书涉足该领域。我们希望中文版的读者会被书中的内容丰富和案例实用所吸引,
并由此进入一个令人兴奋且颇具影响的研究领域。
真诚地祝福!
Gareth James , Daniela Witten , Trevor Hastie and Robert Tibshirani
译者序
数据是对事物及其量的记录,有存储字节的记录就是数据。数据是研究各种问题
的基础,数据的形态种类繁多, 1旦有两类数据在分析中常常是不能忽略的,一类是测
量数据,另一类是系统数据。前者主要是指用合适的工具对给定研究对象某个属性上
的量进行测定,主要用于提供有关研究对象量的实验证据,一般需要针对研究目标进
行特定的科学设计、抽样计算、数据采集、相关整理、参数估计和模型检验等。这类
数据的产生过程严格,规则明确,数据质量受实验环境影响较大,建模的主要目的是
分析估计目标的误差来源和相关影响。后者则是计算机体系架构为高效传输文件而产
生的记录,比如日志、 IP 地址等,这类记录中既包含了系统的运行程序也包含了所传
递对象的流通属性,其特点是,模块结构化程度高,程序繁理很快,高消耗低效能特
证明显。这两类数据在巨大的网络平台上各自位于相对独立的体系并在自有协议中运
行。另一方面,两类数据丰管着人、机、物二元世界的信息交换,比如在个性化医疗
实施方案中,既需要测量数据的支持也需要系统数据的支持,比如通过普查数据可以
了解老龄人口的分布情况,通过互联网监测系统可以对其中的孤寡老人开展危险分层
建模和有效的社区医疗服务。后者又为高危人口的进一步分析提供监测的抽样框,所
以统一分析非常必要。在这些动态、价值密度有待开发的高维大数据上发展协同自序
的新数据应用模型,统计学习方法是必要的工具,它用于协调大数据重组结构中差异
的发现和分离,并维护整体分析的同一性。
本书 4 佳作者都是统计学习领域的先行者,作者 Trevor Hastie 和 Robert Tibshirani 在
十几年前主导了《统计学习基础} (The Elements of Statistical Learning , ESL) 的出版,
这本书堪称学术经典,系统阐述了统计学习理论,培养了大批数据分析专业人士。而
这一次,两位作者提携了两位年轻教授共同推动统计学习在复杂数据分析领域作为模
型建立和数据理解的工具的应用。这些工具模型在 R 软件中可以任意组合,具有很强
的实用性和灵活性。与传统统计模型重点关注单一结构的数据统计特征不同,统计学
习模型重点关注数据分布结构的提取和程序分析的建构思维。书中例子丰富有趣,涉
V
足诸多领域,包括体育、市场营销、金融等热门领域,案例深入浅出、实验特色鲜明。
本书适用于数据分析、机器学习以及统计学等专业方向高年级本科生和研究生,同时
也可作为非统计学专业数据分析发烧友的手边参考书。
本人多年从事统计学习、 R 软件的教学和科研,一个切身的体会是国内大数据分析
市场化程度较低,有价值的研究常常无法获得高质量的分析数据,而公共数据的开发
还有待深化,一些钟情于数据分析的发烧友其实更迷恋国外结构化较高且内涵丰富的
数据,比如 Pl山时 d 等。一个原因是具备数据提供能力的人往往不能正确评估手中数据
的分析价值,换句话说,是对统计学习方法的实践能力不足。相信这本书将再次掀起
国内大数据分析和 R 实践爱好者参与设计新的学习模型的热潮,从而共同推动国内大
数据分析合作市场的建立。正因为如此,我和我的团队牺牲了多半年本该属于其他重
点课题研究的宝贵时间, f项情专注于这本书的翻译和校对,除我之外,还有以下同学
参与了初稿的翻译:颜娅婷、王人福、 f耳金菁、李雅菁、张慧婷、许泳择、王聪、、郑
轶、马璇、李政寰,其中颜娅婷和王人福还参与了部分初稿的修改工作,王星负责全
书的统稿和审核。本书受中国人民大学" 985 工程"支持和中国人民大学科学研究基
金项目人文学科跨界关系网络跟踪评价研究编号 13XNI011 资助,在此一并感谢。
其实早在 10 年前我们开始研读《统计学习基础》时就希望有机会参与这个新方向
经典作品的翻译,可惜迟到一步。这次翻译弥补了多年的缺憾,能够获得翻译专业经
典的机会是我和整个团队的殊荣,相信其他读者也能够从中感受到我们传递给大数据
分析爱好者的一份热忱与真诚。
王星
2015 年 1 月
中国人民大学应用统计研究中心&统计学院
目 IJ
~
统计学习是一套以复杂数据建模和数据理解为目的的工具集,是近期才发展起来
的统计学的一个新领域,它与计算机科学特别是其中的机器学习相互融合、协同发展。
统计学习领域涵盖了许多方法,比如说 lasso 回归、稀疏回归、分类和回归树、提升法
和支持向量机。
随着"大数据"问题的爆炸式增长,统计学习已成为许多科学领域及市场研究、
金融学等商科领域一个非常热门的话题,拥有统计学习技能的人才千金难求。
统计学习领域开山之作之一
《统计学习基础} (The Elements of Statistical Learn-
ing , ESL) (作者 Hastie , Tibshirani , Friedman) 于 2001 年出版,第 2 版于 2009 年问世。现
在, ESL 已成为统计学界乃至其他相关领域的一本非常受欢迎的教材,其中一个原因是
ESL 的风格平实,易于接受。但事实上, ESL 是为受过数学科学高等训练的人而写的。这
本《统计学习导论} (An Introd时tion to Statistical Learning , ISL) 是为对统计学习方法有
广泛需求,但又担心技术高深难懂的读者所写。本书所列主题与 ESL 大体一致, {且更注
重方法的应用且同时弱化了数学推导的细节。书中附有一些实验以解释如何用 R 软件实
现统计学习方法。这些实验能够给读者提供有价值的实操经验。
本书适合统计学及相关数量分析领域的高年级本科生以及硕士生阅读,也适合其
他专业希望运用统计学习工具分析数据的人阅读。本书可作为一学期到两学期课程的
教科书使用。
在此,对那些曾经阅读过本书初稿并提出宝贵意见的人致以诚挚的感谢: Pallavi
Basu , Alexandra Chouldechova , Patrick Danaher , Will Fithian , Luella Fu , Sam Gross , Max
Grazier G'Sell , Courtney Pal山 on , Xi吨hao Qiao , Elisa S剖}阳
Xin Lu Tano
预测不易,预测未来更不易。
Yogi Berra
Gareth James (美国洛杉矶)
Daniela Witten (美国西雅图)
Trevor Hastie (美国帕罗奥图)
Robert Tibshirani (美国帕罗奥图)
目录
中文版序
译者序
前言
第 1 章导论…………………………… 1
1. 1 统计学习概述
1. 2 统计学习简史 …………………… 4
事项……………………………… 57
3.4 营销计划………………………… 70
3.5 线性回归与 K 最近邻法的
比较……………………………… 72
3.6 实验:线性回归………………… 75
3. 7 习题……………………………… M
1. 3 关于这本书 ……………………… 4
第 4 章分类…………………………… 89
1. 4 这本书适用的读者群 …………… 6
4. 1 分类问题概述…………………… 89
1. 5 记号与简单的矩阵代数 ………… 6
4.2 为什么线性回归不可用………… 90
1. 6 本书的内容安排 ………………… 8
4.3 逻辑斯谛回归…………………… 91
1. 7 用于实验和习题的数据集 ……… 9
4.4 线性判别分析…………………… 96
1. 8 本书网站………………………… 10
4.5 分类方法的比较………………… 105
1. 9 致谢……………………………… m
4.6 R 实验:逻辑斯谛回归、 LDA ,
第 2 章统计学习……………………… 11
2. 1 什么是统计学习………………… 11
。DA 和 KNN …………………… 107
4. 7 习题……………………………… 117
2.2 评价模型精度…………………… 21
第 5 章重抽样方法………………… 121
2. 3 实验 :R 语言简介……………… 30
5. 1 交叉验证法……………………… 121
2.4 习题……………..………………. 37
5.2 自助法…………………………… 129
第 3 章线性回归……………………… 41
3. 1 简单线性回归…………………… 42
5.3 实验:交叉验证法和自助法…… 131
5.4 习题……………………………… 136
3.2 多元线性回归…………………… 49
第 6 章 线性模型选择与正则化…… 140
3.3 回归模型中的其他注意
6. 1 子集选择………………………… 141
1咀
6.2 压缩估计方法…………………… 148
8.2 装袋法、随机森林和提升法…… 219
6.3 降维方法………………………… 157
8.3 实验:决策树…………………… 225
6.4 高维问题………………………… 163
8.4 习题……………………………… 231
6.5 实验 1 :子集选择方法………… 167
6.6 实验 2: 岭回归和 lasso ……… 173
6. 7 实验 3: PCR 和 PLS 回归……… 177
6. 8 习题……………………………… 180
第 9 章支持向量机………………… 234
9. 1 最大间隔分类器………………… 234
9.2 支持向量分类器………………… 238
9.3 狭义的支持向量机……………… 241
第 7 章非线性模型………………… 184
9.4 多分类的 SVM ………………… 246
7. 1 多项式回归……………………… 185
9.5 与逻辑斯谛回归的关系………… 247
7.2 阶梯函数………………………… 186
9.6 实验:支持向量机……………… 248
7.3 基函数…………………………… 187
9. 7 习题……………………………… 256
7.4 回归样条………………………… 188
7.5 光滑样条………………………… 192
7.6 局部回归………………………… 194
7. 7 广义可加模型…………………… 196
7.8 实验:非线性建模……………… 200
7.9 习题……………………………… 207
第 10 章无指导学习……………… 259
10.1 无指导学习的挑战…………… 259
10.2 主成分分析…………………… 260
10. 3 聚类分析方法………………… 267
10.4 实验 1 :主成分分析………… 277
10. 5 实验 2: 聚类分析…………… 280
第 8 章基于树的方法……………… 211
10.6 实验 3: 以 NCI60 数据为例… 282
8. 1 决策树基本原理………………… 211
10.7 习题…………………………… 287