大数据技术丛书
Splunk 大数据分析
Big Data Analytics Using Splunk
(美) Peter Zadrozny Raghu Kodali 著
唐宏 陈健 译
图书在版编目(CIP)数据
Splunk 大数据分析 /(美)扎德罗津尼(Zadrozny, P.)等著;唐宏,陈健译 . —北京:机
械工业出版社,2014.5
(大数据技术丛书)
书名原文: Big Data Analytics Using Splunk
ISBN 978-7-111-46429-7
I. S… II. ① 扎… ② 唐… ③ 陈… III. 数据处理软件 IV. TP274
中国版本图书馆 CIP 数据核字(2014)第 072758 号
本书版权登记号:图字:01-2013-9164
Peter Zadrozny, Raghu Kodali: Big Data Analytics Using Splunk (ISBN: 978-1-4302-5761-5).
Original English language edition published by Apress L. P., 2560 Ninth Street, Suite 219, Berkeley,
CA 94710 USA. Copyright © 2013 by Peter Zadrozny, Raghu Kodali. Simplified Chinese-language edition
copyright © 2014 by China Machine Press. All rights reserved.
This edition is licensed for distribution and sale in the People’s Republic of China only, excluding
Hong Kong, Taiwan and Macao and may not be distributed and sold elsewhere.
本书原版由 Apress 出版社出版。
本书简体字中文版由 Apress 出版社授权机械工业出版社独家出版。未经出版者预先书面许可,不得以任何方式
复制或抄袭本书的任何部分。
此版本仅限在中华人民共和国境内(不包括中国香港、台湾、澳门地区)销售发行,未经授权的本书出口将被视
为违反版权法的行为。
Splunk 大数据分析
[ 美 ] Peter Zadrozny 等著
出版发行:机械工业出版社(北京市西城区百万庄大街 22 号 邮政编码:100037)
责任编辑:秦 健
印 刷:
开 本:186mm×240mm 1/16
书 号: ISBN 978-7-111-46429-7
版 次:2014 年 5 月第 1 版第 1 次印刷
印 张:19
定 价:69.00
凡购本书,如有缺页、倒页、脱页,由本社发行部调换
客服热线:(010)88378991 88361066
购书热线:(010)68326294 88379649 68995259
投稿热线:(010)88379604
读者信箱:hzjsj@hzbook.com
版权所有· 侵权必究
封底无防伪标均为盗版
本书法律顾问:北京大成律师事务所 韩光 / 邹晓东
译 者 序
绝大多数物理现象、人类活动都会记录在各种媒介中,而随着数字化的普及,这一切
又都将转化为数据,人类正在从“卷宗”社会走向“数字”社会。尤其是近年来伴随着智
能终端、移动互联网以及物联网等信息技术的发展,数字社会中的数据无论是在类型还是
规模方面都在飞速发展,大数据以一种迅疾的速度渗透到我们生活、工作的各个领域。据
统计,目前全球被创建和复制的数据总量已超过 2ZB(1021B),远远超过人类有史以来所
有印刷材料的数据总量(约 200PB)。想要从庞大的数据库中提取有用的信息或知识,就离
不开大数据分析技术和工具。有观点认为,对于已经颠覆或将要颠覆传统行业的应用(如电
子商务、互联网金融、物联网),其核心竞争力之一就是大规模的数据分析能力,也就是我
们说的大数据能力。
相比传统数据,大数据具有规模大、类型广、时效高等特点,存储和处理这些数据必
须引入新的技术和机制。Splunk 是一种典型的大数据处理工具,能够非常高效地按时序对
数据进行存储、索引、访问,已广泛应用在多个领域。为此,本书全面系统地介绍了大数
据挖掘工具 Splunk,从数据导入、访问、挖掘等角度系统介绍 Splunk 的原理和使用方式,
以帮助读者快速掌握 Splunk。
在过去几个月中,黄琰、凡蕙铭、韩超、赖旦冉、何君、蓝贤赟参与了部分翻译,傅
桔选、沈书毅、叶玮成担任了部分校审工作,在此感谢他们认真的态度和极大的耐心。当
然,本书的翻译工作得以顺利完成,还要感谢机械工业出版社的编辑以及其他所有工作人
员在各方面的支持和帮助。最后,对给予我们无私帮助的那些人致以诚挚的谢意。
译者水平有限,书中疏漏在所难免,敬请读者批评指正。
致 谢
首先,我们感谢 Splunk 的工程团队,他们构建了一个一流的产品并且不断地改进它。
以下排名不分先后:Stephen Sorkin,感谢他对于全书所有的指导、反馈和意见;Siegfried
Puchbauer, 感 谢 他 任 何 关 于 DB 连 接 的 宝 贵 意 见;Alice Cotti, 感 谢 她 给 我 们 提 供 了
Foursquare 数据;Sunny Choi,感谢她的支持以及提供的所有性能信息;Dhivya Srinivasan,
感谢他让各个应用程序都正确工作;David Carasso,感谢他对于情感分析应用程序的帮助;
David Foster,感谢他对于 Twitter 应用程序的帮助。我们还感谢 Rob Das,他编写了第 7 章
的草稿。Omcar Paradkar,感谢他作为我们的顾问并否定了我们一些马虎和不好的想法。最
后,我们感谢 Rob Reed,他给了我们鼓励并提供了编辑的技巧。
特别感谢 GoGrid(www.gogrid.com)为 Peter 在圣荷西州立大学的课程“ Introduction
to Big Data Analytics ”提供了免费的云服务,本书中所有项目的开发也用到了这个服务。
我们也感谢在 Peter 的 2012 年秋季和 2013 年春季学期中参与到确定本书内容的课程实验中
的学生们。
Peter Zadrozny 的致谢
在这里不提及我的家人是非常不公平的,他们默默地承受着每个事件中我的缺席。虽
然我实际上还在他们身边,但他们也只能看到我的背影。我感谢他们的支持和理解。
Raghu Kodali 的致谢
我不得不说,我很幸运地得到了几位不可思议的人的大力支持,这些人使编写这本书
成为可能。感谢 Peter 关于章节不断提供的指导,帮助我把重点放在正确的事情上。
感谢 Paul Stout 在技术审校和确定尽可能准确描述 Splunk 功能的章节上的意见。
感谢 Tom Welsh 在编辑过程中真诚的反馈。
感谢我的父母 Laila 和 Chandra Sekhara Rao Kodali 给予了我无限的耐心,他们是我最
V
忠实的支持者。他们一直相信我,并且他们从印度到加州来给我鼓励。在我潜心写这本书
的时候,他们照顾我的孩子。
感谢我的妻子 Lakshmi,她鼓励我进入这个项目并且支持我。对于我 8 岁的儿子 Yash,
他对于我如何开展这个项目有着浓厚的兴趣,不停地查看他是否能提供一定的帮助。对于
我 5 岁的儿子 Nikhil,他询问我大数据是什么并且不断地提醒我,要我快点完成写作,这
样他就能在书中看到他的名字了。
目 录
译者序
致谢
第 1 章 大数据和 Splunk / 1
1.1 什么是大数据 / 1
1.2 非传统的数据处理技术 / 5
1.3 Splunk 是什么 / 6
1.4 关于本书 / 7
第 2 章 将数据导入 Splunk / 9
2.1 数据的多样性 / 9
2.2 Splunk 如何处理多样化的数据 / 10
2.2.1 文件和目录 / 11
2.2.2 数据生成器 / 16
2.2.3 生成样本数据 / 17
2.2.4 网络资源 / 21
2.2.5 Windows 数据 / 21
2.2.6 其他资源 / 21
2.3 应用程序和附加组件 / 21
2.4 转发器 / 26
2.5 小结 / 27
第 3 章 处理和分析数据 / 28
3.1 了解组合访问日志数据 / 28
3.2 搜索和分析索引数据 / 29
VII
3.3 报表 / 35
3.3.1 使用最多的浏览器 / 35
3.3.2 排名前五的 IP 地址 / 37
3.3.3 浏览量来源最多的网站 / 38
3.3.4 有多少 404 事件 / 40
3.3.5 有多少事件包含购买行为 / 42
3.3.6 列出购买的商品 / 42
3.4 排序 / 44
3.5 过滤 / 45
3.6 添加和评估字段 / 47
3.7 聚合 / 48
3.8 小结 / 54
第 4 章 结果的可视化 / 55
4.1 数据可视化 / 55
4.2 Splunk 是怎样处理可视化的 / 55
4.3 chart / 60
4.3.1 制作每一个主机的 GET 和 POST 事件数量的图表 / 61
4.3.2 制作每一个产品类别的购买数和浏览数的图表 / 62
4.3.3 哪个产品种类受 HTTP 404 错误的影响 / 63
4.3.4 MyGizmoStore.com 的购买趋势 / 64
4.3.5 事务持续时间 / 66
4.4 timechart / 67
4.4.1 最高购买数量的产品 / 67
4.4.2 页面浏览率和购买量 / 68
4.5 使用 Google Maps 应用程序来可视化 / 69
4.6 Globe / 71
4.7 仪表盘 / 72
4.8 小结 / 80
第 5 章 定义警报 / 81
5.1 什么是警报 / 81
5.2 Splunk 如何提供警报 / 81
5.2.1 基于商品销售量的警报 / 82
5.2.2 登录失败的警报 / 84