logo资料库

pentaho BI中文教程.pdf

第1页 / 共82页
第2页 / 共82页
第3页 / 共82页
第4页 / 共82页
第5页 / 共82页
第6页 / 共82页
第7页 / 共82页
第8页 / 共82页
资料共82页,剩余部分请下载后查看
目 录
前言
1 商业智能概述
1.1 BI发展动向及趋势
1.1.1 从察觉已实施BI项目的问题启程
1.1.2 开源BI在导演BI行业的未来
1.1.3 一些客户对开源BI软件的担忧
1.2 主流开源BI套件
1.2.1 Pentaho BI套件
1.3 小结
2 迈入Pentaho BI 3.5开源套件
2.1 下载及安装Pentaho BI平台
2.1.1 初识Pentaho BI服务器
2.1.2 启用Pentaho管理控制台
2.2 配置Pentaho BI平台
2.2.1 调整宿主BI服务器的JVM参数
2.2.2 调整BI服务器的日志输出策略
2.2.3 调整宿主BI服务器的Apache Tomcat参数
2.2.4 将Pentaho BI服务器的资料库迁移到Oracle数据库
2.2.5 将Pentaho BI服务器的资料库迁移到MySQL数据库
2.2.6 保护Pentaho管理控制台
2.3 小结
3 数据加工王者-Kettle
3.1 ETL及Kettle概述
3.1.1 基于“流”架构的Kettle
3.1.2 下载及安装Kettle
3.2 Spoon-设计转换及作业的集成开发环境
3.2.1 启动Spoon
3.2.2 从Kettle内置的ETL转换和作业示例谈起
3.2.3 监控ETL转换的执行性能
3.2.4 调整宿主Spoon IDE的JVM内存
3.3 将转换和作业进行外在化管理
3.3.1 存储到数据库中-以Oracle为例
3.4 Kettle内置的ETL相关辅助工具
3.4.1 Pan-执行转换
3.4.2 Kitchen-执行作业
3.4.3 Carte-添加新的ETL执行引擎
3.4.4 Encr加密工具
3.5 基于集群并发加工大批量数据
3.5.1 静态集群模式
3.5.2 动态集群模式
3.6 与Pentaho BI服务器的集成
3.7 自定义及扩展Kettle
3.8 Kettle最佳实践
3.8.1 善待Kettle内置的变量集合
3.9 其他ETL解决方案
3.9.1 同IBM DataStage的对比
3.9.2 Spring Batch-另一种风格的ETL解决方案
3.10 小结
4 Action Sequence-集大成者
4.1 Action Sequence概述
4.1.1 Pentaho Design Studio开发工具
4.2 深入到Action Sequence中
4.2.1 Action Sequence定义
4.2.2 测试Action Sequence
4.2.3 组件集合
4.3 于复杂BI场景中进行Action Sequence实战
4.3.1 银行ETL调度场景概述
4.3.2 Action Sequence的创建过程
4.3.3 运行并验证Action Sequence的执行
4.4 小结
5 Pentaho报表工具-数据展现解决方案
5.1 Pentaho数据展现解决方案概述
5.1.1 Pentaho元数据编辑器概述
5.2 Pentaho Report Designer
5.2.1 PRD的下载及安装
5.2.2 借助PRD完成报表的制作
5.3 借助PME梳理报表模型
5.3.1 PME的下载及安装
5.3.2 使用PME
5.3.3 PRD中报表模型的使用
5.4 Pentaho即席报表
5.4.1 揭秘metadata.xmi
5.4.2 即席报表的制作
5.5 嵌入式Pentaho报表引擎
5.5.1 操作型BI报表
5.5.2 嵌入式报表的研发过程
5.6 Pentaho数据展现最佳实践
5.6.1 中文问题
5.7 小结
6 Mondrian OLAP引擎-多维数据分析利器
6.1 OLAP概述
6.1.1 多维建模及数据仓库设计
6.1.2 Mondrian OLAP引擎
6.2 使用Mondrian
6.2.1 下载Mondrian OLAP引擎
6.2.2 初探Mondrian OLAP
6.2.3 Mondrian OLAP使用案例研究
6.3 借助PSW设计OLAP Cube
6.3.1 下载Pentaho Schema Workbench
6.3.2 初探PSW
6.3.3 PSW使用案例研究
6.4 Mondrian技术架构探讨
6.5 与Pentaho BI服务器的集成
6.6 借助Pentaho Aggregation Designer提升数据分析性能
6.6.1 数据聚合概述
6.6.2 PAD的下载和安装
6.6.3 PAD使用案例研究
6.7 小结
7 基于Weka的数据挖掘解决方案
7.1 数据挖掘概述
7.1.1 Weka介绍
7.2 采纳Weka进行数据挖掘
7.2.1 下载Weka
7.2.2 Weka使用案例研究
7.3 小结
8 Pentaho仪表盘工具
8.1 Pentaho Dashboard工具概述
8.1.1 Community Dashboard Framework介绍
8.1.2 借助Flash展现
8.2 小结
9 Pentaho BI套件高级特性讨论
9.1 配置新的解决方案库
9.1.1 Solution概述
9.1.2 实践Solution
9.2 基于元数据的架构思路
9.3 基于领域模型的安全性管理
9.4 小结
10 附录A:Kettle组件权威指南
10.1 专注转换的组件集合
10.1.1 输入组件
10.1.2 输出组件
10.1.3 转换组件
10.1.4 实用(Utility)组件
10.1.5 流程控制(Flow)组件
10.1.6 脚本组件
10.1.7 查询组件
10.1.8 连接组件
10.1.9 数据仓库组件
10.1.10 校验(Validation)组件
10.1.11 统计(Statistics)组件
10.1.12 作业组件
10.1.13 映射组件
10.1.14 内联组件
10.1.15 批量装载(Bulk Loading)组件
10.2 专注作业的组件集合
10.2.1 通用组件
10.2.2 邮件组件
10.2.3 文件管理组件
10.2.4 条件组件
10.2.5 脚本组件
10.2.6 批量加载组件
10.2.7 XML组件
10.2.8 文件传输组件
10.2.9 资源库组件
11 附录B:Spring Batch
11.1 为ETL而战
11.2 Spring Batch概述
11.3 实践Spring Batch
12 附录C:相关资料
12.1 图书
12.2 网站
Pentaho BI 套件的架构与使用权威指南 罗时飞 著 http://www.open-v.com 2011 年 8 月 27 日 【版权所有、侵权必究】
目 录 序 ............................................................................................................................................VIII 前言 ........................................................................................................................................... X 1 商业智能概述 .................................................................................................................... 1 1.1 BI 发展动向及趋势 ......................................................................................................... 1 1.1.1 从察觉已实施 BI 项目的问题启程 ................................... 1 1.1.2 开源 BI 在导演 BI 行业的未来 ...................................... 2 1.1.3 一些客户对开源 BI 软件的担忧 ..................................... 4 1.2 主流开源 BI 套件 ............................................................................................................ 5 1.2.1 Pentaho BI 套件 .................................................. 6 1.3 小结 ................................................................................................................................. 7 2 迈入 Pentaho BI 3.5 开源套件 ........................................................................................... 8 2.1 下载及安装 Pentaho BI 平台 .......................................................................................... 8 2.1.1 初识 Pentaho BI 服务器 ........................................... 9 2.1.2 启用 Pentaho 管理控制台 ......................................... 10 2.2 配置 Pentaho BI 平台 .................................................................................................... 11 2.2.1 调整宿主 BI 服务器的 JVM 参数 .................................... 11 2.2.2 调整 BI 服务器的日志输出策略 .................................... 12 2.2.3 调整宿主 BI 服务器的 Apache Tomcat 参数 .......................... 12 2.2.4 将 Pentaho BI 服务器的资料库迁移到 Oracle 数据库 ................. 13 2.2.5 将 Pentaho BI 服务器的资料库迁移到 MySQL 数据库 .................. 17 2.2.6 保护 Pentaho 管理控制台 ......................................... 19 2.3 小结 ............................................................................................................................... 20 3 数据加工王者-Kettle ..................................................................................................... 21 3.1 ETL 及 Kettle 概述 ......................................................................................................... 21 II
3.1.1 基于“流”架构的 Kettle .......................................... 21 3.1.2 下载及安装 Kettle ............................................... 22 3.2 Spoon-设计转换及作业的集成开发环境 ................................................................. 23 3.2.1 启动 Spoon ...................................................... 23 3.2.2 从 Kettle 内置的 ETL 转换和作业示例谈起 .......................... 24 3.2.3 监控 ETL 转换的执行性能 ......................................... 29 3.2.4 调整宿主 Spoon IDE 的 JVM 内存 ................................... 30 3.3 将转换和作业进行外在化管理 ................................................................................... 30 3.3.1 存储到数据库中-以 Oracle 为例 .................................. 30 3.4 Kettle 内置的 ETL 相关辅助工具 ................................................................................. 32 3.4.1 Pan-执行转换 .................................................. 32 3.4.2 Kitchen-执行作业 .............................................. 32 3.4.3 Carte-添加新的 ETL 执行引擎 .................................... 33 3.4.4 Encr 加密工具 ................................................... 35 3.5 基于集群并发加工大批量数据 ................................................................................... 35 3.5.1 静态集群模式 ................................................... 36 3.5.2 动态集群模式 ................................................... 36 3.6 与 Pentaho BI 服务器的集成 ........................................................................................ 36 3.7 自定义及扩展 Kettle ..................................................................................................... 36 3.8 Kettle 最佳实践 ............................................................................................................. 36 3.8.1 善待 Kettle 内置的变量集合 ...................................... 36 3.9 其他 ETL 解决方案........................................................................................................ 36 3.9.1 同 IBM DataStage 的对比 ......................................... 36 3.9.2 Spring Batch-另一种风格的 ETL 解决方案 ......................... 37 3.10 小结 ............................................................................................................................... 37 4 Action Sequence-集大成者 ........................................................................................... 39 4.1 Action Sequence 概述 ................................................................................................... 39 4.1.1 Pentaho Design Studio 开发工具 .................................. 40 4.2 深入到 Action Sequence 中 .......................................................................................... 42 III
4.2.1 Action Sequence 定义 ............................................ 42 4.2.2 测试 Action Sequence ............................................ 43 4.2.3 组件集合 ....................................................... 44 4.3 于复杂 BI 场景中进行 Action Sequence 实战 ............................................................. 48 4.3.1 银行 ETL 调度场景概述 ........................................... 48 4.3.2 Action Sequence 的创建过程 ...................................... 48 4.3.3 运行并验证 Action Sequence 的执行 ............................... 49 4.4 小结 ............................................................................................................................... 49 5 Pentaho 报表工具-数据展现解决方案 ......................................................................... 50 5.1 Pentaho 数据展现解决方案概述 ................................................................................. 50 5.1.1 Pentaho 元数据编辑器概述 ........................................ 50 5.2 Pentaho Report Designer ............................................................................................... 51 5.2.1 PRD 的下载及安装 ................................................ 51 5.2.2 借助 PRD 完成报表的制作 ......................................... 52 5.3 借助 PME 梳理报表模型 .............................................................................................. 52 5.3.1 PME 的下载及安装 ................................................ 52 5.3.2 使用 PME ........................................................ 52 5.3.3 PRD 中报表模型的使用 ............................................ 52 5.4 Pentaho 即席报表 ......................................................................................................... 52 5.4.1 揭秘 metadata.xmi ............................................... 53 5.4.2 即席报表的制作 ................................................. 53 5.5 嵌入式 Pentaho 报表引擎 ............................................................................................ 53 5.5.1 操作型 BI 报表 .................................................. 53 5.5.2 嵌入式报表的研发过程 ........................................... 53 5.6 Pentaho 数据展现最佳实践 ......................................................................................... 53 5.6.1 中文问题 ....................................................... 53 5.7 小结 ............................................................................................................................... 54 6 Mondrian OLAP 引擎-多维数据分析利器 ..................................................................... 55 IV
6.1 OLAP 概述 ..................................................................................................................... 55 6.1.1 多维建模及数据仓库设计 ......................................... 55 6.1.2 Mondrian OLAP 引擎 .............................................. 55 6.2 使用 Mondrian .............................................................................................................. 55 6.2.1 下载 Mondrian OLAP 引擎 ......................................... 55 6.2.2 初探 Mondrian OLAP .............................................. 56 6.2.3 Mondrian OLAP 使用案例研究 ...................................... 56 6.3 借助 PSW 设计 OLAP Cube ........................................................................................... 56 6.3.1 下载 Pentaho Schema Workbench ................................... 56 6.3.2 初探 PSW ........................................................ 57 6.3.3 PSW 使用案例研究 ................................................ 57 6.4 Mondrian 技术架构探讨 .............................................................................................. 57 6.5 与 Pentaho BI 服务器的集成 ........................................................................................ 58 6.6 借助 Pentaho Aggregation Designer 提升数据分析性能 ............................................ 58 6.6.1 数据聚合概述 ................................................... 58 6.6.2 PAD 的下载和安装 ................................................ 58 6.6.3 PAD 使用案例研究 ................................................ 59 6.7 小结 ............................................................................................................................... 59 7 基于 Weka 的数据挖掘解决方案 .................................................................................... 60 7.1 数据挖掘概述 ............................................................................................................... 60 7.1.1 Weka 介绍 ....................................................... 60 7.2 采纳 Weka 进行数据挖掘 ............................................................................................ 60 7.2.1 下载 Weka ....................................................... 61 7.2.2 Weka 使用案例研究 ............................................... 61 7.3 小结 ............................................................................................................................... 61 8 Pentaho 仪表盘工具........................................................................................................ 63 8.1 Pentaho Dashboard 工具概述 ...................................................................................... 63 8.1.1 Community Dashboard Framework 介绍 .............................. 63 V
8.1.2 借助 Flash 展现 ................................................. 64 8.2 小结 ............................................................................................................................... 64 9 Pentaho BI 套件高级特性讨论 ........................................................................................ 65 9.1 配置新的解决方案库 ................................................................................................... 65 9.1.1 Solution 概述 ................................................... 65 9.1.2 实践 Solution ................................................... 65 9.2 基于元数据的架构思路 ............................................................................................... 65 9.3 基于领域模型的安全性管理 ....................................................................................... 65 9.4 小结 ............................................................................................................................... 65 10 附录 A:Kettle 组件权威指南 ..................................................................................... 66 10.1 专注转换的组件集合 ................................................................................................... 66 10.1.1 输入组件 ....................................................... 66 10.1.2 输出组件 ....................................................... 66 10.1.3 转换组件 ....................................................... 66 10.1.4 实用(Utility)组件 ............................................ 66 10.1.5 流程控制(Flow)组件 ........................................... 66 10.1.6 脚本组件 ....................................................... 67 10.1.7 查询组件 ....................................................... 67 10.1.8 连接组件 ....................................................... 67 10.1.9 数据仓库组件 ................................................... 67 10.1.10 校验(Validation)组件 ........................................ 67 10.1.11 统计(Statistics)组件 ........................................ 67 10.1.12 作业组件 ...................................................... 67 10.1.13 映射组件 ...................................................... 68 10.1.14 内联组件 ...................................................... 68 10.1.15 批量装载(Bulk Loading)组件 .................................. 68 10.2 专注作业的组件集合 ................................................................................................... 68 10.2.1 通用组件 ....................................................... 68 VI
10.2.2 邮件组件 ....................................................... 68 10.2.3 文件管理组件 ................................................... 68 10.2.4 条件组件 ....................................................... 68 10.2.5 脚本组件 ....................................................... 69 10.2.6 批量加载组件 ................................................... 69 10.2.7 XML 组件 ........................................................ 69 10.2.8 文件传输组件 ................................................... 69 10.2.9 资源库组件 ..................................................... 69 11 附录 B:Spring Batch .................................................................................................. 70 11.1 为 ETL 而战 ................................................................................................................... 70 11.2 Spring Batch 概述 .......................................................................................................... 70 11.3 实践 Spring Batch .......................................................................................................... 70 12 附录 C:相关资料 ....................................................................................................... 71 12.1 图书 ............................................................................................................................... 71 12.2 网站 ............................................................................................................................... 71 VII
序 序 Anyplace,Anywhere,Anytime。 虽然它只是一首著名歌曲的歌名,但却能够代表商业智能(Business Intelligence,BI) 的未来。 透过 http://en.wikipedia.org/wiki/Business_intelligence,我们能够了解到,它是这样定义 BI 的: “Business intelligence (BI) refers to skills, technologies, applications and practices used to help a business acquire a better understanding of its commercial context. Business intelligence may also refer to the collected information itself. BI technologies provide historical, current, and predictive views of business operations. Common functions of business intelligence technologies are reporting, OLAP, analytics, data mining, business performance management, benchmarking, text mining, and predictive analytics.” 从中可以推理出,业务数据是 BI 的基础、灵魂。BI 的一切工作都是围绕业务数据展开 的,并从中获得各种有利于商业运作的信息,从而为智能决策提供最强有力的支撑。 借助 BI 产品能够对数据实施全生命周期管理,涉及的环节包括数据加工、数据展现、 数据分析等。比如,以 ETL 为主的数据加工,以报表为主的数据展现,以多维分析(OLAP)、 数据挖掘为主的数据分析。从形态来看,企业可以部署单独的 BI 产品来管理这些环节,它 们也可以以嵌入式方式进行,比如直接在传统业务系统(OLTP)中嵌入实时报表。 现如今,各大商业软件巨头都有自身成熟的 BI 产品栈,比如 IBM、Oracle、SAS。由 于开源运动的逐渐发展、成熟,使得开源 BI 开始对这些商业 BI 巨头构成冲击,这其中以 Pentaho BI 和 Jaspersoft 为代表。社区的开放性,敏捷收集各种 BI 需求,灵活的实施模式, 较低的实施费用,源码公开,定制化工作能够很容易进行,等等这些都是开源 BI 的优势所 在。我们有理由相信,开源 BI 必将得到广泛部署。 过去的几年中,我们所在的银行 BI 团队成功将 Pentaho BI 应用到各种生产场景,这其 中以集成和扩展 Kettle、Pentaho Reporting(JFreeReport)、Mondrian、Weka 为主。 开源 BI 的兴起,加上多年 Pentaho BI 经验,使得本书的诞生成为可能。透过本书,读 者不仅能够掌握 Pentaho BI 套件的使用,而且对其技术架构有较深入了解。虽然本书是围绕 Pentaho BI 展开的,但我们更希望读者能够将它看成是一本传播 BI(开源 BI)知识和实践 VIII
分享到:
收藏