摘要
talend-open-studio
是 talend(拓蓝)公司开发
的一个数据集成的数据 ETL
软件,可以简化数据处理流
程,降低入门门槛,不需要
掌握专业的 ETL 知识,仅仅
通过 web 界面和简单的组件
拖拽就可实现数据处理。
Talend 入门指南
吉贝克内部分享
目录
一.简介.................................................................................................................................................................. 2
二.安装(以 windows 举例)....................................................................................................................... 2
三.查看示例项目................................................................................................................................................2
四.写几个小例子试试吧..................................................................................................................................4
<1>.例子:配置一个本地文件...............................................................................................................4
<2>.例子:配置和执行您的作业..........................................................................................................8
<3>.例子:过滤电影信息..................................................................................................................... 10
<4>.例子:复制现有的 Job..................................................................................................................14
<5>.例子:添加映射组件..................................................................................................................... 15
<6>.例子:添加查找组件..................................................................................................................... 17
<7>.例子:配置映射并执行作业....................................................................................................... 19
<8>.例子:收集被拒绝的电影信息并将处理结果保存到数据库...........................................22
<9>.例子:将数据库输出组件添加到作业.....................................................................................23
<10>.例子:配置被拒绝数据的映射................................................................................................ 25
<11>.例子:配置 MySQL 数据库输出..............................................................................................26
<12>.例子:配置 talend 和大数据集群的连接(hdfs,hive,hbase 等)..............................27
<13>.例子:mysql 中表的数据上传到 hdfs (完整案例)........................................................... 30
五.安装第三方模块........................................................................................................................................ 36
1
一.简介
talend-open-studio 是 talend(拓蓝)公司开发的一个数据集成的数据 ETL 软件,可以
简化数据处理流程,降低入门门槛,不需要掌握专业的 ETL 知识,仅仅通过 web 界面和简单
的组件拖拽就可实现 数据处理。可以协助企业利用更多数据,不断提高其数据的可用性、
可靠性以及有用性。BI 工具 talend talend-open-studio 功能强大,可以同步多种数据库,
可以清洗、筛选、java 代码处理数据、数据导入导出,内联查询多种数据库。以下简称 talend。
概况来说,talend 特点主要有以下几点:
(1).数据源:各种常用数据库(mysql,oracle,hive),文件,web service 等。
(2).数据质量:在 GUI 里有数据质量特性,可以手工写 SQL 语句。
(3).速度:需要手工调整,对特定数据源有优化知识。
(4).部署:创建 java 或 perl 文件,并通过操作系统调度工具来运行
(5).易用性:有 GUI 图形界面但是以 Eclipse 的插件方式提供。
关于该软件详细介绍看官网 https://www.talend.com/products/talend-open-studio/。
Youtube 上去搜索 talend 会有一些详细教学视频(官网视频在 YouTube 上都可以找到)。
Talend 社区 https://community.talend.com/t5/Design-and-Development
二.安装(以 windows 举例)
1. JDK1.8 及以上;
2. ecplise 软件
3.官网下载 https://www.talend.com/products/talend-open-studio/#t4
4.解压,点击 .exe 即可
5.若有报错,检查 jdk 和 ecplise 版本以及报错具体信息。
三.查看示例项目
Talend 为我们提供了详细的入门案例。
(1).选择导入演示项目
2
(2).根据需要选择你想查看的工程,此处我们选择第一个
(3).软件启动之后可以看到如下界面,左侧会有 HBASE,HIVE,HDFS 等目录,点开即可看
到示例。
可以看到 hdfs_get_put 这个 job 的流程
3
界面介绍
四.写几个小例子试试吧
<1>.例子:配置一个本地文件
在你开始之前
•您已在目录 C:\ getting_started \ input_data \中准备配置好源文件
4
movies.csv 。
程序:
1. 在 Repository 树视图中,展开 Metadata 节点,右键单击 File delimited,
然后从上下文菜单中选择 Create file delimited 以打开 New Delimited File
向导。
2. 在“ 新建分隔文件”向导中,输入文件元数据的名称,此示例中的电影以及其他
有用信息以更好地描述文件元数据,然后单击“ 下一步”转到下一步并定义其常规属性。
文件。
在向导的此步骤中,Name 是唯一的必填字段。 将鼠标指针移到文件连接上时,
“ 描述”字段中提供的信息将显示为工具提示。
3. 在“ 文件”字段中,指定源文件的路径,或单击“ 浏览” 以浏览到该文件。
5
文件已加载,文件查看器区域显示文件的摘要,允许您检查文件一致性,标题的存
在以及更一般的文件结构。
4. 从“ 格式”列表中,选择您的操作系统,然后单击“ 下一步”以解析该文件。
5. 在“ 预览”选项卡上,选中“ 将标题行设置为列名”复选框以从第一行检索文件
列名,然后单击“ 刷新预览”。
6
将刷新文件预览,并自动选择“ 要跳过 的行”区域中的“ 标题”复选框,并将要跳
6. 如果文件包含多个标题行(需要在文件解析中跳过),请在此字段中指定数字,
过的标题行数增加 1。
然后 再次单击“ 刷新预览”。
7. 单击“ 下一步” 以检索文件架构。
Schema 表的描述显示生成的文件架构。
8. 将架构命名为 movies_schema 并检查文件架构并根据实际需要进行编辑。
在此示例中,增加 title 和 url 列的长度。
7