logo资料库

Talend学习资料入门指南.docx

第1页 / 共39页
第2页 / 共39页
第3页 / 共39页
第4页 / 共39页
第5页 / 共39页
第6页 / 共39页
第7页 / 共39页
第8页 / 共39页
资料共39页,剩余部分请下载后查看
一.简介
二.安装(以windows举例)
三.查看示例项目
四.写几个小例子试试吧
<1>.例子:配置一个本地文件
<2>.例子:配置和执行您的作业
<3>.例子:过滤电影信息
<4>.例子:复制现有的Job
<5>.例子:添加映射组件
<6>.例子:添加查找组件
<7>.例子:配置映射并执行作业
<8>.例子:收集被拒绝的电影信息并将处理结果保存到数据库
<9>.例子:将数据库输出组件添加到作业
<10>.例子:配置被拒绝数据的映射
<11>.例子:配置MySQL数据库输出
<12>.例子:配置talend 和大数据集群的连接(hdfs,hive,hbase等)
<13>.例子:mysql 中表的数据上传到hdfs (完整案例)
五.安装第三方模块
摘要 talend-open-studio 是 talend(拓蓝)公司开发 的一个数据集成的数据 ETL 软件,可以简化数据处理流 程,降低入门门槛,不需要 掌握专业的 ETL 知识,仅仅 通过 web 界面和简单的组件 拖拽就可实现数据处理。 Talend 入门指南 吉贝克内部分享
目录 一.简介.................................................................................................................................................................. 2 二.安装(以 windows 举例)....................................................................................................................... 2 三.查看示例项目................................................................................................................................................2 四.写几个小例子试试吧..................................................................................................................................4 <1>.例子:配置一个本地文件...............................................................................................................4 <2>.例子:配置和执行您的作业..........................................................................................................8 <3>.例子:过滤电影信息..................................................................................................................... 10 <4>.例子:复制现有的 Job..................................................................................................................14 <5>.例子:添加映射组件..................................................................................................................... 15 <6>.例子:添加查找组件..................................................................................................................... 17 <7>.例子:配置映射并执行作业....................................................................................................... 19 <8>.例子:收集被拒绝的电影信息并将处理结果保存到数据库...........................................22 <9>.例子:将数据库输出组件添加到作业.....................................................................................23 <10>.例子:配置被拒绝数据的映射................................................................................................ 25 <11>.例子:配置 MySQL 数据库输出..............................................................................................26 <12>.例子:配置 talend 和大数据集群的连接(hdfs,hive,hbase 等)..............................27 <13>.例子:mysql 中表的数据上传到 hdfs (完整案例)........................................................... 30 五.安装第三方模块........................................................................................................................................ 36 1
一.简介 talend-open-studio 是 talend(拓蓝)公司开发的一个数据集成的数据 ETL 软件,可以 简化数据处理流程,降低入门门槛,不需要掌握专业的 ETL 知识,仅仅通过 web 界面和简单 的组件拖拽就可实现 数据处理。可以协助企业利用更多数据,不断提高其数据的可用性、 可靠性以及有用性。BI 工具 talend talend-open-studio 功能强大,可以同步多种数据库, 可以清洗、筛选、java 代码处理数据、数据导入导出,内联查询多种数据库。以下简称 talend。 概况来说,talend 特点主要有以下几点: (1).数据源:各种常用数据库(mysql,oracle,hive),文件,web service 等。 (2).数据质量:在 GUI 里有数据质量特性,可以手工写 SQL 语句。 (3).速度:需要手工调整,对特定数据源有优化知识。 (4).部署:创建 java 或 perl 文件,并通过操作系统调度工具来运行 (5).易用性:有 GUI 图形界面但是以 Eclipse 的插件方式提供。 关于该软件详细介绍看官网 https://www.talend.com/products/talend-open-studio/。 Youtube 上去搜索 talend 会有一些详细教学视频(官网视频在 YouTube 上都可以找到)。 Talend 社区 https://community.talend.com/t5/Design-and-Development 二.安装(以 windows 举例) 1. JDK1.8 及以上; 2. ecplise 软件 3.官网下载 https://www.talend.com/products/talend-open-studio/#t4 4.解压,点击 .exe 即可 5.若有报错,检查 jdk 和 ecplise 版本以及报错具体信息。 三.查看示例项目 Talend 为我们提供了详细的入门案例。 (1).选择导入演示项目 2
(2).根据需要选择你想查看的工程,此处我们选择第一个 (3).软件启动之后可以看到如下界面,左侧会有 HBASE,HIVE,HDFS 等目录,点开即可看 到示例。 可以看到 hdfs_get_put 这个 job 的流程 3
界面介绍 四.写几个小例子试试吧 <1>.例子:配置一个本地文件 在你开始之前 •您已在目录 C:\ getting_started \ input_data \中准备配置好源文件 4
movies.csv 。 程序: 1. 在 Repository 树视图中,展开 Metadata 节点,右键单击 File delimited, 然后从上下文菜单中选择 Create file delimited 以打开 New Delimited File 向导。 2. 在“ 新建分隔文件”向导中,输入文件元数据的名称,此示例中的电影以及其他 有用信息以更好地描述文件元数据,然后单击“ 下一步”转到下一步并定义其常规属性。 文件。 在向导的此步骤中,Name 是唯一的必填字段。 将鼠标指针移到文件连接上时, “ 描述”字段中提供的信息将显示为工具提示。 3. 在“ 文件”字段中,指定源文件的路径,或单击“ 浏览” 以浏览到该文件。 5
文件已加载,文件查看器区域显示文件的摘要,允许您检查文件一致性,标题的存 在以及更一般的文件结构。 4. 从“ 格式”列表中,选择您的操作系统,然后单击“ 下一步”以解析该文件。 5. 在“ 预览”选项卡上,选中“ 将标题行设置为列名”复选框以从第一行检索文件 列名,然后单击“ 刷新预览”。 6
将刷新文件预览,并自动选择“ 要跳过 的行”区域中的“ 标题”复选框,并将要跳 6. 如果文件包含多个标题行(需要在文件解析中跳过),请在此字段中指定数字, 过的标题行数增加 1。 然后 再次单击“ 刷新预览”。 7. 单击“ 下一步” 以检索文件架构。 Schema 表的描述显示生成的文件架构。 8. 将架构命名为 movies_schema 并检查文件架构并根据实际需要进行编辑。 在此示例中,增加 title 和 url 列的长度。 7
分享到:
收藏