融通学苑: www.lt-bi.com QQ 群: 127752917 ; 210700527
1、 Data Stage 分为几个部分(组件),各部分的功能是什么?
Administrator – add/delete projects, set defaults
Manager – import meta data, backup projects
Designer – assemble jobs, compile, and execute
Director – execute jobs, examine job run logs
2、 Parallel job 和 sequence job 的区别?(What is difference between Parallel job and
Sequence job)
Basic difference is server job runs on windows platform usually and parallel job runs on
UNIX platform.
server job runs on one node whereas parallel job runs on more than one
3、 在 stage 中会有虚线分为哪两种,有什么作用?
在 stage 中有两种虚线
参考(reference link):以它所连接的文件作参考
拒绝(rejects link):把不满足条件的输出到另一个文件
4、 Partition 和 pipeline 的概念?
DataStage 中有两种实现并行的方法,一种是分区(partitioning),另一种则是管道(pipeline)。
所谓分区,是指将输入的数据按照某种规则,分成大小尽量相等的多块数据,每块数据都可
以由一行节点并行读取,这样就实现了并行。
有以下几类:Round robin 循环分区 随机(Random) Same 分区 完全分区(Entire)
Auto 分区 hash 分区 modulus 分区 DB2 分区
而所谓管道,则是指一条数据在被一个 stage 处理完成后,立即被输出到一条管道(pipeline)
中,下一个 stage 也立即读取这条管道中的数据进行操作,再一个 stage 也是如此,一直到
最后一个 stage。这种情况下,大致上每个 stage 都同时处在运行状态。因此这也是一种并
行。
5、 Combine 和 transform 都有什么?
combine:merge lookup join 等 transform : transformer Remove Duplicates Stage 等
6、 DATA SET FILE 和 SEQUENCE FILE 的区别,SEQUENCE FILE 如和转换成 DATA
SET
data set 分为两种,一种为.v 后缀结束,是虚拟的临时性的数据文件,一种以.ds
结束,是永久性的数据。由于 data set 是 DataStage 的底层数据文件格式,处理过
程中不需要进行任何的处理。它是二进制格式。如果数据需要落地,尽量使用 data
set。用 dataset 保存数据,对数据的分区信息也会保存起来,因此效率非常高。
Sequential file: Read data from or
write data one or more flat files. The stage can have a single input link or
a single output link, and a single rejects link.
--用 Compress 转换
7、 数据源都可以是以什么结尾的文件?
.txt .csv .ds 等
8、 可以用哪些方式导入数据?
sequential File ftp-plug in database table (db2 odbc Oracle Enterprise)等
9、Constraint 及 Derivation 的区别
Constraint 通过限定条件使符合条件的数据输出到这个 output link。
Derivation 通过定义表达式来转换字段值。
10、 辅助工具都有什么?
融通学苑: www.lt-bi.com QQ 群: 127752917 ; 210700527
Peek sort compare difference
Odbc 了解 open databases connectivity 设置用户名,密码,DB 名,在服务器端
11、
12 、hash 文件
It have keys and values ,to find the value through the key
13、transformer stage 的执行顺序:先执行变量处理部分,再执行约束,然后按从上往下顺
序执行每一列。---
14、lookup stage 和 join stage 的区别
LookUp Stage 将数据读入到内存中,所以效率很高,但是占用了较多的物理内存。所以
当 reference data 比较小的时候,我们推荐用 LookUp Stage;当 reference data 比较大的
时候,使用 Join Stage 比较合适
15、Merge stage 怎么用?
将 Merge Key 值相同的记录合并。将其中的一个输入设定为 Master,其余的为 Update。
把 Update 中 Merge Key 相同的记录合并入 Master。
16、什么是 schema file?
This is an optional property. By default the Sequential File
stage will use the column definitions defined on the Columns and Format
tabs as a schema for writing to the file. You can, however, specify a file
containing a schema instead (note, however, that if you have defined
columns on the Columns tab, you should ensure these match the schema
file). Type in a pathname or browse for a schema file.
这是一个可选的属性。默认情况下,顺序文件
阶段将使用列定义列和格式
选项卡作为书面文件的架构。然而,您可以指定一个文件
包含一个模式代替,(请注意,如果你已经定义
列列“选项卡上,你应该确保这些匹配模式
文件)。键入一个路径名或浏览模式文件
17、都有什么类型的 JOB。
Parallel job,Sequence job,server job,mainframe job, job sequence , container
18、对 DATASTAGE 的理解,应用领域(会问我们应用在该领域的理由)。
ETL,抽取,转换,加载。银行,金融行业
19、做过什么项目,项目用到的 STAGE 及用法
培训的时候做过一个练习
Ftp-plug in stage,transformer stage,join stage,DB2 API stage
各 stage 怎么用
Join 的几种连接方式:inner join,left outer join,right outer join,full outer join
inner join 和 left outer join 的区别,inner join 是取两个表的交集,将 key 值相同的全部
输出,left outer join 输出左表的全部信息,右表与左表 key 值匹配的记录输出,不匹配
的返回空值,left outer join 输出的数据量大
20、对 DATASTAGE 的理解,应用领域(会问我们应用在该领域的理由)。
ETL,抽取,转换,加载。银行,金融行业
21、ODBC 的作用及设置
何谓 ODBC,正确的说法是“开放数据库连接(ODBC:Open DataBase Connection)”,在不
融通学苑: www.lt-bi.com QQ 群: 127752917 ; 210700527
同的数据库管理系统上存取数据
最大好处是应用程序的开发系统可以不需与数据库属于同样的系统
22、NLS 和 RCP
a) NLS:national language support->enable(注册)->setup NLS(设置)
i.Mapping char
ii.Utf8(格式),jap->greek(格式),us a
Iii.
NLS is basically Local language setting(character set) .Once u install the DS u will get NLS
present.
Just login into Admin and u can set the NLS of your project based on your project
requirement. Just need to map the NLS with your project.
Suppose if u know u r having file with some greek character.so, if u have to set the NLS for
greek so while running job DS will recognise those special characters.
I hope u got idea about NLS and how it map
23、哪些 stage 可以调用 file(file stage)
Sequential file, ftp-plug in, DB2-API, DATA SET
24、TRANSFORMER 的函数问题(会问你用过什么函数解决了什么问题)
String to date, sum
25、运行 JOB 的方法
除了我们知道的在 DESINGER,DIRECTOR 之外还有
后台跑,脚本
26、是否用过脚本
同上
27、Administrator 里面怎么设置环境变量,怎么用,需要什么权限?
Permissions(权限设置):developer, operator, production manager 用户组授权
Environment variables(环境变量的设置):在 administrator 里面的 project properties 里有
个 environment variables,name, prompt, value
28、DB2 运行的环境,DATASTAGE 的运行环境,和他们的版本问题
29、建表的时候需要什么权限,设置过老师的 server 么,你现在用的什么权限
Administrator,
30、Manager 里面怎么导入导出数据,怎么定义导出数据
31、DB2 API 怎么设置的
server name user ID password
32、Write,load 用过么
导入表结构的时候用过 Load,write 还不清楚
33 描述曾经做过的 project,用到什么 stage,怎么抽取数据
a) Data warehouse –>based on operational DB->collect data->to support extract,T,L,Clear
b) Operational database->DB2,SQL server,business database vender
c) DataMart->a part of data warehouse