logo资料库

附件2.OGG日常运维手册与OGG常见问题手册v1.2.doc

第1页 / 共74页
第2页 / 共74页
第3页 / 共74页
第4页 / 共74页
第5页 / 共74页
第6页 / 共74页
第7页 / 共74页
第8页 / 共74页
资料共74页,剩余部分请下载后查看
OGG日常运维手册与OGG常见问题手册
1文档综述
1.1文档说明
1.2范围
1.3目标读者
1.4术语和缩略语
2运维规范
2.1运营监测(控)信息支撑系统开发规范
2.2国网运维人员操作规范
2.2.1日常监控
2.2.2日常操作
2.2.3参数调整
2.2.4备份恢复
2.2.5应急策略
2.2.6数据库停机
2.3OGG日常监控
2.3.1OGG常用监控命令
2.3.1.1启动GoldenGate进程
2.3.1.2停止GoldenGate进程
2.3.1.3查看整体运行情况
2.3.1.4查看参数设置
2.3.1.5查看进程状态
2.3.1.6查看延时
2.3.1.7查看统计信息
2.3.1.8查看运行报告
2.3.2Logdump使用指引
2.4OGG日常运维任务
2.4.1配置自动删除队列
2.4.2配置启动MGR时自动启动Extract和Replicat进程
2.4.3配置MGR自动重新启动Extract和Replicat进程
2.4.4长事务管理
2.4.4.1查看长交易的方法
2.4.4.2使用GoldenGate命令跳过或接受长交易的方法
2.4.4.3配置长交易告警
2.4.5表的重新再同步(需时间窗口)
2.4.6表的重新再同步(无需时间窗口)
2.4.7OGG升级方法
3国网应用系统升级
3.1(仅复制DML时)源端和目标端数据库增减复制表
3.1.1增加复制表
3.1.2减少复制表
3.2(仅复制DML时)修改表结构
3.3(仅复制DML时)客户应用的升级
3.4配置DDL复制自动同步数据结构变更
3.4.1是否打开DDL复制
3.4.2打开DDL复制的步骤
3.4.3DDL复制的典型配置
4OGG性能优化方法
4.1Extract拆分方法
4.2Datapump和replicat拆分方法
4.3OGG的Replicat进程性能调优
4.3.1确认Replicat进程运行正常
4.3.2Replicat进程的拆分
4.3.2.1拆分原则
4.3.2.2拆分进程的评估
4.3.2.3进程拆分的目标
4.3.2.4拆分的步骤
4.3.2.5针对单个表的拆分
4.3.2.6单个Replicat进程的调优
4.3.2.7数据库及SQL的调优
4.3.2.8申请技术支持
4.3.3OGG进程拆分与交易一致性说明
4.3.4OGG延迟lag较大的说明
5OGG异常处理预案
5.1异常处理一般步骤
5.2网络故障
5.3RAC环境下单节点失败
5.4Extract进程常见异常
5.5Replicat进程常见异常
5.6抽取生成的队列文件比归档文件多
5.7OGG的Extract进程占用内存较大
5.8OGG的Replicat进程占用内存较大
5.9关于handlecollisions的说明
5.10Discard掉的数据如何处理
5.11生产端I/O性能问题
5.12CSN取值问题
5.13两端数据不一致的排查与解决
5.13.1现象
5.13.2原因分析与排查
5.13.3解决方案
5.14AIX GGSCI无法运行
5.15HP-UX GGSCI无法运行
5.16OGG-xxxxx错误代码
5.16.1OGG-01296(1403)
5.16.2OGG-01296(KEYCOLS)
5.16.3OGG-01296(unique constraint)
5.16.4OOG-01296(Database error 4098, Database error 2292
5.16.5OGG-00423
5.16.6OGG-01163
5.16.7OGG-01161
5.16.8OGG-01154
5.16.9OGG-01088
5.16.10OGG-01224
5.16.11OGG-01031
5.16.12OGG-01072
5.16.13OGG-01476
5.16.14OGG-00850
5.16.15OGG-01416
5.16.16OGG-00730
5.16.17OGG-00717
5.16.18OGG-01172 
5.16.19OGG-01028
5.16.20OGG-00303
5.16.21OGG-01028
5.16.22OGG-01027(长事务)
5.17队列文件保存天数
5.18队列文件不自动清除
5.19BOUNDED RECOVERY
5.20排除不复制的表
5.21从指定时间重新抓取
5.22进程无法停止
5.23CLOB处理
5.24DB2不能使用checkpoint table
5.25Datapump进程每次只传一个文件
5.26Extract进程产生core文件
5.27中文字节数问题
5.28中文表/中文字段处理
6附录
6.1OGG V11.1数据复制限制
6.1.1不支持文件等非结构化数据复制
6.1.2Oracle数据类型限制
6.1.2.1GoldenGate不支持的数据类型
6.1.2.2GoldenGate有限制支持XML Type复制
6.1.2.3GoldenGate有限制支持UDT用户自定义类型复制
6.1.3Oracle DML操作支持
6.1.3.1GoldenGate不支持nologging的表等对象
6.1.3.2GoldenGate暂不支持对象和操作如下
6.1.3.3GoldenGate支持Sequence序列的复制
6.1.3.4GoldenGate可以通过复制源表支持对于同义词或者DBLink的复制。
6.1.3.5GoldenGate有限制支持IOT索引组织表复制
6.1.3.6GoldenGate有限制支持Clustered Table复制
6.1.3.7GoldenGate有限制支持物化视图复制
6.1.4Oracle DDL复制限制
6.2OGG实施注意事项
6.2.1操作系统环境变量
6.2.2GoldenGate运行操作系统用户
6.2.3操作系统资源使用限制
6.2.4源数据库必须启动归档模式并开启附加日志
6.2.4.1Oracle数据库
6.2.4.2DB2数据库
6.2.5AIX XL C版本
6.2.6HP-UX aCC版本
6.2.7Windows C++版本
6.2.8GoldenGate安装目录
6.2.9RAC相关设置
6.2.10端口设置
6.2.11压缩传输设置
6.2.12待复制表名设置
6.2.13队列文件保存期限设置
6.2.14抽取及复制分组
6.2.15AIX使用裸设备
6.2.16同步表清单
6.2.17临时表排除
6.2.18UNIX GGSCI需要lib包验证
6.2.19Oracle 9i中如何为超过32列的无主键表添加附加日志
OGG 日常运维手册与 OGG 常见问题手册 二○一四年三月 1
目录 OGG 日常运维手册与 OGG 常见问题手册 -------------------------------------------- 1 1 文档综述 ------------------------------------------------------------------6 1.1 文档说明 ---------------------------------------------------------- 6 1.2 范围 -------------------------------------------------------------- 6 1.3 目标读者 ---------------------------------------------------------- 6 1.4 术语和缩略语 -------------------------------------------------------6 2 运维规范 ------------------------------------------------------------------6 2.1 运营监测(控)信息支撑系统开发规范 ----------------------------------- 7 2.2 国网运维人员操作规范 -----------------------------------------------8 2.2.1 日常监控 ---------------------------------------------------------------- 8 2.2.2 日常操作 ---------------------------------------------------------------- 8 2.2.3 参数调整 ---------------------------------------------------------------- 8 2.2.4 备份恢复 ---------------------------------------------------------------- 8 2.2.5 应急策略 ---------------------------------------------------------------- 8 2.2.6 数据库停机 -------------------------------------------------------------- 9 2.3 OGG 日常监控 ------------------------------------------------------- 9 2.3.1 OGG 常用监控命令 -------------------------------------------------------- 9 启动 GoldenGate 进程 ---------------------------------- 9 停止 GoldenGate 进程 --------------------------------- 10 查看整体运行情况 ------------------------------------ 11 查看参数设置 ---------------------------------------- 12 查看进程状态 ---------------------------------------- 12 查看延时 -------------------------------------------- 13 查看统计信息 ---------------------------------------- 13 查看运行报告 ---------------------------------------- 14 2.3.2 Logdump 使用指引 ------------------------------------------------------- 14 2.3.1.1 2.3.1.2 2.3.1.3 2.3.1.4 2.3.1.5 2.3.1.6 2.3.1.7 2.3.1.8 2.4 OGG 日常运维任务 -------------------------------------------------- 18 2.4.1 配置自动删除队列 ------------------------------------------------------- 18 2.4.2 配置启动 MGR 时自动启动 Extract 和 Replicat 进程 -------------------------- 18 2.4.3 配置 MGR 自动重新启动 Extract 和 Replicat 进程 ---------------------------- 18 2.4.4 长事务管理 ------------------------------------------------------------- 19 查看长交易的方法 ------------------------------------ 20 使用 GoldenGate 命令跳过或接受长交易的方法 ----------- 20 配置长交易告警 -------------------------------------- 20 2.4.5 表的重新再同步(需时间窗口) ------------------------------------------- 21 2.4.4.1 2.4.4.2 2.4.4.3 2.4.6 表的重新再同步(无需时间窗口) ----------------------------------------- 21 2.4.7 OGG 升级方法 ----------------------------------------------------------- 22 3 国网应用系统升级 ---------------------------------------------------------22 第 2 页 共 74 页
国家电网公司数据级容灾 GoldenGate 运维方案 3.1 (仅复制 DML 时)源端和目标端数据库增减复制表 ---------------------- 22 3.1.1 增加复制表 ------------------------------------------------------------- 22 3.1.2 减少复制表 ------------------------------------------------------------- 23 3.2 (仅复制 DML 时)修改表结构 ---------------------------------------- 24 3.3 (仅复制 DML 时)客户应用的升级 ------------------------------------ 24 3.4 配置 DDL 复制自动同步数据结构变更 ---------------------------------- 25 3.4.1 是否打开 DDL 复制 ------------------------------------------------------- 25 3.4.2 打开 DDL 复制的步骤 ----------------------------------------------------- 25 3.4.3 DDL 复制的典型配置 ----------------------------------------------------- 27 4 OGG 性能优化方法 --------------------------------------------------------- 27 4.1 Extract 拆分方法 -------------------------------------------------- 27 4.2 Datapump 和 replicat 拆分方法 -------------------------------------- 30 4.3 OGG 的 Replicat 进程性能调优 --------------------------------------- 31 4.3.1 确认 Replicat 进程运行正常 ---------------------------------------------- 32 4.3.2 Replicat 进程的拆分 ---------------------------------------------------- 32 拆分原则 -------------------------------------------- 32 拆分进程的评估 -------------------------------------- 32 进程拆分的目标 -------------------------------------- 32 拆分的步骤 ------------------------------------------ 32 针对单个表的拆分 ------------------------------------ 33 单个 Replicat 进程的调优 ----------------------------- 33 数据库及 SQL 的调优 ---------------------------------- 34 申请技术支持 ---------------------------------------- 34 4.3.3 OGG 进程拆分与交易一致性说明 ------------------------------------------- 34 4.3.2.1 4.3.2.2 4.3.2.3 4.3.2.4 4.3.2.5 4.3.2.6 4.3.2.7 4.3.2.8 4.3.4 OGG 延迟 lag 较大的说明 ------------------------------------------------- 35 5 OGG 异常处理预案 --------------------------------------------------------- 36 5.1 异常处理一般步骤 --------------------------------------------------36 5.2 网络故障 --------------------------------------------------------- 36 5.3 RAC 环境下单节点失败 ---------------------------------------------- 37 5.4 Extract 进程常见异常 ---------------------------------------------- 37 5.5 Replicat 进程常见异常 --------------------------------------------- 38 5.6 抽取生成的队列文件比归档文件多 ------------------------------------ 38 5.7 OGG 的 Extract 进程占用内存较大 ------------------------------------ 39 5.8 OGG 的 Replicat 进程占用内存较大 ----------------------------------- 41 5.9 关于 handlecollisions 的说明 --------------------------------------- 42 5.10 Discard 掉的数据如何处理 ------------------------------------------ 42 第 3 页 共 74 页
国家电网公司数据级容灾 GoldenGate 运维方案 5.11 生产端 I/O 性能问题 ------------------------------------------------43 5.12 CSN 取值问题 ------------------------------------------------------ 44 5.13 两端数据不一致的排查与解决 ---------------------------------------- 44 5.13.1 ----------------------------------------------------------------- 现象 44 5.13.2 --------------------------------------------------------原因分析与排查 44 5.13.3 ------------------------------------------------------------- 解决方案 46 5.14 AIX GGSCI 无法运行 ------------------------------------------------ 46 5.15 HP-UX GGSCI 无法运行 ---------------------------------------------- 47 5.16 OGG-xxxxx 错误代码 ------------------------------------------------ 47 5.16.1 ----------------------------------------------------- OGG-01296(1403) 47 5.16.2 ---------------------------------------------------- OGG-01296(KEYCOLS) 48 5.16.3 ------------------------------------------ OGG-01296(unique constraint) 49 5.16.4 -------------------- OOG-01296(Database error 4098, Database error 2292) 50 5.16.5 ------------------------------------------------------------ OGG-00423 51 5.16.6 ------------------------------------------------------------ OGG-01163 51 5.16.7 ------------------------------------------------------------ OGG-01161 51 5.16.8 ------------------------------------------------------------ OGG-01154 51 5.16.9 ------------------------------------------------------------ OGG-01088 52 5.16.10 OGG-01224 ----------------------------------------------------------- 52 5.16.11 OGG-01031 ----------------------------------------------------------- 52 5.16.12 OGG-01072 ----------------------------------------------------------- 53 5.16.13 OGG-01476 ----------------------------------------------------------- 53 5.16.14 OGG-00850 ----------------------------------------------------------- 54 5.16.15 OGG-01416 ----------------------------------------------------------- 55 5.16.16 OGG-00730 ----------------------------------------------------------- 55 5.16.17 OGG-00717 ----------------------------------------------------------- 56 5.16.18 OGG-01172 ----------------------------------------------------------- 56 5.16.19 OGG-01028 ----------------------------------------------------------- 56 5.16.20 OGG-00303 ----------------------------------------------------------- 56 5.16.21 OGG-01028 ----------------------------------------------------------- 57 5.16.22 OGG-01027(长事务) ------------------------------------------------- 57 5.17 队列文件保存天数 --------------------------------------------------58 5.18 队列文件不自动清除 ------------------------------------------------59 5.19 BOUNDED RECOVERY --------------------------------------------------62 5.20 排除不复制的表 ----------------------------------------------------62 5.21 从指定时间重新抓取 ------------------------------------------------63 5.22 进程无法停止 ------------------------------------------------------63 5.23 CLOB 处理 --------------------------------------------------------- 63 第 4 页 共 74 页
国家电网公司数据级容灾 GoldenGate 运维方案 5.24 DB2 不能使用 checkpoint table --------------------------------------63 5.25 Datapump 进程每次只传一个文件 ------------------------------------- 63 5.26 Extract 进程产生 core 文件 ----------------------------------------- 63 5.27 中文字节数问题 ----------------------------------------------------64 5.28 中文表/中文字段处理 -----------------------------------------------65 6 附录 ---------------------------------------------------------------------67 6.1 OGG V11.1 数据复制限制 -------------------------------------------- 67 6.1.1 不支持文件等非结构化数据复制 ------------------------------------------- 67 6.1.2 Oracle 数据类型限制 ---------------------------------------------------- 67 6.1.2.1 GoldenGate 不支持的数据类型 ------------------------------67 6.1.2.2 GoldenGate 有限制支持 XML Type 复制 -----------------------67 6.1.2.3 GoldenGate 有限制支持 UDT 用户自定义类型复制 --------------67 6.1.3 Oracle DML 操作支持 ---------------------------------------------------- 67 6.1.3.1 GoldenGate 不支持 nologging 的表等对象 --------------------67 6.1.3.2 GoldenGate 暂不支持对象和操作如下 ------------------------68 6.1.3.3 GoldenGate 支持 Sequence 序列的复制 -----------------------68 6.1.3.4 GoldenGate 可以通过复制源表支持对于同义词或者 DBLink 的复制。 68 6.1.3.5 GoldenGate 有限制支持 IOT 索引组织表复制 ------------------68 6.1.3.6 GoldenGate 有限制支持 Clustered Table 复制 ----------------68 6.1.3.7 GoldenGate 有限制支持物化视图复制 ------------------------68 6.1.4 Oracle DDL 复制限制 ---------------------------------------------------- 68 6.2 OGG 实施注意事项 -------------------------------------------------- 69 6.2.1 操作系统环境变量 ------------------------------------------------------- 69 6.2.2 GoldenGate 运行操作系统用户 -------------------------------------------- 69 6.2.3 操作系统资源使用限制 --------------------------------------------------- 69 6.2.4 源数据库必须启动归档模式并开启附加日志 --------------------------------- 69 6.2.4.1 Oracle 数据库 --------------------------------------------69 6.2.4.2 DB2 数据库 -----------------------------------------------70 6.2.5 AIX XL C 版本 ---------------------------------------------------------- 70 6.2.6 HP-UX aCC 版本 --------------------------------------------------------- 70 6.2.7 Windows C++版本 -------------------------------------------------------- 70 6.2.8 GoldenGate 安装目录 ---------------------------------------------------- 71 6.2.9 RAC 相关设置 ----------------------------------------------------------- 71 6.2.10 ------------------------------------------------------------- 端口设置 71 6.2.11 ----------------------------------------------------------压缩传输设置 71 6.2.12 --------------------------------------------------------待复制表名设置 71 6.2.13 -------------------------------------------------- 队列文件保存期限设置 71 6.2.14 --------------------------------------------------------抽取及复制分组 72 6.2.15 -------------------------------------------------------- AIX 使用裸设备 72 6.2.16 ----------------------------------------------------------- 同步表清单 72 第 5 页 共 74 页
国家电网公司数据级容灾 GoldenGate 运维方案 6.2.17 ----------------------------------------------------------- 临时表排除 72 6.2.18 ----------------------------------------------UNIX GGSCI 需要 lib 包验证 72 6.2.19 ----------------------- Oracle 9i 中如何为超过 32 列的无主键表添加附加日志 73 1 文档综述 1.1 文档说明 本文档作为运维方案手册,为运维人员提供工作指导。同时为 GoldenGate 运行涉及的相关 方制定相关规范,以保证 GoldenGate 的平稳运行。 1.2 范围 本文档主要描述 GoldenGate 相关运维规范、日常运维工作、应用系统升级、异常处理预案 以及 GoldenGate 相关技术描述。 1.3 目标读者 本文档主要供国网总部及网省 OGG 运维相关人员使用,在运维实施过程中,必须严格遵循 本文档。 1.4 术语和缩略语 序号 完整说法 1 2 3 4 5 GoldenGate Extract Replicat Data Pump Trail 缩略说法 GG 或 OGG GoldenGate 软件的抽取进程,又叫 Capture 进程,一般用 于抽取数据库日志抓取数据变化或将本地队列中数据传递到 目标端。 GoldenGate 软件的投递进程,又称为 Delivery 进程,用 于将队列文件中的数据变化转换为 sql 应用到目标库。 专指将本地队列中数据传递到目标端的 Extract 进程,区 别于读取日志的主 Extract 进程。 GoldenGate 的队列文件,存储增删改等数据变化,以其专 有格式存放。 **注: GoldenGate 术语中把 Capture 和 Datapump 进程都叫做 Extract 进程,这是因为二 者都负责把数据从一个地方抽取出来,放到另一个地方。但是二者有根本的不同:Capture 进程负责将数据从日志中抽取到本地队列文件,而 Datapump 进程负责将数据从本地队列文 件抽取到目标端队列文件。本文中,提到 Extract 进程的地方,都包含了这两类进程;提 到 Capture 和 Datapump 进程,则分别有所指代。本文中的 Delivery 进程和 Replicat 进程 则是同一回事。 2 运维规范 为保证 GoldenGate 的平稳健壮运行,主要涉及以下关键要素: 1) 运营监测(控)信息支撑系统开发规范化 2) 运维机制规范化 第 6 页 共 74 页
3) 运维人员规范化 因此在本文中对上述三个关键要素进行详细规范,在实际运维过程中应严格遵守。 国家电网公司数据级容灾 GoldenGate 运维方案 2.1 运营监测(控)信息支撑系统开发规范 为了保证数据复制的正常运行,需要规范化应用开发规范,根据前期国网实施经验,各应 用系统开发商应当遵循以下原则: 1) 避免使用 GoldenGate 不支持的数据类型和数据对象,具体参照附录。 2) 数据对象(包括表和列)命名应当使用英文字母开头,中间可包括英文字符、下划线 和数字。 3) 所有业务表(不包括临时表)应当处于 logging 状态,不能设置为 nologging 状态。 4) 所有业务相关表应当放到自行建立的 schema 下,不得放在 sys、system 或其它系统 schema 下。 5) 各业务的数据结构在运行期间应当保持稳定,即不在运行期间执行创建表、列等修改 现有数据结构的操作。所有 DDL 变化操作可以在业务升级时完成,而非运行期间自动 完成。 6) 各业务表尽量加入主键或者唯一索引,保证数据一致性的同时可以提高复制性能。 7) 尽量避免大交易和长事务。建议将大交易拆分为若干小的交易,可以有效较低资源消 耗和提高复制效率。 8) 尽量使用基于代价的优化方式 CBO(Cost-Based Optimization)进行数据库开发。 9) 国网所有应用开发商应当遵循上述的开发规范,力求应用和数据库设计的规范化。 第 7 页 共 74 页
国家电网公司数据级容灾 GoldenGate 运维方案 2.2 国网运维人员操作规范 为了保证数据复制的正常运行,保证运营监测(控)信息支撑系统数据的可靠性,针对网省 各运维人员日常操作提出如下规范: 2.2.1 日常监控 1) 每天定期检查 GoldenGate 运行状况。 2) 每天定期检查数据中心端数据库运行状况(假设源端数据库为应用系统运维人员进行 监控) 3) 如果没有专人负责操作系统、网络和存储的运行状况,需监控操作系统、网络和存储 的运行状况。 2.2.2 日常操作 1) GGSCI 控制台执行的所有操作需保留。 2) 修改参数文件之前进行备份,备份文件名:现有名称.xxxx-xx-xx,例如: repya.prm.2011-03-15 3) 不能删除 OGG 安装目录下的所有内容,尤其是 ggserr.log、dirrpt、dirprm、discard 文件不能删除。 4) ggserr.log 如果增长超过 1G,可以采用如下方式进行备份: $cp ggserr.log ggserr.log.yyyy-mm-dd $cat ggserr.log > ggserr.log 5) 日常错误按照国网模板进行上报。问题修复后,告知国网问题负责人关闭问题。 6) 数据中心数据库表结构调整,需详细记录操作过程。 7) 数据中心端数据库参数调整,需经国网审核,然后进行调整,并记录详细操作过程。 8) 如遇到应用系统升级,参照相关文档进行操作。 2.2.3 参数调整 1) 日常参数文件调整只能调整表清单。 2) 如果需要调整其他参数,需上报总部审核,同时由 Oracle 工程师进行确认。 2.2.4 备份恢复 1) 备份 OGG 安装介质 2) 定期备份 GoldenGate 安装目录(dirdat 目录除外),避免误操作导致 GoldenGate 安 装目录丢失。 3) 如果执行 OGG 升级操作,升级完成之后,备份 OGG 安装介质。 2.2.5 应急策略 1) 如果 GoldenGate extract 出现 abend,需保留对应归档文件。通过下面的命令: GGSCI>INFO xxx, showch 第 8 页 共 74 页
分享到:
收藏