logo资料库

大数据简历项目.pdf

第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
资料共3页,全文预览结束
2016.04--2016.11 上海润和信息技术服务有限公司 大数据开发工程师 | 6001-8000 元/月 行业类别:计算机软件 | 企业性质:上市公司 | 规模:1000-9999 人 工作内容:项目:开发银联总公司对银联卡报文的监控系统 开发技术:JAVA、HADOOP、HDFS、IMPALA、spark STREAMING、REDIS、KAFKA、 ZOOKEEPER、MYSQL 个人工作: (1) 搭建开发环境:HADOOP 搭建、spark 搭建、REDIS 搭建、KAFKA 搭建、 ZOOKEEPER 搭建、IMPALA 建表等。 (2) 代码开发搭建:在项目中导入开发 HADOOP、spark、KAFKA 需要的 JAR; 编写连接 HADOOP、spark、REDIS 的一些 JAVA 类和操作工具。 (3) 跟银联应用部门了解公共部分、运维查询、全渠道监控、国业系统、TCP 监控等功能的需求。 (4) 公共部分开发:用 spark STREAMING 实时统计报文中不同系统不同对象 的响应成功率、响应状态、响应达标率、响应耗时、每秒调用次数等指标,其中 响 应 码 需 要 从 HTML 、XML 、JSON 、KEYVALUE 文 本 格 式 中 解 析 得 到 ,spark STREAMING 实时从 KAFKA 中订阅报文将统计结果保存到 IMPALA 和 REDIS 供前端 调用。 (5) 运维查询开发:spark STREAMING 实时解析报文并保存到 IMPALA 供前端 调用。 (6) 全渠道监控开发:spark STREAMING 实时监控商户、机构的验签失败并保 存到 IMPALA。 (7) 国业系统开发:国业系统开发困难度比较大,跟公共部分差不多一个等 级。一笔交易是由 4 笔报文组成的,所以要解决如何确定一笔交易和如何确定报 文属于交易的哪个阶段。然后用 spark STREAMING 统计机构和交易的响应时间。 (8) TCP 监控开发:主要监控节点接的流量、TCP 包、建链、拆链、重置。统 计指标并保存到 IMPALA 和 REDIS。 项目技术简介:用 spark STREAMING 的 BATCH、WINDOW、SLIDE 保证能统计到 有延迟的数据,例如:时间 T1、T2、T3,其中 T3 为当前时间,而现在我们用 spark STREAMING 统计时间点为 T2 的数据,这样就保证了不会有数据丢失。 IMPALA 供前端查询历史数据,REDIS 供前端查询实时数据。 2016.04--至今上海润和信息技术服务有限公司 大数据开发工程师 | 10001-15000 元/月 行业类别:计算机软件 工作内容:2016 年 11 月—2018 年 7 月 大数据开发工程师 项目:互联网交易监控系统 开发技 术:JAVA、HADOOP、HDFS、IMPALA、REDIS、KAFKA、MYSQL、MONGODB、 OPENTSDB、spark MLIB 系统简介: 由采集模块、转换模块、预统计模块、汇总统计模块、规则模块、 事件模块、持久化模块、 上海润和信息技术服务有限公司 清理模块、健康自检模块、健康子系统模块、规则自适应模块组成 的分布式互联网交易属性监控系统。模块间
通过 KAFKA 进行消息交互。 个人工作: (1) 规则自适应模块开发。该模块通过 spark MLIB 的聚类算法定时生成交易 属性规则。 (2) 规则模块开发。根据自适应规则、自定义规则对机构、商户实时判断, 结果发往事件模块。 规则包含:成功率、波动率、冲正率、失败笔数、连续失败笔数、中奖率、TPS 等。规则 判断可通过通用计算功能动态新增、 (3) 事件模块开发。事件模块根据规则模生成的规则组合生成或关闭事件并 发往 UMP 系统。 (4) 持久化模块、改模块主要将转换、汇总统计、规则生成的结果保存到 MYSQL、HDFS、MONGODB、 OPENTSDB。 (5) 清理模块开发。主要对 MYSQL、MONGODB、HDFS 历史数据定时清理。 (6) 健康自检模块开发。该模块主要对采集、转换、预统计、汇总统计、规 则、事件等模块做心跳检测、 (7) 健康子系统模块开发。该模块主要对采集、转换、预统计、汇总统计、 规则、持久化模块的数据的准确性、性能的检测。 2017.05--至今上海卫宁健康股份有限公司 大数据研发工程师 | 15000-25000 元/月 行业类别:计算机软件 工作内容: 一. 掌握技术: 1.大数据:spark/GREENPLUM/HIVE/HBASE/KAFKA/ELK/CDH 平台 等等等 2.持续集成:DOCKER/MESOS/K8S/DOCKER-SWARM 3.JAVA:SPRING BOOT/JFINAL/微信公众号 4.其他语言:SCALA/PYTHON 二.参与项目: 1.BI 系统智能推荐:对 BI 系统进行页面埋点,收集用户信息/业务信息/用户行为信息,对用户数 据/物品数据/进行离线相似性计算,近线的计算(物品更新,日志回流),在线的计算(过滤、排序、 补足) 1).参与整个流程开发 2).使用技术:JS 埋点、spark、NGINX、HDFS、HBASE、sparkMLLIB 2.浦东云 HIS 的数据抽取:对多个 HIS 系统的业务数据采集到统一数据中心。 使用 Hive Sql,Spark sql, sqoop 数据导入导出
3.医院科研平台 METRIX:对院内的数据进行专病数据提取,专病数据可视化查询、并重查 询的数据中提取相应的指标,进行院内科学研究,论文编写。 1).参与:科研数据指标维护、科研指标的抽取,导出、科研实验室的机器学习模块编写 2).使用技术:ES、spark、WEKA 4.申康大数据平台二期:对上海市 38 家 3 甲医院的院内数据进行数据抽取,放入中心平台, 并根据中心数据创建各种应用。 1).参与:院内数据 ETL 2).使用技术:kafka、sqoop、sql
分享到:
收藏