2016.04--2016.11 上海润和信息技术服务有限公司
大数据开发工程师 | 6001-8000 元/月
行业类别:计算机软件 | 企业性质:上市公司 | 规模:1000-9999 人
工作内容:项目:开发银联总公司对银联卡报文的监控系统
开发技术:JAVA、HADOOP、HDFS、IMPALA、spark STREAMING、REDIS、KAFKA、
ZOOKEEPER、MYSQL
个人工作:
(1) 搭建开发环境:HADOOP 搭建、spark 搭建、REDIS 搭建、KAFKA 搭建、
ZOOKEEPER 搭建、IMPALA 建表等。
(2) 代码开发搭建:在项目中导入开发 HADOOP、spark、KAFKA 需要的 JAR;
编写连接 HADOOP、spark、REDIS 的一些 JAVA 类和操作工具。
(3) 跟银联应用部门了解公共部分、运维查询、全渠道监控、国业系统、TCP
监控等功能的需求。
(4) 公共部分开发:用 spark STREAMING 实时统计报文中不同系统不同对象
的响应成功率、响应状态、响应达标率、响应耗时、每秒调用次数等指标,其中
响 应 码 需 要 从 HTML 、XML 、JSON 、KEYVALUE 文 本 格 式 中 解 析 得 到 ,spark
STREAMING 实时从 KAFKA 中订阅报文将统计结果保存到 IMPALA 和 REDIS 供前端
调用。
(5) 运维查询开发:spark STREAMING 实时解析报文并保存到 IMPALA 供前端
调用。
(6) 全渠道监控开发:spark STREAMING 实时监控商户、机构的验签失败并保
存到 IMPALA。
(7) 国业系统开发:国业系统开发困难度比较大,跟公共部分差不多一个等
级。一笔交易是由 4 笔报文组成的,所以要解决如何确定一笔交易和如何确定报
文属于交易的哪个阶段。然后用 spark STREAMING 统计机构和交易的响应时间。
(8) TCP 监控开发:主要监控节点接的流量、TCP 包、建链、拆链、重置。统
计指标并保存到 IMPALA 和 REDIS。
项目技术简介:用 spark STREAMING 的 BATCH、WINDOW、SLIDE 保证能统计到
有延迟的数据,例如:时间 T1、T2、T3,其中 T3 为当前时间,而现在我们用 spark
STREAMING 统计时间点为 T2 的数据,这样就保证了不会有数据丢失。
IMPALA 供前端查询历史数据,REDIS 供前端查询实时数据。
2016.04--至今上海润和信息技术服务有限公司
大数据开发工程师 | 10001-15000 元/月
行业类别:计算机软件
工作内容:2016 年 11 月—2018 年 7 月
大数据开发工程师
项目:互联网交易监控系统
开发技 术:JAVA、HADOOP、HDFS、IMPALA、REDIS、KAFKA、MYSQL、MONGODB、
OPENTSDB、spark MLIB
系统简介: 由采集模块、转换模块、预统计模块、汇总统计模块、规则模块、
事件模块、持久化模块、
上海润和信息技术服务有限公司
清理模块、健康自检模块、健康子系统模块、规则自适应模块组成
的分布式互联网交易属性监控系统。模块间
通过 KAFKA 进行消息交互。
个人工作:
(1) 规则自适应模块开发。该模块通过 spark MLIB 的聚类算法定时生成交易
属性规则。
(2) 规则模块开发。根据自适应规则、自定义规则对机构、商户实时判断,
结果发往事件模块。
规则包含:成功率、波动率、冲正率、失败笔数、连续失败笔数、中奖率、TPS
等。规则
判断可通过通用计算功能动态新增、
(3) 事件模块开发。事件模块根据规则模生成的规则组合生成或关闭事件并
发往 UMP 系统。
(4) 持久化模块、改模块主要将转换、汇总统计、规则生成的结果保存到
MYSQL、HDFS、MONGODB、
OPENTSDB。
(5) 清理模块开发。主要对 MYSQL、MONGODB、HDFS 历史数据定时清理。
(6) 健康自检模块开发。该模块主要对采集、转换、预统计、汇总统计、规
则、事件等模块做心跳检测、
(7) 健康子系统模块开发。该模块主要对采集、转换、预统计、汇总统计、
规则、持久化模块的数据的准确性、性能的检测。
2017.05--至今上海卫宁健康股份有限公司
大数据研发工程师 | 15000-25000 元/月
行业类别:计算机软件
工作内容:
一. 掌握技术:
1.大数据:spark/GREENPLUM/HIVE/HBASE/KAFKA/ELK/CDH 平台 等等等
2.持续集成:DOCKER/MESOS/K8S/DOCKER-SWARM
3.JAVA:SPRING BOOT/JFINAL/微信公众号
4.其他语言:SCALA/PYTHON
二.参与项目:
1.BI 系统智能推荐:对 BI 系统进行页面埋点,收集用户信息/业务信息/用户行为信息,对用户数
据/物品数据/进行离线相似性计算,近线的计算(物品更新,日志回流),在线的计算(过滤、排序、
补足)
1).参与整个流程开发
2).使用技术:JS 埋点、spark、NGINX、HDFS、HBASE、sparkMLLIB
2.浦东云 HIS 的数据抽取:对多个 HIS 系统的业务数据采集到统一数据中心。
使用 Hive Sql,Spark sql, sqoop 数据导入导出
3.医院科研平台 METRIX:对院内的数据进行专病数据提取,专病数据可视化查询、并重查
询的数据中提取相应的指标,进行院内科学研究,论文编写。
1).参与:科研数据指标维护、科研指标的抽取,导出、科研实验室的机器学习模块编写
2).使用技术:ES、spark、WEKA
4.申康大数据平台二期:对上海市 38 家 3 甲医院的院内数据进行数据抽取,放入中心平台,
并根据中心数据创建各种应用。
1).参与:院内数据 ETL
2).使用技术:kafka、sqoop、sql