ClickHouse
在海量数据下的实践应用
同程艺龙-谢磊 2018-11月
关于我
https://github.com/lamber-ken
(大数据计算研发组)
2016
NOW
2 0 1 5
2 0 1 7
Hadoop生态圈
流计算 Flink
OLAP领域
目 录
1、
了解探索
2、
应用实践
3、
经验分享
4、
社区生态
了解探索
从需求谈起
• 海量数据
• 实时导入
• 实时查询
• 多维 聚合分析
用户轨迹行为分析
经典架构
APP Server
Log File
ETL
Hive
Schedule
Report
Report
架构分析
数据的实效性
中间过程经过Kafka、ETL、
调度处理,报表的实效性不
理想
涉及Hadoop组件多
涉及Flume、Kafka、HDFS
等等,数据冗余过多,同时需要
深厚的知识储备
即席分析性能
Hive存储是hdfs文件系统,查询
效率不高,不适合即席查询
数据链路长
数据链路处理流程长,繁琐
容错也不好
美好愿景