logo资料库

ClickHouse 在海量数据下的应用实践.pdf

第1页 / 共55页
第2页 / 共55页
第3页 / 共55页
第4页 / 共55页
第5页 / 共55页
第6页 / 共55页
第7页 / 共55页
第8页 / 共55页
资料共55页,剩余部分请下载后查看
ClickHouse 在海量数据下的实践应用 同程艺龙-谢磊 2018-11月
关于我 https://github.com/lamber-ken (大数据计算研发组) 2016 NOW 2 0 1 5 2 0 1 7 Hadoop生态圈 流计算 Flink OLAP领域
目 录 1、 了解探索 2、 应用实践 3、 经验分享 4、 社区生态
了解探索
从需求谈起 • 海量数据 • 实时导入 • 实时查询 • 多维 聚合分析 用户轨迹行为分析
经典架构 APP Server Log File ETL Hive Schedule Report Report
架构分析 数据的实效性 中间过程经过Kafka、ETL、 调度处理,报表的实效性不 理想 涉及Hadoop组件多 涉及Flume、Kafka、HDFS 等等,数据冗余过多,同时需要 深厚的知识储备 即席分析性能 Hive存储是hdfs文件系统,查询 效率不高,不适合即席查询 数据链路长 数据链路处理流程长,繁琐 容错也不好
美好愿景
分享到:
收藏