Amazon Athena简介
无服务器交互式数据查询引擎
肖凌,AWS解决方案架构师
Bob Xiao, Solutions Architect, Amazon Web Services
2017年2月28日
Feb 28, 2017
AWS中国(北京)区域由光环新网运营
此研讨会的学习内容
• Amazon Athena 概述
• 主要特点
• 客户示例
• 排除查询错误
• 常见问答
AWS中国(北京)区域由光环新网运营
客户面临的挑战
• 在 Amazon S3 中分析数据时需要的工作量很大
• 用户通常只能访问聚合数据集
• 需要具备专业知识才能管理 Hadoop 群集或数据仓库
AWS中国(北京)区域由光环新网运营
Amazon Athena 简介
Amazon Athena 是一种交互式查询服务,可
使用此服务通过标准 SQL 直接在 Amazon S3
中轻松分析数据
AWS中国(北京)区域由光环新网运营
Athena 是无服务器的
• 无基础设施或管理
• 零启动时间
• 透明升级
AWS中国(北京)区域由光环新网运营
Amazon Athena 易于使用
• 登录到控制台
• 创建表
• 键入 Hive DDL 语句
• 使用控制台的添加表向导
• 开始查询
AWS中国(北京)区域由光环新网运营
Amazon Athena 高度可用
• 您可连接到服务终端节点或者登录到控制台
• Athena 跨多个可用区使用暖计算池
• 您的数据位于 Amazon S3 中,而 Amazon S3 也具有较高
的可用性,为实现 99.999999999% 的持久性而设计
AWS中国(北京)区域由光环新网运营
直接从 Amazon S3 查询数据
• 不加载数据
• 按数据的原始格式查询数据
• 文本、CSV、JSON、Web 日志、AWS 服务日志
• 转换为经优化的格式(如 ORC 或 Parquet),以实现最佳性能和最低成
本
• 不需要 ETL
• 直接从 Amazon S3 中流式传输数据
• 利用 Amazon S3 持久性和可用性
AWS中国(北京)区域由光环新网运营