第7讲：Hive数据仓库文档.ppt

发布时间：2022-06-15 发布人：admin 分类：说明书资料大小：2.79M 资料格式：ppt 举报版权申诉

33e06451-9c0c-4ea9-a455-cc78c10835d4.ppt.pdf-第1页.png

第1页 / 共49页

33e06451-9c0c-4ea9-a455-cc78c10835d4.ppt.pdf-第2页.png

第2页 / 共49页

33e06451-9c0c-4ea9-a455-cc78c10835d4.ppt.pdf-第3页.png

第3页 / 共49页

33e06451-9c0c-4ea9-a455-cc78c10835d4.ppt.pdf-第4页.png

第4页 / 共49页

33e06451-9c0c-4ea9-a455-cc78c10835d4.ppt.pdf-第5页.png

第5页 / 共49页

33e06451-9c0c-4ea9-a455-cc78c10835d4.ppt.pdf-第6页.png

第6页 / 共49页

33e06451-9c0c-4ea9-a455-cc78c10835d4.ppt.pdf-第7页.png

第7页 / 共49页

33e06451-9c0c-4ea9-a455-cc78c10835d4.ppt.pdf-第8页.png

第8页 / 共49页

文本预览

第7讲 Hive数据仓库

数据分析者面临的问题 • 数据日趋庞大，无论是入库和查询，都出现性能瓶颈 • 用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高 • 使用的模型越来越复杂，计算量指数级上升

数据分析者期待的解决方案 • 完美解决性能瓶颈，在可见未来不容易出现新瓶颈 • 过去所拥有的技能可以平稳过渡。比如SQL、R • 转移平台的成本有多高？平台软硬件成本，再开发成本，技能再培养成本，维护成本

Hive简介 • 起源自facebook由Jeff Hammerbacher领导的团队 • 构建在Hadoop上的数据仓库框架 • 设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据 • 2008年facebook把hive项目贡献给Apache

Hive • 数据仓库工具。可以把Hadoop下的原始结构化数据变成 Hive中的表 • 支持一种与SQL几乎完全相同的语言HiveQL。除了不支持更新、索引和事务，几乎SQL的其它特征都能支持 • 可以看成是从SQL到Map-Reduce的映射器 • 提供shell、JDBC/ODBC、Thrift、Web等接口 • Hive不适合用于联机事务处理，也不提供实时查询功能。最适合应用在基于大量不可变数据的批处理作业。

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的mapper 和 reducer 无法完成的复杂的分析工作。

Hive现状 • Hadoop生态圈中的重要项目 • 企业级数据仓库的主流架构之一 • 解决“即席查询”的问题 • 注意Cloudera的Impala项目，号称比Hive要快3-30倍 • 兼容SQL是目前大数据产品的风向标

体系结构图

分享到：

赞收藏

资料库

第7讲：Hive数据仓库文档.ppt

相关推荐

后端

热门标签

最新资料