大数据技术之ClickHouse.docx-资料库

4df9285f-8def-4482-9eb3-dce010ed3cdb.docx.pdf-第1页.png

第1页 / 共17页

4df9285f-8def-4482-9eb3-dce010ed3cdb.docx.pdf-第2页.png

第2页 / 共17页

4df9285f-8def-4482-9eb3-dce010ed3cdb.docx.pdf-第3页.png

第3页 / 共17页

4df9285f-8def-4482-9eb3-dce010ed3cdb.docx.pdf-第4页.png

第4页 / 共17页

4df9285f-8def-4482-9eb3-dce010ed3cdb.docx.pdf-第5页.png

第5页 / 共17页

4df9285f-8def-4482-9eb3-dce010ed3cdb.docx.pdf-第6页.png

第6页 / 共17页

4df9285f-8def-4482-9eb3-dce010ed3cdb.docx.pdf-第7页.png

第7页 / 共17页

4df9285f-8def-4482-9eb3-dce010ed3cdb.docx.pdf-第8页.png

第8页 / 共17页

尚硅谷大数据技术之 ClickHouse 尚硅谷大数据技术之 Clickhouse (作者：尚硅谷大数据研发部) 版本：V1.0 第 1 章 ClickHouse 概述 1.1 什么是 ClickHouse ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用 SQL 查询实时生成分析数据报告。 1.2 什么是列式存储 Name 张三以下面的表为例： Id 1 2 3 采用行式存储时，数据在磁盘上的组织结构为： 1 好处是想查某个人所有的属性时，可以通过一次磁盘查找加顺序读取就可以。但是当想查所 Age 18 22 34 18 34 22 张三李四李四王五 2 3 王五有人的年龄时，需要不停的查找，或者全表扫描才行，遍历的很多数据都是不需要的。 2 而采用列式存储时，数据在磁盘上的组织结构为： 1 这时想查所有人的年龄只需把年龄那一列拿出来就可以了 1.3 安装前的准备张三李四王五 3 18 22 34 1.3.1 CentOS 取消打开文件数限制在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf 这 2 个文件的末尾加入一下内容： [root@hadoop102 software]# vim /etc/security/limits.conf 在文件末尾添加： * soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072 [root@hadoop102 /etc/security/limits.d/90-nproc.conf 在文件末尾添加： software]# vim 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

尚硅谷大数据技术之 Clickhouse * soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072 重启服务器之后生效，用 ulimit -n 或者 ulimit -a 查看设置结果 [root@hadoop102 ~]# ulimit -n 65536 1.3.2 CentOS 取消 SELINUX 修改/etc/selinux/config 中的 SELINUX=disabled 后重启 [root@hadoop102 ~]# vim /etc/selinux/config SELINUX=disabled 1.3.3 关闭防火墙 [root@hadoop102 ~]# service iptables stop [root@hadoop102 ~]# service ip6tables stop ip6tables：将 chains 设置为 ACCEPT 策略：filter ip6tables：清除防火墙规则：：正在卸载模块： 1.3.4 安装依赖 [root@hadoop102 ~]# yum install -y libtool [root@hadoop102 ~]# yum install -y *unixODBC* 第 2 章安装 2.1 网址 [确定] [确定] [确定] 官网：https://clickhouse.yandex/ 下载地址：http://repo.red-soft.biz/repos/clickhouse/stable/el6/ 2.2 单机模式 2.2.1 上传 5 个文件到/opt/software/ [root@hadoop102 software]# ls clickhouse-client-1.1.54236-4.el6.x86_64.rpm clickhouse-server-1.1.54236-4.el6.x86_64.rpm clickhouse-compressor-1.1.54236-4.el6.x86_64.rpm clickhouse-server-common-1.1.54236-4.el6.x86_64.rpm clickhouse-debuginfo-1.1.54236-4.el6.x86_64.rpm 2.2.2 分别安装这 5 个 rpm 文件 [root@hadoop102 software]# rpm -ivh *.rpm Preparing... ########################################### [100%] 1:clickhouse-server-commo##################################### ###### [ 20%] ########################################### [ 40%] 2:clickhouse-server 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

尚硅谷大数据技术之 Clickhouse 3:clickhouse-client 4:clickhouse-debuginfo 5:clickhouse-compressor ########################################### [ 60%] ########################################### [ 80%] ########################################### [100%] 2.2.3 启动 ClickServer software]# 前台启动： [root@hadoop102 --config-file=/etc/clickhouse-server/config.xml 后台启动： [root@hadoop102 --config-file=/etc/clickhouse-server/config.xml >null 2>&1 & [1] 2696 software]# clickhouse-server nohup clickhouse-server 2.2.4 使用 client 连接 server [root@hadoop102 software]# clickhouse-client ClickHouse client version 1.1.54236. Connecting to localhost:9000. Connected to ClickHouse server version 1.1.54236. :) 2.3 分布式集群安装 2.3.1 在 hadoop103，hadoop104 上面执行之前的所有步骤 2.3.2 三台机器修改配置文件 config.xml [root@hadoop102 ~]# vim /etc/clickhouse-server/config.xml :: [root@hadoop103 ~]# vim /etc/clickhouse-server/config.xml :: [root@hadoop104 ~]# vim /etc/clickhouse-server/config.xml :: 2.3.3 在三台机器的 etc 目录下新建 metrika.xml 文件 [root@hadoop102 ~]# vim /etc/metrika.xml 添加如下内容：更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

true hadoop103 9000 尚硅谷大数据技术之 Clickhouse true hadoop102 9000 true hadoop104 9000

hadoop102 2181 hadoop103 2181 hadoop104 2181

hadoop102 ::/0 10000000000 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

尚硅谷大数据技术之 Clickhouse 0.01 lz4 注意：上面标红的地方需要根据机器不同去修改 3.3.4 三台机器启动 ClickServer 首先在三台机器开启 Zookeeper software]# 前台启动： [root@hadoop102 --config-file=/etc/clickhouse-server/config.xml 后台启动： [root@hadoop102 --config-file=/etc/clickhouse-server/config.xml >null 2>&1 & [1] 2696 software]# clickhouse-server nohup clickhouse-server 第 3 章数据类型 3.1 整型固定长度的整型，包括有符号整型或无符号整型。整型范围（-2n-1~2n-1-1）： Int8 - [-128 : 127] Int16 - [-32768 : 32767] Int32 - [-2147483648 : 2147483647] Int64 - [-9223372036854775808 : 9223372036854775807] 无符号整型范围（0~2n-1）： UInt8 - [0 : 255] UInt16 - [0 : 65535] UInt32 - [0 : 4294967295] UInt64 - [0 : 18446744073709551615] 3.2 浮点型 Float32 - float Float64 – double 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

建议尽可能以整数形式存储数据。例如，将固定精度的数字转换为整数值，如时间用毫尚硅谷大数据技术之 Clickhouse 秒为单位表示，因为浮点型进行计算时可能引起四舍五入的误差。 :) select 1-0.9 ┌───────minus(1, 0.9)─┐ │ 0.09999999999999998 │ └─────────────────────┘ 与标准 SQL 相比，ClickHouse 支持以下类别的浮点数： Inf-正无穷： :) select 1/0 ┌─divide(1, 0)─┐ │ └──────────────┘ -Inf-负无穷： :) select -1/0 ┌─divide(1, 0)─┐ │ └──────────────┘ NaN-非数字： :) select 0/0 ┌─divide(0, 0)─┐ │ └──────────────┘ -inf │ inf │ nan │ 3.3 布尔型没有单独的类型来存储布尔值。可以使用 UInt8 类型，取值限制为 0 或 1。 3.4 字符串 1）String 字符串可以任意长度的。它可以包含任意的字节集，包含空字节。 2）FixedString(N) 固定长度 N 的字符串，N 必须是严格的正自然数。当服务端读取长度小于 N 的字符串时候，通过在字符串末尾添加空字节来达到 N 字节长度。当服务端读取长度大于 N 的字符串时候，将返回错误消息。与 String 相比，极少会使用 FixedString，因为使用起来不是很方便。 3.5 枚举类型包括 Enum8 和 Enum16 类型。Enum 保存 'string'= integer 的对应关系。 Enum8 用 'String'= Int8 对描述。更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

尚硅谷大数据技术之 Clickhouse Enum16 用 'String'= Int16 对描述。用法演示：创建一个带有一个枚举 Enum8('hello' = 1, 'world' = 2) 类型的列： CREATE TABLE t_enum ( ) ENGINE = TinyLog 这个 x 列只能存储类型定义中列出的值：'hello'或'world'。如果尝试保存任何其 x Enum8('hello' = 1, 'world' = 2) 他值，ClickHouse 抛出异常。 :) INSERT INTO t_enum VALUES ('hello'), ('world'), ('hello') INSERT INTO t_enum VALUES Ok. 3 rows in set. Elapsed: 0.002 sec. :) insert into t_enum values('a') INSERT INTO t_enum VALUES Exception on client: Code: 49. DB::Exception: Unknown element 'a' for type Enum8('hello' = 1, 'world' = 2) 从表中查询数据时，ClickHouse 从 Enum 中输出字符串值。 SELECT * FROM t_enum ┌─x─────┐ │ hello │ │ world │ │ hello │ └───────┘ 如果需要看到对应行的数值，则必须将 Enum 值转换为整数类型。 SELECT CAST(x, 'Int8') FROM t_enum ┌─CAST(x, 'Int8')─┐ │ │ │ └─────────────────┘ 1 │ 2 │ 1 │ 3.6 数组 Array(T)：由 T 类型元素组成的数组。 T 可以是任意类型，包含数组类型。但不推荐使用多维数组，ClickHouse 对多维数组的支持有限。例如，不能在 MergeTree 表中存储多维数组。更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

尚硅谷大数据技术之 Clickhouse 可以使用 array 函数来创建数组： array(T) 也可以使用方括号： [] 创建数组案例： :) SELECT array(1, 2) AS x, toTypeName(x) SELECT [1, 2] AS x, toTypeName(x) │ ┌─x─────┬─toTypeName(array(1, 2))─┐ │ [1,2] │ Array(UInt8) └───────┴─────────────────────────┘ 1 rows in set. Elapsed: 0.002 sec. :) SELECT [1, 2] AS x, toTypeName(x) SELECT [1, 2] AS x, toTypeName(x) ┌─x─────┬─toTypeName([1, 2])─┐ │ [1,2] │ Array(UInt8) │ └───────┴────────────────────┘ 1 rows in set. Elapsed: 0.002 sec. 3.7 元组 Tuple(T1, T2, ...)：元组，其中每个元素都有单独的类型。创建元组的示例： :) SELECT tuple(1,'a') AS x, toTypeName(x) SELECT (1, 'a') AS x, toTypeName(x) ┌─x───────┬─toTypeName(tuple(1, 'a'))─┐ │ (1,'a') │ Tuple(UInt8, String) └─────────┴────────────────────────── ─┘ │ 1 rows in set. Elapsed: 0.021 sec. 3.8 Date 日期类型，用两个字节存储，表示从 1970-01-01 (无符号) 到当前的日期值。还有很多数据结构，可以参考官方文档：https://clickhouse.yandex/docs/zh/data_types/ 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

资料库

大数据技术之ClickHouse.docx

相关推荐

大数据

热门标签

最新资料