---
title: "ClickHouse 集群"
date: 2020-10-09T22:14:00+08:00
lastmod: 2020-10-09T22:14:00+08:00
tags: []
categories: ["clickhouse"]
---
# 简介
- 一个集群包含多个逻辑分片,每个逻辑分片包含多个副本节点
- 向集群内读写数据时,需依赖 Distributed 引擎表做为代理,实现数据的分发、写入、查询和路由
- ReplicatedMerge 表引擎配合 zookeeper 实现数据的复制
# 集群配置
- 节点分配
```xml
true
1
10.1.4.181
9000
10.1.4.182
9000
true
10.1.4.183
9000
10.1.4.184
9000
true
10.1.4.185
9000
10.1.4.186
9000
```
- 各节点的宏变量
- 10.0.4.181
```xml
1
10.1.4.181
```
- 10.0.4.182
```xml
1
10.1.4.182
```
- 10.0.4.183
```xml
2
10.1.4.183
```
- 10.0.4.184
```xml
2
10.1.4.184
```
- 10.0.4.185
```xml
3
10.1.4.185
```
- 10.0.4.186
```xml
3
10.1.4.186
```
- Zookeeper
```xml
10.0.4.101
2181
10.0.4.102
2181
10.0.4.103
2181
```
- system.zookeeper: zookeeper 代理表,可通过 sql 查看 zookeeper 信息
- system.clusters: 集群信息表
# ReplicatedMergeTree 表引擎
- 引入 zookeeper 实现分布式协同,zookeeper 本身不涉及表数据传输
- 副本节点是多主架构,可在节点上执行读写操作
- 数据块: 默认 1048576 行(max_insert_block_size)
- 基本基本写入单元
- 原子性: 一个块内的数据,要么都写入成功,要么都失败
- 唯一性: 记录 hash 信息,相同的数据块会被忽略
## 创建 ReplicatedMergeTree 引擎表
- 声明
```sql
CREATE TABLE table_name_local ON CLUSTER cluster_name_2
ENGINE = ReplicatedMergeTree(
'/clickhouse/tables/{shard}/db_name/table_name_local',
'{replica}'
)
```
- table_name_local: 本地表名,推荐以 \_local 为后缀
- cluster_name_2: 在该集群内创建数据库和数据表的分片和副本
- /clickhouse/tables/ 是约定俗成的固定 zookeeper path 路径
- {shard}: 分片编号,从各自节点的宏变量中获取
- db_name: 数据库名
- {replica}: 节点域名/IP,从各自节点的宏变量中获取
# Distributed 表引擎
- 又叫分布式表,自身不存储数据,只代理数据分片
## 创建 Distributed 引擎表
- 声明
```sql
CREATE TABLE table_name_all ON CLUSTER cluster_name_1
ENGINE = Distributed(cluster_name_2, db, table, [,sharding_key])
```
- table_name_all: 分布式表名,通常以 \_all 为后缀
- ON CLUSTER: 集群操作
- cluster_name_1: 在该集群内创建分布式表 table_name_all
- cluster_name_2: 数据的分片和副本所在集群
- db: 数据库名
- table_name_local: 数据表名,即前面创建的 ReplicatedMergeTree 引擎表,通常以 \_local 为后缀
- sharding_key: 分片键,可以是整型列字段或返回整型的表达式,决定数据分配到哪些节点中
# 分布式查询
- 分布式表(Distributed)把查询转换为并行的各分片查询
- 汇总各分片的查询结果
## GlOBAL 优化查询
- 场景: 涉及到 JOIN 和 IN 时,可能会放大分布式查询
- GLOBAL 查询过程:
- 提出 IN 子句,发起分布式查询
- 汇总 IN 子句在各分片的查询结果,存入临时表(内存)
- 把这个临时表发送到其他分片节点,**考虑到该表既要内存存储,又要通过网络分发,所以数据量不宜过大**
- 在各分片节点执行完整的 SQL 语句,此时 IN 子句直接使用上一步的临时表
- 使用示例
```sql
SELECT ... WHERE ... AND ... GLOBAL IN (...)
```